机器算法验证 - 为什么在概率上使用平方损失而不是逻辑损失？ - 吾爱随笔录

我正在阅读“贝叶斯知识追踪”模型拟合过程。可以在此处找到模型详细信息。简而言之，它是一种应用于教育应用的改进隐马尔可夫模型。

我对作者在此处（来自哥伦比亚大学）发布的代码有一些疑问，似乎作者使用概率平方损失来检查拟合的好坏。作者在所附文件中说：

为每个学生的动作计算 LikelihoodCorrect。之后，从 studentAction 中减去 LikelihoodCorrect 并平方得到平方残差 (SR)，然后将 SR 相加得到 SSR。

likelihoodcorrect = (prevL * (1.0 - Slip)) + ((1.0 - prevL) * Guess)

$\text{likelihoodcorrect}=(\text{prevL} * (1.0-\text{Slip}))+ ((1.0-\text{prevL})* \text{Guess})$

SSR + = (StudentAction - likelihoodcorrect)^{2}

$\text{SSR} +=(\text{StudentAction}-\text{likelihoodcorrect})^2$

（在作者提供的数据文件中，学生行为是一个二元变量。因此，这是 0 或 1 减去预测概率，然后平方。）

我们应该改用逻辑损失吗？，即

y \log (p) + (1 - y) \log (1 - p)

$y\log(p)+(1-y)\log(1-p)$

代替

(y - p)^{2}

$(y-p)^2$

为什么有许多出版物使用二元变量的平方损失而不是逻辑损失？例如卡内基梅隆大学的这篇论文，第 7 页，第 3 节结尾。

使用 10 个随机分配的用户分层折叠对所有模型进行了交叉验证。对于每个交叉验证结果，我们计算了均方根误差 (RMSE) 和准确度（正确预测的学生成功和失败的数量）。