机器学习预测值

机器算法验证 机器学习 估计 数据挖掘
2022-04-05 05:36:08

当我们拟合广义线性回归(例如,逻辑回归、伽马回归)时,我们正在估计给定预测变量的总体平均值 YX( IE,E(Y|X))。

当我们拟合机器学习模型(例如 ANN、SVM 或决策树)时,这个概念是否仍然适用?换句话说,我们是在估计人口平均值吗?Y还是这个想法不适用,我们只是在预测“Y”?

在 Dikran 回复后添加:

I. 预测建模算法理论的哪个方面告诉我们,我们正在建模 E(Y|X) 而不是 Y|X?是使用遵循特定分布的误差项吗?例如,ANN 与告诉我们前者模型 E(Y|X) 而后者模型 Y|X 的决策树有何不同?

二、这些之间是否有任何联系,并说线性回归中的置信区间与预测区间?

1个回答

有许多机器学习方法确实旨在估计数据的条件均值,例如人工神经网络,但也有许多不是(例如 SVM、决策树等)。SVM 的动机是直接解决手头的特定问题,而不是解决更一般的问题并简化结果。因此,如果您只对硬二元分类感兴趣,原则上这应该比估计类成员的后验概率然后将阈值设为 0.5 更容易。这在实践中是否正确还有待商榷,但根据我的实践经验,你经常确实想要后验概率,因为训练集和操作类频率不同或可变,或者等效地,错误分类成本在训练时未知或可变,或者您需要拒绝选项等。因此,特定方法是否估计响应变量的条件均值取决于该方法打算解决什么任务。

请注意,对于 SVM,有一个替代方法可以估计数据的条件均值,即用于分类的核逻辑回归和用于回归问题的核岭回归。

最小化的损失函数与模型是否预测响应变量的条件均值有很大关系,几乎任何最小化平方误差损失之和(或分类的交叉熵)的方法都具有此属性,请参阅例如

Saerens, M.,“将成本函数最小化为一些汇总统计数据”,IEEE Transactions on Neural Networks,第 11 卷,第 6 期,第 1263 - 1271 页,2000 年。