为什么 Logistic 回归到 Spark Mllib 不使用最大似然估计?

数据挖掘 机器学习 r 阿帕奇火花 逻辑回归
2022-02-22 00:18:10

在逻辑回归的“R”和 Spark Mllib 中比较估计值/系数期间,观察到估计值不同。

在进一步调查中,我发现 R & Mllib 对 Logistic 回归有不同的实现。

R 的 glm 返回模型的最大似然估计,而 Spark 的 LogisticRegressionWithLBFGS 返回正则化模型估计。

根据现有文献,最大似然估计似乎更有效。

我很想知道,为什么 Spark Mllib 开发人员没有选择“最大似然估计”技术?

1个回答

我想你很困惑。最大似然是一种用于给出最可能的参数估计的通用技术。逻辑回归的最大似然没有封闭解,因此 R 和 Spark 都必须对其进行数值估计。

如何准确地估计可能性可能会略有不同,并且可能取决于实施。例如,Spark 更喜欢添加正则化,R 可能喜欢使用其他东西(您需要查看文档)。

摘要:R 和 Spark 都尝试为您估计 ML。请查看 R 文档以了解 R 是如何做到的。