数据挖掘 - 为什么 Logistic 回归到 Spark Mllib 不使用最大似然估计？ - 吾爱随笔录

数据挖掘机器学习 r 阿帕奇火花逻辑回归

2022-02-22 00:18:10

在逻辑回归的“R”和 Spark Mllib 中比较估计值/系数期间，观察到估计值不同。

在进一步调查中，我发现 R & Mllib 对 Logistic 回归有不同的实现。

R 的 glm 返回模型的最大似然估计，而 Spark 的 LogisticRegressionWithLBFGS 返回正则化模型估计。

根据现有文献，最大似然估计似乎更有效。

我很想知道，为什么 Spark Mllib 开发人员没有选择“最大似然估计”技术？

1个回答

我想你很困惑。最大似然是一种用于给出最可能的参数估计的通用技术。逻辑回归的最大似然没有封闭解，因此 R 和 Spark 都必须对其进行数值估计。

如何准确地估计可能性可能会略有不同，并且可能取决于实施。例如，Spark 更喜欢添加正则化，R 可能喜欢使用其他东西（您需要查看文档）。

摘要：R 和 Spark 都尝试为您估计 ML。请查看 R 文档以了解 R 是如何做到的。

其它你可能感兴趣的问题