在逻辑回归的“R”和 Spark Mllib 中比较估计值/系数期间,观察到估计值不同。
在进一步调查中,我发现 R & Mllib 对 Logistic 回归有不同的实现。
R 的 glm 返回模型的最大似然估计,而 Spark 的 LogisticRegressionWithLBFGS 返回正则化模型估计。
根据现有文献,最大似然估计似乎更有效。
我很想知道,为什么 Spark Mllib 开发人员没有选择“最大似然估计”技术?
在逻辑回归的“R”和 Spark Mllib 中比较估计值/系数期间,观察到估计值不同。
在进一步调查中,我发现 R & Mllib 对 Logistic 回归有不同的实现。
R 的 glm 返回模型的最大似然估计,而 Spark 的 LogisticRegressionWithLBFGS 返回正则化模型估计。
根据现有文献,最大似然估计似乎更有效。
我很想知道,为什么 Spark Mllib 开发人员没有选择“最大似然估计”技术?
我想你很困惑。最大似然是一种用于给出最可能的参数估计的通用技术。逻辑回归的最大似然没有封闭解,因此 R 和 Spark 都必须对其进行数值估计。
如何准确地估计可能性可能会略有不同,并且可能取决于实施。例如,Spark 更喜欢添加正则化,R 可能喜欢使用其他东西(您需要查看文档)。
摘要:R 和 Spark 都尝试为您估计 ML。请查看 R 文档以了解 R 是如何做到的。