相关性和朴素贝叶斯

数据挖掘 预测建模 相关性 朴素贝叶斯分类器
2021-10-01 02:30:03

我想问一下,数据集的字段(但不是类字段)之间的皮尔逊相关性是否会以某种方式影响朴素贝叶斯在将其应用于数据集以预测类字段时的性能。

2个回答

您可能知道,这里的 naive 意味着“字段”是独立的。所以你的问题归结为相关是否意味着依赖。是的,它确实。看这里。

https://stats.stackexchange.com/questions/113417/does-non-zero-correlation-imply-dependence

因此,如果您的特征显示相关性,那么这将对幼稚的假设产生不利影响。尽管如此,朴素贝叶斯已被证明对这一假设具有鲁棒性。但是,如果您的模型仍然存在这种情况,您可以考虑使用 PCA 等方法将空间转换为独立的。

是的,它会影响朴素贝叶斯的性能。

它之所以被称为 Naive,是因为它假设特征之间是独立的,而在实践中这种情况很少见。然而,它被证明对此相当稳健,并且能够在现实世界的问题上表现良好。因此,具有相关性将违背朴素假设。

但是,相关性对于模型的性能而言不一定是坏事或好事。朴素贝叶斯中特征之间的相关性仅仅意味着如果一个特征“说”它是 A 类,那么其他特征通常会说同样的话。因此,如果你的相关特征碰巧是好的预测器,你的模型实际上会从中受益,如果它们碰巧是坏的预测器,你的模型会变得更糟。