在“Programming Collective Intelligence”一书中,Segran 解释了将文本分类为 Naive Bayes 分类器的 Fisher 方法。Fisher 方法使用反卡方分布,我不太了解。
我在 stats.stackexchange 上观看了有关卡方分布的视频,以了解至少“转发”功能:http ://www.youtube.com/watch?v=dXB3cUGnaxQ
Segaran 在他的书中解释说,他们使用反卡方以某种方式获得“一组随机概率会返回如此高的数字”的概率。高数意味着适合特定类别的项目在该类别中具有高概率的许多特征。不知何故,他似乎还考虑到“如果概率是独立且随机的,那么这个计算的结果将符合卡方分布”。但正如他之前提到的,这些词并不是独立的(这也是朴素贝叶斯的错误假设)。那么这是如何工作的呢?
如果我现在理解它,反卡方函数会以某种方式检查我的许多单词是否很有可能出现在文本中,并且只有当所有单词都具有如此高的概率时,它才会返回一个很高的总体概率?
我有点困惑。
PS:整个段落:“Fisher 表明,如果概率是独立且随机的,那么这个计算的结果将符合卡方分布。您会期望不属于特定类别的项目包含该类别的不同特征概率的单词(这看起来有些随机),并且确实属于该类别的项目具有许多具有高概率的特征。通过将 Fisher 计算的结果提供给反卡方函数”,您可以获得随机概率集返回如此高数字的概率。”