我正在研究一个简单的朴素贝叶斯分类器,它将短信分类为“正面”或“负面”。有人告诉我,衡量分类器性能的最简单基线是将其与单词列表进行比较。
但是,我不知道这有什么帮助。
单词列表如何成为分类器的基线?
PS我是机器学习和数据科学的新手,所以请不要讨厌我的问题。
我正在研究一个简单的朴素贝叶斯分类器,它将短信分类为“正面”或“负面”。有人告诉我,衡量分类器性能的最简单基线是将其与单词列表进行比较。
但是,我不知道这有什么帮助。
单词列表如何成为分类器的基线?
PS我是机器学习和数据科学的新手,所以请不要讨厌我的问题。
基线本身不是单词列表,其想法是实现一个简单的分类器,其工作原理如下:
通过评估此基线分类器的性能并将其与您的 NB 分类器进行比较,您可以更准确地了解分类器的性能。例如,假设 NB 获得 83% 的 F1 分数:这个值本身很差,因为无法知道这是好是坏,因为它取决于数据、算法等。现在如果你评估例如baseline,它只获得57%,那么你就知道NB分类器是好的(如果baseline恰好比NB分类器表现更好,那就有问题了)。
您的朴素贝叶斯分类器的特征很可能是一个词袋,其中每个特征代表一个词。朴素贝叶斯分类器还假设每个特征(或单词)独立地对最终预测做出贡献。因此,如果您的句子由单个单词组成 - 您会了解模型对该单词的反应。