单词列表作为衡量分类器性能的基准?

数据挖掘 分类 情绪分析 朴素贝叶斯分类器 文本分类
2022-03-02 02:38:47

我正在研究一个简单的朴素贝叶斯分类器,它将短信分类为“正面”或“负面”。有人告诉我,衡量分类器性能的最简单基线是将其与单词列表进行比较。

但是,我不知道这有什么帮助。

单词列表如何成为分类器的基线?

PS我是机器学习和数据科学的新手,所以请不要讨厌我的问题。

2个回答

基线本身不是单词列表,其想法是实现一个简单的分类器,其工作原理如下:

  • 它接收标准肯定词列表 P(例如“good”、“great”、“nice”...)和标准否定词列表 N(例如“bad”、“depressing”、“annoying”)作为输入,...)。
  • 对于要分类的每个句子,它都会计算数量p句子中属于 P 的单词个数和个数n属于 N 的词。
  • 如果p>n(分别。n>p) 然后句子被预测为正(分别为负)。如果n=p然后句子被预测为中性。

通过评估此基线分类器的性能并将其与您的 NB 分类器进行比较,您可以更准确地了解分类器的性能。例如,假设 NB 获得 83% 的 F1 分数:这个值本身很差,因为无法知道这是好是坏,因为它取决于数据、算法等。现在如果你评估例如baseline,它只获得57%,那么你就知道NB分类器是好的(如果baseline恰好比NB分类器表现更好,那就有问题了)。

您的朴素贝叶斯分类器的特征很可能是一个词袋,其中每个特征代表一个词。朴素贝叶斯分类器还假设每个特征(或单词)独立地对最终预测做出贡献。因此,如果您的句子由单个单词组成 - 您会了解模型对该单词的反应。