数据挖掘 - 单词列表作为衡量分类器性能的基准？ - 吾爱随笔录

单词列表作为衡量分类器性能的基准？

数据挖掘分类情绪分析朴素贝叶斯分类器文本分类

2022-03-02 02:38:47

我正在研究一个简单的朴素贝叶斯分类器，它将短信分类为“正面”或“负面”。有人告诉我，衡量分类器性能的最简单基线是将其与单词列表进行比较。

但是，我不知道这有什么帮助。

单词列表如何成为分类器的基线？

PS我是机器学习和数据科学的新手，所以请不要讨厌我的问题。

2个回答

基线本身不是单词列表，其想法是实现一个简单的分类器，其工作原理如下：

它接收标准肯定词列表 P（例如“good”、“great”、“nice”...）和标准否定词列表 N（例如“bad”、“depressing”、“annoying”）作为输入，...）。
对于要分类的每个句子，它都会计算数量 $p$ 句子中属于 P 的单词个数和个数 $n$ 属于 N 的词。
如果 $p>n$ （分别。 $n>p$ ) 然后句子被预测为正（分别为负）。如果 $n=p$ 然后句子被预测为中性。

通过评估此基线分类器的性能并将其与您的 NB 分类器进行比较，您可以更准确地了解分类器的性能。例如，假设 NB 获得 83% 的 F1 分数：这个值本身很差，因为无法知道这是好是坏，因为它取决于数据、算法等。现在如果你评估例如baseline，它只获得57%，那么你就知道NB分类器是好的（如果baseline恰好比NB分类器表现更好，那就有问题了）。

您的朴素贝叶斯分类器的特征很可能是一个词袋，其中每个特征代表一个词。朴素贝叶斯分类器还假设每个特征（或单词）独立地对最终预测做出贡献。因此，如果您的句子由单个单词组成 - 您会了解模型对该单词的反应。

其它你可能感兴趣的问题

上一篇特定于语言的 NLP 方法？下一篇在 PyTorch 中微调 RetinaNet 模型