数据挖掘 - 为什么使用总和而不是平均值进行情绪分析？ - 吾爱随笔录

为什么使用总和而不是平均值进行情绪分析？

数据挖掘机器学习情绪分析

2021-10-08 02:32:51

在情绪分析中，我看到了通过对字符串中所有术语的情绪求和来计算的整个单词串（推文、段落、句子等）的情绪。

我知道求和和平均之间存在单调关系。因此，如果仅将句子与其他句子进行比较，那么当然不会有任何区别。

那么，为什么不使用平均值而不是总和呢？尤其是在某些情况下，字符串可能只包含一个词或多个词，在我看来，平均情绪是要走的路。这不是真的吗？

1个回答

考虑以下两句话：

My awesome girlfriend bought me a delicious popsicle at the store.
0--1-------0----------0------0--0-1---------0--------0--0---0-----:2:11

My awesome girlfriend, Joyce, drove to the grocery store to buy me a delicious Dole popsicle.
0---1------0-----------0------0-----0--0---0-------0-----0--0---0--0-1---------0----0-------:2:16

了解如何将值相加并获得2两者，但平均情绪并获得2/11与2/16.. 在某些情况下，人们看到更好的结果是衡量好情感词的总数，而不是让零值词模糊图片。在这种情况下，我认为这些句子具有相同的情绪，并且平均人为地拉低了第二个句子的情绪。在某些方法中，例如TFIDF，词向量被归一化为相关语料库，所以这可能会改变事情。在其他方法中，stop words可能已经被删除，因此效果较小。

在 twitter 示例中，用户被限制为 140 个字符，因此人们可能会认为这是一个固有的分母，它使得平均值实际上是平均值的平均值。它非常依赖于特定的应用程序和方法。

如果没有更具体的参考，我的回答很难更具体。

希望这可以帮助！

其它你可能感兴趣的问题

上一篇非线性回归线拟合下一篇如何从一小部分数字中识别异常值？