为什么使用总和而不是平均值进行情绪分析?

数据挖掘 机器学习 情绪分析
2021-10-08 02:32:51

在情绪分析中,我看到了通过对字符串中所有术语的情绪求和来计算的整个单词串(推文、段落、句子等)的情绪。

我知道求和和平均之间存在单调关系。因此,如果仅将句子与其他句子进行比较,那么当然不会有任何区别。

那么,为什么不使用平均值而不是总和呢?尤其是在某些情况下,字符串可能只包含一个词或多个词,在我看来,平均情绪是要走的路。这不是真的吗?

1个回答

考虑以下两句话:

My awesome girlfriend bought me a delicious popsicle at the store.
0--1-------0----------0------0--0-1---------0--------0--0---0-----:2:11

My awesome girlfriend, Joyce, drove to the grocery store to buy me a delicious Dole popsicle.
0---1------0-----------0------0-----0--0---0-------0-----0--0---0--0-1---------0----0-------:2:16

了解如何将值相加并获得2两者,但平均情绪并获得2/112/16.. 在某些情况下,人们看到更好的结果是衡量好情感词的总数,而不是让零值词模糊图片。在这种情况下,我认为这些句子具有相同的情绪,并且平均人为地拉低了第二个句子的情绪。在某些方法中,例如TFIDF,词向量被归一化为相关语料库,所以这可能会改变事情。在其他方法中,stop words可能已经被删除,因此效果较小。

在 twitter 示例中,用户被限制为 140 个字符,因此人们可能会认为这是一个固有的分母,它使得平均值实际上是平均值的平均值。它非常依赖于特定的应用程序和方法。

如果没有更具体的参考,我的回答很难更具体。

希望这可以帮助!