在情绪分析中,我看到了通过对字符串中所有术语的情绪求和来计算的整个单词串(推文、段落、句子等)的情绪。
我知道求和和平均之间存在单调关系。因此,如果仅将句子与其他句子进行比较,那么当然不会有任何区别。
那么,为什么不使用平均值而不是总和呢?尤其是在某些情况下,字符串可能只包含一个词或多个词,在我看来,平均情绪是要走的路。这不是真的吗?
在情绪分析中,我看到了通过对字符串中所有术语的情绪求和来计算的整个单词串(推文、段落、句子等)的情绪。
我知道求和和平均之间存在单调关系。因此,如果仅将句子与其他句子进行比较,那么当然不会有任何区别。
那么,为什么不使用平均值而不是总和呢?尤其是在某些情况下,字符串可能只包含一个词或多个词,在我看来,平均情绪是要走的路。这不是真的吗?
考虑以下两句话:
My awesome girlfriend bought me a delicious popsicle at the store.
0--1-------0----------0------0--0-1---------0--------0--0---0-----:2:11
My awesome girlfriend, Joyce, drove to the grocery store to buy me a delicious Dole popsicle.
0---1------0-----------0------0-----0--0---0-------0-----0--0---0--0-1---------0----0-------:2:16
了解如何将值相加并获得2两者,但平均情绪并获得2/11与2/16.. 在某些情况下,人们看到更好的结果是衡量好情感词的总数,而不是让零值词模糊图片。在这种情况下,我认为这些句子具有相同的情绪,并且平均人为地拉低了第二个句子的情绪。在某些方法中,例如TFIDF,词向量被归一化为相关语料库,所以这可能会改变事情。在其他方法中,stop words可能已经被删除,因此效果较小。
在 twitter 示例中,用户被限制为 140 个字符,因此人们可能会认为这是一个固有的分母,它使得平均值实际上是平均值的平均值。它非常依赖于特定的应用程序和方法。
如果没有更具体的参考,我的回答很难更具体。
希望这可以帮助!