如何在文本分析中的词袋模型中添加权重?

数据挖掘 文本挖掘 社会网络分析 特征工程
2022-03-04 00:31:12

我使用训练集中的词袋方法进行了 Twitter 情绪分析。现在我想为某些单词添加权重,以便它们被认为比其他单词更重要。

2个回答

一种可能的解决方案是引入可以添加到术语文档矩阵的单词的先前计数(更重要的单词的计数更高)。

另一种解决方案是计算 tf-idf 特征(根据频率修改字数的权重),并对 tf-idf 应用额外的权重,与重要词对应的权重更高。

如果您尝试为仅出现在少数文本中的稀有或不经常使用的术语添加权重,则绝对应该使用 tf-idf 技术,该技术计算所有数据集上每个单词的频率,然后计算每个单词的权重每个文本中的单词。

另一种情况,如果您想为特定单词添加权重,您只需修改 tf-idf 技术。