使用 TF-IDF 从语料库中提取最重要的标记是否有意义?

数据挖掘 文本挖掘 nlp tfidf
2022-02-28 21:06:35

我有一组文档,我想从整个语料库中提取最重要的单词和短语。

我对 TF-IDF 的理解是它是按每个文档的每个令牌计算的,因此计算的权重是相对于语料库中的给定文档的。有没有办法使用 TF-IDF 来恢复整个语料库中最重要的术语,或者这是错误的方法?如果是后者,那么更合适的 NLP 方法是什么?

1个回答

提供您提供的有限信息和上下文,我建议您在每个维度属于一个单词时寻找特征选择。特征选择会给你最重要的词。某种意义上最重要的词,决定模型决策面的词。