使用 Word2Vec 获取频繁出现的短语

数据挖掘 机器学习 nlp word2vec
2022-02-25 07:05:33

我对 Word2Vec 比较陌生,大约一周前开始研究它。

我的问题是:有没有办法使用 Word2Vec 获取大型文档中经常出现的短语以及表示“频率”的分数?

2个回答

您可以使用Python 中提供的gensim短语矢量化模块。

您需要给出某种 pmi 词的阈值。该值越高,短语的数量就越少,默认值为 10。您可以使用此值来获取数据的结果。

短语阈值 = 1

bigram = Phrases(sentences,threshold=phrase_threshold)

这是基于 Tomas Mikolov 的 skipgram论文

根据需要选择实现。在这种情况下,tf-idf比 word2vec 做得更好。tf-idf通过考虑与其他文档的相对频率来提供文档中单词的重要性。

因为频繁出现的词也可能在其他文档中频繁出现。tf-idf方法中,与其他文档相比,一个文档中出现频率更高的单词被赋予更多的权重。更多阅读tfidf