数据挖掘 - 使用 Word2Vec 获取频繁出现的短语 - 吾爱随笔录

数据挖掘机器学习 nlp word2vec

2022-02-25 07:05:33

我对 Word2Vec 比较陌生，大约一周前开始研究它。

我的问题是：有没有办法使用 Word2Vec 获取大型文档中经常出现的短语以及表示“频率”的分数？

2个回答

您可以使用Python 中提供的gensim短语矢量化模块。

您需要给出某种 pmi 词的阈值。该值越高，短语的数量就越少，默认值为 10。您可以使用此值来获取数据的结果。

短语阈值 = 1

bigram = Phrases(sentences,threshold=phrase_threshold)

这是基于 Tomas Mikolov 的 skipgram论文。

根据需要选择实现。在这种情况下，tf-idf比 word2vec 做得更好。tf-idf通过考虑与其他文档的相对频率来提供文档中单词的重要性。

因为频繁出现的词也可能在其他文档中频繁出现。在tf-idf方法中，与其他文档相比，一个文档中出现频率更高的单词被赋予更多的权重。更多阅读tfidf。

其它你可能感兴趣的问题