我对 Word2Vec 比较陌生,大约一周前开始研究它。
我的问题是:有没有办法使用 Word2Vec 获取大型文档中经常出现的短语以及表示“频率”的分数?
我对 Word2Vec 比较陌生,大约一周前开始研究它。
我的问题是:有没有办法使用 Word2Vec 获取大型文档中经常出现的短语以及表示“频率”的分数?
根据需要选择实现。在这种情况下,tf-idf比 word2vec 做得更好。tf-idf通过考虑与其他文档的相对频率来提供文档中单词的重要性。
因为频繁出现的词也可能在其他文档中频繁出现。在tf-idf方法中,与其他文档相比,一个文档中出现频率更高的单词被赋予更多的权重。更多阅读tfidf。