当 word2vec 本身被称为“预训练”时,我对为什么我们需要“训练 word2vec”感到非常困惑?我搜索了 word2vec 预训练嵌入,认为我可以得到一个映射表,直接将我的数据集上的词汇映射到预训练嵌入,但无济于事。相反,我只发现我们是如何训练自己的:
Word2Vec(sentences=common_texts, vector_size=100, window=5, min_count=1, workers=4)
但我很困惑:word2vec 不是已经预训练了吗?为什么我们需要再次“训练”它?如果它是预训练的,那么我们用我们的新“训练”在模型中修改什么(或者具体来说,哪个部分)?我们现在的“训练”与“预训练”有何不同?TIA。
哪种类型的词嵌入是真正“预训练的”,我们可以只使用模型['word'] 并获得其对应的嵌入?