关于将文本转换为数字并将其提供给 LSTM,我有一个基本的疑问。我知道 OneHot、CountVectorizer、TfIDF、Word2vec 等不同的方法。我的疑问是,如果我们使用 Count Vectoriser 或 Tfidf,那么在 LSTM 中,我们必须为每个句子传递整个单词词汇表,因为那是TFIDF 和计数向量器如何对句子进行编码。我对吗?
我的第二个疑问是,如果我们使用 TFIDF 或 COuntVectorizer,每个单词都会根据其出现和频率而具有不同的值。这与学习和使用嵌入的 Word2Vec 形成对比。如果每次 LSTM 模型看到特定单词的不同值,它如何学习?就像在一个句子中,如果“Hi”这个词出现 6 次,它在其适当的索引中用数字 6 编码,而在另一个句子中,如果它出现 4 次,我们用值 4 编码。这是如何工作的?这没有意义。