我其实对 NLP 有一个基本的怀疑,
当我们考虑像决策树这样的传统模型时,特征列的顺序很重要,就像第一列固定有一些特定的属性。所以如果,我有 Tf-Idf 每个词都会有一些固定的索引,模型可以学习。
但在 LSTM 的情况下,句子可能会很混乱。例如:“有大雨”,“有大雨”
上面两句中,heavy这个词出现在不同的地方。所以为了让模型理解我们已经传递了“那里”这个词,我们需要一些“那里”这个词的唯一表示。One-Hot 或 Word2vec。到目前为止我的理解正确吗?
我最后的疑问是,如果我在上面使用 tfidf,它将如何工作?模型将如何理解传递的“重”字?这个疑惑困扰了我很久。请澄清这一点!万分感谢!