NLP基本输入疑问

数据挖掘 机器学习 深度学习 nlp lstm tfidf
2022-03-06 20:28:09

我其实对 NLP 有一个基本的怀疑,

当我们考虑像决策树这样的传统模型时,特征列的顺序很重要,就像第一列固定有一些特定的属性。所以如果,我有 Tf-Idf 每个词都会有一些固定的索引,模型可以学习。

但在 LSTM 的情况下,句子可能会很混乱。例如:“有大雨”,“有大雨”

上面两句中,heavy这个词出现在不同的地方。所以为了让模型理解我们已经传递了“那里”这个词,我们需要一些“那里”这个词的唯一表示。One-Hot 或 Word2vec。到目前为止我的理解正确吗?

我最后的疑问是,如果我在上面使用 tfidf,它将如何工作?模型将如何理解传递的“重”字?这个疑惑困扰了我很久。请澄清这一点!万分感谢!

1个回答

首先在 BOW 模型中,没有表示顺序。决策树不关心“重”是第一个特征还是最后一个特征,它对两者的作用相同,因为 BOW 只是对文档中单词的“存在”进行建模。所以你最后的怀疑其实没什么好担心的。在这两个句子中,您都有“重”这个词,并且在该列中,两个句子(或 TF、TF-IDF 或您使用的任何其他计数1

LSTM 看到这个顺序,因为它具有记忆行为。这意味着单词“heavy”有一个索引,并且在长时间训练期间,您的模型会学习单词 heavy 的使用概率。这意味着它可以模拟您的文本。所以你的理解是正确的,最后也有单词的表示。