bag-of-ngrams在文本特征工程中的应用

数据挖掘 特征工程 词嵌入 ngram
2022-03-01 20:27:20

关于 ngram 袋在文本特征工程中的应用,我有几个问题:

  1. 如何(或者我们可以?)在 bag-of-ngrams 上执行 word2vec?
  2. 随着 n-gram 袋的特征空间随着“N”呈指数增长,什么(或有什么?)通常与袋型一起使用以提高计算和存储效率?
  3. 或者一般来说,当涉及将文本字段转换为文本特征字段时,n-gram 包是否与其他特征工程技术一起使用?
1个回答

我一起回答所有 3 个问题。嵌入获得标记,即最小的有意义的文本片段,您可以定义它。这意味着您可以将字符称为最小的有意义的片段、单词、短语或您的创造力所允许的任何东西。Word2vec 基于单词,因此如果您输入 ngram 作为标记,您将获得与您的 ngram 相同的特征空间。

如果嵌入,那么 BOW 特征空间的高维将被自动处理(问题 2)并且整个想法也正在回答问题 3(如果不是,请使用您的意思的确切特征工程技术更新您的问题,我将更新我的也回答)

免责声明:输出,无论多么直观地工作,内部可能有一些现象,你需要小心,例如嵌入算法单独看到“数据”和“科学”,并且在同一上下文中也试图嵌入“数据科学”。它可能会减少语义图。例如,在这种情况下,如果您不考虑 ngram 的单个标记,那将完全没问题,但您可能不想跳过两个语义强的词,如“数据”和“科学”。所以,要小心。