您如何处理 ML/DL 中表格数据中的自由文本字段?

数据挖掘 nlp 文本挖掘
2022-03-14 20:41:20

虽然我们在 NLP 任务中看到输入数据只是单个文本字段(用于 X 变量)的许多情况,例如带有情感标签的推文是唯一的数字字段。

但是如何处理 ML/DL 中表格数据中的自由文本字段?文本字段是/是表中的所有数字字段!我认为这很难处理。它可以是注释字段或某些字段中的某些日志数据以及许多其他数字字段。列出尽可能多的方法。任何的想法?

为了便于讨论,这里定义的“自由文本”是指一堆文本,其中数据集中的每一行数据在文本中可以具有可变长度。

这个问题的目标是找到转换这些文本字段的方法,以便它们可以包含在 ML/DL 模型中。

1个回答

有各种文本表示技术,从 TFIDF 等词袋方法到嵌入。这些技术用于构建任何输入文本的固定长度表示。

  • 如果文本是实例中的唯一输入,例如在文本分类中,则此表示可直接用作特征值向量。
  • 如果有其他特征或几个不同的文本必须分别表示,则可以将向量和其他特征连接起来。

一般来说,应该小心防止生成的特征数量变得过高。例如,在词袋表示的情况下,忽略最不常见的词是很常见的。