虽然我们在 NLP 任务中看到输入数据只是单个文本字段(用于 X 变量)的许多情况,例如带有情感标签的推文是唯一的数字字段。
但是如何处理 ML/DL 中表格数据中的自由文本字段?文本字段是/是表中的所有数字字段!我认为这很难处理。它可以是注释字段或某些字段中的某些日志数据以及许多其他数字字段。列出尽可能多的方法。任何的想法?
为了便于讨论,这里定义的“自由文本”是指一堆文本,其中数据集中的每一行数据在文本中可以具有可变长度。
这个问题的目标是找到转换这些文本字段的方法,以便它们可以包含在 ML/DL 模型中。