词嵌入还是散列?

数据挖掘 分类 lstm 预处理 词嵌入 word2vec
2022-02-19 01:34:36

在我的数据集中,我有一个“文本”列和一个“关注者”列,其中包含关注者 ID 列表,即“1093777852477116417、936194589043683328、...”。一些“关注者”值包含数千个 ID。

我正在为 LSTM 预处理数据,并将在文本列上进行词嵌入。

我的问题是,我应该将追随者 ID 添加到文本列的词嵌入中,还是应该对追随者 ID 进行哈希处理并为 ID 添加额外的 LSTM 输入层?

提前致谢!

1个回答

这取决于…

一般的经验法则是,应该至少出现 40 个项目来训练嵌入模型以找到稳健的表示。如果大多数追随者 ID 重复,则嵌入模型可以了解哪些追随者 ID 同时出现。如果追随者 ID 是稀疏的,那么散列(随机分配数字)是更好的选择。

哪种方法更好是一个经验问题。您可以创建模型、基准测试,然后选择最适合您的任务的数据处理管道。