数据挖掘 - 词嵌入还是散列？ - 吾爱随笔录

数据挖掘分类 lstm 预处理词嵌入 word2vec

2022-02-19 01:34:36

在我的数据集中，我有一个“文本”列和一个“关注者”列，其中包含关注者 ID 列表，即“1093777852477116417、936194589043683328、...”。一些“关注者”值包含数千个 ID。

我正在为 LSTM 预处理数据，并将在文本列上进行词嵌入。

我的问题是，我应该将追随者 ID 添加到文本列的词嵌入中，还是应该对追随者 ID 进行哈希处理并为 ID 添加额外的 LSTM 输入层？

提前致谢！

1个回答

这取决于…

一般的经验法则是，应该至少出现 40 个项目来训练嵌入模型以找到稳健的表示。如果大多数追随者 ID 重复，则嵌入模型可以了解哪些追随者 ID 同时出现。如果追随者 ID 是稀疏的，那么散列（随机分配数字）是更好的选择。

哪种方法更好是一个经验问题。您可以创建模型、基准测试，然后选择最适合您的任务的数据处理管道。

其它你可能感兴趣的问题