在我的数据集中,我有一个“文本”列和一个“关注者”列,其中包含关注者 ID 列表,即“1093777852477116417、936194589043683328、...”。一些“关注者”值包含数千个 ID。
我正在为 LSTM 预处理数据,并将在文本列上进行词嵌入。
我的问题是,我应该将追随者 ID 添加到文本列的词嵌入中,还是应该对追随者 ID 进行哈希处理并为 ID 添加额外的 LSTM 输入层?
提前致谢!
在我的数据集中,我有一个“文本”列和一个“关注者”列,其中包含关注者 ID 列表,即“1093777852477116417、936194589043683328、...”。一些“关注者”值包含数千个 ID。
我正在为 LSTM 预处理数据,并将在文本列上进行词嵌入。
我的问题是,我应该将追随者 ID 添加到文本列的词嵌入中,还是应该对追随者 ID 进行哈希处理并为 ID 添加额外的 LSTM 输入层?
提前致谢!
这取决于…
一般的经验法则是,应该至少出现 40 个项目来训练嵌入模型以找到稳健的表示。如果大多数追随者 ID 重复,则嵌入模型可以了解哪些追随者 ID 同时出现。如果追随者 ID 是稀疏的,那么散列(随机分配数字)是更好的选择。
哪种方法更好是一个经验问题。您可以创建模型、基准测试,然后选择最适合您的任务的数据处理管道。