我们是在训练测试拆分之前还是之后执行文本嵌入?

数据挖掘 词嵌入 word2vec 嵌入
2022-02-24 20:35:17

我们是在训练测试拆分之前还是之后执行文本嵌入?

我知道对于编码变量,通常在拆分后完成。但是,我不确定文本处理是否也是这种情况?

1个回答

您应该在拆分后计算嵌入,否则您将导致数据泄漏并隐藏词汇表外的单词问题。