数据挖掘 - 是否反对使用相同（未标记）数据来预训练基于 BERT 的模型和下游任务？ - 吾爱随笔录

数据挖掘 nlp 伯特预训练

2022-01-19 18:54:09

我正在寻找使用特定领域中未标记的数据来训练 Electra 模型。是否有反对使用相同的数据进行无监督学习，然后将相同的数据下游用于监督学习任务？

1个回答

一点也不。AllenAI最近的ACL 论文甚至说这是最好的方法。他们建议继续对任务数据进行预训练，并声称它可以减少由域不匹配引起的问题。因此，如果您从一开始就在域内数据上训练模型，考虑到您有足够的数据，这可能是一件好事。

其它你可能感兴趣的问题