我可以在不同/不相关的任务上微调 BERT 吗?

数据挖掘 伯特 变压器 语言模型 标记化
2022-03-01 04:00:15

在原始 BERT 论文第 3 节 (arXiv:1810.04805) 中提到:

“在预训练期间,该模型通过不同的预训练任务在未标记数据上进行训练。”

我不确定我是否正确理解了这里“不同”一词的含义。不同意味着不同的数据集或不同的预测任务

例如,如果我们使用大数据集在“句子分类任务”上预训练 BERT。然后,我应该在较小且特定于任务的数据集上再次对相同的“句子分类任务”任务进行微调,还是可以将训练后的模型用于其他一些任务,例如“句子标记”?

1个回答

句子“在预训练期间,模型通过不同的预训练任务在未标记的数据上进行训练。” 意味着 BERT 在两个任务的正常文本数据上进行了预训练:掩码语言模型 (MLM) 和下一句预测 (NSP)。数据中不存在其他分类/标记标签,因为 MLM 预测文本本身,而 NSP 标签来自文本数据本身。这两个任务都是从一个文本数据集同时训练的,该数据集准备为这两个任务提供输入文本和预期输出。

因此这里的“不同”指的是我提到的两个预训练任务:MLM 和 NSP。

微调时,你不需要在同一个句子分类任务上再次训练,你只需在你需要的任务上训练它。在您自己的数据集上的句子标记任务上微调 BERT 是非常好的。