组合在多语言多源语料库上训练的模型

数据挖掘 伯特 变压器
2022-02-26 01:41:11

考虑以下培训语料库:

  • dataset1:由法语实例组成

  • dataset2 : dataset1 + 阿拉伯语实例

  • test_dataset(适用于两种情况):由法语实例组成

(两种语言都使用相同的注释指南)。

在分析了我们初步实验设置的结果后,我们选择了 BERT 作为我们的基线系统。

考虑到所涉及的不同语言,我们尝试了能够处理它们的不同模型:FlauBERT 和 CamemBERT(用于法语)、AraBERT(用于阿拉伯语)以及 BERT 多语言。一般来说,对于这两种语言,BERT 多语言获得的结果都低于语言特定模型获得的结果。

理论上是否可以多个模型合并为一个模型,有效地结合目前为止学到的所有数据?例如,结合仅在 dataset2 的法语部分训练的CamemBERT和仅在阿拉伯语部分训练的 AraBERT?

1个回答

一个工程解决方案是:创建一个语言检测器,根据语言类型分类将输入提供给检测器,将输入发送到适当的模型,即如果语言是法语,则将输入直接提供给 CamemBERT。输出将与 CamemBERT 乘以语言检测器的准确度一样准确。

但是如果你问是否可以操纵模型权重以便我们可以获得一个新的完全统一的模型,它仍处于研究阶段。