按长度过滤数据的 BLEU 分数大于整个数据的 BLEU 分数是否正常

数据挖掘 nlp 机器翻译
2022-03-11 19:51:43

我正在使用 fairseq-py 创建 2 个神经机器翻译模型(模型 A 和 B,每个模型都有不同的改进)。当我用 bleu 分数评估模型时,模型 A 的 BLEU 分数为 25.9,模型 C 为 25.7。然后我将数据按长度过滤为 4 个范围值,例如 1 到 10 个词、11 到 20 个词、21 到 30 个词和 31 到 40 个词。我对每个过滤后的数据进行了重新评估,模型 B 的所有 bleu 分数都大于模型 A。您认为这是正常情况吗?

1个回答

原始的 BLEU 分数 25.9 和 25.7 非常接近,甚至可能没有任何显着差异。完全有可能模型 B 在过滤数据上的表现优于模型 A 只是偶然。也有可能模型 B 在较短的句子上实际上比模型 A 表现更好。最后值得注意的是,BLEU 分数是基于共同 n-gram 的数量,因此它可能会受到独立于被测试模型的句子长度的影响。

结论:根据所提供的信息,这种差异似乎完全合理。