建立机器翻译语料库

数据挖掘 nlp lstm 序列到序列 语料库
2022-02-21 13:36:30

我想训练一个 LSTM,注意法语和“稀有”语言之间的翻译。我说稀有,因为它是一种数字内容较少的非洲语言,尤其是具有类似 seq to seq 格式的数据库。我在某处找到了一个数据集,但就质量而言,法语和母语句子都非常错误。当我使用这个数据集时,当然我的翻译非常有趣......

所以我决定做一些网络抓取来建立我自己的平行语料库,它可能对未来的研究有用。

它运作良好,我设法从一个包含一些文章的网站上收集了一些好文章(每月,自 2016 年以来两种语言)。现在棘手的部分是将所有内容放入句子到句子的格式中。我只是通过标记成句子对文本及其翻译进行了试验,我注意到例如我有 23 个法语句子和 24 个母语句子。

进一步检查表明,两种语言的通知存在一些小的差异,例如在另一种语言中用点替换逗号的句子。

所以我的问题是:

是否必须将我的文章放入句子-法语到句子-母语格式?或者我可以让它作为文本/段落吗?

1个回答

在您的情况下,您通常会做的是应用句子对齐工具。一些流行的选择是:

我建议你看一下应用于 ParaCrawl 语料库的预处理。文章中,您可以找到每个处理步骤最流行的方法的概述。

正如您所建议的,完全不同的选择是在文档级别进行翻译。但是,大多数 NMT 模型都受限于它们接受的输入文本的长度,因此如果您进行文档级翻译,则必须确保您的 NMT 系统能够处理如此长的输入。可用于开箱即用的文档级 NMT 的 NMT 系统示例是具有梯度检查点功能的Marian NMT 。