我想训练一个 LSTM,注意法语和“稀有”语言之间的翻译。我说稀有,因为它是一种数字内容较少的非洲语言,尤其是具有类似 seq to seq 格式的数据库。我在某处找到了一个数据集,但就质量而言,法语和母语句子都非常错误。当我使用这个数据集时,当然我的翻译非常有趣......
所以我决定做一些网络抓取来建立我自己的平行语料库,它可能对未来的研究有用。
它运作良好,我设法从一个包含一些文章的网站上收集了一些好文章(每月,自 2016 年以来两种语言)。现在棘手的部分是将所有内容放入句子到句子的格式中。我只是通过标记成句子对文本及其翻译进行了试验,我注意到例如我有 23 个法语句子和 24 个母语句子。
进一步检查表明,两种语言的通知存在一些小的差异,例如在另一种语言中用点替换逗号的句子。
所以我的问题是:
是否必须将我的文章放入句子-法语到句子-母语格式?或者我可以让它作为文本/段落吗?