预测文本中的缺失词

数据挖掘 nlp 伯特
2022-02-14 14:43:50

当您掩盖一些单词并尝试预测它们时,我知道 BERT 和其他解决方案。但是假设我有一个文本:

Transformer 席卷了自然加工领域,突飞猛进地改变了这个领域。新的、更大的和更好的模型几乎可以在各种任务中出现性能基准。

而且我不能提前告诉 BERT 掩蔽在哪里。我正在寻找一种算法,它可以理解丢失的单词在哪里,然后预测它们。

1个回答

这并不简单,但可行。我建议您通过以下方式创建训练数据:获取尽可能大的文本语料库,并删除随机采样的单词。然后训练一个seq2seq RNN将这个“恶化”的文本与其原始文本进行映射。

您需要的 RNN 与NMT模型不会有太大的不同,但它的目标当然是不同的。

这是我第一次遇到这种任务,因此我不能说什么是最先进的。