当您掩盖一些单词并尝试预测它们时,我知道 BERT 和其他解决方案。但是假设我有一个文本:
Transformer 席卷了自然加工领域,突飞猛进地改变了这个领域。新的、更大的和更好的模型几乎可以在各种任务中出现性能基准。
而且我不能提前告诉 BERT 掩蔽在哪里。我正在寻找一种算法,它可以理解丢失的单词在哪里,然后预测它们。
当您掩盖一些单词并尝试预测它们时,我知道 BERT 和其他解决方案。但是假设我有一个文本:
Transformer 席卷了自然加工领域,突飞猛进地改变了这个领域。新的、更大的和更好的模型几乎可以在各种任务中出现性能基准。
而且我不能提前告诉 BERT 掩蔽在哪里。我正在寻找一种算法,它可以理解丢失的单词在哪里,然后预测它们。
这并不简单,但可行。我建议您通过以下方式创建训练数据:获取尽可能大的文本语料库,并删除随机采样的单词。然后训练一个seq2seq RNN将这个“恶化”的文本与其原始文本进行映射。
您需要的 RNN 与NMT模型不会有太大的不同,但它的目标当然是不同的。
这是我第一次遇到这种任务,因此我不能说什么是最先进的。