数据挖掘 - 预测文本中的缺失词 - 吾爱随笔录

数据挖掘 nlp 伯特

2022-02-14 14:43:50

当您掩盖一些单词并尝试预测它们时，我知道 BERT 和其他解决方案。但是假设我有一个文本：

Transformer 席卷了自然加工领域，突飞猛进地改变了这个领域。新的、更大的和更好的模型几乎可以在各种任务中出现性能基准。

而且我不能提前告诉 BERT 掩蔽在哪里。我正在寻找一种算法，它可以理解丢失的单词在哪里，然后预测它们。

1个回答

这并不简单，但可行。我建议您通过以下方式创建训练数据：获取尽可能大的文本语料库，并删除随机采样的单词。然后训练一个seq2seq RNN将这个“恶化”的文本与其原始文本进行映射。

您需要的 RNN 与NMT模型不会有太大的不同，但它的目标当然是不同的。

这是我第一次遇到这种任务，因此我不能说什么是最先进的。

其它你可能感兴趣的问题