我知道有几种用于转换器模型的标记化方法,例如用于 Bert 的 WordPiece 和用于 Roberta 等的 BPE。我想知道是否还有一个转换器使用类似于 fasttext 库中使用的嵌入的方法进行标记化,因此基于单词构成的 n-gram 的嵌入总和。
对我来说,在这些新的变压器架构中没有使用这种创建可以作为变压器输入的词(片段)嵌入的方式似乎很奇怪。有没有理由为什么还没有尝试?或者这个问题只是我无法找到正确的论文/回购的结果。
我知道有几种用于转换器模型的标记化方法,例如用于 Bert 的 WordPiece 和用于 Roberta 等的 BPE。我想知道是否还有一个转换器使用类似于 fasttext 库中使用的嵌入的方法进行标记化,因此基于单词构成的 n-gram 的嵌入总和。
对我来说,在这些新的变压器架构中没有使用这种创建可以作为变压器输入的词(片段)嵌入的方式似乎很奇怪。有没有理由为什么还没有尝试?或者这个问题只是我无法找到正确的论文/回购的结果。
有一个称为 ProphetNet 的预训练语言模型,用于序列到序列学习,具有称为未来 n-gram 预测的新型自我监督目标。
https://github.com/microsoft/ProphetNet
此外,拥抱脸网站上的变体也很少 https://huggingface.co/models?search=ProphetNet