BERT 使用分隔符 ([SEP]) 为序列对任务输入两个序列。如果我正确理解了 BERT 架构,那么所有输入都会受到关注,从而从一开始就耦合两个序列。
现在,考虑一个序列对任务,其中一个序列是恒定的并且从一开始就已知。例如,回答关于已知上下文的多个未知问题。对我来说,如果仅使用上下文预先计算(部分)模型,似乎可能会有计算优势。但是,如果我的假设是正确的,即这两个序列从一开始就是耦合的,那么预计算是不可行的。
因此我的问题是: 如何在序列对任务中预先计算一个序列,同时仍然使用(预训练的)BERT?我们可以将 BERT 与其他类型的架构相结合来实现这一目标吗?就速度和准确性而言,这样做是否有意义?
