我了解转换器架构(来自“Attention is All You Need”),以及如何在多头注意力层中计算注意力。
我感到困惑的是为什么注意力层的输出是上下文向量。也就是说:Transformer 的训练方式导致注意力层学习上下文的原因是什么?我希望在论文中看到的理由是“当你在序列到序列的任务上使用注意力训练转换器时,注意力层会学习上下文,这就是为什么...... ”。我相信这一点,因为我已经看到了显示相关词之间注意力的热图,但我想了解为什么这必然是训练变压器的结果。
为什么注意力层不能学习其他一些恰好也有利于序列任务的特征呢?我们怎么知道他们学习上下文,而不是我们观察到的?
再次,我得到了数学,我知道有几个关于它的帖子。我想知道的是数学或训练过程意味着注意力层学习上下文的含义。