数据挖掘 - 为什么 Transformer 中的注意力层会学习上下文？ - 吾爱随笔录

我了解转换器架构（来自“Attention is All You Need”），以及如何在多头注意力层中计算注意力。

我感到困惑的是为什么注意力层的输出是上下文向量。也就是说：Transformer 的训练方式导致注意力层学习上下文的原因是什么？我希望在论文中看到的理由是“当你在序列到序列的任务上使用注意力训练转换器时，注意力层会学习上下文，这就是为什么...... ”。我相信这一点，因为我已经看到了显示相关词之间注意力的热图，但我想了解为什么这必然是训练变压器的结果。

为什么注意力层不能学习其他一些恰好也有利于序列任务的特征呢？我们怎么知道他们学习上下文，而不是我们观察到的？

再次，我得到了数学，我知道有几个关于它的帖子。我想知道的是数学或训练过程意味着注意力层学习上下文的含义。