在阅读了“Attention is all you need”文章后,我了解了变压器的一般架构。然而,我不清楚前馈神经网络是如何学习的。
我对神经网络的了解是,它们基于目标变量,通过根据特定损失函数的反向传播来学习。
查看 Transformer 的架构,我不清楚这些前馈网络中的目标变量是什么。谁可以给我解释一下这个?
让我们以可以使用转换器的常见翻译任务为例:如果您想将英语翻译成德语,您的训练数据的一个示例可能是
(“猫是黑的”,“死 Katze ist schwarz”)。
在这种情况下,您的目标只是德语句子“die Katze ist schwarz”(当然不是作为字符串处理,而是使用包含位置信息的嵌入)。这就是您计算损失、运行反向传播并从中导出梯度和权重更新的内容。
因此,您可以想到变压器的浅蓝色前馈层
作为常规前馈网络中的隐藏层。就像常规隐藏层一样,它的参数是通过基于变换器运行反向传播来更新的loss(output,target)loss(output,target)目标是翻译的句子。