受过训练的变压器中的前馈网络是什么?

数据挖掘 神经网络 nlp 自动编码器 变压器 注意机制
2022-02-27 13:52:53

在阅读了“Attention is all you need”文章后,我了解了变压器的一般架构。然而,我不清楚前馈神经网络是如何学习的。

我对神经网络的了解是,它们基于目标变量,通过根据特定损失函数的反向传播来学习。

前馈神经网络

查看 Transformer 的架构,我不清楚这些前馈网络中的目标变量是什么。谁可以给我解释一下这个?

变压器架构

1个回答

让我们以可以使用转换器的常见翻译任务为例:如果您想将英语翻译成德语,您的训练数据的一个示例可能是

“猫是黑的”“死 Katze ist schwarz”)。

在这种情况下,您的目标只是德语句子“die Katze ist schwarz”(当然不是作为字符串处理,而是使用包含位置信息的嵌入)。这就是您计算损失、运行反向传播并从中导出梯度和权重更新的内容。

因此,您可以想到变压器的浅蓝色前馈层

在此处输入图像描述

作为常规前馈网络中的隐藏层。就像常规隐藏层一样,它的参数是通过基于变换器运行反向传播来更新的loss(output,target)目标是翻译的句子。