数据挖掘 - 受过训练的变压器中的前馈网络是什么？ - 吾爱随笔录

数据挖掘神经网络 nlp 自动编码器变压器注意机制

2022-02-27 13:52:53

在阅读了“Attention is all you need”文章后，我了解了变压器的一般架构。然而，我不清楚前馈神经网络是如何学习的。

我对神经网络的了解是，它们基于目标变量，通过根据特定损失函数的反向传播来学习。

查看 Transformer 的架构，我不清楚这些前馈网络中的目标变量是什么。谁可以给我解释一下这个？

1个回答

让我们以可以使用转换器的常见翻译任务为例：如果您想将英语翻译成德语，您的训练数据的一个示例可能是

（“猫是黑的”，“死 Katze ist schwarz”）。

在这种情况下，您的目标只是德语句子“die Katze ist schwarz”（当然不是作为字符串处理，而是使用包含位置信息的嵌入）。这就是您计算损失、运行反向传播并从中导出梯度和权重更新的内容。

因此，您可以想到变压器的浅蓝色前馈层

作为常规前馈网络中的隐藏层。就像常规隐藏层一样，它的参数是通过基于变换器运行反向传播来更新的 $loss(output,target)$ 目标是翻译的句子。

其它你可能感兴趣的问题