GPT 块和 Transformer 解码器块有什么区别?

数据挖掘 深度学习 变压器 语言模型
2022-02-28 03:45:52

我知道 GPT 是一个基于 Transformer 的神经网络,由几个块组成。这些块基于原始的 Transformer 的解码器块,但它们完全相同吗?

在原始的 Transformer 模型中,Decoder 块有两种注意机制:第一种是纯 Multi Head Self-Attention,第二种是相对于 Encoder 输出的 Self-Attention。在 GPT 中没有编码器,因此我假设它的块只有一种注意机制。这是我发现的主要区别。

同时,由于 GPT 是用来生成语言的,它的块必须被屏蔽,这样 Self-Attention 只能关注之前的 token。(就像在变压器解码器中一样。)

是这样吗?GPT (1,2,3,...) 和原始 Transformer 之间的区别还有什么要补充的吗?

1个回答

GPT 使用未经修改的 Transformer 解码器,只是它缺少编码器注意部分。我们可以在Transformer 模型GPT 模型的图表中直观地看到这一点

变压器图 gpt_diagram

对于 GPT-2,作者在论文中对此进行了澄清:

gpt2_section2.3

已经有几项研究研究了在注意力之前或之后进行层标准化的影响。例如,“三明治变压器”试图研究不同的组合。

对于 GPT-3,在 GPT-2 之上还有进一步的修改,论文中也有解释:

gpt3_section2.1