变压器的反向传播

数据挖掘 深度学习 神经网络 nlp 伯特 变压器
2022-02-28 13:12:11

当训练变压器模型时,解码器末端有一个线性层,我理解它是一个完全连接的神经网络。在变压器模型的训练过程中,当获得损失时,它将反向传播以调整权重。

我的问题是反向传播有多深?

  • 它只发生在线性层权重(完全连接的神经网络)之前吗?
  • 或者它是否扩展到所有解码器层权重矩阵(Q,K,V)和前馈层权重?
  • 或者它是否扩展到甚至编码器+解码器的权重?

请帮我解答。

1个回答

反向传播扩展到整个模型,通过所有解码器和编码器层直到嵌入表。