当训练变压器模型时,解码器末端有一个线性层,我理解它是一个完全连接的神经网络。在变压器模型的训练过程中,当获得损失时,它将反向传播以调整权重。
我的问题是反向传播有多深?
- 它只发生在线性层权重(完全连接的神经网络)之前吗?
- 或者它是否扩展到所有解码器层权重矩阵(Q,K,V)和前馈层权重?
- 或者它是否扩展到甚至编码器+解码器的权重?
请帮我解答。
当训练变压器模型时,解码器末端有一个线性层,我理解它是一个完全连接的神经网络。在变压器模型的训练过程中,当获得损失时,它将反向传播以调整权重。
我的问题是反向传播有多深?
请帮我解答。
反向传播扩展到整个模型,通过所有解码器和编码器层直到嵌入表。