数据挖掘 - 变压器的反向传播 - 吾爱随笔录 - 问答

变压器的反向传播

数据挖掘深度学习神经网络 nlp 伯特变压器

2022-02-28 13:12:11

当训练变压器模型时，解码器末端有一个线性层，我理解它是一个完全连接的神经网络。在变压器模型的训练过程中，当获得损失时，它将反向传播以调整权重。

我的问题是反向传播有多深？

它只发生在线性层权重（完全连接的神经网络）之前吗？
或者它是否扩展到所有解码器层权重矩阵（Q，K，V）和前馈层权重？
或者它是否扩展到甚至编码器+解码器的权重？

请帮我解答。

1个回答

反向传播扩展到整个模型，通过所有解码器和编码器层直到嵌入表。

其它你可能感兴趣的问题

上一篇变量稳定性和判别模型质量之间的权衡下一篇用于对象分割的逼真合成数据