在神经网络多层感知器中,我了解随机梯度下降 (SGD) 与梯度下降 (GD) 之间的主要区别在于训练时选择多少样本的方式。也就是说,SGD 迭代地选择一个样本来执行前向传播,然后进行反向传播来调整权重,这与 GD 相反,反向传播仅在前向传播中计算了整个样本之后才开始)。
我的问题是:当梯度下降(甚至迷你批量梯度下降)是所选的方法时,我们如何代表单个转发通行证的错误?假设我的网络只有一个输出神经元,错误是通过平均每个样本中的所有单个错误还是通过对所有错误求和来表示?对我来说,这听起来像是一种依赖于实现的方式,但我想知道是否有这样的传统方式。