数据挖掘 - 真实世界反向传播的数学原理是什么？ - 吾爱随笔录

考虑一个简单的ANN：

x \to f = (U_{m \times n} x^{T})^{T} \to g = g (f) \to h = (V_{p \times m} g^{T})^{T} \to L = L (h, y)

$x \rightarrow f=(U_{m\times n}x^T)^T \rightarrow g = g(f) \rightarrow h = (V_{p \times m}g^T)^T \rightarrow L = L(h,y)$

在哪里 $x\in\mathbb{R}^n$ , $U$ 和 $V$ 是矩阵， $g$ 是逐点的 sigmoid 函数， $L$ 通过比较输出返回一个表示损失的实数 $h$ 有目标 $y$ , 最后 $\rightarrow$ 表示数据流。

最小化 $L$ 超过 $U$ 和 $V$ 使用梯度下降，我们需要知道 $\frac{\partial L}{\partial U_{ij}}$ 和 $\frac{\partial L}{\partial V_{ij}}$ ，我知道有两种方法可以做到这一点：

出于教程或说明的目的，以上两种方法可能就足够了，但是如果你真的想在现实世界中手动实现反向支持，你会用什么数学来做导数？我的意思是，meth 中是否有一个分支或方法可以教你如何对矩阵的向量值函数求导？