数据挖掘 - Ian Goodfellow 等人的深度学习书中的符号混淆 - 吾爱随笔录

数据挖掘机器学习神经网络深度学习梯度下降线性代数

2022-02-20 04:12:57

在“示例：学习异或”的第 6.1 章中，第 168 页的底部提到：

激活函数 $g$ 通常被选择为按元素应用的函数，其中 $h_i = g(x^TW_{:,i}+c_i).$

然后我们看到方程 6.3 被定义为（假设 g 为 ReLU）：

我们现在可以将我们的完整网络指定为 $f(x; W,c,w,b) = w^T$ 最大限度 $\{0, W^Tx + c\} + b$

想知道为什么这本书使用 $W^Tx$ 在方程 6.3 中，而我希望它是 $x^TW$ . 与书中的 XOR 示例不同 $W$ 是一个 $2\times2$ 方阵，我们可能有非方阵 $W$ 同样，在这种情况下， $x^TW$ 不一样 $W^Tx$ .

如果我在这里遗漏了什么，请帮助我理解。

1个回答

让 $\mathbf{y} = \mathbf{W}^T \mathbf{x}$

然后， $\mathbf{y}^T =(\mathbf{W}^T \mathbf{x})^T =\mathbf{x}^{T}(W^T)^T = \mathbf{x}^{T}W$ . 注意 $\mathbf{W}$ 不一定是方阵。

让 $e^{(i)}_{j} = \delta_{i,j}$ .

然后， $y_{i} = \mathbf{y}^{T}e^{(i)} = (\mathbf{x}^T W) e^{(i)} = \mathbf{x}^{T}(We^{(i)}) = \mathbf{x}^{T}W_{:,i}$ 因此

$h_{i} = g(\mathbf{x}^T W_{:,i}+c_{i}) = g(y_{i}+c_{i})$

另一方面， $f(..) = w^{T} \max\{\mathbf{0},W^{T}\mathbf{x}+\mathbf{c}\}+b = w^{T} \max\{\mathbf{0},\mathbf{y}+\mathbf{c}\}+\mathbf{b}$ .

这是否回答你的问题？

其它你可能感兴趣的问题