Ian Goodfellow 等人的深度学习书中的符号混淆

数据挖掘 机器学习 神经网络 深度学习 梯度下降 线性代数
2022-02-20 04:12:57

在“示例:学习异或”的第 6.1 章中,第 168 页的底部提到:

激活函数g通常被选择为按元素应用的函数,其中hi=g(xTW:,i+ci).

然后我们看到方程 6.3 被定义为(假设 g 为 ReLU):

我们现在可以将我们的完整网络指定为 f(x;W,c,w,b)=wT 最大限度{0,WTx+c}+b

想知道为什么这本书使用WTx在方程 6.3 中,而我希望它是xTW. 与书中的 XOR 示例不同W是一个2×2方阵,我们可能有非方阵W同样,在这种情况下,xTW不一样WTx.

如果我在这里遗漏了什么,请帮助我理解。

1个回答

y=WTx

然后,yT=(WTx)T=xT(WT)T=xTW. 注意W不一定是方阵。

ej(i)=δi,j.

然后, yi=yTe(i)=(xTW)e(i)=xT(We(i))=xTW:,i 因此

hi=g(xTW:,i+ci)=g(yi+ci)

另一方面, f(..)=wTmax{0,WTx+c}+b=wTmax{0,y+c}+b.

这是否回答你的问题 ?