在“示例:学习异或”的第 6.1 章中,第 168 页的底部提到:
激活函数通常被选择为按元素应用的函数,其中
然后我们看到方程 6.3 被定义为(假设 g 为 ReLU):
我们现在可以将我们的完整网络指定为 最大限度
想知道为什么这本书使用在方程 6.3 中,而我希望它是. 与书中的 XOR 示例不同是一个方阵,我们可能有非方阵同样,在这种情况下,不一样.
如果我在这里遗漏了什么,请帮助我理解。
在“示例:学习异或”的第 6.1 章中,第 168 页的底部提到:
激活函数通常被选择为按元素应用的函数,其中
然后我们看到方程 6.3 被定义为(假设 g 为 ReLU):
我们现在可以将我们的完整网络指定为 最大限度
想知道为什么这本书使用在方程 6.3 中,而我希望它是. 与书中的 XOR 示例不同是一个方阵,我们可能有非方阵同样,在这种情况下,不一样.
如果我在这里遗漏了什么,请帮助我理解。
让
然后,. 注意不一定是方阵。
让.
然后, 因此
另一方面, .
这是否回答你的问题 ?