我可能会因为“不清楚我在要求什么”而关闭我的问题,但这里有。
假设我们有一个简单的前馈网络。它有几层,每一层都有“合理”数量的神经元,没什么复杂的。假设输出有大小,并且输出上没有最终激活函数。
网络将有一个“更容易”的时间训练来产生相对于其他输出的一些输出。特别是,输出接近 0,即更接近原点输出空间,会更容易。但这是我的直觉;我不确定这是否真的是真的。(通过“更容易”,我认为我真正的意思是更少的迭代。)
我还没有找到这方面的来源,但互联网上有很多建议来规范一个似乎有类似动机的数据。
这种网络产生输出所需的努力的概念是否有任何理论基础?在不对我们试图学习的功能做出假设的情况下进行讨论是否有意义?
如果这个想法在某种程度上是准确的,那么“努力”是否独立于方向?是不是像一个- 变量高斯分布,其中该点的密度对应于网络必须产生该点的努力?或者是“分发”spikier,使其更容易输出,例如关系到? (或相反亦然?)