数据挖掘 - 神经网络“努力”的理论基础 - 吾爱随笔录

我可能会因为“不清楚我在要求什么”而关闭我的问题，但这里有。

假设我们有一个简单的前馈网络。它有几层，每一层都有“合理”数量的神经元，没什么复杂的。假设输出有大小 $n$ ，并且输出上没有最终激活函数。

网络将有一个“更容易”的时间训练来产生相对于其他输出的一些输出。特别是，输出接近 0，即更接近原点 $\mathbb{R}^n$ 输出空间，会更容易。但这是我的直觉；我不确定这是否真的是真的。（通过“更容易”，我认为我真正的意思是更少的迭代。）

我还没有找到这方面的来源，但互联网上有很多建议来规范一个似乎有类似动机的数据。

这种网络产生输出所需的努力的概念是否有任何理论基础？在不对我们试图学习的功能做出假设的情况下进行讨论是否有意义？

如果这个想法在某种程度上是准确的，那么“努力”是否独立于方向？是不是像一个 $n$ - 变量高斯分布，其中该点的密度对应于网络必须产生该点的努力？或者是“分发”spikier，使其更容易输出，例如 $[0,0,0,1]$ 关系到 $[\frac{1}{2},\frac{1}{2},\frac{1}{2},\frac{1}{2}]$ ? （或相反亦然？）