神经网络“努力”的理论基础

数据挖掘 机器学习 神经网络 理论
2022-02-14 02:46:41

我可能会因为“不清楚我在要求什么”而关闭我的问题,但这里有。

假设我们有一个简单的前馈网络。它有几层,每一层都有“合理”数量的神经元,没什么复杂的。假设输出有大小n,并且输出上没有最终激活函数。

网络将有一个“更容易”的时间训练来产生相对于其他输出的一些输出。特别是,输出接近 0,即更接近原点Rn输出空间,会更容易。但这是我的直觉;我不确定这是否真的是真的。(通过“更容易”,我认为我真正的意思是更少的迭代。)

我还没有找到这方面的来源,但互联网上有很多建议来规范一个似乎有类似动机的数据。

这种网络产生输出所需的努力的概念是否有任何理论基础?在不对我们试图学习的功能做出假设的情况下进行讨论是否有意义?

如果这个想法在某种程度上是准确的,那么“努力”是否独立于方向?是不是像一个n- 变量高斯分布,其中该点的密度对应于网络必须产生该点的努力?或者是“分发”spikier,使其更容易输出,例如[0,0,0,1]关系到[12,12,12,12]? (或相反亦然?)

1个回答

您问了几个问题,我将回答有关哪些特定发行版更容易学习的问题。信息论会预测[0,0,0,1] 比学习容易得多[12,12,12,12].

[12,12,12,12]是具有最大熵的均匀离散分布。[0,0,0,1]熵要少得多。