一位教授告诉我,不可能在神经网络中组合不同的激活函数。而且我找不到任何人这样做的例子。但是,我找不到任何好的解释。
从概念上讲,这似乎是有道理的:假设我有一组关于某些人口的数据。想象一下,人口被分为两类人,A 和 B,但我的数据中实际上并没有那个分类变量。我们可以想象一个逻辑模型,将我的人口数据映射到分类变量中。
现在假设我正在训练一个带有一个隐藏层的神经网络。在我看来,隐藏层中的一个节点有一个 sigmoid 函数作为输入,表示输入变量到这个潜在分类变量的转换(当然现在是概率)是完全有意义的。同时,所有其他节点都具有线性激活函数。然后输出将是隐藏层中所有节点的线性函数。
我没有理由认为这会改善预测误差。这就是我想知道的:是否可以使用标准方法来估计这样的模型?