数据挖掘 - 深度学习理论：为什么需要隐藏层？ - 吾爱随笔录

对于这个问题，我会参考3Blue1Brown 的热门 YouTube 视频，内容是深度学习应用于文字数字的识别。

该视频描述了一个具有以下层的神经网络：

输入（单个灰度像素）
小规模特征确定（例如，数字 9 中循环的顶部四分之一）
更大规模的特征（例如，数字 9 中的整个循环）
输出层，显示输入图像是数字 0-9 中的每一个的概率

我还将尝试在这里通读整个 wiki 部分，我目前在神经网络页面上。

我特别喜欢对系数的解释……“一个节点将来自数据的输入与一组系数或权重组合起来，这些系数或权重可以放大或抑制该输入，从而根据算法试图执行的任务为输入分配重要性学习; 例如，哪个输入最有帮助是对数据进行无错误分类？“

本质上，它是说每个输入对每个输出都有一定程度的重要性，这对我来说引出了一个问题……组件特征/隐藏层是否必要？在手写示例中，如果不使用隐藏层，难道每个输入节点都不能连接到每个输出节点吗？这个想法是，所有高权重输入像素或给定输出仍然具有该输出的高权重，但网络将跳过特征/聚合阶段。这只是训练效率的问题（即，通过多次有效地提取相同的特征来防止重复）？

另外，是否需要专门选择各个节点之间的连接，以便智能选择节点的数量和连接的数量和选择？

是否准确地说，一个足够深的神经网络会寻找输入值的所有相关组合的重要性，而这基本上就是它所做的一切？