我正在学习 Christopher Bishop 撰写的模式识别和机器学习的第一章,并在介绍误差平方和函数
在哪里是被建模的多项式函数,它的变量,要发现的多项式系数和训练集的大小。
在本书中,以及在吴恩达的视频讲座等其他情况下,这是“为以后方便而包括在内”。那是哪种方便?我正在努力忽略这一点,但我无法避免这样一个事实,即我不知道这个分数来自哪里以及它对这个计算的影响。
在误差平方和的情况下,这一半意味着什么?
我正在学习 Christopher Bishop 撰写的模式识别和机器学习的第一章,并在介绍误差平方和函数
在哪里是被建模的多项式函数,它的变量,要发现的多项式系数和训练集的大小。
在本书中,以及在吴恩达的视频讲座等其他情况下,这是“为以后方便而包括在内”。那是哪种方便?我正在努力忽略这一点,但我无法避免这样一个事实,即我不知道这个分数来自哪里以及它对这个计算的影响。
在误差平方和的情况下,这一半意味着什么?
只要(对于这个平方和来说是正确的),最小化相当于最小化. 正如评论中指出的那样,因素当你取导数时消失.
您是否使用可能并不重要或者对于 MSE,因为分母值为 2 和对于正在评估的数据集,将永远不会改变。由于计算量的大小,这两种方法的规模会有所不同,但是,您将除以一个永远不会改变的常数。如果您跨数据集比较 MSE,那么您可能会选择,因为这将随样本大小而变化——然而,在所拟合的算法中,人工神经网络 (ANN) 只需要一个参考点来衡量拟合的坏/好坏。
仅供参考-相同的方程式(即,),在 Friedman 和 Tibshirani (Statistical Learning, Springer) 的神经网络章节中用于 MSE。然而,回想一下,MSE 用于使用 ANN 进行连续函数逼近,而交叉熵用于 ANN 的分类问题。
由于您正在阅读 Bishop,因此您不会脱离阅读的是 ANN 的一个关键问题是它们喜欢输入特征具有范围 [-1,1] 而特征之间没有相关性。如果特征之间存在相关性,那么 ANN 将花时间学习相关性——这是您不希望算法做的事情。因此,首先运行 PCA 对特征进行去相关,然后将前 10 个正交 PC 输入到 ANN。
最后,人工神经网络还有一个关于输入样本的主要问题,这与冗余有关。也就是说,您的许多记录可能是相同的,将相同(相似)的记录输入到 ANN 中并没有帮助。Jurik Research ( DDR )是我所知道的在输入到 ANN 之前开发出同时折叠特征和冗余样本的方法的唯一团体之一
最后,查看Ripley关于 ANN 的文本,因为主要关注点始终是您如何进行正则化以最小化过度拟合并最大化泛化。