我一直在阅读有关 James-Stein 估计器的信息。在本注释中,它被定义为
我已阅读证明,但我不明白以下陈述:
在几何上,James-Stein 估计器将的每个分量向原点收缩......
“将X的每个组件向原点收缩”到底是什么意思?我在想像
这就是人们所说的“缩小到零”的意思吗,因为在L^2范数意义上,JS 估计器比X更接近于零?
截至 2017 年 9 月 22 日的更新:今天我意识到也许我把事情复杂化了。似乎人们的意思是,一旦您将乘以小于的值,即术语,X的每个分量都将比以前小。
我一直在阅读有关 James-Stein 估计器的信息。在本注释中,它被定义为
我已阅读证明,但我不明白以下陈述:
在几何上,James-Stein 估计器将的每个分量向原点收缩......
“将X的每个组件向原点收缩”到底是什么意思?我在想像
这就是人们所说的“缩小到零”的意思吗,因为在L^2范数意义上,JS 估计器比X更接近于零?
截至 2017 年 9 月 22 日的更新:今天我意识到也许我把事情复杂化了。似乎人们的意思是,一旦您将乘以小于的值,即术语,X的每个分量都将比以前小。
一张图有时抵得上一千个字,所以让我和你分享一张。下面您可以看到来自 Bradley Efron (1977) 论文Stein's paradox in statistics的插图。如您所见,Stein 的估计器所做的是使每个值更接近总平均值。它使大于总平均值的值更小,而小于总平均值的值更大。收缩是指将值向平均值移动,或者在某些情况下向零移动(例如正则化回归),这会将参数向零收缩。
当然,这不仅仅是缩小自身,Stein (1956)和James and Stein (1961)已经证明,Stein 的估计量在总平方误差方面优于最大似然估计量,
其中,是斯坦因估计量,,其中两个估计量都是在样本上估计的。证明在原始论文和您参考的论文的附录中给出。用简单的英语来说,他们所表明的是,如果您同时进行猜测,那么就总平方误差而言,与坚持最初的猜测相比,通过缩小它们会做得更好。
最后,Stein 估计器肯定不是唯一给出收缩效应的估计器。对于其他示例,您可以查看此博客条目,或 Gelman 等人引用的贝叶斯数据分析书。您还可以查看有关正则化回归的线程,例如收缩方法解决了什么问题?,或何时使用正则化方法进行回归?, 对于这种效果的其他实际应用。