我对以下论点的直观理解有问题:
“通过 bagging 生成的树是相同分布的,因此一组树的平均值的期望与单个树的期望相同”
1)树的真正分布是什么意思?2)为什么,当有通过bagging产生的ID?
我对以下论点的直观理解有问题:
“通过 bagging 生成的树是相同分布的,因此一组树的平均值的期望与单个树的期望相同”
1)树的真正分布是什么意思?2)为什么,当有通过bagging产生的ID?
我认为 rapaio 将几个关键概念混为一谈,这样做误解了 OP 的问题。是的,bagging 算法中使用的 bootstrap 样本是 IID。但是,bagging 估计器是 ID,而不是 IID。
bagging 算法会生成 B 树和相应的预测估计,. 由于树估计器使用来自相同分布的抽取来估计每棵树,因此相同的分布假设将成立。但是,独立假设不成立!!!例如,假设数据中有一个非常强的预测变量。在每棵树中,这个强预测变量可能是第一个分裂。因此,大多数树的预测将是相似的。换句话说,预测将是相关的(即不是独立的)。
想一想,bagging 算法是采用 IID 随机变量序列(即 bootstrap 样本)并将它们转换为 ID 随机变量序列(通过生成树估计)
bagging 算法仍然很有帮助。bagging 估计器是无偏的;偏见不影响缺乏独立性。因此平均将与任何树的期望值相同,即. 然而,bagging 估计量的方差会受到非独立性的影响,即记住. 事实证明,bagging 估计器的方差会比树估计器更小(参见第 518 页统计学习元素)。但是,我们可以通过尝试对树进行去相关来进一步减少估计器方差。这就是随机森林概念的来源。再次参见 pg 518 Elements of Statistical Learning 或 pg 319 Introduction to Statistical Learning 了解更多信息。
Bagging 技术使用引导程序(具有替换的相同长度的随机样本)来训练组装中的每棵树。因此,用于构建每棵树的样本来自与原始样本相同的群体。这就是为什么输入和目标变量被称为 ID(相同分布 = 相同分布)。
不仅如此,因为样本是随机抽取的,所以样本也是独立的(知道一个样本的元素并不能暗示另一个样本的元素)。这通常表示为 IID(独立同分布)。
由于输入变量和目标变量是独立同分布的(样本是独立的并且来自同一个总体),因此保留了均值的期望。[见大数定律]
因为树基本上是分段常数近似,所以这些树可以学习的是各个区域的常数平均值。树只定义输入空间区域(叶节点),但在这些区域上近似于平均值。
这些常数是某种平均值(平均值,中位数),具体取决于损失函数。因此,关于输入变量和目标变量的平均值,您可以说树本身(它们保留了平均值的期望)。
bagging 用于通过对模型进行平均来减少方差,同时它们尽可能地保留这些变量的期望。
我希望我以某种方式清楚,我会在以后有机会时重试,最终改进这一点。