机器算法验证 - 为什么通过 bagging 生成的树是相同分布的？ - 吾爱随笔录

为什么通过 bagging 生成的树是相同分布的？

机器算法验证机器学习数理统计随机森林大车

2022-04-18 04:56:11

我对以下论点的直观理解有问题：

“通过 bagging 生成的树是相同分布的，因此一组树的平均值的期望与单个树的期望相同”

1）树的真正分布是什么意思？2）为什么，当有通过bagging产生的ID？

2个回答

我认为 rapaio 将几个关键概念混为一谈，这样做误解了 OP 的问题。是的，bagging 算法中使用的 bootstrap 样本是 IID。但是，bagging 估计器是 ID，而不是 IID。

bagging 算法会生成 B 树和相应的预测估计， $\{\hat{f}^b(X)\}_{b=1}^B$ . 由于树估计器使用来自相同分布的抽取来估计每棵树，因此相同的分布假设将成立。但是，独立假设不成立！！！例如，假设数据中有一个非常强的预测变量。在每棵树中，这个强预测变量可能是第一个分裂。因此，大多数树的预测将是相似的。换句话说，预测将是相关的（即不是独立的）。

想一想，bagging 算法是采用 IID 随机变量序列（即 bootstrap 样本）并将它们转换为 ID 随机变量序列（通过生成树估计）

bagging 算法仍然很有帮助。bagging 估计器是无偏的；偏见不影响缺乏独立性。因此平均 $\hat{f}^b(X)$ 将与任何树的期望值相同，即 $E(f^b(X)) = \frac{1}{B} \sum_{i=1}^B \hat{f}^b(X)$ . 然而，bagging 估计量的方差会受到非独立性的影响，即记住 $Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)$ . 事实证明，bagging 估计器的方差会比树估计器更小（参见第 518 页统计学习元素）。但是，我们可以通过尝试对树进行去相关来进一步减少估计器方差。这就是随机森林概念的来源。再次参见 pg 518 Elements of Statistical Learning 或 pg 319 Introduction to Statistical Learning 了解更多信息。

Bagging 技术使用引导程序（具有替换的相同长度的随机样本）来训练组装中的每棵树。因此，用于构建每棵树的样本来自与原始样本相同的群体。这就是为什么输入和目标变量被称为 ID（相同分布 = 相同分布）。

不仅如此，因为样本是随机抽取的，所以样本也是独立的（知道一个样本的元素并不能暗示另一个样本的元素）。这通常表示为 IID（独立同分布）。

由于输入变量和目标变量是独立同分布的（样本是独立的并且来自同一个总体），因此保留了均值的期望。[见大数定律]

因为树基本上是分段常数近似，所以这些树可以学习的是各个区域的常数平均值。树只定义输入空间区域（叶节点），但在这些区域上近似于平均值。

这些常数是某种平均值（平均值，中位数），具体取决于损失函数。因此，关于输入变量和目标变量的平均值，您可以说树本身（它们保留了平均值的期望）。

bagging 用于通过对模型进行平均来减少方差，同时它们尽可能地保留这些变量的期望。

我希望我以某种方式清楚，我会在以后有机会时重试，最终改进这一点。

其它你可能感兴趣的问题

上一篇为什么使用 d-prime 而不是正确百分比？下一篇R中均值和中位数的荟萃分析？