数据挖掘 - 集成学习中的 bagging vs. paste - 吾爱随笔录

数据挖掘机器学习装袋粘贴

2022-02-16 13:33:59

我对两个概念有点困惑。

据我了解，Bagging 是在每次选择后替换每个数据。因此，例如，对于您从总体中选择一个数据的每个子集，替换它然后再次选择一个，等等......这对每个数据子集重复。

但是对于粘贴的人来说，它是没有替换的采样，但这是否意味着您不能在任何子集上拥有相同的数据？我认为它会选择一个没有替换的子集，但是当它在选择另一个子集时替换所有数据时，不是吗？

1个回答

实际上，我认为您基本上是正确的，除了在我的理解中， “有/无替换”仅适用于选择一个子集，而不适用于跨子集。这意味着如果我们有一组训练实例 $T=\{t_1,..,t_N\}$ ：

使用 bagging，一个特定的样本可以包含重复的实例，换句话说，它不是 $T$ 但是一个多集，其中一个实例 $t_i$ 可能会发生几次。当然是选择同一个实例的概率 $t_i$ $n$ 时间迅速减少时 $n$ 增加，取决于大小 $N$ .
粘贴样本是 $T$ 并且不能包含相同的实例 $t_i$ 两次。然而，从全套中再次抽取另一个样本 $T$ ，这意味着可以在几个不同的样本中选择一个实例。

理论上，样本的大小可以大于 $N$ 装袋但不粘贴。

请注意，为了清楚起见，我指的是多集，但正式 $T$ 它本身不是一个集合，因为理论上它可能包含两次相同的实例。

其它你可能感兴趣的问题