集成学习中的 bagging vs. paste

数据挖掘 机器学习 装袋 粘贴
2022-02-16 13:33:59

我对两个概念有点困惑。

据我了解,Bagging 是在每次选择后替换每个数据。因此,例如,对于您从总体中选择一个数据的每个子集,替换它然后再次选择一个,等等......这对每个数据子集重复。

但是对于粘贴的人来说,它是没有替换的采样,但这是否意味着您不能在任何子集上拥有相同的数据?我认为它会选择一个没有替换的子集,但是当它在选择另一个子集时替换所有数据时,不是吗?

1个回答

实际上,我认为您基本上是正确的,除了在我的理解中, “有/无替换”仅适用于选择一个子集,而不适用于跨子集。这意味着如果我们有一组训练实例={1,..,ñ}

  • 使用 bagging,一个特定的样本可以包含重复的实例,换句话说,它不是但是一个多集,其中一个实例一世可能会发生几次。当然是选择同一个实例的概率一世 n时间迅速减少时n增加,取决于大小ñ.
  • 粘贴样本是并且不能包含相同的实例一世两次。然而,从全套中再次抽取另一个样本,这意味着可以在几个不同的样本中选择一个实例。

理论上,样本的大小可以大于ñ装袋但不粘贴。

请注意,为了清楚起见,我指的是多集,但正式它本身不是一个集合,因为理论上它可能包含两次相同的实例。