我对两个概念有点困惑。
据我了解,Bagging 是在每次选择后替换每个数据。因此,例如,对于您从总体中选择一个数据的每个子集,替换它然后再次选择一个,等等......这对每个数据子集重复。
但是对于粘贴的人来说,它是没有替换的采样,但这是否意味着您不能在任何子集上拥有相同的数据?我认为它会选择一个没有替换的子集,但是当它在选择另一个子集时替换所有数据时,不是吗?
我对两个概念有点困惑。
据我了解,Bagging 是在每次选择后替换每个数据。因此,例如,对于您从总体中选择一个数据的每个子集,替换它然后再次选择一个,等等......这对每个数据子集重复。
但是对于粘贴的人来说,它是没有替换的采样,但这是否意味着您不能在任何子集上拥有相同的数据?我认为它会选择一个没有替换的子集,但是当它在选择另一个子集时替换所有数据时,不是吗?
实际上,我认为您基本上是正确的,除了在我的理解中, “有/无替换”仅适用于选择一个子集,而不适用于跨子集。这意味着如果我们有一组训练实例:
理论上,样本的大小可以大于装袋但不粘贴。
请注意,为了清楚起见,我指的是多集,但正式它本身不是一个集合,因为理论上它可能包含两次相同的实例。