桶和桶有什么区别?

机器算法验证 术语
2022-03-27 03:50:43

在计算直方图时,我们会进行数据分箱,或者将一些或多或少的连续值分组到较少数量的“箱”中。但是在桶排序中,我们设置并根据其值为某个集合的每个值分配一个桶。尽管出于不同的目的,但这些方法似乎与我相似。

在统计中,bin/binning 和 bucket/bucketing 有什么区别?例如,如果我有一组N观察抽样y=f(x1,x2,x3),并且我想估计一些统计数据在我的域中如何变化,一种方法是将我的N根据在箱/桶中的观察(x1,x2,x3,y)并计算每个箱/桶内的统计数据。一个例子可以是作为纬度、经度和高度函数的温度的平均值和标准偏差。

在此示例中,我将数据划分到的那些实体是否有标准术语?那些更正确地称为垃圾箱或桶?还是真的不重要?

1个回答

一个很好的问题,也是我自己提出的一个问题,因为当我改变学科时,我听说过这些称为桶、组、分组、类别、分类变量、离散变量和箱。一般来说,使用你的分析的最终用户最喜欢使用的语言——从某种意义上说,说他们的语言(或强迫他们使用你的语言!哈)。这里没有错误的答案,除了无数的统计学家会说你不应该在没有很好的理由(或永远!)的情况下将变量分组到箱/桶中,因为你正在花费自由度,任意创建您的桶/箱的截止点,并丢失您曾经有价值的连续变量提供的信息。