是否有任何类型的(简单)汇总统计数据可以尝试估计给定样本中的模式数量?
我的意思是,我想要一些函数的行为如下:
等等
是否有任何类型的(简单)汇总统计数据可以尝试估计给定样本中的模式数量?
我的意思是,我想要一些函数的行为如下:
等等
简单的汇总统计?并不真地。
任何类型的汇总统计?是的,但我猜这是一个比你想象的更难的问题(而且这些方法给出的答案没有你想要的那么可靠)。
为了帮助激发难度,请考虑以下直方图:
我相信看这个图,你会希望你的函数返回 2,因为似乎有两种清晰的模式。请注意,这是由 Rhist函数使用默认设置构建的直方图。
但是如果我们决定把直方图做得更精细一点呢?现在考虑我们是否想要在同一数据集上使用 20 个 bin 而不是 7 个。
现在也许你想让你的函数告诉你有 4 个峰值!100个箱子怎么样?
这么多峰!您可以看到,我们的直方图中的模式数量随我们选择的 bin 数量而变化很大(顺便说一句:这是来自四个非常不同的法线的模拟数据,每个分布有 100 个观察值。所以“真正的”答案是 4 个模式。这个也将被认为是一个简单的例子,因为分布是如此不同)。
虽然您可能认为这只是直方图如何工作的一个明显结果,但这是这些问题中非常标准的情况:您有某种平滑参数(在直方图上下文中,这将是 bin 的数量)并且随着您的不同您的平滑参数,您会得到完全不同数量的报告模式。通常,决定使用什么平滑参数值并非易事。
如果您仍然非常感兴趣,那么需要研究的两个主题可能是核密度估计和高斯混合建模。但请注意,您不应该期望能够可靠地估计总体中模式的真实数量!