如果您怀疑两种分布的组合,该怎么办?

机器算法验证 分布 负二项分布
2022-03-28 15:21:47

到目前为止,我的技术是老派(在 1980 年代获得学位) - 回归,交叉表,......充其量是泊松和负二项式。SPSS/SAS,现在是 R。通常只运行并报告...

我现在遇到真实数据,其中计数结果看起来是 0 的尖峰,然后下降,然后是另一个分布,在一些正数附近相当正常。我说我们有两个人口联合在一起。

该怎么办?没有坚定的想法。我是否应该忽略图表(将报告它)并根据假设运行并报告回来,它会有一些高达 30% 的 R2。t 检验信号。对于某些因素。但就是这样吗?我不知道。

3个回答

假设您的变量是花在肉上的钱。在这种情况下,您在 0 时的峰值是素食者。你似乎在做一个回归模型。不考虑素食者的存在是有问题的。这种数据的一种可能性是赫克曼选择模型

除了 Maarten 的答案之外,还有零膨胀泊松模型和零膨胀负二项式模型。所有这些过去都在这里讨论过。

观察实际上是两个或多个不同分布的卷积的分布是很常见的。

通常,您可以针对单个群体观察相同的现象,但观察不同的原因导致需要多个分布来描述数据;或者您可能会在同一张图中观察到两种不同的现象。

作为第一个示例,您可能正在用尺子测量男性人群的身高,并且患有帕金森病;然后,您的分布将是男性身高和您自己的震颤的卷积 - 两者都是以真实值为中心的高斯分布。或者,您可以非常健康,并使用男性和女性的样本来测量人们的身高;然后,您将观察到两个部分重叠的不同高斯分布。

无论您的情况如何,都没有理由忽略零附近的子样本,除非您认为它是噪声,并且您不想建模。