如何模拟上周吸烟的天数(0 到 7 - 'U' 形)?

机器算法验证 回归 分类数据 状态
2022-04-03 21:33:27

我目前正在分析结果变量为“U”形的数据。结果变量询问“过去 7 天中有多少天你抽过烟”。对此的大多数回应都属于第一(无)和最后(所有七个)类别。因此,我认为计数数据模型不合适。

对这个变量建模的好方法是什么?

2个回答

您可能想查看两部分(又名跨栏)计数数据模型。一个好的起点是Cameron 和 Trivedi 的使用 Stata 的微观计量经济学的第 17 章事实上,你的吸烟例子就是他们用来激励这一点的例子。本质上,您有一个模型来确定一个人是否开始吸烟,然后另一个模型可以确定他们决定吸烟的程度。

过度分散的障碍计数数据的另一个很好的来源是Farbmacher (2011) SJ 论文(向下滚动以找到它)。当您的结果的(条件)方差超过(条件)均值时,就会发生过度分散,这种情况通常是这样的数据。

考虑感兴趣的结构

我会考虑您要测量的构造。正如 Macro 所提到的,您的变量可能在很大程度上反映了人们要么吸烟要么不吸烟的事实。如果他们是吸烟者,他们会倾向于在一周中的每一天都吸烟,如果他们不是吸烟者,他们不会。

可能还有第三类临时或偶尔吸烟者。也就是说,您的单项测量可能不是区分这三个类别的最佳方法。因此,如果您对普通吸烟者和随意吸烟者之间的区别感兴趣,那么我会考虑结合其他一些随意吸烟的指标。

如果您对吸烟的频率或强度感兴趣,那么您的产品在测量方面很差。您最好询问每天的平均吸烟频率或类似的问题。

一般建议

因此,我会考虑更深入地考虑您想要测量的内容。但是,如果您对现有数据感到困惑,您可能想要做一些不同的事情之一:

  • 将变量重新编码为无或一个或多个,并使用二元逻辑回归进行预测。
  • 将变量重新编码为无、1 到 6 和 7,并使用多项逻辑回归进行预测。
  • 不要重新编码并使用诸如有序概率或有序逻辑回归之类的东西来预测变量。