我目前正在分析结果变量为“U”形的数据。结果变量询问“过去 7 天中有多少天你抽过烟”。对此的大多数回应都属于第一(无)和最后(所有七个)类别。因此,我认为计数数据模型不合适。
对这个变量建模的好方法是什么?
我目前正在分析结果变量为“U”形的数据。结果变量询问“过去 7 天中有多少天你抽过烟”。对此的大多数回应都属于第一(无)和最后(所有七个)类别。因此,我认为计数数据模型不合适。
对这个变量建模的好方法是什么?
您可能想查看两部分(又名跨栏)计数数据模型。一个好的起点是Cameron 和 Trivedi 的使用 Stata 的微观计量经济学的第 17 章。事实上,你的吸烟例子就是他们用来激励这一点的例子。本质上,您有一个模型来确定一个人是否开始吸烟,然后另一个模型可以确定他们决定吸烟的程度。
过度分散的障碍计数数据的另一个很好的来源是Farbmacher (2011) SJ 论文(向下滚动以找到它)。当您的结果的(条件)方差超过(条件)均值时,就会发生过度分散,这种情况通常是这样的数据。
我会考虑您要测量的构造。正如 Macro 所提到的,您的变量可能在很大程度上反映了人们要么吸烟要么不吸烟的事实。如果他们是吸烟者,他们会倾向于在一周中的每一天都吸烟,如果他们不是吸烟者,他们不会。
可能还有第三类临时或偶尔吸烟者。也就是说,您的单项测量可能不是区分这三个类别的最佳方法。因此,如果您对普通吸烟者和随意吸烟者之间的区别感兴趣,那么我会考虑结合其他一些随意吸烟的指标。
如果您对吸烟的频率或强度感兴趣,那么您的产品在测量方面很差。您最好询问每天的平均吸烟频率或类似的问题。
因此,我会考虑更深入地考虑您想要测量的内容。但是,如果您对现有数据感到困惑,您可能想要做一些不同的事情之一: