我有一些跨越几年的数据:2006-2010。我已经运行逻辑回归来对数据进行建模。对于整个数据集,我得到一个 95% 的置信区间来表示感兴趣的参数的优势比
(0.34 - 0.47 )
说明效果非常显着。但是,对于每一年,使用相同的模型规范,置信区间为:
2006: (0.78 - 1.94) (not significant)
2007: (0.61 - 0.93)
2008: (0.63 - 0.90)
2009: (0.92 - 1.30) (not significant)
2010: (0.88 - 1.33) (not significant)
我如何调和整个数据集的置信区间低于所有个别年份的置信区间?我猜这与样本量有关——更大的样本量会导致更低的 p 值:我想我得到了这背后的数学原理,但我无法理解它背后的直觉。
更新1
为了回应迈克尔和彼得的回答,我提供了更多信息。
型号为:
death~treatment+age+imd+smoking+clinicals+drugs+comorbidities
笔记:
- 死亡是二元的
- 治疗是二元的 - 是否给予治疗 A 或治疗 B。这是我给出的置信区间的感兴趣的参数(我通过对估计值 +/- 1.96xSE 的 CI 求幂获得)
- 年龄是年龄
- imd 是患者的社会经济地位指数
- 吸烟是分类的,并且具有与患者吸烟状况有关的几个级别。
- 临床是一组临床测量,如心率、血压
- 药物是一组二元协变量,指示是否给予特定药物
- 合并症是一组二元协变量,表明患者是否患有某些疾病:例如哮喘、糖尿病
在整个模型中,我没有将年份作为协变量包括在内 - 相同的模型公式用于子集数据和整个数据。
连续变量之间的共线性没有问题,但我不太确定分类变量之间的关联。我认为这可能是一个问题,但我不知道如何解决它 - 我尝试了一些卡方检验,但没有任何东西独立于其他任何东西(我认为这可能是由于样本量 - 据我的老师说它没有例如,哮喘与糖尿病共存是没有意义的)
更新2
在迈克尔进一步评论之后,我现在提供更多信息……治疗 A/B 的比例在此期间发生了很大变化 - 这是 2006 年的一种新治疗,几乎没有使用,但现在是首选治疗:
2006: 555 out of 11,505
2007: 2,810 out of 12,307
2008: 5,669 out of 13,243
2009: 9,111 out of 14,654
2010: 12,368 out of 15,573
总体:92,767 中的 30,643
死亡率没有太大变化(整个过程中约为 7%)
