具有相关观察的逻辑回归

机器算法验证 物流 非独立的 广义估计方程 咕噜咕噜
2022-04-07 21:35:58

我有一个数据集,其中包含 5 年期间的 100 名不同患者。每个患者每个月都会针对特定疾病进行检查,并标记为健康或生病(0 或 1)。每个人在我的样本中出现 60 次(5 * 12 = 60)。

每个月患者提供 A = 该月的平均血压,B = 平均每日运动时间和 C = 该月吸烟的平均数量。

数据集的布局如下:

ID (Unique Patient Identifier)
Month (1 to 60)
A (Average blood pressure in that month)
B (Average daily exercise hours)
C (Average number of Cigarettes smoked in that month)
Ill (Yes, No)

我正在考虑使用 Logistic 回归,它使用过去三个月的信息,并给出患者在接下来的 2 个月内被标记为生病的概率。

我的问题是逻辑回归假设观察是独立的,而在我的情况下它们显然不是。

我应该怎么办?我应该使用 GEE 或 GLMM 之类的东西还是其他东西?

1个回答

您总是可以想出一组转换变量,将 3 个月的数据汇总到每个患者的一次观察中(例如,前 3 个月的平均血压、3 个月的运动时间/香烟等)。然后你有独立的观察(每个病人 1 个),你可以建立模型。这种方式违背了每月粒度的目的,但您可以根据合法的纵向方法评估这样的逻辑回归。