负二项式回归?

机器算法验证 回归 分类数据 二项分布 泊松分布 泊松回归
2022-03-20 20:44:17

我有一个因数变量,用于衡量一组在住院时接受两种不同医疗干预的患者在医院 (LOS) 的天数。我试图检查治疗对因变量 LOS 的影响,同时控制其他变量。在这里使用负二项式模型是否合适?通常,我认为是的,但我有点困惑,因为我读到的关于泊松和负二项式回归的所有内容都表明我需要使用具有相同时间段的计数(或使用偏移量)。但就我而言,在医院度过的时间或天数我的因变量。鉴于此,使用负二项式回归是否仍然合适?如果它有助于提供答案,我正在使用以下 SAS 代码(但不确定它是否合适):

proc genmod data=work.hosp;
class trt gender;
model los = trt admissiondept age severity_index gender injscore / dist=negbin link=log type3;
run;
3个回答

假设 LOS旨在作为 DV 而不是协变量,“停留时间”实际上并不是一个计数(在所需的意义上),而是一个(可能离散的)持续时间。您通常不会为此使用计数模型。

我倾向于使用生存模型;这也将使您能够应对可能的审查(例如,对于当您停止获取数据时仍在医院的人 - 您不能因为他们的持续时间尚未结束而将他们排除在外,否则您将对 LOS 长的人有偏见)。

您提到的建议(计数需要参考相同长度的时间间隔)在这里似乎无关紧要。这适用于您在某个时间间隔内计算点事件数的情况。但是您的响应变量是持续时间,因此情况完全不同。因此,我认为您可以尝试使用泊松(或负二项式)回归,然后使用残差图等进行验证。

负二项式仍然是合适的。如果您的数据符合等分散假设,泊松也是如此。(如果没有,请坚持使用 nbreg。)