生存分析:伪观察与分层 Cox 回归。哪一个更好?

数据挖掘 机器学习 统计数据 生存分析
2022-02-11 02:42:37

我一直在研究流失预测中生存分析的 Cox 回归方法。Cox 回归将允许我们确定订阅者在时间后退订的概率,由风险率定义:t

h(t|Xi)=h0(t)exp(βTXi)

在哪里

  • h0(t)基线风险是所有影响因素都为 0 时任何客户在时间 t 流失的先验概率。

  • βRD:每个系数的指数给我们一个危险比这些应该是恒定的时间(比例假设)。

  • XRN×D个样本客户的集合N


问题:比例风险假设:Cox 回归假设风险比应在时间内保持不变。例如,对于协变量 = "gender",例如时间后离开服务的概率比女性多但是,这个中保持不变tX1β1=1.880%t80%t

这通常是对许多变量的不合理约束。但是还有其他方法可以合并不遵循比例风险假设的变量。

  • 分层cox回归
  • 伪观察
  • 具有时间相关协变量的 cox 回归

我只是在阅读分层 cox 回归。这里唯一明显的缺点是:

  • 分层的变量需要转换为分类变量
  • 分层的分类变量不应该有太多的自由度。这将导致大量模型的参数需要估计。

问题:伪观察是否相似?它有更少/更严格的约束吗?即便如此,考虑到我有大量数据,它的性能如何?

1个回答

我建议使用对风险比例进行更宽松假设的模型。在我的工作中,我使用了分段常数风险模型,效果非常好。它的假设是危险在一个时间间隔内是成比例的。它允许使用带样条的数值协变量和时间相关协变量。此外,根据我的经验,该模型通常经过很好的校准并且不会过度拟合。