我一直在研究流失预测中生存分析的 Cox 回归方法。Cox 回归将允许我们确定订阅者在时间后退订的概率,由风险率定义:
在哪里
:基线风险是所有影响因素都为 0 时任何客户在时间 t 流失的先验概率。
:每个系数的指数给我们一个危险比。这些应该是恒定的时间(比例假设)。
个样本客户的集合
问题:比例风险假设:Cox 回归假设风险比应在时间内保持不变。例如,对于协变量 = "gender",例如。时间后离开服务的概率比女性多。但是,这个中保持不变。
这通常是对许多变量的不合理约束。但是还有其他方法可以合并不遵循比例风险假设的变量。
- 分层cox回归
- 伪观察
- 具有时间相关协变量的 cox 回归
我只是在阅读分层 cox 回归。这里唯一明显的缺点是:
- 分层的变量需要转换为分类变量
- 分层的分类变量不应该有太多的自由度。这将导致大量模型的参数需要估计。
问题:伪观察是否相似?它有更少/更严格的约束吗?即便如此,考虑到我有大量数据,它的性能如何?