我有一个由许多广告印象组成的大型数据集。我的依赖二进制变量 clicked 描述了广告是否被点击。正如您所料,点击次数比我的数据集中的非点击次数小约 1000 倍。
我正在为这个数据集拟合一个在线逻辑回归,我发现我的预测似乎低估了观察到的点击率
King and Zeng (2002)声称“逻辑回归会严重低估罕见事件的概率”。Firth (1993)提出了一种预防方法,通过使用 Jeffreys Prior 来避免 Logistic 回归中的一阶偏差:
而不是应用通常的梯度:
以下梯度应该纠正一阶偏差:
在哪里:
- 是观察
- 是观察
- 是观察的特征
- 是个对角元素,其中
Heinze & Schemper (2002)描述的这个公式也被用于在 R 中实现 logistf 包。
可以想象,大型数据集的计算可能非常昂贵。因此我的以下问题:
- 是否有人尝试将 Firth 方法应用于在线 Logistic 回归?你是如何简化的计算的?
- 对于大型不平衡数据集,是否有不同的方法来纠正在线逻辑回归中的低估偏差?