具有罕见事件的大规模逻辑回归的偏差校正

机器算法验证 物流 不平衡类 在线算法 罕见事件 偏差校正
2022-03-25 20:42:36

我有一个由许多广告印象组成的大型数据集。我的依赖二进制变量 clicked 描述了广告是否被点击。正如您所料,点击次数比我的数据集中的非点击次数小约 1000 倍。

我正在为这个数据集拟合一个在线逻辑回归,我发现我的预测似乎低估了观察到的点击率

King and Zeng (2002)声称“逻辑回归会严重低估罕见事件的概率”。Firth (1993)提出了一种预防方法,通过使用 Jeffreys Prior 来避免 Logistic 回归中的一阶偏差:

而不是应用通常的梯度:

U(βr)=i=1n(yipi)xir=0

以下梯度应该纠正一阶偏差:

U(βr)=i=1n(yipi+hi(12pi))xir=0

在哪里:

  • yi是观察i
  • pi是观察i
  • xir是观察的特征ri
  • hi个对角元素,其中iH=W12X(XTWX)1XTW12W=diag(pi(1pi))

Heinze & Schemper (2002)描述的这个公式也被用于在 R 中实现 logistf 包。

可以想象,大型数据集的计算可能非常昂贵。因此我的以下问题:H

  1. 是否有人尝试将 Firth 方法应用于在线 Logistic 回归?你是如何简化的计算的?hi
  2. 对于大型不平衡数据集,是否有不同的方法来纠正在线逻辑回归中的低估偏差?
1个回答

首先,我必须承认我不知道你所说的“在线”逻辑回归到底是什么意思。当然,如果您真的进行矩阵运算,则 H 的计算成本很高。然而,所需要的只是 H 的对角线元素,它们的成本要低得多。根据您的解释变量,您可以对数据进行分组,以便可以为每个协变量/结果组合分配一个频率计数。这大大加快了计算速度。这两个选项都在我们的 R 包 logistf 的当前版本中实现(并默认使用)。