机器算法验证 - 进行逻辑回归时如何选择链接函数？ - 吾爱随笔录

进行逻辑回归时如何选择链接函数？

机器算法验证回归物流 sas 链接功能

2022-04-04 14:29:51

我正在运行一个逻辑模型。在 SAS Entreprise Miner 中，我注意到有一个链接函数，它具有三个可能的选项：logit和probit（cll互补 log-log）。

能否请您阐明以下问题：

我们可以使用这些链接函数中的任何一个来进行逻辑回归吗？
有没有比其他人更好的情况？
是否可以直观地了解哪种功能在哪种情况下有用？（仅通过查看公式，当数据没有（太多）偏离正态分布时，互补对数对数函数可能有利于数据的标准化。）

任何额外的指针将不胜感激。

4个回答

我不知道SAS，所以我将根据问题的统计数据来回答。关于您可能会在姊妹网站 stackoverflow 上询问的软件。

如果链接功能不同（logistic、probit 或 Clog-log），您将得到不同的结果。对于物流，请使用物流。
关于这些链接功能的真正区别。

逻辑和概率几乎相同。要了解为什么它们几乎相同，请记住在线性回归中，链接函数是恒等式。在逻辑回归中，链接函数是逻辑函数，在概率中，是正态函数。形式上，您可以通过注意到，如果您的因变量是二元的，您可以将其视为具有给定成功概率的伯努利分布。 $Y \sim Bernoulli(p_{i})$

$p_{i} = f(\mu)$

$\mu = XB$

在这里，他们可能 $p_{i}$ 是预测器的函数，就像在线性回归中一样。真正的区别是链接功能。在线性回归中，链接函数只是恒等式，即 $f(\mu) = \mu$ ，所以你可以只插入线性预测变量。在逻辑回归中，链接函数是累积逻辑分布，由 $1/(1+exp(-x)) 给出。在概率回归中，链接函数是（逆）累积正态分布函数。而在 Clog-log 回归中，链接函数是互补对数对数分布。

我从来没有使用过 Cloglog，所以我会在这里放弃关于它的评论。

您可以在 Endeavor 的 John Cook 的这篇博文中看到 Normal 和 Logist 非常相似http://www.johndcook.com/blog/2010/05/18/normal-approximation-to-logistic/。

一般来说，我使用逻辑，因为系数比概率回归更容易解释。在某些特定情况下，我使用概率（理想点估计或当我必须编写自己的 Gibbs 采样器时），但我想它们与您无关。所以，我的建议是，每当对概率或逻辑有疑问时，请使用逻辑！

我有一个问题/评论。我认为根据定义，逻辑回归使用 logit 链接。如果您使用的是概率或互补对数对数链接，那么我认为这不是逻辑回归。

您正在做的是在二元结果上拟合广义线性模型，假设它遵循伯努利。链接函数的 3 种常用选择是 logit、probit 和互补 log-log。如果您使用的是 logit 链接，那就是逻辑回归。

所有 3 个链接功能都是 s 形的，不会有太大的不同。Li 和 Duan 表明，如果预测变量表现良好（椭圆对称预测变量是表现良好组的子集），则更改链接函数将通过乘法常数改变系数。即使预测变量表现不佳，相似链接函数之间的差异也不太可能改变整体推断（确切的系数会发生变化，但重要或重要的仍将在不同的链接函数下）。

logit 允许您将单个系数解释为对数赔率，因此它往往是当今最流行的。

这是一个很好的问题，它位于数学和科学的结合处。作为教授涉及“逻辑回归”及其几个可能的链接功能的线性模型课程的人，我觉得有必要回答。

首先，我相信 SAS 正在拟合广义线性模型 (GLM) 并在其“逻辑”函数中使用 MLE （或qMLE ）估计参数。因此，任何将 (0, 1) 转换为 (-\inf, \inf) 的适当链接函数都是合适的。在无限类函数中，logit、probit 和互补 log-log 是成员......所有分位数函数也是如此。

其次，logit 和 probit 链接函数之间几乎没有明显差异。虽然系数估计值往往相差约 3.8 倍，但预测值将非常相似。

第三，logit 和 probit 函数关于 (0, 0.5) 对称，而互补 log-log 函数不是对称的。这构成了 logit/probit 函数和互补 log-log 函数之间的主要区别。

回想一下，因变量是成功的概率，自变量是线性预测变量。对于 logit/probit 链接，函数值接近 0 的速率与接近 1 的速率相同。但是，对于互补 log-log 函数，这不是真的。cloglog 函数接近 1 比接近 0 更剧烈。 [旁注：log-log 函数是 cloglog 的补码。它比 1 更接近 0。]

第四......我不确定你的最后一个问题实际上意味着什么。我的经验是，科学还不够先进，无法提出“正确”的链接功能。因此，我指导我的学生使用几个链接函数来拟合他们的模型。如果系数结果相差“很大”，那么他们的模型就有问题。否则，该模型对链接函数的选择具有鲁棒性。

虽然这是对 ayush biyani 的回答，但我认为 #4 可以引发关于链接功能的有趣讨论。

其它你可能感兴趣的问题

上一篇如何基于 R 中的线性混合模型拟合对象模拟数据？下一篇2x3 列联表的关联度量