如何在广义加法模型(GAM)中选择“家庭”

机器算法验证 r 回归 广义线性模型
2022-03-21 11:40:11

在 R 中使用 GAM 模型建模mgcv时,我们需要定义family =. 我尝试了一些家庭(例如,Gaussian、Gamma),R 似乎都成功地构建了它们。是否有一些关于如何选择合适的“家庭”的准则?

1个回答

这是我所说的“以协变量为条件的结果”的示例。

我想做一个线性回归。我有一个连续的结果,我正在对一个二元变量进行回归。这相当于 t 检验,但我们假设我们不知道。

大多数人所做的是查看数据的边际分布。这相当于绘制结果变量的直方图。现在让我们看看

在此处输入图像描述

呃,恶心,这是双峰的。线性回归假设结果是正态分布的,对吗?我们不能对此使用线性回归!

...或者我们可以吗?这是拟合此数据的线性模型的输出。

Call:
lm(formula = y ~ x, data = d)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.3821 -1.7504 -0.0194  1.7190  7.8183 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   9.8994     0.1111   89.13   <2e-16 ***
x            12.0931     0.1588   76.14   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.511 on 998 degrees of freedom
Multiple R-squared:  0.8531,    Adjusted R-squared:  0.853 
F-statistic:  5797 on 1 and 998 DF,  p-value: < 2.2e-16

非常合身。那么给了什么?

上图是边际结果。回归,无论是线性的还是其他的,只关心条件结果结果的分布取决于协变量。让我们看看当我用二进制变量对观察结果着色时会发生什么。

在此处输入图像描述

您可以在此处看到以结果为条件的数据是正常的,因此符合线性回归的假设。

因此,当我说“考虑以协变量为条件的结果”时,我真正要求您做的是考虑一组特定的协变量并考虑这些协变量的结果分布。这将决定家庭。