我想检查一下我对使用 GLM 进行预测的理解:
二项式/逻辑回归模型预测二项式参数 = p = P(成功)。要将概率转换为类别,我们必须添加阈值或截止值。
相同的想法适用于多项逻辑回归模型。
泊松回归模型预测泊松参数 = 比率。要转换为计数,我再次使用阈值?
伽马模型预测比例和速率参数。我不需要阈值,因为响应是连续的。
我想检查一下我对使用 GLM 进行预测的理解:
二项式/逻辑回归模型预测二项式参数 = p = P(成功)。要将概率转换为类别,我们必须添加阈值或截止值。
相同的想法适用于多项逻辑回归模型。
泊松回归模型预测泊松参数 = 比率。要转换为计数,我再次使用阈值?
伽马模型预测比例和速率参数。我不需要阈值,因为响应是连续的。
引用维基百科:
GLM 由三个要素组成:
- 概率分布的指数族。
- 线性预测器
- 一个链接函数使得
GLM 没有固有的阈值。做出(有时称为“平均函数”)的预测。对于可以转化为类成员概率的二项式模型。对于泊松模型,您直接对计数进行建模。
然后,您对二项式 GLM 的应用可能涉及进行类别预测的阈值。您对泊松计数模型的应用可能涉及将计数转换为每单位时间、长度或面积的比率。但这些应用程序应被视为 GLM 本身之外的应用程序。
共同点是所有这些模型都预测有条件的期望。如果您的目标类编码为 1,而您的非目标类编码为 0,则新实例属于目标类(阈值是不确定的,并且会丢失很多信息。只有在您知道自己在做什么的情况下才这样做。)
您的泊松回归还将预测条件期望。(只要您的预测是在响应尺度上,而不是线性尺度上。)您可以将此预测期望输入泊松计算器,以获得每个可能计数的预测概率。请注意,此过程是一个捷径,它完全忽略了您对的估计中的不确定性-在这里查看更严格的方法。
请注意,还有其他模型可以预测目标变量分布的其他函数,例如分位数回归,其旨在预测某个分位数。
预测是什么意思很重要。不幸的是,这个术语可能有点模棱两可,特别是因为回归模型中协变量的线性组合通常被称为线性预测变量。
广义线性模型的典型目的是估计总体均值并对均值进行推断。这将是伯努利模型中的比例和泊松或伽马模型中的平均值。
预测一词最好保留在对未来采样观察感兴趣的情况下。当然,我们对未来观察的最佳点预测是总体的估计平均值。对于伽马模型,人们会将样本均值报告为未来观察的点预测。对于伯努利模型,人们将报告具有最大估计比例的值 0 或 1,因为单个观察值只能采用这些离散值。对于泊松模型,可以报告四舍五入到最接近整数的平均值,因为泊松分布的支持是非负整数。也可以使用均值的地板或天花板函数来产生点预测。
人们可能还对展示人口的估计百分位数感兴趣。重要的是,这些都与公差区间(人口百分位数的置信区间)一起呈现。或者,人们可能有兴趣量化关于单个未来观测点预测的不确定性。这将需要使用不是估计百分位数的预测区间。 这是一个讨论预测间隔的相关线程。
附录:将数据拆分为训练和测试是为了验证模型的样本外预测能力。我首选的方法不是将数据拆分为训练集和测试集。相反,我建议从数据集中引导(带有替换的样本)观察值,就好像它是总体一样,拟合模型,并为特定预测目标(单个未来 [观察] 或基于个观察的未来)。的样本并计算 i) 点预测和目标之间的差异, 和 ii) 预测区间是否覆盖目标。重复此操作 10,000 次并绘制点预测误差的直方图并计算预测区间的覆盖率。这验证了基于操作特性的模型的性能。
从您的数据集中进行替换抽样会将其视为更大的总体。您的数据集的百分位数可能与您假设的 glm 模型的理论百分位数不匹配。这意味着存在轻微的模型错误指定,因此如果预测区间未覆盖标称水平并且预测误差的直方图显示小偏差(不以零为中心),请不要感到惊讶。您还可以通过模拟从与您的 glm 匹配的理论模型(例如 gamma 或 Poisson)随机生成观察结果来执行此类验证。在这里,您应该会发现预测区间的表现接近标称水平,并且您的点预测对于目标而言是渐近无偏的。
这种方法也可用于验证总体参数的点和区间估计。