在多项逻辑回归中选择参考因子有什么标准吗?

机器算法验证 物流 多项分布
2022-03-31 06:52:23

我有一个包含四个类别的因变量。我也有四个连续的自变量。第三类涵盖样本中最大的群体。选择涵盖最大群体的类别作为参考因素是否重要,还是我可以选择另一个对比较有意义的类别?

1个回答

您可以自由选择任何类别作为参考。从模型预测的整体统计质量的角度来看,选择是任意的。在对个体 IV 影响的解释方面,情况有所不同。多项逻辑模型为:

log(Prob(categoryi)Prob(categoryref))=Bi0+Bi1X1+Bi2X2...+BipXp

因此,您可以解释每个类别相对于您的参考类别的自变量的影响(回归系数) 。即,是这个优势比相对于增加增加多少倍一个单位irefexp(Bi1)Prob(categoryi)Prob(categoryref)X1

这也意味着,如果你想解释系数,你不应该只看它们是否显着。自变量是连续的还是分类的,这很重要。即使预测变量非常重要,对于具有大尺度(大方差)的连续预测变量,因此,每当您要解释系数时,通常最好在进行回归之前将连续预测变量分类为少数有意义的类别。此外,将连续预测变量分类为相等的子范围将允许您检查线性假设。Xexp(B)