这个问题是这个问题的续集。
比例赔率逻辑回归预测每个级别的概率,以预测变量为条件:
但在实践中,我们大多只是想预测水平本身。我认为标准方法是为选择最可能的水平。这至少似乎是R工作的默认方式。predictMASS::polr
另一种方法是计算级别的期望并对其进行四舍五入:
(如所写,这仅适用对于枚举为数字的级别,例如,但将其扩展到其他值是微不足道的)。
这两种方法不同并产生不同的预测。我假设在标准统计软件中实现的第一个应该是首选,但是,至少在我上一个问题的数据集上,第二个表现更好(MAE = 0.97 vs. MAE = 1.71)并且接近性能二项式预测变量的 (MAE = 0.94)。请注意,选择最可能的级别永远不会选择级别 1 和 2:
那么,哪种是预测水平的“标准”方式,在什么情况下可以证明替代方案是合理的?
编辑回应评论:我隐含地假设序数尺度是潜在的、潜在的、连续变量的离散版本,正如 McCullagh (1980) 原始论文中所建议的那样。
