我不明白为什么饱和模型完美拟合?我知道定义,我只是没有任何直觉。
饱和模型 - 为什么它完美贴合?
对身高有一些直觉的一种方法是仔细查看参数索引。我将使用列联表分析中的一个示例,因为我认为它比回归上下文更清晰一些(也因为已经指出了回归版本)。
考虑双向列联表的对数线性模型。符号上,第行和列值表示为。教科书为这些条目的期望值或平均值的对数定义了一系列模型,的期望值的模型一样协变量的一些函数。
假设您对链接函数(此处为日志)的概念以及对某事物的预期值而不是其实际值进行建模的想法有一些直觉,那么饱和度的直觉是这样的:
最简单的模型表示 这意味着根据模型,所有条目应该具有相同的预期值,因为参数没有索引,这意味着它适用于所有和所有。(稍微简化一下,参数只有在具有可以变化的索引时才是不同的,并且它们可以具有与该索引的可能值一样多的不同值。)
接下来的两个最复杂的模型 和 说每一行(列)具有相同的期望值,但不同的行(列)可以有不同的预期值,因为新参数由而不是(但不是)索引这些模型允许与行(列)一样多的不同预期单元格值,但不同的值仍然更少比总共有单元格条目,所以模型没有饱和,预期值通常不会与实际值完全一致。
最后,这个序列中最复杂的模型是 }桌子。中的条目和的所有组合标记,并且模型也具有对应于和的所有组合的参数,因此每个单元格都可以有效地获得自己的参数。在这种情况下(并且当我们通过最大似然拟合时)预期的单元格值与实际的单元格值一致。
更详细地说,并与第二个模型进行比较:第行中的预期单元格值被迫完全相同,即使第行中的实际单元格值可能不是,所以我们可以将两者之间的差异解释为平均值的未建模变化。在最终模型中,每个单元格的模型预期值没有变化,因为没有其他单元格具有相同的均值可以与之比较,因此预期单元格值也是实际值。
附录:这些想法的完全平行发展不是基于各种不同类型模型的参数,而是基于每个模型必须尊重的表格总和和边际。在这个序列中,我们的第一个模型只需要与就条目的总和达成一致。在第二个模型中,它必须就总和达成一致,并且还获得与相同的行总数。在第三个模型中,它必须就总和达成一致,并获得与相同的列总数。在最终模型中,它必须反映所有的入口值。但是,如果您对参数有直觉,那么为什么这些边距捕获关系成立应该是有道理的。
饱和本质上意味着“完美贴合”。在饱和模型中,估计参数与观测值一样多。
以只有 2 个观察值的简单案例为例。说“身高”是DV,一男一女。现在,一个只有“性”作为 IV 的模型将非常适合。在线性模型中,截距是两个人的平均身高,(比如说)男性的影响是男人和女人之间的差异。
饱和模型是一种估计参数与数据点一样多的模型。
考虑线性回归的情况。您有一个大小为和个回归量的样本,包括常数项。然后,您实际上是在尝试“解决”(即找到满足的个未知参数)一组线性方程
在矩阵符号中
只要,系统就不能精确求解,因为我们有比未知数更多的方程,所以我们求助于近似解,在某些最优性标准下,例如,最小化平方偏差和的参数向量。但是如果,那么我们的未知数和方程一样多。这反映在现在,矩阵已经变成了方阵,我们正在看
然后从高中代数中,我们知道只要矩阵是可逆的(“行列式不为零”),那么系统就有唯一解
但这是数学上的、精确方程中的每一个- 没有“残差” - 在统计术语中,它相当于“完美拟合”。