在回归中使用 Anselin Local Moran 的 I 值

机器算法验证 回归 空间的
2022-04-13 06:33:40

我正在对与贫困相关的因素进行多元线性回归,并希望包括一些空间统计数据。我已经为大都市地区的人口普查区提出了 Anselin Local Moran's I 值(集群/异常值)数据,我想将其包含在回归中。

但是,Anselin Local Moran's I 值使用正值或负值进行索引。I 为正值表示一个特征具有相似的高或低属性值的相邻特征;此功能是集群的一部分。I 的负值表示一个特征具有不同值的相邻特征;这个特征是一个异常值。然而,这些值只有在其相应的 z 或 p 分数表明如此时才被认为是显着的。

是否可以在回归中使用像这样的负/正指数作为自变量?

如果是这样,仅考虑某些观察(人口普查区的莫兰 I 值)被认为是重要的,如何解决这个问题?

有关 Anselin Local Moran's I 的更多详细信息,请参见此处:

http://help.arcgis.com/en/arcgisdesktop/10.0/help/index.html#//005p00000012000000

2个回答

为什么不直接使用空间回归模型?这样,您就可以直接在模型中考虑 Local Moran's I 测量的依赖性。顺便说一句,我不建议在模型中包含我看重的地方,我相信评论者也不会。如果您不想使用Moran 特征向量过滤(http://hosho.ees.hokudai.ac.jp/~kubo/Rdoc/library/spdep/html/ME.html )的主题完全空间指定的回归模型

关于当地的 Moran's I 值到底是什么似乎有些混乱,所以让我们回顾一下它们是什么,然后评估它们是否可以在回归方程中给出任何合理的解释。

ESRI 的符号中,我相信您是在谈论将放入回归方程中,或者可能是一个虚拟变量,以表示该观察是否被识别为离群的高-高、低-低值等。放置zIizIi回归方程右侧的值与任何标准化变量的解释基本相同(这当然不是毫无意义的),尽管人们最好同时检查标准化和非标准化版本。虽然我相信 Sergio Rey 的一些工作将它们视为结果变量,因为它分析了时间系统中状态之间的转换(所以它不是超出可能性的领域,但它们经过如此处理,解释它们将是一个挑战)。

为了在这个例子上打个脸,让我们考虑一些 4 x 4 网格上的示例数据。在这里,我按列和行上的字母对值进行索引。

    A  B  C  D    
 A  5 17  1  6    
 B  3 10  3  7    
 C  6  1 11 12    
 D  2  0  3  4    

现在, Local Moran 的 I 值到底是什么好吧,我们首先需要定义局部的含义,典型的方法是指定一个空间权重矩阵,该矩阵通过权重将任何特定值与其邻居内在地联系起来。 ×方矩阵中定义每个观察与其他观察的关系。这里第一个值是指列,第二个值是指行(所以 AC 表示 A 列和 C 行)。展开的值如下,让我们将此列向量的值称为NNx

    x
AA  5
AB  3
AC  6
AD  2
BA  17
BB  10
BC  1
BD  0
CA  1
CB  2
CC  11
CD  3
DA  6
DB  7
DC  12
DD  4

下面的示例仅显示了一种类型的空间权重矩阵,即行标准化邻接矩阵在这里,我根据 Rook 的移动方式定义邻接,因此只有共享原始观察一侧的单元格是邻居。我还通过将 1 除以邻居总数来加权关联(我将进一步详细说明为什么这是一种空间权重矩阵类型,其中行值总和为 1 具有很好的解释)。让我们将此矩阵称为W

    AA      AB      AC      AD      BA      BB      BC      BD      CA      CB      CC      CD      DA      DB      DC      DD
AA  0        1/2    0       0        1/2    0       0       0       0       0       0       0       0       0       0       0    
AB   1/3    0        1/3    0       0        1/3    0       0       0       0       0       0       0       0       0       0    
AC  0        1/3    0        1/3    0       0        1/3    0       0       0       0       0       0       0       0       0    
AD  0       0        1/2    0       0       0       0        1/2    0       0       0       0       0       0       0       0    
BA   1/3    0       0       0       0        1/3    0       0        1/3    0       0       0       0       0       0       0    
BB  0        1/4    0       0        1/4    0        1/4    0       0        1/4    0       0       0       0       0       0    
BC  0       0        1/4    0       0        1/4    0        1/4    0       0        1/4    0       0       0       0       0    
BD  0       0       0        1/3    0       0        1/3    0       0       0       0        1/3    0       0       0       0    
CA  0       0       0       0        1/3    0       0       0       0        1/3    0       0        1/3    0       0       0    
CB  0       0       0       0       0        1/4    0       0        1/4    0       0        1/4    0        1/4    0       0    
CC  0       0       0       0       0       0        1/4    0       0        1/4    0        1/4    0       0        1/4    0    
CD  0       0       0       0       0       0       0        1/3    0       0        1/3    0       0       0       0        1/3
DA  0       0       0       0       0       0       0       0        1/2    0       0       0       0        1/2    0       0    
DB  0       0       0       0       0       0       0       0       0        1/3    0       0        1/3    0        1/3    0    
DC  0       0       0       0       0       0       0       0       0       0        1/3    0       0        1/3    0        1/3
DD  0       0       0       0       0       0       0       0       0       0       0        1/2    0       0        1/2    0    

为了定义局部 I ESRI 使用单个单位的符号,但为了简单起见,我们只考虑一些矩阵代数。如果我们将列向量预先相乘,我们最终会得到一个长度相同的新列向量,该列向量等于相邻值的局部加权平均值。要以更简单的步骤查看发生了什么,让我们只考虑列向量和权重矩阵第一行的点积,即:xWx

[00.5000.500000000000][53621710101211367124]=10

如果您对此进行单独操作,您将看到这个具有行标准化权重矩阵的点积等于每个单独观察值的相邻值的平均值的乘法运算,就是这样估计每个空间权重行和列向量组合的点积。Wxx

这与局部 I 值有何关系,以及为什么您的值有时为负,我们通常将局部 I 值视为全局 Moran's I 测试的分解,在这种情况下,我们不评估实际定位的加权平均值,而是作为偏离平均值。然后,我们通过将局部偏差除以该平均值的标准偏差来进一步标准化这个值,然后基本上给出 Z 分数。诚然,标准化分数在回归分析中并不总是可以直接解释(它们有时可用于在本质上不同的尺度上与其他系数进行比较),但这种批评并不适用于简单的邻居加权平均值。Ii

考虑上面的 x 值是浣熊市上的样方单元(只是一个任意方形网格)的情况,计数是居住在这些特定样方中的已知罪犯的估计数量。从犯罪学理论来看,一个样方中的犯罪数量不仅是当地样方中犯罪者数量的函数,而且是附近样方中犯罪者数量的函数,这当然是合理的。在那种情况下,方程中的两种效果都是合乎逻辑的,并且提供了有用的解释。

现在,除此之外要考虑的事情是,可能需要更通用的空间模型,正如 Corey 所建议的那样。在这样的空间模型中,残差中仍然存在空间自相关通常是这种情况。Corey 建议的参考是必不可少的空间误差模型,它不容易推广到结合自变量的空间效应。空间-Durbin 模型可以。我强烈建议阅读Lesage 和 Pace 的空间计量经济学导论的前 3 章。