将多个变量组合成一个“分数”

机器算法验证 主成分分析 降维
2022-03-24 20:02:12

我的问题与这个问题非常相似,不幸的是没有解决。

我正在开展一个项目,我想根据各国的艾滋病毒/艾滋病负担对其进行排名。所以我收集了世界上所有国家的大量数据。为简单起见,我们假设每个国家/地区都有以下变量:

  • DEA:艾滋病毒导致的死亡
  • LIV:艾滋病病毒感染者
  • PRV:艾滋病毒感染率
  • DALY:因艾滋病毒而丧失的健康年数
  • DALY 比率:因艾滋病毒而损失的健康年数占因一般疾病而损失的健康年数的比例。

因此,所有这些变量都以某种方式衡量同一件事:艾滋病毒负担。现在我想将所有这些变量组合成一个“分数”,这样我就可以根据各国的艾滋病毒负担对它们进行排名。

我想到的第一件事是进行主成分分析并保留一台 PC。但是,如果我们查看第一台 PC 的负载,我们会看到以下内容:

  • DEA:0.366
  • 生命值:-0.392
  • PRV:-0.442
  • 日:0.466
  • DALY比率:0.481

由于变量之间的高成对相关性,我预计每个载荷都具有相同的符号。现在,艾滋病毒负担高的国家(因此在每个变量上得分高)现在在一侧的第一台 PC 上得分较低(由于“LIV”和“PRV”的负负荷),而在一侧的第一台 PC 上得分较高。另一侧的第一台 PC(由于“DEA”、“DALY”和“DALY 比率”的积极影响)。

我的问题:

  • 由于上述相反的负荷,查看第一台 PC 的分数不是为每个国家的 HIV 负担评分的正确方法,这是否正确?

  • 您能建议另一种(更好的方法)将所有信息组合成一个分数吗?

2个回答

从字面上看你的例子,我想说这种方法从一开始就有问题。

  • 如果问题是评估总负担,那么死亡和艾滋病患者的绝对数量是关键变量,但任何 PCA 都可能由少数人口众多的国家主导。即使您使用基于相关性的 PCA,当变量的单位非常不同时,您也应该使用基于相关性的 PCA,对于大多数可以想象的国家组合,您将有一些大的异常值。

  • 如果问题是评估给定人口规模的总负担,那么其他变量是相关的。

  • 将不同类型的变量混合在一起似乎不太可能有助于达到任何一个目的。

  • 最大的问题是,以这种方式寻求单一规模是否是一个好主意。我能做的最好的事情就是指出有统计头脑的人对此有非常不同的看法,许多人非常消极。我自己的观点是,这种 PCA 只会对那些能够理解和批评 PCA 并进行自己的替代分析的人感兴趣。一个以许多不同名称而闻名的谬误,其中一个是错位的具体性谬误,它将对单一度量的渴望与证明这种度量可以从数据中可靠且可理解地识别的证明相混淆。拥有一个单一的名称(创造力、智力,在这种情况下是负担)是一回事,而拥有一个可量化的维度则是另一回事。

谈到您的结果,最令人担忧的是,正如您清楚地指出的那样,第一台 PC 上的负载甚至没有相同的符号。如果有一个重要的共享维度证明尝试将负担量化为单一度量是合理的,那么它最低限度要求所有这些变量彼此正相关(或者符号反转是某些度量直接和某些反向的明显结果,这里似乎不是这样)。在没有看到数据的情况下,我无法进一步解释,但我希望符号的变化是将完全不同的变量混合在一起的副作用,这些变量在分布上也存在偏差并且带有异常值。

绘制数据将帮助你理解为什么你会得到你所做的结果。

我没有建议以不同的方式折叠成一个分数。我见过太多的应用程序,在这些应用程序中,这种努力无助于积极。

建议进行探索性因素分析。与其假设 HIV 测量背后的维度,不如随机抽取一半样本,通过几乎任何方法提取 4 个因子,然后绘制特征值。使用 scree 测试或仅使用“大于一个拇指规则的特征值”:通过 Varimax 或 Quartimax 旋转到简单结构通过这些测试中的任何一个测试因子的数量。我猜双因素解决方案将解释您的 HIV 测量的维度。通过研究负载,并在慢跑或洗热水澡时思考,您很快就会了解这两个维度的实际含义。然后对另一半样本进行验证性因子分析。