我的问题与这个问题非常相似,不幸的是没有解决。
我正在开展一个项目,我想根据各国的艾滋病毒/艾滋病负担对其进行排名。所以我收集了世界上所有国家的大量数据。为简单起见,我们假设每个国家/地区都有以下变量:
- DEA:艾滋病毒导致的死亡
- LIV:艾滋病病毒感染者
- PRV:艾滋病毒感染率
- DALY:因艾滋病毒而丧失的健康年数
- DALY 比率:因艾滋病毒而损失的健康年数占因一般疾病而损失的健康年数的比例。
因此,所有这些变量都以某种方式衡量同一件事:艾滋病毒负担。现在我想将所有这些变量组合成一个“分数”,这样我就可以根据各国的艾滋病毒负担对它们进行排名。
我想到的第一件事是进行主成分分析并保留一台 PC。但是,如果我们查看第一台 PC 的负载,我们会看到以下内容:
- DEA:0.366
- 生命值:-0.392
- PRV:-0.442
- 日:0.466
- DALY比率:0.481
由于变量之间的高成对相关性,我预计每个载荷都具有相同的符号。现在,艾滋病毒负担高的国家(因此在每个变量上得分高)现在在一侧的第一台 PC 上得分较低(由于“LIV”和“PRV”的负负荷),而在一侧的第一台 PC 上得分较高。另一侧的第一台 PC(由于“DEA”、“DALY”和“DALY 比率”的积极影响)。
我的问题:
由于上述相反的负荷,查看第一台 PC 的分数不是为每个国家的 HIV 负担评分的正确方法,这是否正确?
您能建议另一种(更好的方法)将所有信息组合成一个分数吗?