我有兴趣建立一个线性判别函数来区分 60 个变量中的 2 个组。(我计划为未来的诊断测试选择最具辨别力的变量。)我已经分别计算了每个变量的 ROC 曲线下面积,没有一个 AUC 大于 0.73。我有一个相当小的样本,包括 50 个健康人和 50 个患病个体(这是两组)。
我试图使用主成分分析(PCA)来减少变量的数量。有 3 个分量占变异的 83%。但不幸的是,所有 60 个变量在 3 个组件中都有相似的权重(负载),所以我不能只选择几个。我通常会选择权重最高的变量,然后将它们合并到一个线性判别函数中,但是 60 太多了,尤其是在小样本的情况下。
我想知道是否可以在线性判别分析 (LDA)中使用 3 个主成分本身,而不是使用 60 个变量?