PCA之后的岭回归还是多元线性回归?

机器算法验证 回归 主成分分析 岭回归
2022-03-20 14:43:27

我有一个真实世界的临床数据集,有一个严重的 p >> n 问题。因此,我决定在对数据建模之前运行 PCA。这导致了一个包含 150 个样本和 85 个特征的数据集。

我现在想使用回归以交叉验证的方式预测结果,并使用训练数据构建模型来预测外部验证数据集中的结果。

我的问题是:因为我已经完成了 PCA(据我了解,这将有助于解决共线性问题),使用岭回归仍然有意义吗?在两者之间的交叉验证中,我得到了非常相似的结果,岭回归的性能甚至可能稍好一些(基于 RMSE)。我的理解是正则化功能有助于预测,因为它有助于解决过度拟合的问题。

任何见解将不胜感激。

1个回答

仅 150 个样本的 85 个预测变量维度可能会导致临床数据过度拟合,即使您现在拥有p < n. 通常每个预测变量需要 10-20 个案例以避免过度拟合。

岭回归可以被认为是主成分回归 (PCR) 的连续版本。Ridge连续地对主成分进行加权,而不是 PCR 中的全有或全无 PC 选择。从这个意义上说,与未惩罚的 PCR 相比,岭是解决您的问题的一个更好的解决方案,因为如果您只使用 85 个 PC 和 150 个样本,岭施加的系数惩罚将最大限度地减少过度拟合。在这种情况下,使用所有初始预测变量执行 ridge 将为您带来 PCR 的优势,而不会出现过度拟合的劣势。

在这种情况下,外部验证和其他未来用途存在一个实际问题,因为您将需要这些未来数据集中用于构建模型的所有预测变量的数据。无论您使用 PCR 还是 ridge,都是如此。如果您不能保证这一点,您可能会更好地使用弹性网或 LASSO 等不同的惩罚方法,这样您只需要为以后的应用提供较少数量的预测值。

总体而言,更好的解决方案可能是将主题知识应用于候选预测变量的合理选择。请参阅 Frank Harrell 的课程笔记书籍以获取指导。如果您的预测因子是诸如数千个基因的表达值之类的东西,这可能是不可能的,但在这种情况下,您至少应该确保在您的模型中包含已知的临床相关预测因子,也许不会受到惩罚。