仅 150 个样本的 85 个预测变量维度可能会导致临床数据过度拟合,即使您现在拥有p < n. 通常每个预测变量需要 10-20 个案例以避免过度拟合。
岭回归可以被认为是主成分回归 (PCR) 的连续版本。Ridge连续地对主成分进行加权,而不是 PCR 中的全有或全无 PC 选择。从这个意义上说,与未惩罚的 PCR 相比,岭是解决您的问题的一个更好的解决方案,因为如果您只使用 85 个 PC 和 150 个样本,岭施加的系数惩罚将最大限度地减少过度拟合。在这种情况下,使用所有初始预测变量执行 ridge 将为您带来 PCR 的优势,而不会出现过度拟合的劣势。
在这种情况下,外部验证和其他未来用途存在一个实际问题,因为您将需要这些未来数据集中用于构建模型的所有预测变量的数据。无论您使用 PCR 还是 ridge,都是如此。如果您不能保证这一点,您可能会更好地使用弹性网或 LASSO 等不同的惩罚方法,这样您只需要为以后的应用提供较少数量的预测值。
总体而言,更好的解决方案可能是将主题知识应用于候选预测变量的合理选择。请参阅 Frank Harrell 的课程笔记和书籍以获取指导。如果您的预测因子是诸如数千个基因的表达值之类的东西,这可能是不可能的,但在这种情况下,您至少应该确保在您的模型中包含已知的临床相关预测因子,也许不会受到惩罚。