嵌套 CV 特征选择

数据挖掘 交叉验证
2022-03-06 05:37:39

我有一个包含 25 个特征的 150 条记录的小型数据集(太小而无法进行训练/测试)。我正在使用嵌套 cv 进行超参数调整和特征选择。外循环10cv,内循环5cv。最终我得到了 10 组超参数和 10 组选定的特征。如果我要发布我的结果,我最终将如何知道应该为模型选择哪些功能以在外部数据上进行尝试。(目前我没有其他外部数据来测试模型)

谢谢你

1个回答

假设特征选择方法始终相同,在外部数据(或最终训练集)上,您只需应用完全相同的方法。实际选择的特征集无关紧要。

如果选择方法有任何差异,例如,如果您选择不同数量的特征,您可以使用任何其他超参数:根据嵌套 CV 过程选择最佳模型,然后应用相同的超参数(包括例如特征数量)在训练最终模型时。