我正在研究一个对同一目标变量进行重复测量的数据集。
当我不更改任何内容并创建模型时,交叉验证会以 0.99 的分数过拟合,但在测试集中它给出的分数约为 0.39。
当我对每个测量使用均值、标准差、偏斜、四分位数以使每个特征只有一个测量值时,它会给出更好的分数。
谁能向我解释为什么?什么时候最好使用第二种方法?
原始数据集如下所示(所有数字都是假的):
id /measurement1/measurement2/.../target/
0-1/0.18283 /0.12855 /.../ 1 /
0-2/0.1141 /0.38484 /.../ 1 /
0-3/0.4475 /0.18374 /.../ 1 /
转换后的数据集如下所示:
id /meas1_avg/meas1_std/meas1_skew/meas2_avg/meas2_std/.../target/
0 /0.28747 /0.183848/ 0.198384 /0.18484 /0.28474 /.../ 1 /