对同一个目标变量进行许多不同的测量是不是很糟糕?

数据挖掘 机器学习 特征工程 数据科学模型
2022-03-06 23:13:55

我正在研究一个对同一目标变量进行重复测量的数据集。

当我不更改任何内容并创建模型时,交叉验证会以 0.99 的分数过拟合,但在测试集中它给出的分数约为 0.39。

当我对每个测量使用均值、标准差、偏斜、四分位数以使每个特征只有一个测量值时,它会给出更好的分数。

谁能向我解释为什么?什么时候最好使用第二种方法?

原始数据集如下所示(所有数字都是假的):

id /measurement1/measurement2/.../target/
0-1/0.18283     /0.12855     /.../  1   /
0-2/0.1141      /0.38484     /.../  1   /
0-3/0.4475      /0.18374     /.../  1   /

转换后的数据集如下所示:

id /meas1_avg/meas1_std/meas1_skew/meas2_avg/meas2_std/.../target/
0  /0.28747  /0.183848/ 0.198384  /0.18484  /0.28474  /.../  1   /
1个回答

请注意,您在这里解决了两个不同的问题。

在第一个问题中,您想在给定一个噪声测量的情况下预测目标变量。

在第二个问题中,您想根据一组噪声测量值的一些统计数据来预测目标变量。

您的结果表明,第二个问题更容易解决,这很直观,因为多次测量平均值的噪声量(方差)小于一次测量(与大数定律密切相关),因此第二个问题中的关系模型更容易发现问题。

因此,如果两个问题都等价于您,请选择更容易解决的第二个问题。