在我目前的管道中,我已经感觉到有数据泄漏。这是因为同一个人,尽管值略有不同,但同时在训练和测试集中。结果,我的模型过度拟合。
例如,我的数据如下所示:
PID Var_1 Var_2
Person A 0 1
Person B 0 1
Person C 0 0
Person A 1 3
Person B 1 2
Person D 0 1
Person C 0 1
我想拆分这些数据,以便同一个人的行将在训练或测试集中,即我希望拆分看起来像这样:
训练:
PID Var_1 Var_2
Person A 0 1
Person B 0 1
Person A 1 3
Person B 1 2
测试:
PID Var_1 Var_2
Person C 0 0
Person D 0 1
Person C 0 1