我有一个模型可以预测问题的多项选择答案。我对我的问题进行了 80/20 的火车测试拆分并对其进行了调整。
这些问题实际上是游戏的一部分,也就是游戏中的 10 个问题。拆分时的数据被随机打乱和拆分,因此问题不再构成游戏的一部分。
我现在可以使用训练和测试过的相同问题来重新测试所有问题,但以确定赢得比赛的百分比吗?或者在最初训练我的模型时,训练和测试数据应该按游戏而不是问题来分割?
我有一个模型可以预测问题的多项选择答案。我对我的问题进行了 80/20 的火车测试拆分并对其进行了调整。
这些问题实际上是游戏的一部分,也就是游戏中的 10 个问题。拆分时的数据被随机打乱和拆分,因此问题不再构成游戏的一部分。
我现在可以使用训练和测试过的相同问题来重新测试所有问题,但以确定赢得比赛的百分比吗?或者在最初训练我的模型时,训练和测试数据应该按游戏而不是问题来分割?
可以重复使用训练+测试数据集。
您使用训练数据集来训练您的参数并使用测试来检查您的模型中是否存在过度拟合。
训练/测试拆分用于检查您的模型是否可能遭受过度拟合,而不是获得“真实参数”。
因此,按照这种思路,您丢弃了模型的过度拟合,然后您可以使用完整的数据集重新校准您的参数。
请记住,个人属于训练还是测试的决定是任意的。