我在 Weka 中使用一个文件进行训练(例如 train.arff)和另一个用于测试(例如 test.atff),比例为 70-30。我想问当我有单独的训练和测试数据文件时,如何在 Weka 中使用重复训练/测试,问题的第二部分是如果我们使用重复有什么优势,如果我们不使用它又会怎样?提前致谢
在 Weka 中重复训练和测试?
数据挖掘
分类
数据科学模型
威卡
2022-02-22 19:48:57
1个回答
一般来说,重复训练/测试的优点是衡量性能在多大程度上是由于偶然性。最常见的机会来源来自于哪些实例被选为训练/测试数据。在这种情况下,可以使用 k 折交叉验证来减轻机会的影响。据我记得,Weka 默认执行 10 倍 CV,但这与提供特定的训练/测试集不兼容。
[根据OP的评论编辑]
在OP提到的视频中,作者加载了一个数据集,并将“百分比分割”设置为90%。这意味着完整的数据集将由 Weka 自己在训练集和测试集之间进行拆分。Weka 随机选择哪些实例用于训练,这就是为什么在这个过程中涉及机会,这就是为什么作者继续用不同的随机种子值重复实验:每次 Weka 都会选择不同的实例子集作为训练设置,导致不同的精度。换句话说,重复实验的目的是改变数据集在训练集和测试集之间的分割方式。在这种情况下(带有默认选项的 J48),用固定的训练集重复实验是没有意义的,因为过程中没有机会,所以结果没有变化。
值得注意的是,视频作者的这节课似乎被用来介绍更一般的 k-fold 交叉验证概念,并在课程的后面介绍了几节课。