数据挖掘 - 分类系统的训练集和测试集的适当比例是多少？ - 吾爱随笔录

分类系统的训练集和测试集的适当比例是多少？

数据挖掘分类数据集训练采样

2022-03-04 02:52:28

我最近在谷歌上搜索了用于对正常和异常生理数据进行分类的训练和测试集的最佳比例。大部分消息来源告诉火车：测试的比例应该是 70:30 或 80:20。可以在这里访问其中一个来源。

我有点不确定，因为我还没有找到这个比例背后的科学事实。有任何科学可以解释这个比例吗？

谢谢

1个回答

简而言之，没有最佳比例或经验法则。

它在很大程度上取决于您拥有多少数据，它与标签数量相关的分布，以及样本是否以任何方式相互关联，或者它们是否完全相互独立。你可以看看k-fold训练。假设您将数据分成 5 个部分，每个部分占整个数据集大小的 20%。对于 20% 的数据的每个拆分，使用剩余的 80% 的数据作为训练集。遍历每 20% 的数据并将其用作测试，其余的用作训练。确保您的标签在拆分之间均匀分布。

K折参考

其它你可能感兴趣的问题

上一篇Google 的 DeepMind 是根据什么原理学会走路的？下一篇哪些特征对于确定通过加权综合得分衡量的参与者的流利程度很重要？