我最近在谷歌上搜索了用于对正常和异常生理数据进行分类的训练和测试集的最佳比例。大部分消息来源告诉火车:测试的比例应该是 70:30 或 80:20。可以在这里访问其中一个来源。
我有点不确定,因为我还没有找到这个比例背后的科学事实。有任何科学可以解释这个比例吗?
谢谢
我最近在谷歌上搜索了用于对正常和异常生理数据进行分类的训练和测试集的最佳比例。大部分消息来源告诉火车:测试的比例应该是 70:30 或 80:20。可以在这里访问其中一个来源。
我有点不确定,因为我还没有找到这个比例背后的科学事实。有任何科学可以解释这个比例吗?
谢谢
简而言之,没有最佳比例或经验法则。
它在很大程度上取决于您拥有多少数据,它与标签数量相关的分布,以及样本是否以任何方式相互关联,或者它们是否完全相互独立。你可以看看k-fold训练。假设您将数据分成 5 个部分,每个部分占整个数据集大小的 20%。对于 20% 的数据的每个拆分,使用剩余的 80% 的数据作为训练集。遍历每 20% 的数据并将其用作测试,其余的用作训练。确保您的标签在拆分之间均匀分布。