数据挖掘 - 我应该为我的训练集和测试集分配多少数据？（在 R 中） - 吾爱随笔录

数据挖掘机器学习分类 r 数据集训练

2022-02-25 10:26:21

我有一个包含 358.367 个数据的矩阵。每行都是来自人类基因组的 DNA 序列。我想在 R 中建立一个分类模型，使用 XGBoost 算法和 83 个特征（二核苷酸、三核苷酸等）。

我应该如何拆分训练集和测试集的数据？

例如，70% 用于训练集，30% 用于测试集？训练集 30%，测试集 70%？

1个回答

这里没有“黄金法则”。您的数据集非常方便——既不太大也不太小。听起来是一个非常令人兴奋的项目！

以下是我在类似环境中经常进行的操作。

其它你可能感兴趣的问题