二元分类问题的数据集特征

数据挖掘 机器学习 分类 数据挖掘 数据集
2022-03-15 18:37:16

我想为我的问题陈述构建一个分类器,为此我没有数据。那么在进行数据采集时,最小样本量应该是多少?如果我自己标记每个观察结果以构建有效数据集,这会是一个好习惯吗?(在进行数据采集时,我无法将每个类别的观察标记过程自动化,而手动执行会占用大量时间)

1个回答

不幸的是,如果没有至少 200-300 条记录,您将无法做很多事情。在您的数据集扩展到至少 1,000 个之前,您将仅限于简单(即主要是线性)模型。小于 1,000 的任何东西都需要非常彻底的交叉验证,如果您不小心,您将面临构建容易过度拟合的模型的风险。

@EricLecoutre 提出了一个很好的观点,即您应该使用亚马逊的 Mechanical Turk。每条记录通常只需一两美分,可以为您节省大量时间。