我想问你构建分类器的数据集大小是多少。我知道有 1000 obs 的数据集和 1m obs 的数据集。但我也阅读了分类器建立在 300 个 obs 数据集上的论文。我认为大小可能会影响分类器的准确性/精度,但我不确定 100%。
构建分类器需要多少数据?
数据挖掘
机器学习
分类
逻辑回归
支持向量机
朴素贝叶斯分类器
2022-03-15 04:01:57
2个回答
一般不可能回答这个问题,因为答案很大程度上取决于数据的内容。更准确地说,这取决于训练数据中的特征和目标类之间的关系是否足以使模型的参数尽可能准确地估计出来。在最简单的情况下,几个实例可能就足够了,例如具有一个单一特征的线性回归模型只需要两个“完美”实例。实际上,以下因素对所需的实例数量有很大影响:
- 要估计的参数数量和模型的复杂性:更细粒度的模型需要更详细的信息,即更多实例
- 类的数量,因为模型可以学习更多可能的组合,并且因为它通常也意味着更多的参数(更复杂的模型)
- 出于同样的原因,特征的数量
- 数据中的噪声量,因为如果数据中存在大量不一致/错误,则更难以找到一般模式,因此需要统计更多的实例来区分机会的影响与真实模式。
因此,检查特定任务和数据集需要多少数据的唯一方法是进行消融研究,即每次使用不同数量的实例训练模型的一系列实验。例如,如果一个人有 1000 个实例,他们可以尝试用 100、200、300、...、1000 个实例训练模型。然后通过绘制每个模型的性能,可以观察曲线是否在某个点变得稳定:如果是,则该点显示需要多少实例。如果不是(即性能不断显着提高),则需要超过 1000 个实例。
我认为大小可能会影响分类器的准确性/精度,但我不确定 100%。
确实。
您拥有的数据量只会限制您可以在集合上尝试的分类器类型。如果您有 100 个样本,您可能仍然能够执行逻辑回归 - 但您可以忘记神经网络(这将需要 100,000 多个样本)。
查看此内容,了解有关 ML 通常需要多少数据的更多信息。