训练/测试大小和偏差

数据挖掘 机器学习 逻辑回归 监督学习
2022-02-26 06:18:43

我正在运行一个分类器(逻辑回归)。我的数据集上的信息如下:

dataset size= 279 observations 

(80/20 规则)

train size= 233
test size = 56

# of events in train = 31
# of events in test = 8

我认为我的分类器和结果可能会由于这个不相等的比例而受到影响。有什么方法可以避免偏差问题并提高准确性?您个人如何看待这些数据?

3个回答

如果您指的是您的数据集很小的事实:

  • 您应该使用k 折交叉验证这将让您在所有 279 个实例上评估您的模型

如果您指的是训练中的 31:202 和测试中的 8:48 的类不平衡:

我认为在这种不对称数据的情况下,其中一个类的输出数量超过了。与准确性相比,召回率是一个很好的衡量选择。召回为我们提供了模型实际预测的相关类别的百分比。

要完成@BenjiAlbert 的回答,在数据集不平衡的情况下,还建议使用分层k 折来保留每个折中的相对类频率。您可以在此处sklearn的用户指南中找到更多详细信息