数据挖掘 - 训练/测试大小和偏差 - 吾爱随笔录

数据挖掘机器学习逻辑回归监督学习

2022-02-26 06:18:43

我正在运行一个分类器（逻辑回归）。我的数据集上的信息如下：

dataset size= 279 observations

（80/20 规则）

train size= 233
test size = 56

# of events in train = 31
# of events in test = 8

我认为我的分类器和结果可能会由于这个不相等的比例而受到影响。有什么方法可以避免偏差问题并提高准确性？您个人如何看待这些数据？

3个回答

如果您指的是您的数据集很小的事实：

如果您指的是训练中的 31:202 和测试中的 8:48 的类不平衡：

我认为在这种不对称数据的情况下，其中一个类的输出数量超过了。与准确性相比，召回率是一个很好的衡量选择。召回为我们提供了模型实际预测的相关类别的百分比。

要完成@BenjiAlbert 的回答，在数据集不平衡的情况下，还建议使用分层k 折来保留每个折中的相对类频率。您可以在此处sklearn的用户指南中找到更多详细信息。

其它你可能感兴趣的问题