我有一个由 181 个样本组成的数据集(类不平衡,有 41 个数据点带有 1 个标签,其余 140 个数据点带有标签 0)和 10 个特征和一个目标变量。这 10 个特征本质上是数字和连续的。我必须执行二进制分类。我做了以下工作:-
I have performed 3 Fold cross validation and got following accuracy results using various models:-
LinearSVC:
0.873
DecisionTreeClassifier:
0.840
Gaussian Naive Bayes:
0.845
Logistic Regression:
0.867
Gradient Boosting Classifier
0.867
Support vector classifier rbf:
0.818
Random forest:
0.867
K-nearest-neighbors:
0.823
请指导我如何为这种大小的数据集选择最佳模型并确保我的模型没有过度拟合?我正在考虑应用随机抽样来处理不平衡的数据。