假设我有一个 sklearn 管道:
- 估算数据
- 随机过采样少数类
from imblearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import RandomOverSampler
pipeline = Pipeline(
[('1', SimpleImputer(strategy='median'),
('2', RandomOverSampler(random_state=0)),
('estimator', <Some Logistic Regression>)
]
)
然后我可以将它拟合到我的训练集pipeline.fit(X_train, y_train),并且随机过采样器应该正确识别要采样的类。如果我尝试预测 iepipeline.predict(X_test)怎么办?由于没有类,随机过采样器是否仍然适用?我希望 imputer 无论如何都可以申请,但是呢RandomOverSampler?
谢谢