为推文分类任务训练和测试数据拆分

数据挖掘 Python 分类 熊猫 文本分类
2022-02-21 06:24:54

我正在尝试训练一些机器学习 (ML) 算法,例如 SVM、NB 和随机森林,以对灾难推文进行二进制分类。在这个项目中,我想为组合灾难数据集训练 ML 算法。但是,我想将其分别应用于个别灾害(例如,针对多灾的训练,应用于地震;针对多灾的训练,应用于洪水)。我在一个单独的灾难中拥有组合数据集,在pandas DataFrame单独的灾难中拥有单独的数据集DataFrames在这种情况下,我应该如何拆分我的训练和测试数据集?目前,我拆分了我的组合数据集并应用了 ML 算法。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(all_disaster['cleaned'], all_disaster['target'], test_size=0.33, random_state=42)

但是,我觉得这不是正确的方法,因为我想把它应用到个别的灾难中。

1个回答
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(all_disaster['cleaned'],specific_disaster['target'], test_size=0.33, random_state=42)

像这样,您在所有灾难数据上训练您的模型,并在特定灾难上对其进行测试。