我试图将问题简化为绝对基础。假设我有这样的数据(csv):
label,text-column,gender-column,day-column
1,"Sample positive text", female, 1
0,"Sample negative text", female, 3
1,"Another positive comment", male, 2
0,"Angry text sample", male, 7
我有这段代码,label通过在text-column. 我做了一个 70/30train_test_split并且一切正常。
vec = TfidfVectorizer()
clf = MultinomialNB()
training_data = pd.read_csv('trainset.csv', delimiter=',')
text_tfidf = vec.fit_transform(training_data['text-column'])
# gen_tfidf = vec.fit_transform(training_data['gender-column'])
X_train, X_test, y_train, y_test = train_test_split(text_tfidf, training_data['label'], test_size = 0.3)
clf.fit(X_train, y_train)
然而,就我的一生而言,我根本无法弄清楚如何使用多个功能。例如,我想同时使用text-column并gender-column训练模型,看看它如何影响准确性,但我不明白该怎么做!
我在这里错过了一些概念上重要的东西吗?谢谢你。