我正在kaggle 比赛中尝试模型堆叠。然而,竞争对手试图做什么是无关紧要的。
我认为我做模型堆叠的方法是不正确的。
我有 4 种不同的型号:
具有密集特征的 xgboost 模型(数字,可以订购)。
具有稀疏特征的 adaboost 模型(非数字特征,先进行标签编码,然后进行热编码)。
具有密集特征的 xghoost 模型(使用 nltk 对文本的 vader 进行情感分析)。
这些模型生成多类问题的概率,并输入最终的神经网络模型,结合它们的结果,然后生成另一组多类问题的概率。
然而,我尝试加入的模型越多,模型就越糟糕。例如,如果我只使用第一个模型,我会得到 73% 的准确率,但随着每个模型的添加,准确率会下降到 70% 以下,kaggle 的分数从 0.6X 增加到 1.0 以上。
这种方法不正确吗?