有没有一种模型可以适应不同列的额外新训练数据?

数据挖掘 机器学习 数据清理 机器学习模型
2022-02-24 23:15:35

我的训练数据是分批来的。有时,新批次(全新的样品)带有不在旧批次中的新色谱柱,或者它们可能缺少一些旧色谱柱。

例如,假设有两个摄取。在第一次摄取中,我们对一组字段进行了 ETL。在第二次摄取中,我们添加了一个新字段,我们不允许再次摄取和更新旧记录(它们可能已被永久删除)。

理想情况下,我想使用所有批次的数据来训练分类器。在这种情况下,什么样的算法会表现良好。

1个回答

基于树的算法可以做到这一点。

关键是您需要使用可以存在不同批次的可能列的并集来训练模型。

此外,您需要考虑缺失值,以便模型能够学会识别缺失并处理它们:您需要使用适当的值重新编码缺失值,例如,您可以为分类变量创建一个新级别并重新编码标准方法(零、平均值、极值等)