我构建了一个 NLP 句子分类器,它使用来自词嵌入的向量作为特征。
训练数据集很大(100k 个句子)。每个句子都有 930 个特征。
我使用自动机器学习库(auto-sklearn)找到了最佳模型;培训需要 40 GB 的 RAM 和 60 小时。最好的模型是这个库找到的前 N 个模型的集合。
偶尔,我需要在训练集中添加一些数据并更新训练。由于这个 autoML 库不适合增量训练,所以每次我都需要进行完整的再训练,使用越来越多的内存和时间。
如何解决这个问题?如何进行增量训练?我应该停止使用这个库吗?对于内存和时间使用,并行化训练会更好吗?