使用 SVM 回归的主动学习

机器算法验证 回归 交叉验证 支持向量机
2022-03-23 23:52:05

我已经使用训练数据训练了一个SVM 回归模型,x1,x2,,xN.

我想进行主动学习以改进模型;即,我想在训练数据中添加更多样本并重新学习更好的模型,并以最大化最终模型性能的方式选择这些新样本。

对于 SVM 分类器,主动学习的一个有用的启发式方法是选择接近决策边界的样本;即,对于特定样本,可以使用 SVM 计算“置信度”( c )。具有小 |c| 的样本 更有可能改善重新训练的 SVM 中的决策边界。

有关如何为 SVM 回归执行此操作的任何建议?

(我可以随意生成样本,但是标记它们的成本很高,所以我想知道是否可以使用“已经训练过的”回归-SVM 来帮助我决定标记哪些样本)

2个回答

主动学习需要在探索和利用之间进行折衷。如果你目前的模型很糟糕,如果你利用这个模型来确定标记模式数据的最佳位置,它可能会建议标记数据的位置不好,因为你当前的假设很差。进行一些随机探索也是一个好主意,因为这是确保最终您将显示当前假设不正确的数据标记的最佳方法。

对于回归模型,我建议高斯过程回归是主动学习的更好选择,因为它可以为您提供预测误差线,因此您可以查询模型最不确定的点的标签。例如,请参阅本文看起来是一个有趣的起点。

我一直致力于分类中的主动学习,所有策略的结果都相当复杂。通常只是随机选择点(即所有探索,不利用)效果最好。我目前正在研究针对回归问题的主动学习并打算使用 tse GP,如果我发现任何似乎比仅探索更好的方法,我会添加到我的答案中。

我曾在分类和支持向量机中进行主动学习,这个问题对我来说也是一样的,如果你通过第一个模型发现的边界不是那么好,那么为新点提供一个好的标签的概率将会降低。如果您有任何其他方法来标记新生成的点而不是使用边界,这可能是一种好方法,并且您对新生成的边界的准确性会更好。