我们知道是边距的宽度。
第二项惩罚一个错误分类的点,因为它与边缘的距离相对于边缘的宽度。例如,假设有一个错误分类的点:
这意味着是远离并受到处罚.
第一项惩罚的是边距平方宽度的倒数。我发现很难与第二个术语调和 - 它们似乎具有不同的规模。有什么理由(直观地)为什么被使用而不是仅仅?
PS:也许一个原因是 计算更容易(二次规划)?或者也许范数平方假设样本噪声是高斯的?我不确定。有没有人见过使用代替?
我们知道是边距的宽度。
第二项惩罚一个错误分类的点,因为它与边缘的距离相对于边缘的宽度。例如,假设有一个错误分类的点:
第一项惩罚的是边距平方宽度的倒数。我发现很难与第二个术语调和 - 它们似乎具有不同的规模。有什么理由(直观地)为什么被使用而不是仅仅?
PS:也许一个原因是 计算更容易(二次规划)?或者也许范数平方假设样本噪声是高斯的?我不确定。有没有人见过使用代替?
它确实是为了计算的易处理性。你不会失去最重要的稀疏性,因为这是第二项提供的。SVM 的原始公式,您可以在 Wikipedia 上找到它实际上使用:
最小化服从
显然,最小化与相同。使用拉格朗日函数引入约束时会出现数量上的差异,但质量上是相同的。