我不断遇到两种不同的优化:
- 直接最大化数据可能性的情况(例如 CRF 学习或 EM)。
- 最小化某些成本函数的情况(例如,拟合最小二乘法)
我还注意到人们使用梯度方法来解决这两种问题。
为了最大化,梯度更新规则如下所示。直觉是你想要最大化,所以你沿着梯度的方向爬上曲率的小山。
对于最小化,您希望最小化成本函数,因此您减去梯度以滚下曲率的小山。
似乎一些优化包要求您翻转最大化问题的符号来获得最小化问题。例子:
请注意,由于
minimize仅最小化函数,因此引入符号参数以将目标函数(及其导数)乘以 -1 以执行最大化。
- 最小化更规范吗?
- 我做对了吗?也就是说,我对机器学习领域的描述是否正确?
- 我怎么知道什么时候应该最小化成本函数或最大化可能性?(或对数可能性)。
我的第一个想法是最大化对数似然是用于无监督学习(你无法生成成本函数,因为没有标签)——但 CRF 学习也直接最大化对数似然。