无约束最优化概述
无约束最优化的基本问题是要解决如下的问题:
在这里要求
优化的基本策略
如果优化问题不能够直接求解,那么解决问题的方法只有通过不停的迭代。迭代的基本方式如下:
- 设置初始点
x0 ,同时设置迭代计数器i=0 ; - 根据当前点
xi 的Gradient,Hessian 或者是之前点的信息计算得优化方向di - 计算优化方向
di 对应的步长αi ,然后获得下一个点xi+1=xi+αidi - 计算当前点
xi+1 是否收敛,如果收敛则获得答案,否则转回步骤2。
在这样的计算框架中,基本可以分解成三部分,第一是是产生优化方向,第二是计算步长,第三是检查整个过程是否收敛。一个完成的优化算法就是由这三个部分组成的。计算步长的过程基本可以独立于第一步,第三步和第一步是整个算法最密切相关的。
对一个算法的评估包括以下几个方面,首先是算法的收敛速度如何,然后是算法的计算复杂度是多少,最后会考虑算法的稳定性。稳定性的考虑是因为算法的解决依赖于数值计算方法,如果算法不稳定,那么会导致一个理论可行的算法不能给出最优解甚至不能解决问题。
GradientDescent
梯度下降法的推到特别简单,使用泰勒一阶展式即可:
在这里
NewtonMethod
牛顿法可以使用泰勒二阶展式推到:
对这个二阶的问题优化,对右边的等式求导并令其倒数为0,可获得方向
Quasi−NewtonMethod
牛顿法具有二次收敛速度,但是需要计算
对这个函数求导可得
定义
事实上如果要求
因此为了获得
使用不同的范数,可以获得不同的由
SR1Update
全称是Symmetric Rank 1 updae, 具有如下形式的迭代:
这里主要的问题就在于如何计算这个修正项。 (skip )
DFP & BFGS Update
对应的是两个不同的更新规则,但是这里使用的是Rank 2更新。 Wikipedia
L−BFGSUpdate
在BFGS更新的基础上,只保留最近几个迭代的信息用于计算海森矩阵的近似。可以适用于大规模的数据优化。在这个算法中不需要显示的构造矩阵
ConjugateGradient
共轭梯度法本来是为解方程
共轭梯度法就是在一组相互共轭的方向上优化目标函数,知道目标函数达到最优点。
两个向量共轭定义如下:
其中矩阵H是正定矩阵。如果一组向量共轭,那么意味着这组向量中任意两个向量都是共轭向量。可以证明对于二次函数
h
评价
从数值优化的角度,梯度下降法几乎不可用,因此对于实际的问题可能需要很长的时间去迭代。但是对于机器学习来说,这却不是问题,因为机器学习方法并不对解的精度有要求,唯一的要求是泛化性能。牛顿法具有二阶收敛速度,但是由于需要使用很多的内存,因此在实际中很少使用。拟牛顿法和L-BFGS方法,由于需要的内存较少,而且可以实现超线性的收敛,在实践中被广泛使用,特别是L-BFGS。
没有评论:
发表评论