深度学习-优化算法

it2025-03-13 42

·1 梯度下降和随机梯度下降的区别？

https://www.nowcoder.com/discuss/61907

1-1 标准梯度下降是在权值更新前对所有样例汇总误差，而随机梯度下降的权值是通过考查某个训练样例的更新的。

1-2 标准梯度下降中，权值更新的每一步对多个样例求和，需要更多的计算

1-3 标准梯度下降，由于使用真正的梯度，标准梯度下降对于每一次权重更新经常使用比随机梯度下降大的步长，

1-4 如果标准误差曲面有多个局部最小值，随机的可能避免陷入这些局部极小值中。

1-5 梯度下降的缺点：靠近极小值时收敛速度减慢；直线搜索时可能会产生一些问题；可能会之字形地下降。

1-6 随机并行梯度下降算法：简称SPGD算法，作为一种无模型优化算法，比较适用于控制变量较多，受控系统比较复杂，无法建立准确数学模型的最优化控制过程。

https://wenda.so.com/q/1459284029724299?src=140

2 牛顿法和拟牛顿法区别？

https://www.zhihu.com/question/31988641

牛顿法：

这个式子是由将f(x) 在xt 处进行二阶泰勒展开然后令xt+1 处导数为零得到的，牛顿法的iteration complexity 是

但问题在于牛顿法每一步迭代所需的开销太大，即其每一步都需要求Hessian 矩阵并对其求逆，其中对矩阵求逆已经需要O(n3) 的时间复杂度了。

拟牛顿法：

拟牛顿法就是为了解决上面的运行时间太长的问题产生的·，有直接近似Hessian 矩阵的逆，具体·方法有很多，比较常用的BFGS 方法，如何判断Hessian矩阵近似地好不好呢？一个常用的criterian 是gradient maching ，具体来说，设ft(x) 为f(x) 在Xt 的二次泰勒展开(其中Hessian 是用近似的Ht 代替，那么很自然的想法就是我让这两个函数在xt和xt-1 处一个导相等来约束Ht的近似的质量

为什么提出拟牛顿法：牛顿法涉及海森矩阵，其逆矩阵求解麻烦。

最新回复(0)