梯度下降法变种的汇总

  这样,显然收敛的方向是不定的,而且,很可能收敛速度非常慢。

  一个有效的替代方案是,每次迭代的样本数增加到一个很小的数量(通常被称为Mini-Batch),这样,有可以有效地增加收敛速度,这种方案也被称为批梯度下降法( (Mini-)Batch gradient descent )。当Batch的数量增加时,模型的收敛速度加快,但是训练速度会降低。

  问题

  在训练样本时,采用此种方案之前必须保证数据是没有任何顺序特征的,不然,会对训练产生极大影响。

  训练的模型并非是最后一次迭代时训练的结果最优,此时要注意采用一定策略选择最优模型。

  总结

 

类别梯度下降坐标下降随机梯度下降/批梯度下降场景基本场景、小数据feature较多,平滑函数大数据、实时训练策略寻找最大梯度方向,迭代每次只迭代一个坐标每次只迭代一(k < N)个样本缺点步长选择,在维度、样本量过大时速度较慢非平缓函数失效收敛具有一定的随机性