梯度下降法变种的汇总_技术资料_物联网_中国计算网——工业互联网一站式服务平台—

　　这样，显然收敛的方向是不定的，而且，很可能收敛速度非常慢。

　　一个有效的替代方案是，每次迭代的样本数增加到一个很小的数量(通常被称为Mini-Batch)，这样，有可以有效地增加收敛速度，这种方案也被称为批梯度下降法( (Mini-)Batch gradient descent )。当Batch的数量增加时，模型的收敛速度加快，但是训练速度会降低。

　　问题

　　在训练样本时，采用此种方案之前必须保证数据是没有任何顺序特征的，不然，会对训练产生极大影响。

　　训练的模型并非是最后一次迭代时训练的结果最优，此时要注意采用一定策略选择最优模型。

　　总结

类别梯度下降坐标下降随机梯度下降/批梯度下降场景基本场景、小数据feature较多，平滑函数大数据、实时训练策略寻找最大梯度方向，迭代每次只迭代一个坐标每次只迭代一（k < N）个样本缺点步长选择，在维度、样本量过大时速度较慢非平缓函数失效收敛具有一定的随机性