分布式训练并不是免费 —— 由于同步、数据和参数的网络传输等,分布式系统相比单机训练要多不少额外的必要开销。若要采用分布式系统,我们则希望增添机器带来的收益能够抵消那些必要开销。而且,分布式系统的初始化(比如搭建系统和加载数据)和超参数调优也比较耗时。因此,我们的建议非常简单:继续用单机训练网络模型,直到训练时间过长。

有两种原因可能导致网络模型的训练时间过长:网络规模太大或是数据量太大。事实上,若这两者不匹配(大模型配小数据,小模型配大数据)这可能导致欠拟合和过拟合 —— 都将导致最终训练得到的模型缺少泛化能力。
第二篇提要:在Apache Spark上使用Deeplearning4j进行分布式深度学习
在我们分布式深度学习系列文章的第二、第三篇中,我们会介绍使用Apache Spark的Deeplearning4j的参数平均法实现,以及借用一个端到端的例子讲解如何用它在Spark集群上训练神经网络模型。
