IBM表示已经打破Facebook的人工智能服务器扩展记录

IBM

日前,IBM 公司宣布推出其分布式深度学习软件的测试版,该软件证明了在深度学习表现出来的技术飞跃。

深度学习是人工智能的一种形式,它依赖于人工神经网络的应用。其重点是让计算机能够像人们那样理解数字图像、视频、录音等内容。

然而,由于处理系统“深层次培训”所需的大量数据的后勤处理可能需要几天甚至几周的时间,所以很多潜在的深度学习仍然未能实现。其结果的准确性是导致耗费时间的另一个问题,因为系统需要多次训练才能获得预期的结果。每次通过更高的准确度意味着计算机必须“重新训练”的次数更少,直到它正确为止。

减少时间因素是困难的,因为只需增加更多的计算能力和更快的处理器,而增加更多的处理器不会加快速度。其实恰恰相反:随着“学习者”处理器数量的增加,计算时间会像预期的那样减少,但是每个学习者的沟通时间保持不变。换句话说,是学习瓶颈阻碍了发展。

IBM公司在一份研究报告中解释说:“成功的分布式深度学习需要一个基础架构,其中硬件和软件被共同优化,以平衡计算需求与通信需求和互连带宽。”此外,通信延迟在GPU的大规模扩展(100多个)中起着重要的作用。如果这些因素不受控制,分散式深度学习可以快速达到收益递减的程度。”

这使得最深入的学习项目仅限于单服务器实现。IBM公司日前公布的研究和新软件也将在这里发挥作用。该公司已经学会了如何加快流程,获得更准确的结果。

IBM Research系统加速和内存总监Hillery Hunter在一篇博文中表示:“最受欢迎的深度学习框架扩展到服务器中的多个GPU,而不是扩展到具有GPU的多个服务器。具体来说,我们的团队编写了软件和算法,可以自动化并优化这个非常大而复杂的计算任务的并行化,并将数百个GPU加速器连接到数十台服务器上。”

在对软件进行测试时,IBM研究人员在部署Caffe深度学习框架时,实现了创记录的通信开销和95%的扩展效率,该系列集成了64个IBM Power系统,每个系统连接4个NVidia Tesla P100-SXM2 GPU,总共256个处理器。这使得Facebook人工智能研究使用较小的学习模型和数据集展示了以前最佳的89%的扩展比例,从而降低了复杂性。

此外,测试产生了一个识别图像的神经网络训练数据集的750万个图像的准确率为33.8%的记录,打破了微软公司公布的29.8%的准确性记录。

Hunter写道:“IBM研究部门的团队一直致力于为大数据集减少大型模型的训练时间。我们的目标是将深入学习训练的等待时间从数天或数小时缩短到几分钟或几秒钟,从而提高这些人工智能模型的精确度。为了实现这一目标,我们正在处理在大量服务器和GPU中分布式深度学习的大规模的问题。“

Hunter和她的团队在加速这一过程中已经取得了很大的成绩——只用了七个小时就完成了测试。

“微软花了10天的时间来训练同样的模式,”她提到了以前的行业记录,“这一成就需要我们创建分布式深度学习代码和算法来克服扩展这些强大的深度学习框架所固有的问题。”

IBM研究开发的分布式深度学习软件测试版本或技术预览,日前已在IBM PowerAI 4.0中开始使用,使开发人员可以使用深入学习培训人工智能模型实现集群扩展功能。

“我们预计,通过将此DDL功能提供给人工智能社区,我们将会看到更多更高的精度运行,因为其他人利用集群的力量进行人工智能模型的训练。”Hunter说。