IBM发布新型分布式深度学习系统:结合软硬件实现当前最优性能

相似地,如果你使用多个 GPU 处理深度学习在数天或数周中的并行训练问题,这也是当前的常见情形,你可以相对轻松地将这些学习结果同步化。

但是当 GPU 变得更快,它们的学习也更快;并且它们不得不以一种传统软件无法实现的速率与其他 GPU 共享学习。这就为系统网络增加了压力,并且是一个棘手的技术问题。基本来讲,更智能更快的 GPU 需要更好的通信方式,否则它们就无法同步,并花费绝大多数时间等待彼此的结果。因此,你不会从学习更快的 GPU 中获得加速。

当你查看扩展效率,或者当你添加 GPU 看到如何接近于完美的系统性能扩展时,我们使用(DDL)软件解决这个功能性差距的能力是显而易见的。这些测量提供了一个视角来观察 256 块 GPU 如何很好地「讨论」彼此的知识。

之前,256 块 GPU 的最佳扩展来自 Facebook 人工智能研究院(FAIR)的一个团队。FAIR 使用了一个较小的深度学习模型 ResNet-50,和一个较小的大约 130 万张图像的数据集 ImageNet-1K;二者降低了计算复杂度,并使用较大的 8192 的批量大小;最终,通过 Caffe2 在 256 块英伟达 P100 GPU 加速集群上取得了 89% 的扩展效率。对于一个 ResNet-50 模型和一个与 Facebook 相同的数据集,IBM Research DDL 通过 Caffe 实现了 95% 的效率,如下表所示。这是在 64 台「Minsky」Power S822LC 系统的集群上运行的,每个系统有 4 块英伟达 P100 GPU。

NUMBER

通过 256 块 GPU 扩展 IBM DDL 性能

为了从 ImageNet-22K 数据集中的 7.5M 图像上训练出更大的 ResNet-101 模型(每个图像批量大小为 5120),我们实现了 88% 的扩展效率。

我们也打破了记录,取得了 50 分钟的最快绝对训练时间,而 Facebook 之前的记录是 60 分钟。通过把 DDL 用到 256 块 GPU 上来扩展 Torch,我们借助 ImageNet-1K 模型训练 ResNet-50 模型。Facebook 使用 Caffe2 训练了一个相似的模型。

对于开发者和数据科学家来说,IBM DDL 软件展示的 API 每一个深度学习框架皆可使用,并可扩展到多个服务器。PowerAI 企业深度学习软件版本 4 中现已提供技术预览,使得这一集群扩展功能可用于任何使用深度学习训练 AI 模型的组织。我们期望,通过 DDL 在 AI 社区中的普及,我们将看到更多更高精度的运行,因为其他人在 AI 建模训练中利用了集群的力量。