深度学习“引擎”之争：GPU加速还是专属神经网络芯片？_国内_物联网_中国计算网——工业互联网一站式服务平台—

　　深度学习(Deep Learning)在这两年风靡全球，大数据和高性能计算平台的推动作用功不可没，可谓深度学习的“燃料”和“引擎”，GPU则是引擎的引擎，基本所有的深度学习计算平台都采用GPU加速。同时，深度学习已成为GPU提供商NVIDIA的一个新的战略方向，以及3月份的GTC 2015的绝对主角。

　　那么，GPU用于深度学习的最新进展如何？这些进展对深度学习框架有哪些影响？深度学习开发者应该如何发挥GPU的潜力？GPU与深度学习结合的前景以及未来技术趋势到底是怎么样的？在日前的NVIDIA深度学习中国战略发布会上，NVIDIA全球副总裁、PSG兼云计算业务中国区总经理Ashok Pandey带领其深度学习相关管理团队接受了记者的采访，就NVIDIA的深度学习战略、技术、生态、市场相关问题进行了详细的解读。

　　NVIDIA认为，目前是数据、模型和GPU在推动深度学习的蓬勃发展，深度学习用户可以选择不同的计算平台，但开发人员需要一个易于部署的平台和良好的生态环境，包括一些基于硬件优化的开源工具，而构建一个良好的深度学习计算生态，既是GPU现有的优势，也是NVIDIA一贯的宗旨。

　　NVIDIA全球副总裁、PSG兼云计算业务中国区总经理Ashok Pandey

　　为什么GPU与深度学习很合拍？

　　随着数据量和计算力的提升，Hinton和LeCun耕耘多年的大型神经网络终有用武之地，深度学习的性能和学习精度得到很大的提升，被广泛运用到文本处理、语音和图像识别上，不仅被Google、Facebook、百度、微软等巨头采用，也成为猿题库、旷视科技这类初创公司的核心竞争力。

　　那么为什么是GPU呢？最重要的是GPU出色的浮点计算性能特别提高了深度学习两大关键活动：分类和卷积的性能，同时又达到所需的精准度。NVIDIA表示，深度学习需要很高的内在并行度、大量的浮点计算能力以及矩阵预算，而GPU可以提供这些能力，并且在相同的精度下，相对传统CPU的方式，拥有更快的处理速度、更少的服务器投入和更低的功耗。

　　采用GPU加速与只采用CPU训练CNN的性能比较

　　以ImageNet竞赛为例，基于GPU加速的深度学习算法，百度、微软和Google的计算机视觉系统在ImageNet图像分类和识别测试中分别达到了5.98% (2015年1月数据)4.94%(2015年2月数据)、4.8%(2015年2月数据)、的错误率，接近或超过了人类识别水平——跑分竞赛虽然有针对已知数据集进行特定优化之嫌，但优化结果对工业界的实践仍然具有参考价值。

　　“人工智能从过去基于模型的方法，变成现在基于数据、基于统计的方法，主要得益于GPU高度并行的结构、高效快速的连接能力。事实证明GPU很适合深度学习。”北京航空航天大学教授、国家“十二五 863计划高效能计算机及应用服务环境”重大项目总体组组长钱德沛说。

　　4款新方案

　　NVIDIA回顾了GTC上推出的四项有助于推动深度学习发展的新产品和方案：

　　1、GeForce GTX TITAN X，为训练深度神经网络而开发的GPU。

　　TITAN X采用 NVIDIA Maxwell GPU 架构，结合 3,072 个处理核心、单精度峰值性能为 7 teraflops，加上板载的 12GB 显存，336.5GB/s 的带宽，可处理用于训练深度神经网络的数百万的数据。

　　NVIDIA介绍，TITAN X 在工业标准模型 AlexNet 上，花了不到三天的时间、使用 120万个 ImageNet 图像数据集去训练模型，而使用16核心的 CPU 得花上四十多天。

　　2、DIGITS DevBox，针对研究人员的桌边型深度学习工具。

　　DIGITS DevBox采用四个 TITAN X GPU，从内存到 I/O的每个组件都进行了最佳化调试，预先安装了开发深度神经网络所需要使用到的各种软件，包括：DIGITS 软件包，三大流行深度学习架构Caffe、Theano和Torch，以及 NVIDIA 完整的 GPU 加速深度学习库 cuDNN 2.0。和其他巨头一样，NVIDIA对开源的支持也是不遗余力。

　　NVIDIA表示，在关键深度学习测试中，DIGITS DevBox 可以提供 4 倍于单个 TITAN X 的性能。使用 DIGITS DevBox 来训练 AlexNet 只要13个小时就能完成，而使用最好的单 GPU PC 的话则是两天，单纯使用 CPU 系统的话则要一个月以上的时间。

1/3 1 2 3 下一页尾页