性能上看,确实通过裁剪运算器宽度(8位定点)达到了非常高的理论峰值,在大多数卷积操作上效率很好。但在部分其他类型的神经网络操作上,效率不是太高。
从工程角度看,Google通过TPU项目对深度学习硬件加速作出了有益的尝试,令人敬佩;未来Google未来一定会持续更新TPU的架构。而寒武纪商用产品最终并没有走脉动阵列机的技术路线,而是走一条通用智能处理器之路。我们十分期待未来继续与国际工业界和学术界同行同台竞技。”
虽然寒武纪与谷歌分别在硬件方面选择了不同的商用模式,但是双方都在从彼此身上学习和借鉴。陈天石提到谷歌这篇TPU文章,引用了寒武纪团队成员前期发表的6篇学术论文,并有专门的段落回顾他们一系列学术工作。
“论文中在提到DaDianNao/PuDianNao/ShiDianNao时还专门用英文注释这几个名字的含义(Big computer, general computer, vision computer),对我们前期学术工作显示了相当的尊重。非常值得骄傲的是,我们早期与Olivier Temam教授共同开展的这一系列开拓性学术工作,已经成为智能芯片领域引用次数最多的论文。而Olivier Temam教授本人在几年前就已经加入了Google。相信他会把DianNao系列的学术思想融入TPU后续的版本,把TPU的事业继续推向新高度。”
与此同时,雷锋网也采访了深鉴科技CEO姚颂,业界已经对TPU文章里的设计亮点评论颇丰了,姚颂从另一个角度看待这个问题,他认为“TPU的最大亮点其实是TPU这件事本身”。并行计算有很多种架构,如GPU、FPGA等等,一个公司选择某个方向有它的深思熟虑。姚颂认为谷歌做TPU这件事情本身,其实是展现出一种“直面应用需求”的姿态,直接根据最终应用来进行“定制计算”,而他所在的深鉴科技所选择的,也是类似谷歌这种“定制化”发展模式。
“大家可以很清楚的看到Google这样直面应用的公司,从最开始使用CPU这样的通用芯片,过渡到GPU与FPGA,再过渡到专用的ASIC,来直面应用的需求。沿着这样一条发展曲线,在不断提高性能和用户体验的同时,也降低了整体运行成本。Google第一次通过TPU这样一个终极形态走完了这样一条发展路径,其实为其他很多公司指出了一条未来的发展路径,这个意义超出了TPU本身设计的高效性。”
争议:论文里TPU的比较对象
论文里,TPU的比较对象是:英特尔 Haswell E5-2699 v3和英伟达Tesla K80。有人就对这个比较提出异议,因为Tesla K80并不是英伟达最强最新的芯片产品。
外国网友 jimmy 表示:
“Tesla P4就比Tesla K80 的能效高出至少16倍。谷歌拿TPU与5年前的芯片架构相比,有点狡猾。”
网友 Szilárd P 则表示,拿TPU跟Pascal Tesla做比较的说法很荒谬。因为英伟达发布Pascal Tesla的时间是在2016年9月,但当时谷歌这篇论文是为了第44界ISCA(国际计算机架构会议)准备的,论文提交截止日期是2016年11月份,而英伟达Pascal Tesla的正式出货时间也要等到10月份,所以谷歌再重新做实验测试,是不太现实的。但他同时也表示:
“谷歌不拿Maxwell M4/M40来做比较,有点说不过去。因为 GM20x也是28nm,而且比K80性能更强。”
针对这一点,陈天石认为如果纯粹考虑技术因素,这种比较是否公平要看从什么角度看:
“Google TPU所采用的脉动阵列机架构,在处理卷积的效率上确有其优势,在性能功耗比方面会显著胜过GPU。同时TPU是2016年以前的产品,与同期K80相比,其实不算太不公平。但若仅仅考虑技术因素,TPU使用8位运算器,相比之下强调高精度浮点运算的传统GPU会吃亏。”
姚颂则从另一个方面对这种“比较”进行解读,他认为这或许是谷歌一种“韬光养晦”的策略。他表示谷歌通常有了新一代的技术才会公开上一代技术,这篇论文里的比较对象没有采用最新的GPU芯片,并不是谷歌有意在取巧。
“其实TPU的设计大概在四年前就开始了,上线实用也已经有了一段的时间,在那个时间点,其实还没有出现Tesla M40这样的GPU,也没有出现最新的Tesla P40这样Pascal架构的GPU。”