4.2万+3.2万微异构 高性能计算进入融核时代

  2013年SC大会公布了最新一期Top500全球高性能计算机500强榜单,来自中国的“天河二号”(Milky Way 2)以54.9PFlops(每秒54.9千万亿次浮点运算)再次蝉联冠军。而让这套系统得以高居榜首的核心,则是来自英特尔的48000颗至强融核协处理器以及32000颗至强CPU。

  “微异构”夺冠 预示未来趋势

  作为科学研究的重要手段,高性能计算一直以来被广泛应用在分子物理、分子生物学、高能物理、工业设计、大气研究、石油勘探等领域。最简单的例子是汽车的外形和造价:想要设计出阻力最小、最省油,但是抓地能力要好、更加安全的汽车,如果按照传统设计方法反复做各种试验,那么最终汽车的成本将非常高昂。而如今绝大多数的汽车厂商都会采用实际试验和高性能计算模拟相结合的方式来设计汽车,于是在很短的时间周期内,新款车型可以被研制出来,其造价进一步降低,风阻更小。

  因此,高性能计算的精确度和效率成为了不断推动工业、科学研究进步的重要因素。举例来说,本次夺冠的“天河二号”的计算能力是2012年11月Top500榜单中冠军计算能力的两倍。这意味着相同的计算工作可以缩短一半时间完成,或是在同样时间内计算更多的任务。

  但为何一年之内会有如此大的变化呢?答案就是“天河二号”采用了英特尔至强处理器 + 至强融核协处理器所构成的“微异构”计算系统。该系统即具有多种类型、可提供计算力的硬件架构,但却由通用编程模型予以支持,以简化开发和优化过程。这一优势是传统异构架构(使用CPU与GPU加速器的组合)所无法实现的。这也使得“天河二号”成为最具能效的系统之一(系统总功率为17.8兆瓦)。

说明: Macintosh HD:Users:hanshuai:Desktop:xeon_phi.png

英特尔至强融核协处理器

  如今,越来越多的高性能计算系统开始采用异构模式来解决并行计算任务。但主要矛盾在于编写适用于这种异构计算环境的程序,一方面要尽可能好的利用GPU的并行管线,另一方面又要协同调度好CPU的计算资源。这也是很多超算中心在异构模式面前犹豫的原因——太过复杂。而如今,“天河二号”用“微异构”做了榜样,一方面用至强融核协处理器实现了大规模并行计算,另一方面由于至强融核是x86架构,极大的简化了开发和系统优化过程。

  事实也是如此,自从6个多月前推出英特尔至强融核协处理器以来,英特尔至强处理器和英特尔至强融核协处理器已发展成为一个强大的组合,在全球最快的多个超级计算机中得到了广泛采用,至今已经在所有超级计算机 500 强提供的聚合性能中占据 18% 的份额。

  HPC的系统级挑战

  经典的计算机科学课程告诉我们,想要发挥一个计算系统的最大性能,必须从各方面消除系统瓶颈,其中最主要的是计算瓶颈、I/O瓶颈以及软件瓶颈。而对于高性能计算(HPC)来说,目前85%的超算系统是由计算集群构成,因而更需要总体的去衡量整个系统的瓶颈和效率。

  简单来说,计算性能是核心,传统堆砌CPU的方式因为机架密度和高昂的功耗而难以大幅度的提升——即便是“天河二号”也只有3.2万颗至强处理器,而针对并行计算的至强融核协处理器数量达到了4.8万颗。这说明了未来高性能计算将越来越多的采用这种“微异构架构”,由同为x86架构的至强融核协处理器提供绝大部分计算力。从而解决日益攀升的计算资源需求,使其不再是瓶颈。

  I/O瓶颈分为两部分,一是节点内的I/O,另外是节点间,跨机架的I/O。

  英特尔为节点内I/O做了一系列努力:将内存控制器、PCI-E控制器等放入CPU,用顶尖的半导体科技制造SSD固态硬盘来加速节点内的存储读写速度和随机数据IOPS(高性能计算敏感)。而对于节点间的I/O,不论是英特尔的万兆以太网,还是正在发展的硅光子通信技术(可达25Gb/s以上速度),都在全力加速计算节点间的I/O能力。

  但硬件提升对软件开发和系统优化带来的影响不可不重视。

  之所以强调“微异构”,就是因为这一架构的微弱区别在于至强处理器是传统多核心CPU,而至强融核协处理器则拥有众多的微内核——但是它们拥有相同的x86架构,可以在相同的编程环境下,甚至几乎不用改动原有代码就可以在系统上顺利运行。而英特尔即将推出的代号为“Knights Landing”的新一代融核主处理器则可以无缝运行原生应用。