超级计算机:隐藏在我们身边的庞然大物

  天河一号A根植于2009年获得TOP100冠军的天河一号,也是天河一号的改进版本。天河一号A具备了14336颗Intel Xeon X5670 2.93GHz六核心处理器;7168块NVIDIA Tesla M2050高性能计算加速卡;互联网络从Infiniband交换器改为专用高速互联总线;此外,还有加上了2048颗我国自主研发的飞腾FT-1000八核心处理器作为秘密武器进行加速。它具备总计高达20多万颗处理器核心,Linkpack最大性能飙升至2.507PFlops(每秒千万亿次浮点运算),峰值性能更是高达 4.7PFlops,分别是上代的4.4倍、3.9倍。而且得益于Fermi新架构的Tesla GPU高性能计算卡,天河一号的系统效率(最大性能与峰值性能比值)达到了53.3%。

  在传输方面,天河一号A采用的是高速互联交换芯片“NRC”和接口芯片“NIC”,全部具备自主知识产权。其中NRC芯片片内延迟只有单端口双向带宽高达160Gbps——是Infiniband QDR传输速率的2倍,而NRC单芯片上拥有16个这样的交换端口,其峰值速率达到2.56Tbps。通信芯片由于稳定性和制程局限,往往不采用最新的制程工艺。NRC芯片采用了90nm工艺制造,晶体管数目大约为4.6亿——比“飞腾”处理器晶体管要多。

  国家超级计算济南中心——神威蓝光

认清超级计算机

  神威蓝光超级计算机共有8704个CPU。这是该超级计算机最大的突破。这些CPU全部采用中国购买许可后自主设计生产的CPU,即申威3代“申威1600”处理器(ShenWei processor SW1600)。该处理器是16核64位处理器,每个核心都是DEC Alpha 21164A(EV56)处理器的现代化增强版,以最高频率1.1GHz运行时,16个核总共提供最大141GFlops的双精度浮点处理能力。它的运算能力峰值达到1.07016PFlops,持续性能达到795.9TFlops, Linpack效率为74.37%,总功耗为1074KW。存储容量2PB,最高带宽69.6TB/s。采用多种节能技术实现绿色指标741.06MFlops/W。

  国家超级计算深圳中心——曙光星云

认清超级计算机

  中国自主研发的第一台实测性能超千万亿次的超级计算机,是世界上第三台同类计算机。这台计算机名为“星云”,由曙光信息产业(北京)有限公司、中国科学院计算技术研究所、国家超级计算深圳中心共同研制,是中国制造的拥有部分自主知识产权的超级计算机。2010年6月1日,该超级计算机在北京正式亮相。2010年5月31日在全球最快超级计算机前500名排行榜上,“星云”超级计算机及其相关系统经过众多专家测评,跻身排行榜第二的位置,超越欧洲和日本的同类产品,其运算速度达每秒1270万亿次。

  中国超算发展面临的机遇与挑战

  程序优化与编程加速的那些事儿

  毋庸置疑,随着上述几款大型超级计算机,特别是天河二号的推出,中国已经成功站在了超级计算机行业的顶峰,成为了与美国并驾齐驱的超级计算机大国。不过这仅仅是在硬件层面上,在软件特别是应用生态环境中,中国还有很长的路要走。

认清超级计算机

  中科院计算所计算机体系结构国家重点实验室研究员、高性能计算专业委员会秘书长张云泉认为——中国的超算硬件水平已经达到了世界领先程度,特别是天河二号再次获得了TOP500超算排名的第一位,之前的天河一号A和曙光星云超级计算机都取得了喜人的成绩。从操作性来说,如何将这些世界顶尖的超级计算机应用好,成为了行业面临的重要问题。如何开发适合的软件、如何培训相关的技术人才,实现产业的良性循环,则是目前面临的主要问题。曙光本次的大会立足于人才培养,这需要一个长期坚持的过程,从高专委的角度出发,也希望曙光能够持之以恒的进行,高专委也将提供大力的支持。

认清超级计算机

  结合当下超级计算机应用的发展来说,并行化研究已经是行业的重要方面,而如何将原有的代码迁移到超级计算机中就成为了关键性的问题。从迁移的角度来说,NVIDIA的CUDA编程方式提供了非常好的解决方案。NVIDIA亚太区首席技术官Simon See认为——NVIDIA提供了超过250个应用案例,这可以帮助用户更多的了解在各自行业中的表现。在应用方面提供了诸多的开发软件,包括CUDA、OpenACC等等,这也是希望用户更多的使用GPU。