中国高性能计算迈向全面发展

  高性能计算机(HPC)向来被誉为“国之重器”,其制造与应用水平不仅代表国家的科技发展水平,更是国家在经济建设中塑造核心竞争力的关键武器。

  近二十年来,在国家政策与资金的扶持下,产、学、研、用各方力量联合奋战,中国高性能计算产业有了长足发展,天河二号超级计算机连续四次夺得全球超级计算机TOP 500排行榜冠军;曙光、浪潮等本土品牌高性能计算厂商的集体崛起;越来越多的行业开始使用曾经“高高在上”的高性能计算机,等等都是最好的证明。

  11月上旬,全国高性能计算年会在广州举行。它虽然是一个学术型会议,但同时亦是一个观察我国高性能计算产业发展现状与未来走势的绝佳窗口。那么,站在2014年时间点上,我国高性能计算产业人士在忙什么、愁什么、取得哪些新成就、又面临哪些新的挑战?

  从P级到E级的困境与出路

  本届高性能计算 China 上,我国高性能计算产业面临的现实问题和未来发展方向是重点话题之一。我国高性能计算产业的先驱人物、中国工程院院士李国杰发表了题为《高性能计算的困境和出路》的精彩演讲,分别谈到了高性能计算为什么会陷入困境、E级计算如何满足国家战略需求、高性能计算如何找到出路三个重要话题。

  李国杰表示,我国高性能计算发展经历了从追求性能优先的90年代、发展到后来的市场优先阶段,如今正在进入以效率为优先的第三阶段。

  在追求性能有限的时代,高性能计算机以追求性能为主,应用面局限在科学与工程计算,只有极少数企业参与,代表技术是向量机和MPP系统。在追求市场优先的时代,高性能计算机主要通过低成本、短时间的方式来提升性能,应用面扩大到互联网、企业数据中心等,形成了比较完备的高性能计算机产业,代表技术是Cluster(机群)技术。

  在追求市场优先的时代,高性能计算机速度和应用效率每十年均提高3个数量级,高性能计算机由此迈入P级(PFLOPS,每秒千万亿次浮点计算能力)时代,然而,到了效率优先的后P级时代,高性能计算机遭遇了“效率墙”——性能增长缓慢,功能接近了极限。更为,要想造E级(ExaFLOPS,每秒百万万亿次浮点计算能力)高性能计算机,现有的P级技术方案将难以为继。例如,如果使用造天河二号高性能计算机的技术来造一台E级系统的话,功耗将高达320MW,相当于一座60万人口城市一年的用电量,而且系统平均无故障时间将小于1小时,故障的检测、诊断和恢复难度直线上升。

  “高性能计算面临三大困境。一是实际应用效率急剧降低,二是实际应用价值急剧下降,因为真正到P级规模并用上GPU/MIC众核的应用很少,已经跑出规模的应用对重大科学发现、满足国家重大战略需求的价值不显著;三是对高性能计算市场拉动作用急剧下降,尤其对高性能计算市场容量最大的中小规模系统没有带动作用。”李国杰总结说。

  关于E级计算,目前美国、日本都将E级计算提上了具体日程,中国相关部门据说还在探讨中——造一台E级计算机需要花费20亿元,必须有国家政策与经费的支持。同时,李国杰指出,确实应该仔细思考,用20亿元做一台E级机器,什么重大应用配得上这个投入?对国家战略需求的贡献是什么?20亿元投入之后,对产业技术提升的拉动作用是什么?

  目前来看,一些变革型应用,如航空技术模拟、国家点火工程、平方公里阵列(SKA)项目、气候研究等确实需要用上E级计算机。

  无论是否立即开展E级计算项目,李国杰院士认为在追求效率优先的时代,设计高性能计算机要坚持四项基本原则:算得快、应用广、易产业化、核心技术创新。

  此外,李国杰还介绍了中科院计算所和曙光目前发展高性能计算的思路。基于协同设计的体系结构设计理念;即根据应用的需求动态调整硬件,以高效率为导向,高效适配不同应用,尤其要满足大数据[注]、深度学习、脑可续等新型应用的新需求。同时,计算所提出了第三代机群Elastic Cluster。Elastic Cluster在算法层、互联网络层和计算部件层都有关键创新。

  应用领域扩大 75%为新兴应用

  每年HPC China上重头戏之一就是颁布中国HPC TOP100排行榜。HPC TOP100是指依据LinPACk测试性能进行排序的中国最快的100台计算机系统的榜单列表,是衡量中国高性能计算机系统及应用发展的重要参考依据。