蝉联中国超算第一之后曙光还将怎样引领HPC?

  中国超算在软硬件方面实力的增强是毋庸置疑的。这不仅体现在天河2号长期“霸占”全球超算性能的宝座,更体现在一大批中国先进超算的集体亮相和中国超算厂商实力的不断增强。

  日前,在中国高性能计算学术年会上,《2015年中国高性能计算机TOP100排行榜》正式公布。而这份榜单除了超算性能排名之外,其透露出的信息和趋势还有很多。

  谁是中国超算的第一品牌?

MAC:Users:sunny:百度云同步盘:1115:2015年新入榜机器总量排名第一.jpg

  从这份榜单所统计的100台中国顶尖超算系统来看,在过去的一年中,新近上榜的超算有74台;而在这74台新晋超算中,中科曙光占据30台。而回看整个榜单,在100台超算系统中,曙光占比也达到了34台。

  从这份超算榜单来看,虽然十二五计划已经进行到最后一年,但2015年TOP100榜单74%的更新率则表明,中国超算仍在以超高的速度发展。而在这样的发展速度中,中科曙光无论是从超算系统建设总量还是新超算建设数量上来看都是无可争议的第一名。

  其实这个第一名的宝座,曙光已经连续坐了7年。可以说,当第一名已经不再是曙光在超算领域的第一要务。

  老大就要有老大的样子。既然是老大,那么曙光追求的显然不仅是实现更多的销售,更是如何引领中国超算行业的发展,让超算更好的服务科研、服务企业。而要做到这一点,需要的不仅是光环,更需要实力。

  当老大应该干什么?

  超算是国之重器,是硬件与软件的完美结合。要引领行业发展也必须从硬件和软件两方面入手。而在这两方面,曙光在过去的一年中都没闲着。

  更快、更灵活的硬件架构

  从最初的曙光一号,到后来的曙光6000;在过去的很多年中,曙光都是中国超算的代表。在硬件架构的不断演进中,曙光始终保持了领先;而最新的硅立方则是这种领先的最新体现。

MAC:Users:sunny:百度云同步盘:1115:曙光的地球数值模拟装置位列榜单NO.7.jpg

  在所有今年新晋榜单的超算中,排名最靠前的是中科院大气物理所的超算“硅立方”。这台拥有1038个计算节点、2076个物理处理器的超级系统凭借其738TFLOPS的测试性能和996TFLOPS的峰值性能多得了本次TOP100超算排行中得第七名,也是今年中国新建的所有超算系统中最快的一台。

  硅立方采用了全新的模块化设计思路,将超算的各个功能变成能够相互独立且具备统一接口的模块——超节点,极大的增加了超算系统构建时的灵活性。让超算系统的建造、升级和维护变得更加简单。另一方面,硅立方也是国内为数不多的使用液冷系统超算。液冷技术看似简单,但数千个节点的联合制冷不仅对厂商的设计能力有着超高的要求,更需要厂商具备高超的热交换模块制造能力。

  既然采用了模块化设计,那么模块和模块之间的链接就变得更加重要了。为了消除超算的各个模块之间的通讯瓶颈,曙光专门为硅立方开发了基于3D-Torus 全互联架构的高端容错网络。这种新的网络不仅更有利于大规模并行计算,更增强了超算系统在节点失效时的容错能力。

  不仅在国内,硅立方的设计思路在全球范围来看都是先进和代表未来的。而这正是曙光在超算领域里的硬实力。

  建造更好用的超算

  在超算这个相对较窄的市场细分中,软件实力的长期欠发展是中国超算界对国内超算现状共识。而作为中国第一的超算大厂,曙光当然不会无动于衷。基于现状,曙光的切入点非常实际。

  从市场的实际情况来看,目前使用超算的单位多事学校和科研院所。这些单位通常面对的时产学研课题的计算和研究工作。这样的性质和背景决定了这些单位注定是强于业务而弱于IT的。而超算毕竟是超大规模计算系统,不仅拥有海量的计算、存储和网络资源,在实际的应用中更是要面对同时运行多种并行程序的情况。因此,如何对如此大规模的系统进行有效的监管、监控和优化就成为目前国内学校和科研单位所面对的最实际的困难。

  而曙光的EasyOP在线运维平台正是为了解决这一难题而诞生的。EasyOP在线运维平台可以7*24小时监控超算的系统各个硬件部分的运行状态并统计包括高兴呢过计算在内的各个层面的多种信息,为使用单位用好超算,管好超算以及使用之中的性能优化提供可靠和有效的工具。同时,这种在线的运维管理工具也允许使用单位的超算管理员实施远程监控并获得来自曙光的原厂在线指导,让超算也能够享受到很多商用系统才有的高规格服务。