联想之所以能够在南京大学HPC竞标中力压群芳,一是靠联想在高教HPC领域常年的经验积累,以及提供个性化服务的精神;二是提供了包括计算、网络、存储和软硬件一体的,经过兼容性测试的完整系统——对于人力、物力相对缺乏的高校来说,这是最重要的选择指标之一。
而从技术方面来说,这套系统通过部署65套联想Flex机箱,可以确保系统总体计算能力的峰值达到每秒860.16万亿次,运算效率超过76% (理论最高值为81%),其次,在Infiniband交换机部分,系统通过两台配置了612个接口的交换机,实现计算和存储的全线速交换。
最重要的一点是,此套系统采用了联想全SSD分布式并行存储和稳定可靠高性能的GPFS并行文件系统,可满足PB级海量数据文件的汇存需要,本系统使用的GPFS保持着实际测试中带宽可达208GB/s的速度,该设计可以满足随需扩展的容量需求,支持存储带宽随容量线性扩展。此外,基于互联网的7*24小时HPC在线运维服务系统也将极大提高系统平台的运营管理效率。
“南”字辈的另一家学校南方科技大学,虽然是一所成立于2011年的年轻院校,但一开始就以国际领先的创新研究型大学为发展目标,该校物理研究领域涵盖了新能源物理,新型功能材料,以及与之相关的凝聚态物理等前沿理论,研究领域涵盖不同维度下的半导体、金属、绝缘体等多种材料,以及对新材料的设计和预测等学界前沿地带。
所以,这家眼界开阔、思维前沿的“改革试验田”对HPC平台的要求也是同样的前瞻和严苛,南科大为“搭建一套全新的、符合平衡设计的高性能材料分析模拟平台”而发布的招标书中明确提出:高性能材料分析模拟平台需要提供强大的计算能力,具备高度的智能管理能力,以及高速/高吞吐量/低延迟的交互网络,并且可进行灵活高效的任务调度和快速部署扩展——每一项都是高标准严要求。
基于对高教HPC领域的重视,联想能够迅速集结起一支由Lenovo System x高级专家和HPC系统优化高级工程师组成的专家队伍,在经过数月的沟通讨论之后,“一套共有153个节点的Leovo System x HPC综合解决方案最终浮出水面”。
就技术方面来讲,联想充分利用了Lenovo System x HPC软件包支持自动并行化、线程并行(OpenMP)、进程并行(MPI)以及混合模式等多种并行技术的先进功能,通过单点管理,管理命令和界面使得日常集群管理工作量与单一映像系统相当。
就管理方面来说,联想为了让平台具备更灵活高效的调度能力,借助专业作业调度软件,可将不同作业分配到不同节点上,保证多个作业同时提交时的高效有序运行,完整的管理系统保证所有不同类型节点都可被充分运用。根据方案设定,这150多个节点具有数年平均无故障时间的高稳定性设计,特别适合南科大物理系在计算材料物理时的高可靠性要求。
作为国内计算材料物理的先行者,南科大高性能材料分析模拟平台的效率将直接关系到我国计算材料物理领域的发展速度和水平,南方科技大学的严苛要求与联想的认真对待,着实是一点也不过分。
南京大学是896个计算节点,南方科技大学则是153个计算节点,联想为北京大学搭建的Lenovo Intelligent Cluster高性能计算系统,则拥有个976颗英特尔至强E5-2670 V2和48颗英特尔Xeon Phi 5110P处理器、8颗NVDIA K20协处理器,就高教HPC领域来说,这三套系统都是规模相对比较大的HPC平台,但必须要指出的是,在高教HPC领域,普遍的情况是低于100左右的节点,甚至是低于50个节点左右的HPC集群,而对那些将目标矛头指向互联网巨鳄的HPC供应商来说,这部分业务在很大程度上交给了部分国内HPC领域的中小型服务商。
但对教育科研任务来说,每一次计算、每一个结果、每一个HPC集群,无论大小都有成为一次学科研究爆发点的潜力。因此,就规模相对较小、范围更加广泛但学科研究价值一点不比前述HPC集群低的诸多高校HPC集群需求来说,仍然需要有技术更好、服务更专业、产品更优秀的供应商参与进来。这就是联想作为“中国HPC领域‘托底’单位”最大的价值。
校企合作 无论大小:拿出中国HPC的“底气”
无论是北京大学、南京大学,还是南方科技大学,总体来说有几个共性:第一,都处于相对发达的经济地区,经济水平较好、高校科研资金较为充足、学校高尖端人才储备非常丰富;第二,这些学校或是在高性能计算领域有着短则十几年年、长则三十多年的HPC构建经验,要么是吸引了国内外顶尖学科带头人的顶尖院校——与此不同,在更为广阔的国内高教HPC领域,同样存在着发展不均衡的现象。