每六个月发布一次的HPC500强排行榜越来越受到业界广泛关注,尤其在近几年,连续数届荣登榜首的都是中国的HPC系统。
HPC(高性能计算)话题备受瞩目,不仅因为本土系统在业界博得好评,更重要的是高性能计算逐渐走进每个人的生活,并且发挥着不可或缺的作用。比如说金融、气象、能源、制造等行业中的很多企事业都在应用高性能计算,作为普通百姓的衣食住行,我们在刷卡购物、打电话、听天气预报、出门坐车时也已经在享受高性能计算所带来的准确与方便。
谈到HPC,大家最关注的总是计算性能,却鲜有人谈到HPC的存储系统,即并行文件系统。在近期举办的一次沟通会上,中国气象局正研级高工洪文董、中国高性能计算TOP100排行榜发起人袁国兴、中国计算机学会高性能计算专业委员会秘书长张云泉几位HPC领域的专家,不约而同地就HPC领域并行文件系统的重要价值阐述了各自的观点。
并行文件系统是HPC实现资源调度和性能优化的关键因素
在高性能计算领域,尤其以气象部门为例,很多天气预报的模式都是将任务分成多个小任务,最后通过网络将其归结到一起。并行计算快速进行,而相应的数据量也随之激增,这就需要有并行文件系统进行处理。
中国计算机学会高性能计算专业委员会秘书长张云泉在沟通会上表示,在高性能计算领域,需要通过并行来实现加速,而这样的加速对于高性能计算来说,有着重大的意义。
中国气象局正研级高工洪文董说,“要实现HPC系统的科学计算的效能,就一定需要一个并行的文件系统。CPU需要通过并行文件系统将众多的存储硬件管理起来,尤其在气象领域,数据相互之间是有关联的,计算的结果之间要进行交换,这对于并行文件系统的要求就更高。”
因此,洪文董认为,一般的开源并行文件操作系统并不能满足科学计算领域HPC系统的需求,因为在科学计算领域,大多数时候文件系统存储的数据相互之间是需要相互影响的,即它们是分布共享并行文件系统,不像社会计算领域,如电信、网络、物流等,每个文件系统的数据相互之间没有关系,它们是分布并行文件系统。这两种模式对于文件系统的要求是完全不一样的。
中国高性能计算TOP100排行榜发起人袁国兴也认为,在HPC系统中,存储系统的响应速度必须要尽可能地高,同时并行文件系统也需要尽可能地高效,否则,系统产生的数据量激增,即便计算系统速度再快,如果并行文件系统无法快速响应,那么也会急剧降低HPC整体系统的性能。
并行文件系统可以把多个结点上的磁盘组织成为一个大的存储系统,提供更大的存储容量和聚集的I/O带宽,并随系统规模的扩大而扩展,在多种存储环境下发挥着重要的作用,尤其是集群结构的高性能计算领域。
同时,张云泉认为,现在大数据的发展,使得HPC的研究有了新的用武之地,产生了众多的新兴交叉学科。无论对于深度学习还是大数据分析、在线游戏而言,各种全新的应用对于HPC提出了全新的需求,这些对于HPC的存储系统,尤其是并行文件系统提出了各种挑战。
从高性能上看,GPFS即现在的IBM Spectrum Scale,通过将I/O分布在多个硬盘提高性能,能够高效工作在1个节点到4000多个节点的集群环境中,也能够很好地支持SSD盘和闪存阵列。
同时,可靠性是高性能运算的重中之重,在GPFS环境中,某一节点的硬盘连接丢失,不会影响到其他的节点,GPFS使用RSCT的功能持续监控不同文件模块的健康状态,当任 一错误被检测到时,相应的恢复动作将自动执行。GPFS还提供了额外的日志和恢复功能,可以维持元数据的一致性。最大三副本,可支持节点的自动Failover。相较于开源的CEPH,作为商用系统代表的GPFS,经历了大量的实践和检验,相对来说更加稳定和可靠。
洪文董认为,“从商用软件的角度来说,IBM的GPFS是并行文件系统中做得最成功的,也是业界做得最好的。”
IBM Spectrum Scale,以商业的可靠性满足多方高性能存储需求
软件定义存储时代,高性能计算面临着不同时代、不同品牌的存储设备和解决方案的整合的问题,IBM整合了自身所有跟存储相关的软件,推出光谱存储家族,以帮助企业和机构应对高性能计算时代出现的新问题。光谱家族的SpectrumScale, 即广为人知的IBM并行文件系统明星产品GPFS,也就是HPC领域备受推崇的并行文件系统的商用软件,在2013年的全球top500超级计算机有超过150台的集群使用GPFS文件系统。