现如今计算已经在我们的生活中扮演着越来越重要的角色,大家可以看到从我们的笔记本到手机、再到Pad,可谓计算无处不在。而HPC系统,是整个计算产业里面最快,技术行业最高的行业先锋,可谓是重中之重。而此前,因为HPC自身的原因,其设计、建设、使用和维护一直是一个要求比较高的行业,专业化程度较高。不少用户在HPC集群上建设和运维压力都较大,极大的阻碍了企业新价值的创造。
4月21日,在经历了6个月的试运营之后,中科曙光针对高性能计算集群推出的SaaS级专业化在线平台EasyOP(Easy Operation的简称)正式上线。自此, HPC行业中将迎来一枚重磅角色,不仅可以帮助HPC用户降低运维成本和人力投入,而且HPC集群的安全性和使用效率也得以提升。
正所谓懂HPC,才能更懂HPC在线运维。试运营期间,EasyOP累计接入来自20组HPC集群的超过7800个节点,应用涵盖CAE、气象、海洋、物理、生物、材料及互联网6大领域,对所有接入集群资产全面监控的指标超过180项。
HPC运维人员不仅可以随时了解HPC集群的运营情况和故障,还可通过网页或微信等在线咨询服务与线上专家进行一对一的交流。EasyOP还会将常见、有代表性的故障解决方案上传至知识库,以便于HPC运维人员积累。
从周期上看,EasyOP接入时间跨度分布合理,系统满负载和低负载的情况均包含在内。在监控的7800多个节点中,CPU的最高和平均利用率为83%和70.1%,内存的最高和平均利用率为40%和25.5%,存储的最高和平均利用率为23%和20.3%。另外,在EasyOP接入的资源作业中,中短时长作业占近70%,作业排队率约为1/5。这种多线程任务下适于对HPC系统各子功能的全方位监控。
统计显示,试运营半年期间,全部集群共自动触发近2900条通知信息,其中2281条是因计算节点主要部件温度升高触发的轻微类通知。严重类通知仅有3条,其中两条起因自共享存储挂载故障,一条系严重级别温度过高导致节点自动关机,从侧面反映了曙光集群系统的高可靠性。
“EasyOP是曙光结合‘互联网+’和HPC的产物,不仅帮助用户维护HPC系统,还有望利用用户的系统为其创造更多的价值。”曙光副总裁沙超群表示,“EasyOP通过提供运维、调优等服务,将各行各业的专家从HPC的运维和管理中解放出来。不止于此,曙光希望通过EasyOP构建一个资源交易平台,让闲时资源创造价值。”
写在最后:
中科曙光公司是国内行业中排头兵企业,中国TOP100的七连冠。可以想象,这次EasyOP在线运维平台的推出,对于帮助HPC用户在立项支持、设备选型、产线交付、售中部署、应用环境调优、在线运维指导、售后技术支持等方面的持续需求有着极大的意义。
目前,在基于HPC的IT中心建设中,不少公司仍在就某个或几个离散的环节提供服务,难以做到全生命周期的运维服务。而第三方HPC服务商由于并不研发和生产HPC系统,对于HPC运行中产生问题的分析和解决效率与HPC专业出身的曙光相比还有不小的差距,不足以保障用户HPC高效运转。
正如中国软件行业协会数学软件分会常务副秘书长姚继锋博士所说,“EasyOP可实现曙光与HPC用户的互联,对于打造‘HPC生态圈’具有重要意义。”