亚马逊云搭建上万核心Linux超级计算机

 高性能计算(HPC)专家Jason Stowe最近向他的两位工程师同事问了一个简单的问题:能不能在云中搭建一个包含1万个核心的集群?

  Stowe是Cycle Computing公司的创始人兼CEO,这是一家帮助客户快速而高效地获取超级计算能力的公司,主要服务对象是大学和大型研究机构。

  Cycle Computing已经在亚马逊的弹性云(EC2)上搭建了几个集群,目前可扩充到数千个核心。但是Stowe想要再上升一个台阶,将他的集群扩展到1万个核心,虽然要在亚马逊上配置1万个核心可能需要花费大量的时间,但Stowe说他还没有见过有谁能在一个HPC集群上实现这一量级的核心数,因为这意味着需要采用一种批处理调度技术,并运行一个HPC优化应用。

  “我们尚未找到更大规模的任何参照物,”Stowe说。他曾对自己在亚马逊上部署的Linux集群测试过运算速度,要进入全球最快超级计算机TOP500强榜单毫无问题。

  构建如此规模的一个HPC系统,首先要做的一件事就是要找到有这种计算需求的客户。否则,如此大规模的计算环境就毫无意义。

  对这种1万个计算核心云集群有需求的客户就是旧金山的生物科技企业Genentech,该公司的科学家Jacob Corn需要这样的计算能力来考察蛋白质的相互链接,这项研究最终有可能引入医学治疗过程。Corn说,与1万核心的集群相比较,“我们所拥有的集群规模只有它的十分之一。”

  在亚马逊所建议的最佳时间,也就是3月1日午夜过后,Cycle Computing和Genentech开始申请1万个计算核心。虽然亚马逊提供了专为高性能计算而优化过的虚拟机实例,但是据Stowe说,为了省钱,Cycle和Genentech还是选择了“标准的CentOS”Linux集群。CentOS是基于Red Hat Linux的一个Linux版本。

  这1万个核心是由每8个核心带1250个实例构成,此外还有8.75TB的RAM和2PB的磁盘空间。每次可向上扩展数千个核心,仅需45分钟便可配置完成整个集群。而且没有出现问题。“当我们申请第1万个核心时,很顺利就完成了,”Stowe说。

  该集群共运行了8个小时,费用为8500美元,其中包含了亚马逊和Cycle Computing的全部费用。

  Corn说,对于Genentech来说,这一次的高性能计算请求与自己购买1万个核心的选择相比,既便宜又好用。利用Genentech的现有资源执行模拟计算原本需要数周或数月,而在亚马逊上申请1万核心的集群进行计算只用了8个小时。Genentech利用大量核心的集群获得了极大的益处,因为它的计算是“非常难以处理的并行计算问题”,由于各节点间不存在通信需求,所以性能指标是“随着核心数的增加而线性增加的”,Corn说。

  为了配置这个集群,cycle使用了自己的CycleCloud软件、Condor调度系统和开源配置管理框架Chef。

  Cycle还使用了自己研发的一些软件来测试各种错误,并在必要的时候重启各节点。为了确保安全,该集群采用了安全-HTTP和128/256位高级加密标准进行了加密。