来看看中国牛逼的跨机房5K集群

阿里云

外星人马云又发话了:云端(Cloud +App)将是未来移动互联网的关键;阿里巴巴将全面从云打到端,ALL IN移动电商;未来十年,建立DT数据时代中国商业发展的基础设施。

关于“端”,移动大战已经打得如火如荼,话题不少。不过阿里的云除了专业人士关注得却并不多。

而据我了解,阿里云正在成为中国云计算第一平台,其拥有基础云、服务云、个人云等多种服务,是中国最大的基础云计算品牌之一。除了普通的开发者、创业者越来越倾向于将应用部署到阿里云之外,中国最大的IT服务商东软集团与阿里达成合作,逐步将其为客户提供的应用系统迁移到阿里云。

企业越来越青睐成熟的公有云服务,而阿里的电商业务也日益增长。阿里“云梯1”和“云梯2”的计算和存储能力已经快要被耗光的情况下,必须进行扩容。否则完全无法满足业务增长要求,与数据相关的一切业务,例如淘宝运营活动、淘数据、量子业务、阿里小贷均会受到影响,甚至无法开展。

阿里最终选择了一条难度很大甚至充满风险的扩容方案。在不到3个月的时间,同时对云梯1和云梯2进行扩容,单集群规模均将达到5000台,并都实现跨机房处理能力。这是中国人从来没有尝试的事情。

在1年前,GigaOM分析师、知名大数据专家Derrick Harris在访问中国之后,在Gigaom上发表了一篇对中国互联网巨头的看法的文章。

他的核心观点是,中国拥有不少用户群十分庞大且增长迅速的互联网企业,但是比起它们的美国同行却有着更少的技术革新。他们每年花费巨资添置服务器设备,阿里2012年购入的服务器超过了以前5年购入的数量,百度正在建设世界最大数据中心,腾讯每年需添置10万台以上的服务器,它的云计算中心建设正如火如荼地开展。但是中国公司如果想在云计算上有所建树的话(阿里巴巴和新浪明显有这个想法),它们必须有匹配自己巨大规模的技术实力。

现在,阿里巴巴成功实施的飞天5000集群,不知道他做何感想?阿里云梯1的跨机房实施方案,有Facebook和Google这两位唯一的先行者,但他们没有公布细节,阿里得靠自己摸索。而云梯2从1500直接扩容到5000台并且实现跨机房,FB和Google也会致敬。

因为这确实很难。大规模集群对容错性、网络通信、调度和存储性能、可运维性、稳定性、预防脏数据甚至硬件能力都带来挑战。跨机房的集群由于突破了物理空间的限制,对上述要求又提高了一个级别。而阿里所承载的电商和金融业务的性质,对于状态同步、数据干净和业务健壮要求更高。需要在保障生产的前提下顺利完成扩容和数据迁移,又增加了难度系数。

这需要创新的架构设计,针对其开发新的服务器软件,并为之制定专属的项目实施方案。一旦实现跨机房,便可以突破了5000台的容量天花板,建设一个超大规模的离线存储和计算集群。

业界已经有成熟的集群服务器架构和软件,Hadoop,并且是开源的。不过,Hadoop生态圈还没有成熟的大规模集群跨机房解决方案。阿里必须亲自动手。最后,阿里升级并发布了Apsara 0.11版本,该版本是支持5000台规模并达到生产标准的第一个飞天版本,同时支持跨集群计算。

设计新架构、开发新版本Apsara、完成服务器采购、部署、数据迁移等,阿里云团队一共只用了3个月。看上去不可能完成的任务,阿里云能完成验证了它在云计算上的技术实力。事后,Facebook Hadoop团队发邮件邀请阿里云同学分享跨机房集群的经验。谁敢再说中国云计算是只花钱采购但计算实力不强的土豪?

阿里之所以如此重视云端平台,与其在移动互联网时代的战略有关。

一方面,阿里也是All In移动电商的战斗状态,而云+端是不可分割的,云是移动的一部分。另一方面,阿里的“金融+数据+平台”对云也提出刚性需求。

金融的本质是数据的处理交换,而阿里拥有全球最大的商品、用户、交易数据库;全球最大的支付平台,信用体系,是不折不扣的大数据公司,这需要云平台来承载。

阿里在大数据上的思路也是建设平台,建设数据交易市场,做大数据流通的管道。平台战略则意味着,它不只是可以将电商、金融、信用这些数据以合理的形式开放出来,还可以让其他拥有数据的企业提交数据到其平台进行流通、共享和交易。它要做大数据的市场,只有云才能承载这些“大数据内容”。

从基因来看,阿里成为云计算老大也很合理。

亚马逊,美国的电商巨头,是IaaS(基础设施即服务)的奠基者,也是云计算的先驱。它做云计算的初衷便是,需要为了促销订单峰值扩容服务器,但平时这些计算能力是闲置的。云计算则可以将这些计算能力分享出去。

阿里的云平台是它发达的电商业务必然伴随的附加品。现在看来这个附加品的价值正在日益成长,成为阿里在移动时代的核心竞争力之一,成为移动互联网十分重要的基础设施,也是中国在云计算领域技术实力大幅提升的表现。

作者微博@互联网阿超,微信SuperSofter