详解:从Greenplum、Hadoop到现在的阿里大数据技术

在2016云栖大会·武汉峰会上,阿里云技术专家宋杰分享了他对云计算的三条路径的理解和感悟,并且阐述了云计算对于企业而言到底意味着什么的问题。那么阿里大数据发展之路经历了哪三次技术突围?阿里又是如何通过十余年的技术沉淀最终铸就飞天系统的呢?本文将为你揭晓答案,精彩不容错过。

对于企业来说,但是到底云计算是什么呢?相信很多企业都有这样的困惑,让我们一起回到这个原始的起点探讨究竟什么是云计算?云计算对于企业而言到底意味什么?

云计算的三条发展路径及三种落地形态

当回到最初的起点再审视云计算的发展路径,可以发现,经过十余年的发展演进,云计算有三条发展路径,并且最终沉淀下来了三种落地形态。

详解:从Greenplum、Hadoop到现在的阿里大数据技术

第一条路:源自于谷歌对大规模数据的处理,谷歌为全球的互联网用户提供同一个服务——搜索,它需要将全世界所有的网站的数据都爬回去,然后做排序和索引,之后再为用户提供搜索服务。可以看到这样的工作需要对海量数据进行处理,谷歌需要把上百万台的服务器整合起来去做排序,索引和查询。

第二条路:淘宝则发展出来云计算的另一条路径,这条路与谷歌的相比有类似之处,同样需要把很多数据整合起来做一件事情。在我看来,淘宝所做的事情比谷歌更伟大一点,因为淘宝做的事情是交易。承载6亿用户在线访问和下单支付,这件事情比简单提供一个不能保证这次查询和下次查询结果的差异的查询要更加困难,也更加伟大。因为这是有极其严格的业务要求的,虽然在规模上而言淘宝可能用不了像谷歌那样多达百万台的机器,只使用十万台机器就足够了,但是这也是一个聚沙成塔的过程,把众多的廉价的服务器整合起来去做一件事情,这就是云计算的第二条路径。

第三条路:这条路径的发展是源于在过去的十几年间企业内部在硬件方面进行的大量的投资造成的大量赋闲服务器资源。对于企业内部的使场景而言,往往仅有几千或者几万个用户,即便是大型的国有企业拥有有上百万用户,也就仅此而已。和动辄上千万,上亿的互联网用户相比,企业投入大量的IT资源特别是硬件资源的情况下,服务的客户数过少,显然造成服务器资源的赋闲。面对由此造成的资源利用率低的情况,带来的挑战就是如何更多更好地去利用这些赋闲资源。虚拟化技术,最早是IBM在小型机上或者大型机上就实现了,通过虚拟化或者分区技术,可以来解决资源利用率低的问题,虚拟化的技术后来被VMWare发扬光大,在X86的平台上进行了广泛传播应用,第三条路径其实是就是虚拟化的过程。

云计算经过发展最终沉淀下来的这些技术,对于企业,甚至对于任何一个开展的业务而言,都必不可少的。既需要有效利用资源,将规模从小变大;也需要面向客户和业务做在线并且有业务质量保证的交易,同时也需要对数据进行大规模处理,进而产生对数据的洞察来支持业务的智能化。

真正能做到这样的集大成者,实际上是我们现在看到的互联网架构的云提供商,比如AWS和阿里云。而另外一些模式产生出来的云计算提供商,因为它们没有这些强大的业务需求推动而产生的技术沉淀,所以很难把这个能力集合在一起。比如面向企业的商用软件VMWare,虽然其能够提供虚拟化,但是对于运行在其上的分布式应用,以及对大数据的处理就显得比较薄弱。而开源世界则通过软件方式的交互,看起来能够拥有这样的能力,比如通过Hadoop可以做大数据,通过OpenStack可以做虚拟化,但是我们可以看到这两者是实际上存在天然的割裂,无论是在硬件的共享还是在管理层面的融合,以及在业务层面的互相支撑都存在鸿沟。

再回过头来看,企业在上云的过程中会遇到一些挑战,企业需要面对非常复杂的云计算路径。面对这么多的云计算形态,企业在上云时会遇到困惑:到底该怎么考虑自己的云计算?

中国企业上云的三大问题

阿里在和很多企业沟通并且帮助他们进行云计算转型的过程中,认识到了企业上云面临的最大的三个问题:

第一,陷入虚拟化的误区:将虚拟化等同于云计算,沿着虚拟化的这条路走到黑。