详解:从Greenplum、Hadoop到现在的阿里大数据技术

让每个企业都可以打造淘宝般强大的交易应用

我们的架构总结下来是这样的,全分布式的体系,访问层,应用层和数据层都是分布式的,这使得核心系统也是分布式的。为应对大规模的挑战,我们在前端通过CDN把内容缓存在离客户最近的地方来提高客户体验。在2015年的时候,我们将这个架构变为产品,让任何一个企业,哪怕是小微企业也可以构建像淘宝一样强大在线交易系统,帮助这些企业在做“互联网+”转型以及业务转型的时候获得最大的技术基础。

阿里大数据发展之路的三次突围

能够把云计算的三个方向整合到一起的另外一个方向就是大数据的处理。阿里云的大数据处理也是经过了从2009年到2013年这五年的孵化,在2009年的时候,我们还是亚洲最大的Oracle集群,但是还是已经无法承载飞速发展的业务。

于是我们选择了3条分支路径去探索后面的路,第一条路径是用商业的Greenplum来替代分析型数据运算;第二条路是因为担心Greenplum不靠谱,我们也使用Hadoop做类似的事情。第三件事情,就是启动了飞天操作系统的研发,目标是打造一个属于自己的大数据平台。中间的历程非常坎坷,到2010年的时候,Greenplum这条路因为规模和可用性的问题以及计算准确性问题被放弃,2013年的时候,Hadoop平台也因为数据中心规模扩展不上去和安全管理以及权限管理和资源管理等一系列问题,以及我们与社区之间和这些社区背后的商业利益群体之间的斗争导致不得不放弃这套体系。

飞天涅槃

最终我们使用自主研发的飞天操作系统将五千台机器整合到一个大平台,用飞天操作系统能够分布式的部署到异地的多个机房的能力实现了大数据计算和存储能力。飞天操作系统帮我们真正实现了梦想:把三个云计算方向整合起来,提供通用的计算能力,提供一种足够便宜足够强大的计算能力。

通过使用安装了Linux系统的五千台相同的计算机,通过飞天的分布式文件系统,整合成为一个分布式系统。基于200个PB的存储和10颗CPU,还有这1000TP的内存以及它们之间网络的服务,得以开通了三类服务。

第一类服务:弹性计算,就是应对虚拟化的服务,但是它不只虚拟化,弹性计算可以做计算虚拟化,存储虚拟化,可以提供更加强大的计算环境;

第二类服务:提供淘宝这样强大的分布式应用中间件来帮助企业打造分布式应用;

第三类服务:大数据处理和数据智能的这些业务,这些业务都是依赖于我们的大数据处理能力进行的。

强大的数据处理能力进一步推动了智能业务的高速发展

通过飞天系统成功地将三种云计算以及云计算路线整合到一个平台当中,有了这个平台的支持,才使得整个企业的智能化得到了长足的发展。在智能化发展过程中,我们基于这些计算能力,逐渐地垒高了技术和模型的储备以及对数据应用的储备,一层一层地从分析工具到应用引擎再到解决方案,支撑了阿里巴巴整个智能化的人力资源,智能化的安全管理,智能的物流客服以及智能化推荐,这些也支持阿里巴巴整个集团业务不断前进和发展。

恶劣的互联网安全环境下十年攻防铸就了强大的云安全

在这个的过程中,阿里巴巴作为一个互联网公司,在快速发展业务的同时也在遭受世界上最多的互联网攻击。真正的统计数据是,我们每天会防御2亿次暴力破解,2000万次Web入侵,超过1000次DDOS拒攻击,在这样恶劣的环境下,我们用10年的时间产生出一整套安全体系和服务产品。这个产品从感知态势就可以知道,哪些坏人,哪些恶意的行为在哪里发生,以及他们用了什么样的服务器,谁是主控,对我们在进行什么样的探索行为,背后的人是谁,他的身份证号码是多少,这些东西,我们都通过感知的基础之上进行捕获。基于感知的基础就可以做到知己知彼,才可以百战百胜,战胜敌人的同时对自己进行保护。我们的产品服务有网络层面的保护,也有服务器主机层面的保护,更多的会上升到业务层面的保护以及对于数据的防护。