亚信数据何鸿凌:​我们为什么要做大数据PaaS

作者:何鸿凌/亚信数据LDP云平台部总经理

1 分工是推动人类社会进步的原动力

随着人类进步的速度不断加快,分工不断细化;细化以后的分工导致了更加专业的技术出现,更加专业的技术反过来又促进了分工的进一步细化,由此人类社会的发展变成了非线性的指数级增长模式。

当每个家庭不再自己磨麦子、做面包,而是从面包师手中购买以后,分工更细了,所有人的工作效率得以提升,从而整个社会的效率得以提升,人类也从农业社会逐步过渡到工业社会,从工业社会到信息社会更是如此。

我们要做大数据PaaS的原因也是如此。我们认为,不久的将来,一切皆服务,一切IT也皆服务。

2 IT世界的分工

最开始做IT是在二战之后的50年代,那个时代基本没有什么分工,连软件都是编码在硬件之中。到了60年代,基本上操作系统的概念已经非常明确了,软件正式被从硬件中分离了出来,之后一类一类的专业软件被分化出来:工具软件、数据库、中间件。

软件专业化之后出现了部署方式的分工,标志性事件就是云计算概念的提出。其实这个概念非常早就出现了,但直到网络带宽可以比拟计算机内部带宽的时代才有了实用价值。

最初是IaaS,aws的一系列服务极大改变了IT的业态,创业公司不再租用主机设备、机房和网络,而是按需购买。IaaS的分工有效解决了系统搭建和运维的问题,降低了创业公司的门槛,但这一仍还不够。

接着aws推出了一些称之为iPaaS的服务,比如  RDS和Elastic Cache。在解放了(或者说解雇了)系统管理员的基础上,aws进一步解放了(或者说解雇了)平台管理员,人们不再需要DBA之类的角色,因为aws把所有事情都统一做了,而且因为其规模效应而收费便宜。

这一切仍然不够,人们(通常先是创业公司,然后是大型企业)希望能更简单、更快速,怎么办呢?Google给出了另一个选择--GAE服务,大体的意思是用户提供代码,GAE进行运行(Show me the code)。而Heroku推出的服务更是可以跟开发人员日常使用的版本管理工具git紧密结合起来,就像保存代码到版本服务器上一样,发布应用就完成了。这简直是一个神奇的魔法。于是Devops、十二因子开发方法等逐渐形成。这种形态的服务可以称之为aPaaS,因为其服务于application。

当然在往上还有一个最终的形态就是SaaS,所有的码农都被解放了(或者解雇了),软件通过服务的形式直接提供给最终用户。不过软件往往有很多个性化的东西,具备长尾现象,这是SaaS模式难以全部覆盖的。

3 大数据的世界是如何的?

很有幸,2001年本人毕业就进入了BI/DW(数据仓库与商业智能)这个领域,与数据打交道的时间超过了15年。从一个人写统计分析程序,到带领团队建设系统,再到运营商总部负责全网BI和集中化BI的规划,可以说从不同的角度体验了数据分析和平台的方方面面。

毫无疑问,在不久之前,这个领域的技术含量实在是少得可怜。有限的数据和有限的分析方法加上有限的需求使得建BI就是为了出报表,各个公司的BI系统都需要努力证明自己是有价值的。但是世界改变得很快,随着技术的进步,大量的数据被累积下来,Hadoop等大规模并行处理的平台被发明出来,各种使用数据的场景被一一探明。“大数据”这个替代BI 的概念被正式提出。

很快,大数据领域的技术复杂度飞快地上去了,一开始大家都在搭建各种各样的传统数据库、然后是各种各样的MPP数据库、接着是Hadoop中的各个组件、现在又都在搭建加入了实时流处理技术的lambda架构。

因此,大数据的软件专业化相比传统IT的软件专业化来得更早,时间更短。但是大数据平台部署的专业化,只能说处于非常早期的萌芽状态。各地方、各公司,甚至是公司中的各个部门都在重复的搭建大数据基础平台。

参考网上的资料和文档自己搭建一个大数据平台来进行测试和开发固然难度不大,但是要真正投入生产、进行性能调优、保证数据安全就不是那么简单的事情了,需要丰富的经验才有可能做好。如果大数据的平台无法形成规模效益,而又想要享受所有大数据红利的话,相当于每一个公司都在做与BAT一样的事情,一定会忙于搭建各种硬件、大数据软件平台,而没有时间精于自己的业务逻辑和分析算法,这样想要取得成功基本是不可能的。