Hadoop开源启示录

2009年,为了参与这个让人振奋的过程,见证更多的人利用我帮助创建的软件技术发挥更大的潜能,我加入了Cloudera。现在,我们见证预言变成了现实,比如汽车生产商特斯拉,通过实时收集汽车动态数据,了解驾驶者的行为喜好,从而改进他们的下一代汽车;航空公司在飞机上安装了数百个传感器,根据回传的数据,优化航线。这真是令人瞩目的改变!甚至在农业、重型机械、铁路、零售、健康医疗等所有我们能想到的行业,数据都在发挥强大的影响力。

Hadoop切实推动了这些令人瞩目的改变的实施。在今天,Hadoop还在日益强大,但我觉得围绕Hadoop发生的事情将更加有趣。在这个长期的过程中,它已经孵化了更多伟大的技能。从单机项目开始,然后有了分布式的文件系统GFS和信息专家MapReduce,搭建的调度程序让人们能够基于Hadoop分享资源,并开发其他类型的引擎,类似于YARN。越来越多的软件技术基于Hadoop衍生出来,比如在线键值存储;比如面向列的开源数据库技术HBase;超越了MapReduce的Spark,在实时批处理上表现更卓越;Impala能以SQL语义,快速查询PB级大数据,Lucene擅长的搜索也被充分整合。每年都有更多的新技术刷新我们的视野。

试想一下,每一个系统的进化迭代,每一个开源项目的建立,都可能带动一次技术革新。其中一些非常有用的技术,越来越多的人会开始使用。这些技术将会慢慢变成所有人认可的通用标准,还有一些不流行地将慢慢被人们遗忘。时代在急速变化,关系型数据库的世界几乎固化了30年,只有非常细微的改变。在Hadoop诞生的近10年间内,技术界发生了翻天覆地的变化。我们见到了许多新的模型,它们支持实时处理、机器学习的新功能,实现新事件的新方法……很多现在无法想象的事都将在随后几年发生。我认为这就是Hadoop留给世界的最宝贵的财富。它平稳运行10年之后,还将影响到未来的数十年。它不设中心控制的强大软件系统孵化了各种不同的项目,有的失败有的成功,但这种由平台衍生的复杂多样性不可能在一家公司的掌控下实现。

未来,为我们而来

今天,来自世界不同地方的我们通力合作,将决定下一个划时代的平台。时间的推移将证实我们的设想。这个平台将更加强大灵活,适用范围更广,功能更多。我们能用它来应对几乎每一个问题,不仅是关系型问题,还能轻松完成机器学习,能搜索、对大数据实时批处理,将有更多的工具箱,让我们在开源平台以更低的成本更好地探索世界。我相信这是一个光明的未来。同时,硬件也在进步,英特尔发布了让人惊喜的新技术,使硬件可以储存更大量的数据,闪存与读取速度更快,成本和以往差不多。当可以在内存里储存PB级的数据并且访问,甚至通过网络访问时,很多事情也会因此改变。我们很快将看到一个全新的时代,一个进步的框架,一个被充分提升的有价值产品。我们将这种理念运用于Impala、Kudu等新产品研发中,但仍有很多事情是我们尚未想到的。

这是一个令人振奋的时代,但我希望各位不仅仅是观望,而是切身参与,加入到开源社区来,甚至是开创一个新的开源项目。我也看到越来越多的项目从中国出现,比如Apache Kylin(麒麟)。我相信在这个新世界里,改变才是常态,新的技术每年都会出现。这些年中国发生了巨大的变化,有很多机会可以应用这些新技术,大数据开源社区将会在中国落地生根。我会很期待看到,有多少人采用它,中国产生贡献,在接下来的几年衍生出越来越多的机会。

巅峰对话实录:

Hadoop未来,事实将碾压今天所有的质疑

人物简介

Mike Olson:毕业于加利福利亚大学,曾作为Sleepycat软件公司CEO主导开发了全球应用广泛的开源数据库Berkeley DB,后被甲骨文收购,任甲骨文嵌入式技术副总裁。2008年与其他三位合伙人创立Cloudera,将其打造成国际领先的大数据数据管理和分析平台的服务商,2014年12月Cloudera进入中国。

Doug Cutting:毕业于美国斯坦福大学,Lucene、Nutch等开源项目的发起人,打造了目前在云计算和大数据领域里如日中天的Hadoop,让大数据推动业务的数字化转型有了开源的技术平台。他擅于把高深莫测的搜索技术形成产品并贡献于市场及大众,现任Cloudera首席架构师,同时也在Apache软件基金会董事会任职。

王建民:清华大学软件学院副院长、清华大学软件学院大数据中心主任,国家科技部中青年科技领军人才,国家基金委杰出青年基金获得者,国家“核高基”科技重大专项总体组成员,国家863计划先进制造领域专家、国家卫计委信息化专家委专家、我国第一个大数据专项“核高基”-“非结构化数据管理系统”负责人;工信部“中国制造2025”:“操作系统与工业软件”工作组组长。