[前言]对中国大数据产业来说,2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点。不论是人山人海巨头云集的贵阳数博会,还是首次在华举办的全球顶级大数据会议Strata + Hadoop World,都揭示了中国大数据产业发展的澎湃动力。政府和产业需要转型,互联网公司、新兴的智能硬件公司、传统的生产制造型企业等都希望借力大数据实现更智能更个性化更有竞争力的渴望。然而,我国大数据人才稀缺使得大数据技术发展情况不够理想,这也导致中国在国际社区话语权的缺失。因此,中国需要有更专业更有前瞻性眼光的机构站出来,集合优势资源,对行业现状做出改变,培育优质专业人才。
2016年8月,清华大学宣布与Hadoop开发社区的顶级贡献者Cloudera公司联合推进大数据人才教育项目,在大数据开源社区方面开展合作。在Hadoop生态领域,Cloudera是规模最大、知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一。带着对中国大数据市场的满满诚意,Cloudera创始人、董事长兼首席战略官Mike Olson以及Hadoop之父、Cloudera首席架构师Doug Cutting来到清华,为三百余位现场听众及两千余名在线直播听众讲述了Hadoop的发展历程,并与清华大学软件学院副院长、党委书记王建民及现场的同学们展开了深刻而有趣的对话。
Doug Cutting口述:
Hadoop十年,撬动未曾料及的魔法时代
10年前我开创Hadoop时,存储企业数据和商业数据系统的使用和现在大不相同。对大多数机构来说,企业数据建立如果不依赖关系型数据库,就完全没可能了解数据。但关系型数据库使用起来很昂贵,也不适用于所有形式的数据。那时人们关注很多数据只是聚焦在关键字、任务、业务等(编者注:可数据库领域的查询条件)。世事变迁,Hadoop是如何带来一些改变的呢?
因兴趣创建Lucene,试水开源社区
在大约18年前,当时我在Excite负责做搜索引擎。事实上,我做过多个搜索引擎,从就职Xerox开始,到苹果再到Excite。我喜欢做搜索引擎并且一直有一个想法,用一个新的方式去写搜索引擎,Excite对这个想法并不感兴趣,于是只能自己钻研。我尝试用一种新的编程语言,并认为它会成为一种通用计算机语言,就是当时并非主流的Java。
1998年我完成了Lucene的第一个版本。当时并没有想好能用它做什么,只是有兴趣尝试并在业余时间完成了。两年后,也就是2000年,我还没想好用Lucene能做什么,但我决定不能就这样冒然地成立一家新公司,因为我不清楚财务、人事、合同等公司常规流程。我真心希望人们能用上这个产品,这也是我开发这个产品的动机,我也希望能让更多人发现它的实用性,并从中发现价值。我决定把它贡献到开源社区。
在把Lucene的代码贡献到开源社区的第二年,它被一些小的社区使用,我也因此被邀请加入Apache软件基金会。Apache专注于开源,集合了一群软件界拥有最强大脑的工程师。它追求开放自由,让人们利用软件变得无所不能。在市场需求推动下,我们合作将软件出版成商业产品,但Apache不强调归属于某个社区,而且所有的社区都开放,欢迎新成员加入。Apache社区上所有功能和提供的信息都及时共享并不断更新。从2001年加入Apache到目前为止,这种模式已经得到了令人惊叹的成果。
其中一点,就是随着越来越多的开发者,这种开放模式让人们可以随时随地的使用开源软件,也可以向其他推荐。当需要向老板汇报却又不在办公室时,可以下载之后在家处理,信息也可以实时同步。这使得人们处理程序、改进程序、理解程序变得容易,能随时和其他开发者沟通。如果从事软件开发,你会发现以往只有机会和公司的同事讨论工作,而做开源项目则可以和全世界讨论,有很多表现的机会,甚至可以和自己在业内的“粉丝”去沟通。这种自我展现的方式有很好的激励作用,为了更好地在观众面前展示自己,人们会更努力地工作,让项目日臻完美。
此外,开发者通过做软件会被很多机构了解并认可,你的软件很可能会富裕一个行业全新的生命力,所以每个方案每次改变都要有普适性。要做到为每一个人服务,还要坚持一段时间,用最好的方法做正确的事。开源并不仅是帮助开发者,它更会孕育出一批高质量的软件,让人们会越来越有动力去把事情做好。