8月5日是个特殊的日子,为了推动大数据技术在中国大范围应用,同时将本土技术回馈到国际开源社区,Cloudera与清华大学合作达成仪式。说到Cloudera,相信业内人士并不陌生,大数据市场的飞速发展使得Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。而在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。
仪式结束后,Hadoop之父、Cloudera首席架构师、Apache软件基金会理事Doug Cutting应邀接受了中国IDC圈记者的采访,谈及了Hadoop在安全方面的措施,Spark与Hadoop之间的微妙关系以及Hadoop未来的发展等一系列问题。
Hadoop之父、Cloudera首席架构师、Apache软件基金会理事Doug Cutting
Hadoop已成为非常安全的平台
当今时代,社交媒体、网络、移动定位等诸多技术的广泛应用使得数据急速增长。Hadoop作为大数据利器,一直被大肆宣传。忆往昔,Hadoop为搜索引擎建立的网页索引,并不是处理信用卡号,所以其安全问题被搁置。如此一来,许多企业对其态度也从原来的浅尝辄止变成了望而却步。
关于安全方面,Doug Cutting指出,在Hadoop创立的时候是没有做安全这块的,但是我们后来不断的加强对安全模块的研发,现在Hadoop也成为了非常安全的平台。在安全方面有:身份识别—保登录的人群是被合法认证的;用户授权—控制用户能够读取的信息;审计—提供满足监管需求的文档支持,查看是否有违规操作静态数据以及动态数据的加密。
Spark与Hadoop相辅相成、互补共生
Hadoop主要包括三方面的功能:以HDFS为主的存储功能,以MapReduce为代表的Batch处理功能以及以YARN为代表的scheduling功能。
说到Hadoop自然而然会让人联想到Spark,作为实时处理工具Spark在batch processing和streaming代表着下一代技术,并且在某些方面优于MapReduce。那么,假以时日Spark会不会有取代Hadoop的可能,Doug Cutting给出的答案当然是否定的:“我觉得Spark不可能取代Hadoop,它能够取代部分Hadoop的功能,比如说取代MapReduce,二者之间更多的是互补的关系而不是竞争的关系。在存储和scheduling不可能取代Hadoop,Hadoop在batch或streaming处理方面比Spark更强大;在搜索方面很多又是Spark搜不到的,所以Spark只是相当于开源集群计算的框架,它并不能完全取代Hadoop。Cloudera不光是支持Hadoop,也支持Spark,我们是Hadoop+Spark这样的公司。”
Cloudera现在参与的项目有20多个,包括Hadoop、Spark、HBace等生态系统内的项目,也拥有超过100个对于技术和系统都非常资深的技术开发者。其实用户特别希望开源社区以开源形式开发软件,开源社区要进一步发展需要这些厂商来提供支持。作为开源厂商,到底是不是一个商业模式放之四海皆准,现在整个行业都在探索这个问题。Doug Cutting指出:“Cloudera的核心平台是开源的,但是我们可以卖一些加载在核心平台上的软件,这种软件可以让客户更好的管理他的数据,更多地对管理工具进行优化,包括优化、监控数据的管理工具,以收费的方式可以进行出售,我相信是比较成功的。”
中国企业为整个Hadoop的开源社区做了大量的贡献
Doug Cutting不仅任职于Cloudera,同时也是Apache软件基金会的理事。在基金会里,有很多企业参与Hadoop的研发,整个Hadoop版本发布速度非常快。当然,这其中的也不乏来自中国的代码贡献者,Doug Cutting表示:“中国的企业为整个Hadoop的开源社区做了大量的贡献,例如华为、阿里巴巴、腾讯等企业不但是Hadoop的使用者,同时也是Hadoop技术的贡献者。”目前,90%的Hadoop软件运行于Hadoop系统平台上,其中很多软件都是基于Hadoop平台之外的开发。Doug Cutting强调:“在整个生态系统环境内我们会打造一个非常丰富的生态系统,让更多的参与者能够进行开发。”
Cloudera除了与清华大学合作之外,在海外也跟其他大学展开了合作,其中包括美国、新加坡等地的大学,也包括欧洲的一些大学和研究机构。Doug Cutting表示:“我们合作的主要形式就是提供免费的课程,这些全套免费的课程我们开发了很多年,免费提供给这样的大学共同展开合作。我们在中国选取的第一个合作方是清华大学,今后将会与更多的中国大学展开合作。”