Hadoop开源启示录

一、 关于HADOOP与Spark、GPU,及商业化未来

1、面对Spark这类新兴技术的发展,以及MapReduce市场萎缩的情况,你们如何看待这种市场变化?

迈克:Hadoop由很多部分构成,第一层是HDFS,完全做分布式存储,此外MapReduce用来做分布式处理;有分布式地面向列的开源数据库技术HBase;Impala可以在支持Hadoop的HDFS系统上,直接做SQL的查询;也有Cloudera做的Kudu这样的新型存储技术。

Spark只是其中的新技术之一,并不是好像全世界都只用Spark。当然,我们如果要去比较Spark和MapReduce,从现在的情况来看,Spark的确会胜出,但基于Hadoop还会不断涌现出更多新技术。

道克:没错,Spark的确非常好。在实时批处理上表现优异,但它不是全能的,比如它不具备SQL访问查询、Solr和Lucence搜索倒排索引、HDFS、Kudu的数据存储能力等。Spark仅仅是Spark,它不代表Hadoop所有的技术,Hadoop将会孕育更多新技术出来。

2、王建民:计算机和大数据技术都在日新月异的变化,特别在硬件方面,我们看到很多下一代硬件不断的涌现,这些新产品的涌现对于大数据技术的未来会有什么样的影响?

迈克:像网络、CPU在未来会出现非常多的变化,正确的方法是软件去适配硬件,而不是无视硬件的变化。硬件的升级并不会妨碍未来大数据技术的发展,反而大数据系统会更好的去利用这些新硬件去改变世界,两者不存在替代关系。

过去十年,我们已经看到了很多这类变化。Cloudera有着非常深厚的英特尔背景,我们的很多员工来自于英特尔,英特尔也是我们的投资人之一。我相信我们和英特尔的密切关系,未来会更多的帮助下一代软硬件技术的融合与适配。

道克:很多人在问我,怎么把GPU和Hadoop结合,这其实是一个错误的命题。Hadoop实际上是基于IO Intensive的系统,它整个系统的瓶颈是在系统的IO上,包括磁盘IO、网络IO,所以它需要解决的根本并不是CPU的问题。未来当IO不再困扰我们的时候,也许那时再来谈怎么用CPU加速的技术解决更多问题更有意义。

像谷歌Tenzing的机器学习系统就可以很好的利用GPU,而不是现在吧的大数据系统来加速。但我相信在这个领域将来会有更多的机会,我们将看到很多数据结构、系统结构,会适应新硬件的变化趋势而发生转变。

3、Hadoop3.0的关键特性

迈克:Hadoop3.0的确会有一些侧重,排在首位的就是多租户技术,将来我们会在Hadoop 3.0的平台上看到更多不同的像MapReduce、Spark这样的技术,可以同时在一个平台上被不同的用户运行,就像Yarn正在做的一样。所以Hadoop 3.0的特点就是支持更多的系统可以更好的运行,更好的去实现多租户这个概念。

另外,Hadoop3.0更多的是适配新硬件技术的改变,比如英特尔新推出的优化存储、CPU的新技术,特别是SSD技术。硬件价格的走低,让我们更有可能去利用这些技术。Cloudera新启动的一个Apache开源项目叫Apache Kudu,这是一个新型的存储系统,Kudu就正在利用这样一些这样的新硬件技术。

道克:现在还有另一个我们在做的项目,内容是基于HDFS和新型硬件结合做系统复制。这种复制技术,不只能加快系统的速度,还会提升系统的容量。这个项目的开发者就在英特尔中国公司,中国已经出现了很多很好的创新技术。

4、问题分段:CDH商业产品的未来怎么样?

迈克:Cloudera一直在保持这个系统的开源,虽然上面有很多收费的工具,但是这样做的目的并不是阻止用户。因为现在有很多商业软件巨头会利用我们的开源系统,把它作为商业软件,去获得更多的市场机会,去赢取更多的利润。所以我们一方面会保持底层数据存储、处理引擎系统的开源,让用户可以把这个技术用得更好、让系统变得更易用;同时,坚持收费的举措也让我们能够有能力在大数据系统市场上和大型商业软件公司竞争。

开源将有利于更多人参与系统的开发,让更多的大学可以参与学习,让更多的用户可以接受新知识。所以大家看到了Impala和Spark。我很高兴看到作为一家公司Cloudera在大数据市场上越来越多的成长机会。

道克:开源平台上,Apache仅仅是把所有技术囊括在一起,但Apache上面可能有二十多种不同的打包方式,怎么去安装?怎么去配置?怎么去打包?这些其实对很多用户来讲都非常具有挑战性。所以我们推出CDH Commercial版,已经帮大家把对应的系统打包好了,通过CDH我们会帮助大家更好的管理数据,管理大数据系统。