“HBase 也支持批处理,它与HDFS以及Hadoop堆栈的其他组件共享存储。我认为这也是HBase如此受欢迎的原因之一。HBase被整合到系统的其他部分中,而不是成为一个独立的系统。它可以与堆栈的其他组件进行共享,可以对可用性、安全性和灾难恢复等特性进行共享。”Cutting解释说。
技术未来展望
如果Hadoop不仅仅是批处理计算平台,而是成为一个更为通用的数据处理平台,它将会变成什么样,它到底将走向何方?Cutting表示,我们当然希望拥有开源的大数据平台,并且能够在通用硬件上运行。同时,我们还希望它具有线性扩展能力,也就是说,如果你需要存储10倍数据,只需要购买10倍的硬件就可以了。无论你的数据集变得有多大,都可以采用这样的方式进行扩展。
性能方面同样是如此。对于批处理性能,如果你需要更大的批处理吞吐量或更小的延迟,你只需要增加硬件数量即可。而对于交互式查询,也是同样。增加硬件就能为你带来性能和数据处理量级方面的线性扩展。Cutting还表示:“人们通常会认为,采用大数据平台后,需要放弃某些东西。我不这样认为的。从长期来看,我们不需要放弃任何的功能。”
对于Hadoop未来的技术发展方向,Cutting表示谷歌已经给出了相关路线图。“谷歌发布GFS和MapReduce的论文后,我们很快地将其复制到Hadoop项目中。这些年以来,谷歌在很多方面激励着Hadoop开源堆栈。谷歌的Sawzall系统催生了Pig和Hive,而BigTable则直接启发了HBase。我很激动地看到,今年谷歌发表了名为Spanner的论文,其中介绍了在分布式数据库系统实现传输的机制。可能很多人都会认为这不会很快成为现实,但却为我们指明了前进的方向。”Cutting说。
Cutting指出,作为一项复杂技术,Spanner并不会很快成为Hadoop的一部分,但它确实明确了技术发展的方向。他同时还提到了Impala(Cloudera最新发布的数据库引擎),它可以使用SQL查询存储在HBase中的数据集。 Impala将为用户带来交互式在线查询的新体验,它同样追随了谷歌的一些研究成果,已经发布了一段时间。Cutting认为,Impala将发展成为一个通用的技术平台。
“我们已经知晓前进方向,并且知道如何去实现目标。所以,我鼓励大家现在就开始使用Hadoop,因为在未来你将收获更多。”Cutting说。