Cutting解释说:“HBase也支持批处理,它与HDFS以及Hadoop堆栈的其他组件共享存储,我认为这也是其如此受欢迎的原因之一。HBase被整合到系统的其他部分中,而不是成为一个独立的系统,它可以与堆栈的其他组件进行共享:它可以共享可用性、安全性、灾难恢复。”
展望Hadoop“圣杯”
如果Hadoop不单单是批处理计算平台,而是成为一个更通用的数据处理平台,它将会变成什么样,并且它将如何达到那一步?
“对于大数据系统的‘圣杯’,我们认为应该具备很多因素,”Cutting表示,“当然,我们会希望它是开源的,并且能在普通硬件上运行。我们还希望它具有线性扩展:如果你需要存储10倍数据,你只需要购买10倍的硬件即可,而不管你的数据集变得多大,都可以这样扩展。”
Cutting表示,性能方面同样是如此,对于批处理性能,如果你需要更大的批处理吞吐量或更小的延迟,你只需要增加硬件数量即可。而对于交互式查询,道理同样如此。增加硬件将为你带来性能和数据量方面的线性扩展。
他补充说:“人们认为当你采用大数据平台时,你需要放弃某些东西,我不这样认为,我认为在长期来看,我们不需要放弃任何功能。”
谷歌为我们提供了路线图
“谷歌为我们提供了路线图,”他表示,“我们知道我们的前进方向。在他们开始发布他们的GFS和MapReduce论文后,我们就很快复制到Hadoop项目中,这些年以来,谷歌在很多方面激发了这个开源堆栈。谷歌的Sawzall系统催生了Pig和Hive,而BigTable直接启发了HBase。我很激动地看到今年谷歌发表的名为Spanner的文章,其中介绍了在分布式系统(在全球各地的数据库上运行的多表传输)中实现传输的系统,很多人都会认为这不会很快实现,但却为我们指明了前进的方向。”
Cutting指出,Spanner是一种复杂的技术,它并不会那么快成为Hadoop的一部分,但它指明了一个方向。同时,他还提到了Impala,Cloudera发布的新的数据库引擎,它可以使用SQL查询存储在HBase中的数据集。
Cutting表示:“我们知道我们的前进方向,并且,我们知道如何实现我们的目标。所以,我鼓励大家现在开始使用Hadoop,因为在未来你将获得更多收获。”