Hadoop之父勾勒大数据平台的未来_云计算_计算头条_中国计算网——工业互联网一站式服务平台—

Cutting解释说：“HBase也支持批处理，它与HDFS以及Hadoop堆栈的其他组件共享存储，我认为这也是其如此受欢迎的原因之一。HBase被整合到系统的其他部分中，而不是成为一个独立的系统，它可以与堆栈的其他组件进行共享：它可以共享可用性、安全性、灾难恢复。”

展望Hadoop“圣杯”

如果Hadoop不单单是批处理计算平台，而是成为一个更通用的数据处理平台，它将会变成什么样，并且它将如何达到那一步?

“对于大数据系统的‘圣杯’，我们认为应该具备很多因素，”Cutting表示，“当然，我们会希望它是开源的，并且能在普通硬件上运行。我们还希望它具有线性扩展：如果你需要存储10倍数据，你只需要购买10倍的硬件即可，而不管你的数据集变得多大，都可以这样扩展。”

Cutting表示，性能方面同样是如此，对于批处理性能，如果你需要更大的批处理吞吐量或更小的延迟，你只需要增加硬件数量即可。而对于交互式查询，道理同样如此。增加硬件将为你带来性能和数据量方面的线性扩展。

他补充说：“人们认为当你采用大数据平台时，你需要放弃某些东西，我不这样认为，我认为在长期来看，我们不需要放弃任何功能。”

谷歌为我们提供了路线图

“谷歌为我们提供了路线图，”他表示，“我们知道我们的前进方向。在他们开始发布他们的GFS和MapReduce论文后，我们就很快复制到Hadoop项目中，这些年以来，谷歌在很多方面激发了这个开源堆栈。谷歌的Sawzall系统催生了Pig和Hive，而BigTable直接启发了HBase。我很激动地看到今年谷歌发表的名为Spanner的文章，其中介绍了在分布式系统(在全球各地的数据库上运行的多表传输)中实现传输的系统，很多人都会认为这不会很快实现，但却为我们指明了前进的方向。”

Cutting指出，Spanner是一种复杂的技术，它并不会那么快成为Hadoop的一部分，但它指明了一个方向。同时，他还提到了Impala，Cloudera发布的新的数据库引擎，它可以使用SQL查询存储在HBase中的数据集。

Cutting表示：“我们知道我们的前进方向，并且，我们知道如何实现我们的目标。所以，我鼓励大家现在开始使用Hadoop，因为在未来你将获得更多收获。”

2/2 首页上一页 1 2