Hadoop之父勾勒大数据平台未来_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

“HBase 也支持批处理，它与HDFS以及Hadoop堆栈的其他组件共享存储。我认为这也是HBase如此受欢迎的原因之一。HBase被整合到系统的其他部分中，而不是成为一个独立的系统。它可以与堆栈的其他组件进行共享，可以对可用性、安全性和灾难恢复等特性进行共享。”Cutting解释说。

技术未来展望

如果Hadoop不仅仅是批处理计算平台，而是成为一个更为通用的数据处理平台，它将会变成什么样，它到底将走向何方?Cutting表示，我们当然希望拥有开源的大数据平台，并且能够在通用硬件上运行。同时，我们还希望它具有线性扩展能力，也就是说，如果你需要存储10倍数据，只需要购买10倍的硬件就可以了。无论你的数据集变得有多大，都可以采用这样的方式进行扩展。

性能方面同样是如此。对于批处理性能，如果你需要更大的批处理吞吐量或更小的延迟，你只需要增加硬件数量即可。而对于交互式查询，也是同样。增加硬件就能为你带来性能和数据处理量级方面的线性扩展。Cutting还表示：“人们通常会认为，采用大数据平台后，需要放弃某些东西。我不这样认为的。从长期来看，我们不需要放弃任何的功能。”

对于Hadoop未来的技术发展方向，Cutting表示谷歌已经给出了相关路线图。“谷歌发布GFS和MapReduce的论文后，我们很快地将其复制到Hadoop项目中。这些年以来，谷歌在很多方面激励着Hadoop开源堆栈。谷歌的Sawzall系统催生了Pig和Hive，而BigTable则直接启发了HBase。我很激动地看到，今年谷歌发表了名为Spanner的论文，其中介绍了在分布式数据库系统实现传输的机制。可能很多人都会认为这不会很快成为现实，但却为我们指明了前进的方向。”Cutting说。

Cutting指出，作为一项复杂技术，Spanner并不会很快成为Hadoop的一部分，但它确实明确了技术发展的方向。他同时还提到了Impala(Cloudera最新发布的数据库引擎)，它可以使用SQL查询存储在HBase中的数据集。 Impala将为用户带来交互式在线查询的新体验，它同样追随了谷歌的一些研究成果，已经发布了一段时间。Cutting认为，Impala将发展成为一个通用的技术平台。

“我们已经知晓前进方向，并且知道如何去实现目标。所以，我鼓励大家现在就开始使用Hadoop，因为在未来你将收获更多。”Cutting说。

3/3 首页上一页 1 2 3