YARN发布后,Hadoop拥有了同集群运行不同技术的可能,类似的技术还有加州大学伯克利分校建立的Mesos。然而将开源技术商用却并不是件简单的事情,据Gigaom的一则消息,Hortonworks正在致力Storm到Hadoop的商用整合。
以下为译文
在收到大量的客户请求后,Hortonworks决定开始 Sotrm流处理引擎整合到该公司的Hadoop产品中。考虑到Hadoop的批处理设计,这项工作确实有着重要的意义。
几年前,Backtype公司建立了流处理引擎Sotrm,期望弥补Hadoop一些流数据(比如传感器数据)的实时处理能力。 Twitter于2011年收购了Backtype,从此引领着Storm开发。然而当这个开源项目在网站开发上得到广泛认可时,一些革新陆续出现,其中就包括了 与Hadoop的整合或者 在Hadoop上运行。
在Hortonworks客户发现Storm走进Twitter及Yahoo!这些知名企业后,他们也想使用这个技术来处理自己的流数据,从事 geofencing、网页行为及从医用传感器的实时分析等业务。Hortonworks营销副总裁Dave McJannet说道:
我们看到许多早期用户对这个功能的渴望,同时也看到越来越多企业对实时处理的关心。
Hortonworks产品副总裁Bob Page说道:“ Storm在近日成为Apache软件基金会的孵化项目后,已然值得Hortonworks投资。”该公司之前聚焦的通常是 将Hadoop相关开源技术整合到旗下Hortonworks Data Platform产品,整合Storm这样的流处理框架完全是出于用户的需求。Hortonworks一直认为,在缺少强大的社区支持下,将一些远离Hadoop主干代码的技术整合到其产品将产生相当大的风险。
通过McJannet了解到,这个工作的主要挑战就在于如何整合成一个企业级产品,并且满足许多主流需求。
Page强调,Hortonworks的计划是在今年底完成基础等级整合,并在不久的将来为其注入企业级元素,大概会耗时1年左右的时间。他还补充说,并不会到所有特性完成后才会给用户发布。
在数据处理时间和方式上,Storm与Hadoop MapReduce基本上是两个对立面,而这两个技术具备整合可能性极大程度该归结于 YARN这个集群管理层。Hortonworks当下正在致力于通过新型处理框架Tez 来 提高Hive的速度,同时YARN还允许Hadoop用户 运行Spark内存处理框架。同时, 微软也在使用YARN让Hadoop更加适合机器学习用例。
此外,通过YARN,同集群上同时运行HBase、 Giraph等不同技术也成为可能。此外,集群管理技术Mesos(加州大学伯克利分校出品,现已成为Apache项目)