基于流的数据处理可以使Hadoop运行更快吗?

Apache Hadoop分布式文件处理系统是有好处的,而且它正在获得注意力。然而,它也有坏处。有些组织发现从Hadoop开始的话需要重新思考软件架构,而且它所需要的数据技能也是必要的。

对于一些人来说,Hadoop的批处理模型的一个问题是,它估计在突增数据采集之间的进行批处理时会有宕机的时间。这是许多企业都的情况,当他们在本地操作,或者在白天有大量事务,但很少在晚上(如果有的话)。如果夜间窗口足够大可以处理前一天积累的数据,那么一切都会顺利。虽然对于一些企业,窗口的停机时间是小或不存在的,甚至使用Hadoop的高性能的处理,他们仍然在一天内得到的数据比他们可以在24内小时处理的要多。

对于可接受小窗口的组织,添加基于数据处理组件的方法可能有帮助,GigaSpaces的首席技术官Nati Shalom在最近的一篇关于使用Hadoop更快的博客中写到。通过不断地处理传入的数据转化成有用的包和删除那些不需要企业处理(或再加工)的静态数据,可以显著加速他们的大数据的批处理过程。