今天关键分析进展的核心是大数据,它被视为是大量的结构化和非结构化数据的集合,大部分是来自于Web应用程序、服务器日志和社交媒体网站。虽然大数据应用程序常常是与快速发展的组织有关,这些组织可以快速地对实时数据反馈,但大数据和实时不一定是同义的。
行业专家指出大数据在休息时与大数据在运动时确实存在不同。为了促使它向前发展,外部的帮助是必要的。
虽然MapReduce和Hadoop是现代化的、分布式的和并行的,但他们这两个开源技术都与大数据密切相连,都是面向批处理的。这可以会使一些人感到吃惊,但它们经常在当大数据休息之时,也就是说,除非他们是伴随着相当先进的中间件。内在数据网格或数据库、复杂事件处理(CEP)引擎和低延迟消息传递中间件是应用基础设施软件的几种类型,这种软件要像架构师一样承担起推动大数据运动的挑战。
“快速数据(fast data)”不仅只是一项技术,也是一系列的方法,据英国Ovum 研究集团分析师Tony Baer说。快速数据包含高性能,低延迟CEP应用,数据流在内存中进行处理,从而检测模糊复杂的模式,Baer今年早些时候在一篇博文中写到。
随着用户对大数据越来越熟悉,对于伴随着这种大规模信息池的更加高级的消息中间件类型的需求将会增长,根据Roy Schulte所说,Gartner的分析师。Gartner认为CEP对大数据很重要,因为它可以快速处理即将出现的数据,通过暂时把信息存储在电脑的主要内存中。
衡量系统的扩展性
大数据代表着典型的计算机I/O问题,这些问题中大量的“输入”和“输出”问题是性能的关键瓶颈。通常情况下,在这种问题的处理上有一个趋势就是抛弃硬件,不一定要好的效果。Hadoop框架就是一个例子。
“人们讨论扩展性,但就不讨论关于Hadoop性能方面的事,”Michael Kopp说,他是底特律Compuware公司性能管理团队的技术策略师。“另我印象最深的一方面是人们的假设,因为它是大数据,所以它是快速的大数据。如果你看向Hadoop,你把它看作是面向批处理的。它是快速的,但它永远不是实时的。”
就因为它是开源,并不意味它就为公司省钱。
“人们很纠结。Hadoop确实不便宜,而且很难管理,许多工作的运行速率又不同。抛弃越多的硬件,就会使得管理更难,”他说,还暗示说一些在大数据市场上的NoSQL和其它系统可能会看起来像CEP系统——它们重在速度。
“CEP系统在整个讨论中会占有重要的地位,”他说。虽然他看到了Hadoop和NoSQL开发团队正在努力提高查询的性能和优化数据库,但他认为他们很少优化以高效到适应应用程序实际使用数据的方式。
进入高性能消息传递
低延迟消息传递正在兴起,成为另一个使大数据提速的中间件方法。尽管华尔街金融应用程序仍然是主要用例,但高性能消息传递定位于更广泛的使用。厂商提供这样的工作包括IBM,Informatica,PrismTech,RTI,Red Hat,Software AG,Solace Systems,Tervela,Tibco和其它的一些。
利用传感器或所谓的物联网的大数据应用程序代表用例,这些用例需要华尔街应用程序以外的低延迟中间件。这样的软件已经用于分析应用程序涵盖航空、国防、电力公司、甚至停车系统,根据Angelo Corsaro说,PrismTech公司的首席技术官。Corsaro监控着OpenSplice DDS的工作,OpenSplice DDS支持对象管理集团(Object Management Group)的数据分布服务(DDS)实时系统。
“应用程序使用OpenSplice来分布和缓存高容量的快速变化的数据,”他在电子邮件中告诉SearchSOA.com。“一些技术之间的界线正变得模糊起来。”
“在某种意义上,OpenSplice提供了一些CEP的功能,”他说,并指出其基于内容的订阅,可以像在CEP领域一样连续查询。
“不管外围重叠,技术将继续专业化和集成,”他补充说。
当然有CEP的元素可以区分大数据及其使用。CEP倾向于与小的数据集合工作,Merv Adrian说,Gartner的一位分析师。尽管如此,他看了各种技术在以他们的方式,将加快大数据,就如我们现在知道它一样。