Streamsql是生长计算研究的一个区域称为复杂事件处理(CEP),对真实世界的事件数据的低延迟处理技术。无论是IBM,还是InfoSphereStreams公司,以及StreamBase系统公司的产品都在这个领域中。
(4)大数据应用
作为大数据分析的兴趣扩展到企业数据中心,供应商群体看到了一个机会,把一起大数据“家电”。这些设备的服务器,网络和存储设备集成到加速信息传递到一个机箱和运行分析软件用户。这些设备针对企业买家都会看重大数据设备易用性和价值,以及其固有的实施和使用的特点而推出的。围绕Greenplum数据库引擎这个领域的厂商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商业化版本,预集成系统,内置设备,可与甲骨文和Teradata公司的版本相媲美。
大数据分析的大数据存储
大数据分析过程的从业人员一般都不喜欢共享存储。他们喜欢DAS的各种形式,从SSD到其内部并行处理节点的高容量的SATA硬盘。共享存储体系结构,如SAN和NAS,通常被认为是相对缓慢的复杂的,首先,是其价格昂贵。这些特点都不选用于大数据分析系统的系统性能,不能满足商品基础设施的低成本的蓬勃发展。
实时或接近实时信息传递是大数据分析的定义特征之一,因此,延迟是可以避免的,无论何时何地。在内存中的数据是良好的,至少比采用光纤传输到机械式硬盘要好,但也许比其他任何事情都更加糟糕,SAN在规模需要分析应用的成本让人望而却步。
在大数据分析中,有一个共享存储的案例。然而,存储厂商和一般的存储社区还没有成为大数据分析的实践者。这个例子可以在ParAccel的分析数据库(PADB)与NetAppSAN存储中看到。
数据存储技术的开发人员表示将存储看作从物理设备迁移到一个更虚拟和抽象的实体的实现。其结果是,共享存储环境可以并且应该被大数据从业者视为他们可以找到潜在有价值的数据服务,如:
(1)数据保护和系统可用性:基于存储的复制功能可以不需要数据库创建数据副本,当系统故障和数据损坏事件发生时,重新启动可以恢复系统。
(2)缩短部署新应用程序和自动化流程的时间:通过可重复使用的数据副本,当新的应用程序都可以在网上迅速被建立,提高业务灵活性。
(3)变更管理:共享存储可以帮助保持一个“永远在线”的能力,可能减少所需的改变和升级,以及对在线生产环境的影响。
(4)生命周期管理:当共享存储可以作为记录的数据库时,系统的演化变得更加容易管理,并且那些已经废弃的应用变得更加容易丢弃。
(5)节约成本:使用共享存储作为一个无共享架构,可以辅助DAS降低成本和处理器节点的复杂性。
以上提到的好处每个人都可以被映射到无共享架构的分析。我们可以期望看到更多的存储厂商这样做一段时间。例如,虽然尚未公布,EMC公司可以凭借其基于MAPR设备整合Isilon或Atmos公司的存储。
大数据是一个大问题
传统的数据仓库是一个大而相对较慢的生产商信息的业务分析。它从有限的数据资源,并依赖于反复的提取、转换和加载(ETL)过程。客户在快速寻找获取信息的基础上,从多个数据源同时淘汰掘金。大数据分析可以被定义,在一定程度上,需要从多个数据源解析大数据集,并产生实时或接近实时的信息。
大数据分析代表了一个巨大的机会。IT组织都在探索上述来自社交网络的繁荣,解析基于网络的数据源和提取价值分析技术。然而,现在有了一个更大的机会,那就是物联网成为了一种新兴的数据源。思科系统公司估计全球目前约有350亿个可以连接到互联网的电子设备。任何电子设备可以(有线或无线)连接到互联网,甚至汽车制造商正在建设连接到车辆的互联网。“连接的”汽车将在2020年成为司空见惯的事情,并产生数以百万计的瞬态数据流。
理解大数据分析
利用多个数据源,如物联网的力量将会远远超出传统的数据仓库技术。这将需要模仿人类大脑功能的过程。我们的大脑需要大量的感官数据流,并创建必要的相关关系,让我们知道我们在哪里,我们在做什么,最终我们在想什么,所有这些都是实时的。