随着企业大数据项目的进展,数据分析速度的重要性正日渐凸显。为了进一步提升大数据分析速度,IBM本周三在加州发布了一款Hadoop大数据机,旨在帮助企业用户实现对更多种类和更大规模数据进行(更低成本地)实时分析的需求。
IBM软件信息管理部门总经理Bob Picciano表示:
企业正被大数据洪水围困,作为厂商IBM必须向客户提供更好的工具掘金大数据,这些工具必须够快,能够处理海量数据同时还要更容易使用。
在Gartner三月份发布的BI魔力四象限图中,IBM是所有厂商中最有远见和创新力"visionary”的数据分析技术提供商,此番IBM主要通过两种途径提高企业(对更多类型)大数据分析的速度,一是通过分析加速技术将大数据变成“中数据”甚至“小数据”,减少工作负载。参考阅读: 忘记大数据,从“中数据”开始;另外一种方法就是硬件优化,推出面向Hadoop的大数据机。
为了达成这个目标,IBM发布了BLU Acceleration分析加速技术。当IBM用户(例如DB2用户)运行查询的时候,BLU可以快速缩小数据分析范围,将海量数据清洗后,只剩下小部分有效数据进入分析流程,这样一来用户的数据分析负载将大大降低,硬件处理资源可以更快地给出分析结果。BLU的一个重要功能就是数据忽略(Data Skipping),“跳过”大量不需要的数据,挑出重要的“小数据”。此外,BLU还能让数据在整个分析过程中始终保持压缩状态,这也将大大提高数据处理速度。IBM宣称在一些测试中,BLU的加入使得DB2数据库的分析速度提高了1000倍。
在提速大数据分析的第二种路径——硬件优化方面,IBM还发布了专为Hadoop大数据处理平台设计的IBM PureData box。
作为IBM PureSystems家族的第三位成员,PureData Systems大数据专家集成系统被IBM定位为大数据时代的分析处理引擎,去年IBM发布了包括事务系统IBM PureData System for Transactions、分析系统IBM PureData System for Analytics和运营分析系统IBM PureData System for Operational Analytics(基于Netezza)三个大数据机产品。
据IBM Netezza产品管理和产品营销副总裁Phil Francisco透露,面向Hadoop的PureData System大数据机产品将于今年晚些时候上市。用户将能在90分钟内完成数据加载,而此前企业在数据中心的Hadoop实例完成数据加载需要两三周的时间。IBM面向Hadoop的大数据分析机能在本地存储Hadoop处理过的数据,这能满足一些行业客户对数据管辖权的要求。