存储巨头EMC正在加大对Hadoop战略的投入力度,EMC建立了一个1000节点集群用于测试新的Apache Hadoop版本,新的测试平台被称为“Greenplum Analytics Workbench”。同时还推出一种新的分析设备,这种设备将EMC Hadoop与EMC Greenplum数据库结合在一起,并实现结构化和非结构化数据的协同处理。
大多数EMC的观察人士都知道,新的数据计算设备同公司在5月推出Hadoop计划时一起推出的。因为这为公司提供了一个在海量数据领域中统一且高利润的方法。
Hadoop和分析数据库在工作负载和数据类型上毕竟不同,传统的整合两种技术的方法将涉及到维护两个单独的环境。然而如Platfora和Hadapt实际上都在试图改变这一局面,他们希望将Hadoop与数据仓库的查询集成在一种软件产品里。
Greenplum联合创始人兼高级副总裁Scott Yara对新设备进行了说明。它不仅支持Greenplum数据引擎和Hadoop,也可以为合作伙伴提供数据集成和商业智能。使其在系统中高速互联并共享系统内的一切。
EMC的Hadoop策略实际上非常独特。EMC采用MapR的存储有力地证明了这一点。在进入Hadoop领域的时候,EMC深知现有版本HDFS的缺点,因此EMC希望有一个存储层能够在性能、可用性和使用的便利性上提升HDFS。EMC Hadoop的另一个独特之处在于它没有采用官方版本的Apache代码,而是采用Facebook的Hadoop代码,后者在可扩展性和多站点部署上进行了优化。
Yara表示他的团队希望为Hadoop标准化作出自己的努力,他们搭建测试平台也是在朝这个方向迈出的第一步。EMC的合作伙伴包括英特尔、Mellanox Technologies、镁光、希捷、SuperMicro以及VMware。自成立以来Greenplum运行EMC的大数据业务。同时在为EMC提供大型企业客户定制化产品外也保持与开源Apache Hadoop良好的关系。