VMware试图让Hadoop运行在虚拟环境中来应对大数据的挑战,但这不仅面临技术上的难题,来自竞争对手的狙击也不容忽视
【IT专家网 虚拟化频道】如果软件应用能够超越一切基础架构的差异性,企业IT将会少掉多少烦恼?本周举行的VMworld 2012大会上,VMWare重申了该公司的重大图谋:将所有物理资源虚拟化,实现全面池化以快速调配和部署,即软件定义型数据中心(SDDC)。在应用层,这家虚拟化巨头正在努力将Hadoop搬进虚机之中,以应对“大数据”。
大数据是时下业界热议的话题,走向宏图的路上,VMware自然无法对其视而不见,但要实现Hadoop的虚拟化,VMware能否一帆风顺呢?
情定Hadoop,情有可原
站在大数据时代的边上,Apache Hadoop由于其低成本、可扩展性等优势,成为IT厂商们的大数据处理策略的事实标准。因此,VMware对Hadoop青眼有加,也是意料之中的事,何况VMware的母公司EMC早已推出过Hadoop发行版,且EMC大数据分析平台GreenPlum也是实现了Hadoop处理。
VMware首席技术官 Steve Herrod博士
VMworld 2012上,VMware首席技术官 Steve Herrod博士在演讲中表示,Vmware的开源项目Serengeti,将支持企业能够在虚拟和云环境中快速部署、管理和扩展Hadoop。
此前,VMware宣布了其大数据策略:在统一的vSphere云架构和HDFS文件系统之上,提供GemFire实时处理、GreenPlum交互处理及Hadoop批处理三种模式。另外,VMware收购的云端大数据分析工具Cetas,也是提供在Hadoop平台上的分析服务的。(详见:《三路出击 VMware云平台抢滩大数据》)
VMware大数据策略
从这个架构中我们也可以看出,Hadoop在虚拟环境中的成熟程度,对VMware的大数据策略至关重要。
先天不足,Serengeti补之
只是Hadoop既非万能,也受限于环境。首先,作为开源项目,Hadoop存在部署和运营的复杂性、特定的硬件需求、安全上的顾虑和服务水平保障等障碍,让企业很难充分发挥其威力,这也是各种Hadoop发行版诞生的直接原因。
对VMware来说,更为关键的是,根据Apache的Virtual Hadoop wiki文档给出的结论,You can bring up Hadoop in cloud infrastructures, and sometimes it makes sense, for development and production. For production use, be aware that the differences between physical and virtual infrastructures can threaten your data integrity and security - and you must plan for that.(可以将Hadoop带到云基础架构上,但物理和虚拟基础设施之间的差异可能危及数据完整性和安全性。)
在针对大数据项目的风险的探讨中,许多业界专家都指出数据的完整性的重要性,所以这个问题必须解决,Serengeti应运而生。
Steve Herrod博士称,Serngeti的作用就是可以快速在虚拟化环境中部署Hadoop,并进行有效的监测和管理,实现Hadoop集群的高弹性。当然,VMware还提到过,虚拟化还让Hadoop适用于多租户环境,让Hadoop安全性提高(这里指VMware虚拟化在不同集群之间产生强隔离)。
此外,VMware也致力于同Hadoop合作伙伴共同改变Hadoop分布式文件系统和Hadoop MapReduce开发。Spring for Apache Hadoop(2012年2月首次发布的开源项目)的更新,让企业开发者能够轻松利用Apache Hadoop开发分布式处理解决方案。
Serngeti开源项目
但还是有问题。虚拟化做得再好,性能损耗是很难避免的。微软亚太研发集团首席技术官孙博凯(Prakash Sundaresan)坦言,Windows Azure的主要功能是提供池化的IT资源与服务,从每个节点看,虚拟层会造成每节点10%左右的性能损耗。