少数公共云计算服务供应商(如Google公司、IBM公司、微软公司以及Oracle公司)正从Amazon 网络服务(AWS)中得到启示,并已涉足“大数据”分析领域和多方面的开源项目Hadoop/MapReduce。
基于云计算的Hadoop/MapReduce应用程序最初出现于2009年,当时AWS发布了其EC2和简单存储服务(S3)的弹性MapReduce网络服务。之后,Google公司在2010年年中的时候发布了Mapper API的实验性版本,即App Engine MapReduce工具箱的第一个组件。自2011年5月开始,开发人员就能够在Google App Engine上运行完整的MapReduce任务。但是,在这种情况下,限速是必须的,这样可以防止消耗所有可用的资源以及防止网络访问。
Google公司在2011年5月增加了一个文件API存储系统,同年7月又为小型数据库(最多100MB)提供了Python整理功能。该公司承诺将进一步开发以适应更大容量的需求,并将在短期内发布一个Java版和MapperAPI。
这就是2011年下半年Hadoop/MapReduce的下一步整合计划。
Hadoop/MapReduce的整合计划
Oracle公司于2011年十月发布了一个该公司Oracle Open World的大数据应用。在发布说明中是这样介绍的,该应用是一个“全新设计的系统”,其中包括Apache Hadoop的一个开源发布、Oracle NoSQL数据库、用于Hadoop的Oracle数据集成应用程序适配器、用于Hadoop的Oracle Loader以及MapR的一个开源发布。
该应用似乎主要是使用Hadoop来实现对Oracle关系型数据库云计算版本的提取、转换和载入(ETL)等操作。Oracle公司的NoSQL数据库是基于BerkeleyDB嵌入式数据库的,该产品是在Oracle公司于2006年并购SleepyCat软件公司时得到的。
同样适用于开放世界的Oracle公共云计算支持诸多开发标准,如JSP、JSF、servlet、EJB、JPA、JAX-RS以及JAX-WS。因此,你可以把你自己的Hadoop实施与Hadoop连接器集成在一起。目前,还没有任何迹象表明,Oracle公司将把Hadoop/MapReduce打包进其公共云计算产品中,但是来自于竞争对手AWS、IBM公司、微软公司甚至Google公司的压力将会迫使Oracle公司将Hadoop/MapReduce纳入其企业级公共云计算产品中。
在2011年10月召开的PASS大会上,微软公司承诺在2011年底前为其Windows Azure发布一个基于Hadoop的服务;公司副总裁Ted Kummert表示在2012年将会举行一次针对Windows服务器的社区技术预览。Kummert还宣布了与Hortonworks公司建立了战略合作伙伴关系,此举将有助于Windows Azure促进Hadoop的进一步成熟。
Kummert介绍了一个新的可用于实现SQL Server 2008 R2与Hadoop之间数据传输的SQL Server-Hadoop连接器,该方法似乎类似于Oracle公司Hadoop连接器的概念。SQL Server团队成员之一的Denny Lee演示了使用HiveODBC驱动器对一个Windwos数据库Hadoop中日志数据的HiveQL查询。
Kummert说,该功能将在2011年11月作为CTP而发布。微软公司通常不为Windows Azure CTP付费,但是按小时计的Windows Azure计算资源和按月计的存储费用依然适用。
处于工程阶段的微软与IBM项目
在微软研究团队对Dryad和Dryad LINQ经过多年研究之后,微软公司的高性能计算(HPC)研发团队于2011年6月发布了Windows HPC Server集群Beta2版和LINQ HPC R2 SP2。其最为常见的配置是一个被称为“突发场景”的混合云计算模型,其中头记录位于本地,而大量计算记录根据实际负载的情况作为Windows Azure虚拟机运行,同时文件组存储在Windows Azure驱动器。
另一个微软研究项目“Daytona”的研发团队声称Daytona是具有用户友好Excel DataScope用户界面的MapReduce runtime,但该应用仍处于CTP的早期阶段。Hadoop的普遍性和跟踪记录可能会对微软公司的服务器和云计算平台团队做出真正贡献产生负面影响。
IBM公司凭IBM SmartCloud Enterprise的IBM inforSphere BigInsights(一个基于Hadoop的分析软件)从而最后一个登上Hadoop云计算的末班车。云计算BigInsights有基本版和企业版两个版本,并可选择进行公共云、私有云和混合云的部署。
基本版是一个入门级、免费的选项,该版本可帮组企业学习如何进行大数据分析,其中包括应用其Bigsheets组件、基于浏览器的分析工具进行场景假设分析。当一切准备就绪时,客户可以无缝升级至企业版并设置Hadoop集群,以较低使用率开始分析数据,其初始价格为0.6美元/集群小时。这两个版本包括一个开发者沙箱,有了它客户就可以使用工具和测试开发环境建立一个新一代的业务分析应用程序。就我目前所知,IBM公司是唯一一家提供免费、先试后用应用实施的供应商。
Hadoop和社会网络
其他名声在外的社会计算Hadoop实施者包括在一万台核心Linux集群上运行Hadoop研究服务的Yahoo公司,于2011年7月宣称其Hadoop集群已达到30PB规模的Facebook,以及具有Hadoop数据TB级规模应用程序的LinkedIn。Twitter还使用Hadoop用于存储和处理tweet、日志文件以及其他数据;eBay也宣称拥有一个532节点,5PB 的Hadoop集群。
目前三巨头Hadoop实施的状况是,Amazon公司是唯一一个具有Hadoop/MapReduce认证(两年半)跟踪记录的云计算服务供应商。IBM公司的BigInsights尚处于起步阶段,而微软公司对Hadoop CTP发布制造版还未提供任何官方的时间表。
我敢打赌,Amazon公司和IBM公司将在2010年年中成为云计算大数据分析市场的竞争对手。尽管Google公司已经向大数据分析市场推出了MapReduce,但我对Google公司appengine-mapreduce未来的成功无法持乐观态度。