Amazon、Cloudera、Microsoft与IBM的Hadoop-as-a-Service

如今,公司越来越多地依赖大数据进行决策。Amazon、Cloudera和IBM都发布了它们的Hadoop-as-a-Service产品,Microsoft的类似产品也将在明年问世。

Amazon是最早推出AWS Elastic MapReduce的,可以追溯到2009年,在EC2和S3上运行Apache Hadoop。同Amazon的其他IaaS产品一样,这项服务提供了大数据分析所需的最基本的硬件和软件,把很多配置和编程的工作留给了客户,这需要不少专业知识。假定公司有这样的能力,它可以成功配置并运行Hadoop任务,就像New York Times一样,以相当低廉的价格,在100个Amazon EC2实例上运行了一个24小时的Hadoop任务,将内容为1851年到1922年发表的公开文章的1100万张图片转换成了1.5TB的PDF文档。

Cloudera将Amazon的MapReduce服务又超正确的方向上推进了一步,推出了CDH3,这是一个调优过的Hadoop AMI,包含很多附加软件,可以帮助管理、运行Hadoop上的复杂任务,例如:Apache Mahout、Flume、Sqoop、Pig、Oozie、Hive、HBase、ZooKeeper、Whirr等等,其中大多数都是开源项目。但是目前还是有些问题,仍然需要大量的专业知识,安装、配置一些东西,CDH3安装指南(PDF)还是有不下175页的篇幅是在说明如何从基础开始,对JDK、CDH3、Snappy以及系统的其他部分进行配置的。

Microsoft最近在PASS Summit 2011上宣布他们会在Windows Azure和SQL Server中整合Hadoop-as-a-Service服务,在2012年提供给那些在其平台上处理大数据的公司。目前还没有太多的细节,只知道Microsoft 承诺会保持与Apache Hadoop的兼容性,并且将代码贡献给开源项目。他们还提供了一个基于Sqoop的SQL Server-Hadoop Connector,这让SQL数据表与Hadoop的HDFS之间的双向数据传输成为可能,因为Hadoop需要将数据保存在自己的文件系统中以保证能够高效地处理大量的数据。

IBM也发布了自己的产品,使用IBM InfoSphere BigInsights软件,在SmartCloud Enterprise上运行HadoopBigInsights有两个版本,基础版是免费的,非常适合项目评估,企业版用于生产环境。IBM的解决方案是迄今为止看起来最为成熟的,基于Watson技术,这是一个AI系统,它打败了两名今年的Jeopardy!最佳选手(译注:Jeopardy!是美国的一个电视智力竞猜节目,比赛问题内容涵盖多个方面,1964年开播至今)。Watson并非在大集群上运行Hadoop来回答问题,而是包含了超过100项技术来“分析自然语言,识别源数据,发现并生成假设,寻找证据并评分,对假设做合并和分级”。因此,这并不仅仅是一个运行大数据任务的平台,它还提供了发现数据并解释它的能力,这是处理问题的过程中最复杂的部分之一。

与Cloudera的解决方案类似,IBM的BigInsights包含了Hadoop以外的很多开源项目,例如: