Hadoop处于这个十年的大数据革命的暴风眼。这种基于Java的框架实际上由一套用于分布式处理海量数据的软件和子项目组成。核心方法是MapReduce,这项技术用来压缩和简化数十乃至数百TB字节的互联网点击流数据、日志文件数据、网络数据流或者是来自社交网络内容的大批文本。
自从Hadoop在2008年作为Apache开源项目发布以来,它就一直让人备感兴奋,原因在于它结合了成本低、可扩展性佳以及无需构建预定义模式(predefined schema)就能灵活地处理任何数据等优点。许多人觉得,Hadoop有望带来全新一代的数据处理功能,就像结构化查询语言(SQL)30多年前在数据计算领域引发革命那样。
但是Hadoop不太成熟,在某些方面与SQL相比完全很原始、很粗陋。一些开路先锋已经投入至少六年的时间来开发Hadoop,其中大多数人在雅虎等互联网巨头开始接触这种框架。Hadoop取得的成功同时也促使主流市场对其稳定性、成熟的管理等更高的需求,包括SQL环境具有的那些丰富功能等等。
现在所有人寄希望于Hadoop厂商们开发出成熟可靠的工具、功能和技术创新。这个社区中有影响力的主要厂商包括Cloudera和亚马逊。Cloudera是开山鼻祖,现在也是Hadoop软件的最主要来源,它拥有CDH发行版和配套的管理软件。它还是为Hadoop提供企业支持和培训服务的最大供应商。亚马逊很早就进入了这个领域,其亚马逊弹性MapReduce服务在公共云中运行Hadoop。
2011年,MapR和Hortonworks(后者从雅虎拆分出来)一下子备受瞩目,它们宣布了各自的Hadoop软件发行版,另外提供支持和培训服务;至于MapR,它还提供旨在提供高性能的专有版本。Hadoop要有所改进,竞争是一个方面,所以市面上出现更多版本以及新的支持和培训服务应该让每个人都受益。
数据处理是一回事,但是大多数Hadoop用户最终希望实现的是分析数据。这时候,像Datameer、Hadapt和Karmasphere这些专门针对Hadoop的数据访问、商业智能和分析工具厂商就闪亮登场了。
Hadoop迈向主流的标志是在2011年,它得到了五家主要的数据库和数据管理厂商的积极接受,EMC、IBM、Informatica、微软和甲骨文都纷纷进入Hadoop领域一较高下。IBM和EMC在去年发布了各自的发行版,后者还与MapR结为合作伙伴。微软和甲骨文则分别与Hortonworks和Cloudera合作。EMC和甲骨文都发布了专门定制的硬件设备,随时可以运行Hadoop。Informatica扩展了其数据集成平台以支持Hadoop,现在它还将其解析代码和数据转换代码直接融入到环境中。不妨深入了解这些有影响力的厂商们在Hadoop方面有怎样的作为。
亚马逊将MapReduce作为服务来交付
亚马逊早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),绝非很晚进入Hadoop领域。所以说,亚马逊对Hadoop的需求和应用可谓了若指掌,无论用户是运行试点项目的新手,还是内部部署的预置型系统遇到需求过载时,利用弹性MapReduce来获取额外容量的专业人士。
弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。这可是货真价实的云:面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。
除了数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。Karmasphere提供了可视化工具,以便使用SQL及其他语言,针对在亚马逊S3、亚马逊弹性MapReduce作业流或本地文件系统上的结构化数据和非结构化数据,执行即席查询和分析。用户还可以提取结果文件,以便在数据库或者微软Excel或Tableau等工具中使用。