未来商业智能系统:Hadoop来当家

现在,当人们提到大数据的时候首先想起的技术往往是Hadoop MapReduce,像Hadoop这样的分布式架构在10年之前的运用是非常少的——互联网发展刚刚起步,从地球诞生到2003年的全球数据量一共是5EB,而我们现在每两天就能生成5EB的数据。传统的交易数据库在应对数据激增的挑战时已经显现出不足,企业越来越多地开始部署数据仓库、商业智能系统来进行数据分析等工作。随着Hadoop MapReduce在大数据方面起到了越来越重要的作用,那么我们今天就在这里了解一下什么是Hadoop MapReduce,它们对如今的IT起着怎样的作用。

Hadoop项目创始人Doug Cutting

什么是Hadoop?

Hadoop是一个分布式系统架构,它可以用来应对海量数据的存储,而这样的数据量往往是以PB甚至ZB来计算的。Hadoop的存储系统我们称作Hadoop Distributed File System(HDFS),它是由Doug Cutting创建的,其灵感来源于Google的一篇学术论文。Doug Cutting是谁呢?著名Apache开源项目Lucene和Nutch的作者。重要的是Hadoop也是开源的。

什么是MapReduce?

拿新浪微博来举个例子,用户每分钟都会生成几万甚至几十万条信息,这个数据量是非常大的。新浪的数据中心有大量的服务器在生成数据,那么我们如何能够快速地访问这些数据?Hadoop使用的就是MapReduce,它的概念第一次出现也是在Google的论文中。MapReduce遵循“分治法”,数据以KeyValue对来组织。它以并行的方式来处理一个计算节点中的数据,这些数据会分布在许多不同的系统当中。对数据进行整理分类之后进行处理。

Hadoop MapReduce的影响

针对一个标准PC服务器,Hadoop将连接到所有的服务器然后将数据分布到这些节点当中。它将所有的节点视为一个大的文件系统,对数据进行存储和处理,因此它是一个100%的分布式文件系统。如果数据量增加到之前系统无法承受的情况,我们还可以增加额外的节点,让整个系统的扩展性更好。Hadoop MapReduce在成本方面同商业软硬系统相比具有一定优势,因为其开源的属性。随着Hadoop的逐渐普及,相信技术人员成本也会进一步降低,Hadoop的价值也将凸显出来。此外,Hadoop还是NoSQL数据库的主要部署架构之一。

目前,Hadoop项目已经由Yahoo公司转移到了Hortonworks,这是一家硅谷风投公司Benchmark Capital与前者合资组建的公司,他们将继续开发该技术。雅虎软件工程副总裁Eric Baldeschwieler将担任Hortonworks公司CEO。而最近,Hadoop的支持者之一社交网站Facebook也迁移了30 PB的Hadoop集群。除了开源社区的支持,Hadoop也得到了商业软件供应商的青睐,据笔者了解,越来越多的传统数据库厂商也在他们的产品中逐渐增加Hadoop特性,其中包括了Oracle、Teradata等。以下厂商的数据仓库和BI产品已经添加了对Hadoop和MapReduce的支持:
Greenplum
Informatica
Teradata(AsterData)
Pentaho
Talend

总之,如果Hadoop MapReduce以及NoSQL等技术得到广泛运用的话,传统SQL数据库系统不能解决的非结构化数据将不再成为问题。而大数据概念不断推广,Hadoop与商业系统的搭配将成为一种必然的趋势,数据集成软件也将在数据挖掘等场景中扮演重要的角色。