Hadoop似乎火了。150家各种规模的企业都在使用Hadoop,包括大公司摩根大通、谷歌和雅虎等,相信这个开源大数据管理系统很快将出现在你的公司里。
但是在使用Hadoop前,你最好先全面了解Hadoop的相关信息。客户和业内分析师表示,需要经过专门的培训和具备一定的分析能力才能使用Hadoop。然而,并非所有公司都符合这个条件。这仍然是一个非常年轻的市场,很多Hadoop供应商都争相推出各种应用产品,包括云端产品。
最重要的一点:不要听信炒作。Forrester分析师James Kobielus指出,只有1%的美国企业在生产环境中使用Hadoop。他预计,“在未来一年中,这个数字将翻一番或者两番。”但是对于所有极富潜力的技术,我们都应该谨慎。
可以肯定的是,相比于传统数据库管理系统,Hadoop具有更多优势,特别是处理结构化数据(如关系数据库中的数据)和非结构化数据(如视频)的能力。而且Hadoop可以在保持对系统最小干扰度的情况下进行扩展。eBay公司体验、搜索和平台副总裁Hugh Williams表示,eBay面对着9PB来自Terabyte集群上的结构化数据以及在“成千上万”节点上运行的Hadoop集群上的非结构化数据。
他表示:“Hadoop真的帮了我们大忙。”
“你可以在相同硬件上运行很多不同类型的不同工作。而在Hadoop出现之前的世界就显得非常呆板,”Williams说,“你可以采用与之前不同的方式来充分使用集群。它允许你大胆创新,并且门槛很低,非常强大。”
扩展,再扩展
Hadoop早期使用者销售视频流系统的Concurrent公司同样需要为其客户存储和分析大量视频数据,为了更好地处理有增无减的数据量,Concurrent公司两年前开始使用Cloudera公司的Hadoop CDH。
Concurrent公司工程总监William Lazzaro
“Hadoop是我们用来解决大数据问题的‘铁榔头’,”Concurrent公司工程总监William Lazzaro表示,“它让我们在很短时间内能够处理大量数据。”
Concurrent公司的一个部门负责收集和存储关于视频的客户统计数据,这也是Hadoop发挥作用的地方,Lazzaro表示:“我们现在有一个客户一个月要生成和保存30亿数据记录,我们预计在接下来的三个月,这个数字将达到一个月100亿数据记录。”
过去,Concurrent公司面对的两个主要局限是:传统关系型数据库无法处理非结构化数据(如视频),并且需要处理和存储的数据量成倍增长。“我的客户想要保存数据四到五年,”Lazzaro说道,“当他们每天产生1PB数据时,这将是一个大数据问题。”
有了Hadoop,Concurrent公司工程师发现他们能够满足其客户日益增长的需求,Lazzaro 表示,“在测试过程中,他们尝试为该客户每天处理20亿条记录,通过向节点加入另一台服务器后,我们发现完全能够满足他们的需求,并且能够迅速扩展。”
为了对比,该公司使用传统数据库进行了相同的测试,发现Hadoop的主要优势之一在于它可以方便快捷地根据需要增加额外的硬件,而不需要额外的授权费用,因为它是开源产品。
生命科学和基因组公司NextBio公司是另一个Hadoop用户,该公司主要负责涉及庞大的关于人类基因测序数据集的项目以及相关科研工作。
NextBio公司工程副总裁Satnam Alag
“我们引入各种基因组数据,然后使用Hadoop对数据进行处理,并与其他数据集进行比较,”NextBio公司工程副总裁Satnam Alag表示,“Hadoop让我们可以根据客户需要对大量公共数据进行分析,我们的客户范围包括制药公司到学术研究人员。”NextBio使用的是来自MapR的Hadoop产品。
一个典型的完整基因组序列可以包含120GB到150GB压缩数据,需要0.5TB的存储容量以进行处理。在过去,该公司需要花费三天来分析这些数据,但现在通过30到40台运行Hadoop的机器,NextBio的工作人员只需要三到四个小时就可以完成工作。Alag表示:“对于任何需要利用这些数据的应用程序,Hadoop都带来了很大的变化。”
Hadoop的另一大优势是它可以简单地通过增加更多节点来按需扩展系统。他表示:“如果没有Hadoop,扩展将是极具挑战性和昂贵的工作。”这种所谓的横向扩展(增加更多商品硬件节点到Hadoop集群)是非常具有成本效益的系统方式。Hadoop框架“会自动处理集群中失效的节点”。
这极大地改变了该公司扩大其计算能力以满足其需求的方式。他表示:“我们不想在基础设施上花费太多钱,我们并没有那么多资金。”