在快速增长的Hadoop数据分析软件市场,供应与需求并没有实现同步。与雇用IT人才创建和维护分布式计算系统相比,公司部署Hadoop的速度更为迅速。为了填补出现的缺口,许多公司开始转向与能够提供Hadoop咨询、软件部署和培训服务的公司合作。
随着越来越多的企业开始大规模部署Hadoop,能够创建和维护这些部署的IT专业人员在数量并没有跟上Hadoop的步伐。在五月份,市场研究公司IDC的分析师研究发现Hadoop软件市场的复合年增长率超过了60%。他们预测,在2016年,市场份额将由2011年的7700万美元增长至8.128亿美元。
Apache基金会的Hadoop分布式计算技术最初在搜索引擎领域崭露头角。在雅虎的帮助下,该软件取得了腾飞。雅虎甚至在2008年建置了一个当时全球最大规模的Hadoop丛集,利用4千多台服务器,使用超过3万个处理器核心,来索引超过16PB的网页数据。这一开源软件的推动力已经不仅仅再限于早期的采用者。Cloudera在2009年推出了自己的Hadoop产品,不久Hortonworks和MapR技术公司也随后推出了自己的Hadoop产品。
随着Hadoop进入更为广阔的领域——从出版行业到农业,IT部门开始寻找Hadoop服务提供商和专业的咨询公司来填补Hadoop的技能空缺。首席信息官和IT经理开始在公司以外寻求帮助以启动相关项目,编写代码,驾驭Hadoop生态系统。随着IT公司希望在公司内部培养Hadoop人才,IT公司还开始与渠道合作伙伴合作进行培训。
人才补充与培训是公司雇用Hadoop专家的唯一选择
Shutterfly公司首席信息官Geoffrey Weber认为Hadoop专家处于短缺状态。他称:“供不应求是被轻描淡写了。我认为,现实情况是,对于我们这种规模的公司来说,不可能期望在市场上招聘到大量的Hadoop专家。”
Shutterfly为一家提供基于互联网的图片分享服务公司。虽然公司规模很小,但该公司2011年营收超过了4.73亿美元,其竞争对手为脸谱、LinkedIn等社交媒体巨头,这使得该公司的Hadoop人才补给受到了限制。
Weber 称:“如果你是一名Hadoop专家,尤其是来自雅虎或其他早期涉足Hadoop的团队中的一员,那么你的经验和技能几乎是独一无二的。你能够选择任何一家你想去工作的公司,你能够得到你所期望的薪水。对于我们来说,从外面找到拥有这样技能的人才来说非常困难。”
对于大规模部署来说,Hadoop人才处于短缺状态
Hadoop的目标利用常规数据库技术管理和分析庞大而难以处理的数据集。其原理是将大数据处理任务分散在多个计算节点上。
Hadoop软件被普遍认为是一种与NoSQL数据库平行的大数据技术。Hadoop的核心组件由MapReduce和Hadoop分布式文件系统(HDFS),前者的主要功能是在Hadoop集群中分配处理任务。其它大量的开源项目,包括部分商业软件构成了Hadoop生态系统。
公司加入到这一生态系统的过程往往是以一个非正式体验为开端的。Weber举例称,例如一家公司可能有一名员工对Hadoop感兴趣,这名员工会下载软件并创建了一个小集群。