据IDC报告显示,Hadoop MapReduce的2011年市场份额为7700万美元,而到2016年市场份额将会有60.2%的增长达到8.13亿美元
现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据。但成本上有些昂贵。这种对数据的要求限制了可处理的数据种类,同时这种惯性所带的缺点还影响到数据仓库在面对海量异构数据时对于敏捷的探索。这通常意味着有价值的数据源在组织内从未被挖掘。而Hadoop恰好可以解决以上问题。
Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。Hadoop在很大程度上是受Google在2004年白皮书中阐述的MapReduce的技术启发。MapReduce工作原理是将任务分解为成百上千块的小任务,然后发送到计算机集群中。每台计算机再传送会自己那部分信息,MapReduce则迅速整合这些反馈并形成答案。
基于Java语言构建的Hadoop框架实际上一种分布式处理大数据平台,其包括软件和众多子项目。在近十年中Hadoop已成为大数据革命的中心。MapReduce作为Hadoop的核心是一种处理大型及超大型数据集(TB级别的数据。包括网络点击产生的流数据、日志文件、社交网络等所带来的数据)并生成相关的执行的编程模型。其主要思想是从函数式编程语言借鉴而来的,同时也包含了从矢量编程语言借鉴的特性。
Hadoop的扩展性非常优秀,Hadoop可处理分布在数以千计的低成本X86服务器计算节点中的大型数据。同时由于众所周知的摩尔定律,内存和磁盘的容量也在不断增长。Hadoop对硬件的支持也在加强,现在每个节点可部署16核的处理器,12TB甚至24TB磁盘。
Hadoop的生态系统构建于Linux生态系统并发展。社交媒体和基于Web的应用驱动了Hadoop的发展,而Hadoop的兴起也来带了一些问题。其中之一就是Hadoop从业人员非常缺失。
如今,MIT已经开始要求计算机系的学生使用Hadoop MapReduce构建程序。而加州伯克利分校更是使用Hadoop致力于数据科学领域的研究。相关的Hadoop培训的需求在成倍增长,企业开始将收集的信息细化(客户信息、交易信息),企业都在争先恐后的寻找缩减成本的方法。
Hadoop开发培训需要被培训人具备Java编程经验,而对于Hadoop管理培训而言则需要被培训人具备Linux或Unix的管理经验。IT人员争先恐后参加Hadoop认证培训无非是想获取更高的薪资。