说起大数据就不得不提Hadoop(也就是我们经常看见的大象的标志,注意不是飞猪是飞象),Hadoop是一个由Apache基金会所开发的分布式系统基础架构,专门针对海量非结构化数据处理的需求(Hadoop是以Apache首席设计师儿子一个大象玩具的名字命名)。
以IOE体系(Oracle,IBM和EMC)为核心的传统数据计算存储和读写方式越来越不能满足目前互联网和物联网发展带来海量数据分析的需求,而Hadoop被认为是适应未来大数据应用的全新架构体系,同时Hadoop也成为大数据的代名词(今年开始已经能在A股公司的年报和调研纪要中找到它了)。
Hadoop是个开源体系,任何开发者都可以依托它的基础架构开发新的大数据工具和应用,使用Hadoop体系对传统IT架构替代就是IT界传说的“去IOE”(在国内就变成了国产替代了“囧”)。企业网基础体系的替换是一个漫长的过程,IOE体系经过30-40年的积累才有了目前一统江湖的地位,Hadoop最早始于2005年到目前为止也有十年的开发时间,其开源的属性可能使得在普及过程中会更大激发开发者的热情并推进产业的快速变革(参考andriod的快速崛起),几家比较典型的Hadoop公司近两年收入开始步入爆发期,不少公司也逐步开始IPO进入普通投资者的视野,也许在未来十年时间就有可能出现几个市值媲美IOE(Oracle市值1800亿美元,IBM市值1537亿美元,EMC+Vmware市值920亿美元)的Hadoop公司。
目前美股市场上也有不少贴上大数据标签的公司,比如Splunk(SPLK,市值67亿美元),Tabuleau(DATA,市值55亿美元), Qlik(QLIK,市值26亿美元),Tibco(TIBX,市值39亿美元)(公司市值以2014年12月12日收盘价为参考),此外目前大数据的参与者还有Oracle,IBM,SAS,Teradata这类偏向于BI(商业智能化的公司,简单来讲就是快速生成报表和各种数据分析的软件),已经上市的这一批公司中虽然被冠以大数据的名义但是更多是基于传统基础架构开发的大数据应用的公司,比如Tabuleau,Qlik,Tibco主要是做数据可视化(可以理解为一个智能化的excel,点点鼠标就可以画各种高大上的图表,战略部门和领导的需求,技术壁垒相对有限),而Splunk则主要是做服务器日志文件分析的工具,在集群式服务器管理和服务器日志文件的批量检索分析中都能用到,技术壁垒较高,也是这类公司中估值最高的公司,市销率接近20倍。
而刚刚IPO的Hortonworks以及未上市的Cloudera和MapR则是Hadoop全新计算架构的三家马车,从概念上讲他们是更加纯粹的新型基础架构的大数据公司,当然像Tabuleau这样的公司也在积极的向新基础机构方向转型。