底层基础平台主要解决的是数据存储、计算的问题,是整个大数据生态的基石。采集到的数据,首先要能高效、快捷地存起来,才能进行数据分析和数据挖掘。
这一层非常重要,同时也是技术含量最高的一层。以底层技术中明星Hadoop为例,用Hadoop的公司很多,能做Hadoop发行版的公司凤毛麟角。
底层基础平台细分领域里的大数据公司众多,有专注Hadoop发行版的星环科技、红象云腾和天云大数据,有传统数据库厂商人大金仓和南大通用,有研发新型分布式数据库的巨杉数据库,还有唯一来自中国的Apache社区顶级项目Kylin背后公司Kyligence。
接下来为您重点阐述国内外Hadoop生态的现状。
Hadoop兴起的原因:便宜才是硬道理
进入新世纪的第一个十年,各大企业都在大力投入IT设备,建设自己的机房,上线各套办公系统。第二个十年,经济下行,传统企业的盈利下降,对IT设备的投入已经不像上个十年那般狂热,大型企业采购IT设备的经费受到控制,开始核算成本,意图在满足需求的情况下,降低投入。
以Hadoop为代表的新底层技术能够兴起,抛开技术原因,最主要的原因是便宜、扩展性强。利用分布式架构,将一些性能一般的机器串联起来,达到与高性能单机同样的效果。随着公司发展,数据量增大,不需要更换全套设备,只需要再增加机器就可以达到目的,省时省力。
分布式架构的技术很多,为什么Hadoop最后胜出?还是因为便宜,用的人多。以微软的Cosmos为例,这套系统本身优于Hadoop,主要是针对大型机房,设计理念很好,上万台机器的机房,拿出几十台做别的事情,来提升系统运营效率。但如果是几十台机器,仍然需要拿出很大一部分来做别的事情,机器使用效率就很低。
实际应用时,用上万台机器的公司少,用几十台机器的公司多,因此Hadoop的应用面更广。用的人多,自然帮助优化架构的人多,社区贡献的人多,技术发展快,渐渐成为主流。
国外Hadoop三驾马车,商业模式各有差异
Hadoop三驾马车,数据源:公司公告,爱分析整理
提到Hadoop,必然要提到国外三家围绕Hadoop技术的公司:Cloudera、Hortonworks和MapR。三家公司都成立时间不长,Cloudera和MapR都是2009年成立,而Hortonworks是2011年从雅虎独立出来。
三家公司都在资本市场上受到追捧。Hortonworks在2014年上市,IPO当天市值接近11亿美金;Cloudera获得英特尔7.4亿美金的投资,估值近50亿美金;MapR最近刚刚获得5000万美金融资,估值也超过10亿美金。
Hadoop技术是开源的,为什么还有公司会提供Hadoop相关服务?这是因为开源技术的兼容性和稳定性比较差,同时,企业在实际应用中需要将开源技术和自身系统、产品相连接,这就是Hadoop发行版的市场所在。三家公司利用自己在这领域的技术、经验积累,帮助企业更好地应用Hadoop技术。
尽管三家公司都是提供Hadoop相关服务,但是商业模式区别不小。Cloudera和MapR都研发自己的Hadoop发行版,只不过MapR的技术完全闭源,不会对外开放,而Cloudera的产品分为免费版和企业版,只有企业版的核心组件不对外开放,其他技术均提供给社区。Hortonworks将自己的技术完全贡献给社区,不靠产品获利,靠派驻技术人员到客户现场提供服务盈利。
因为MapR的技术不开源,所以对社区贡献有限,目前对Apache Hadoop社区影响最大的是Cloudera和Hortonworks这两家公司。
国内市场处于跑马圈地阶段,新兴大数据公司刚刚起步
正如开篇所言,尽管近年大数据行业风起云涌,创业公司如雨后春笋般冒出,却少有专注底层基础平台的公司。
星环科技是业内的明星公司,创始团队来自原Intel开发Hadoop发行版的部门,成立三年已完成1.55亿人民币的B轮融资,估值超过10亿人民币,目前主要服务金融、电信领域客户。
天云大数据和红象云腾同样在做底层基础平台,发展速度略逊于星环科技,都在寻找适合自身的发展路线。天云大数据的业务在向上层迁移,除了提供Hadoop发行版,目前也涉足复杂神经网络等算法技术;红象云腾将业务下沉,基于芯片层提升系统处理数据的效率。