虽然2016年全年,只有Talend这一家大数据公司成功上市,但2017年截至目前这一领域内满是IPO良机。Mulesoft和Alteryx成功上市并且表现还不错,这两家的发行价都超过了IPO价格。在撰写本文时,Cloudera也即将上市,该公司最新预估价(41亿美元)与营收(2016年2.61亿美元)之间的空缺对于“独角兽”的估价现象将造成不小的考验。此外MapR以及位置智能公司Yext也正在准备上市。
接下来会是谁?多年来,Palantir作为业内最低调的公司之一,已经表达出想要公开上市的意图。考虑到Palantir的最新预估价为200亿美元,如果其公开估价能够接近这一数字,将会成为IPO领域的一枚重磅炸弹。
打响云端战役
失败和收购活动也许不会让这个行业立刻得到巩固,但“功能合并”的情况日渐普遍,尤其是在云计算领域。该领域内一些重量级选手正在逐渐构建整合式的“大数据+人工智能”服务,并且吸引了不少用户,这些服务或者使用了自行开发的产品,或通过流行的开源计算引擎自行实现,这种服务距离很多买家所期待的“一站式购买”越来越近了。
尤其是Amazon WebServices还在继续快速发布不同类型的产品,让人获得了深刻的印象。目前该公司已经围绕大数据和人工智能技术提供了几乎所有产品,包括分析框架、实时分析、数据库(NoSQL、图形等)、商业智能,以及日益完善的人工智能能力,并且在深度学习方面颇有建树。按照这样的速度,AWS很快将具备我们的大数据全景中所涉及的几乎所有基础架构和分析产品。
虽然Google涉足云计算的时间较晚,但他们正在围绕大数据积极主动地构建一系列产品(BigQuery、Dataflow、Dataproc、Datalab、Dataprep等),并且已将人工智能视作超越竞争对手的方法之一。过去一年来,Google在人工智能方面公布了很多消息,例如:一个新的转换引擎,雇佣了两名出色的人工智能专家Fei-FeiLi和JiaLi来领导新成立的Cloud AIand Machine Learning部门,针对视频识别提供的全新机器学习API,并且收购了数据科学家社区Kaggle。
更大规模的企业级IT供应商–尤其是Microsoft、IBM、SAP、Oracle以及Salesforce–也在努力推出大数据(以及人工智能)产品,这些产品都支持云端(最引人注目的是Microsoft)和本地部署。除了通过自行开发,以及收购而来的技术构建这些产品,他们的合作意愿也在逐渐加强,尤其是与“有数据的”公司(数据仓储)和“有人工智能的”公司进行合作。例如IBM和Salesforce以及SAP与Google的合作都是其中的典型。
按照企业IT行业的标准来说,云供应商的规模依然不算大,但这些公司的野心(包括在企业技术栈中,将自己的地位从IaaS层面上升至应用程序层面的明确意图)和稳扎稳打将企业数据迁往云端的做法相结合,意味着与传统IT供应商的全面战争已然打响,大家在争夺庞大的企业级技术市场的控制权,而大数据和人工智能将会是核心战场。
2017年,大数据生态系统全景回顾基础架构
去年发生的很多事依旧余波未平,例如流处理的重要性与日俱增,目前Spark已独占鳌头,但人们对竞争产品,例如Flink的关注也逐渐开始涌现。此外还有一的有趣的话题时不时地出现在人们的对话中:
SQL已经正式回归了
过去十多年来一直面对NoSQL技术“打压”的SQL数据库技术现已正式回归。Google最近发布了云服务版的Spanner数据库。Spanner和CockroachDB承诺提供一种高存活性、强一致性,可横向扩展的SQL数据库。Amazon发布的Athena与诸如Snowflake等产品类似,是一种大型的SQL数据引擎,可直接查询S3Bucket中存储的数据。GoogleBigQuery、SparkSQL以及Presto也开始在企业领域占有了一席之地–这些都是SQL产品。
数据虚拟化
在公有云的接受度方面有个有趣的趋势:数据虚拟化产品的使用率正在快速激增。较为古老的ETL流程需要移动海量数据并创建数据仓库,数据虚拟化技术使得企业可以无需移动,在原地进行数据分析,借此提高速度和敏捷性。很多下一代数据分析产品供应商,现在均已同时提供数据虚拟化和数据准备产品,借此帮助客户更轻松地访问云中存储的数据。
数据管控和安全性
随着大数据在企业中的应用日益成熟,并且数据的种类和数量依然在与日俱增,有关数据管控之类的话题也变的越来越重要。很多企业已经选择通过“数据湖”的方式创建一个中央仓库,用于保存自己的所有数据。但除非人们知道数据湖中到底有什么,并且能按需访问分析工作所需的恰当数据,否则数据湖将全无用处。