用企业IT的行业标准来看,云供应商还比较小,但是其不断膨胀的野心(其中包括从企业栈底层的IaaS向应用发展的企图)与企业数据逐渐向云端迁移的趋势结合,将打开庞大的企业技术市场大门,与传统IT供应商展开激战,而大数据和AI将是核心战场。
2017数据生态体系概览
基础设施
去年的许多趋势今年仍将延续,比如流处理技术,这方面Spark目前是主宰,不过像Flink这样的有趣竞争者正在出现。此外,还有以下一些趋势:
SQL正式回归
在给NoSQL当了10年副手之后,曾经的霸主SQL数据库正式吹响了回归的号角。Google最近发布了Spanner数据库的云端版。Spanner和CockroachDB(Spanner的开源版)都提供了可行的、强一致性的、可伸缩的SQL数据库。Amaozn推出了Athena,跟Snowflake等产品类似,这是一款SQL数据引擎,可直接查询S3下的数据。GoogleBigQuery、SparkSQL以及Presto等在企业逐渐获得采用——这些都是SQL产品。
数据可视化
与公有云采用相关的一个有趣的趋势是数据可视化。旧的ETL处理需要转移大量的数据(而且往往要建立冗余数据集)并且建立数据仓库,而数据可视化可以在数据保持不动的情况对其进行分析,提高了速度和敏捷性。许多下一代的分析供应商现在都可以同时提供数据可视化和数据准备服务,并让客户可访问存储在云端的数据。
数据治理与安全
随着大数据在企业侧走向成熟,以及数据的多样性和体量的不断发展,像数据治理这样的主题也变得日益重要。许多公司已经选择了“数据湖”作为把所有数据收集起来的手段。但除非你知道里面有什么东西,并且能够访问到合适的数据进行分析,否则的话数据湖再大也没有意义。但是想让用户方便地找到想要的东西同时管理好权限并不容易。除了数据湖以外,治理的另一个集中的主题是以安全的、可审计的方式为任何人提供对可靠数据的便捷访问。Informatica、Collibra、Alation等大小供应商提供了数据目录、参考数据管理、数据字典以及数据帮助台等服务。
数据科学家会不会濒临灭绝?
仅仅几年前数据科学家还被誉为是“二十一世纪最性感的职业”。而且“数据科学家”在Glassdoor的“美国最佳职位”排行榜中仍然高居榜首。
但这个几年前才出现的职业现在似乎有被围困的感觉。这部分是因为必要性——尽管学校和程序在批量制造出新的数据科学家军团,但周围却见不到多少,尤其是在招聘到顶级人才方面遭遇更大困难的财富1000强公司。在一些组织,数据科学部门正在从使能者演变为瓶颈。
与此同时,AI的大众化以及自服务工具的蔓延使得数据科学技能有限的数据工程师,或者甚至是数据分析师执行一些基本功能变得更加容易了,而这些功能直到最近仍然是数据科学家的领地。在自动化工具的帮助下,企业的大量大数据工作,尤其是那些简单枯燥的工作,将由数据工程师和数据分析师进行处理,而不是有着深厚技术技能的数据科学家。
换言之,除非数据科学最终不是由机器来完全处理的。但一些初创企业开始旗帜鲜明地打出了“数据科学自动化”的口号——其中最显著的包括刚刚获得5400万美元融资的DataRobot,SalesforceEinstein也宣称自己可以自动生成模型。
不奇怪的是,这些趋势在数据科学社区不受欢迎并引起了争议(当然了,谁会欢迎抢自己饭碗的事情)。然而,数据科学家目前大概还不需要太过恐惧。在可遇见的未来里,自服务工具和自动化模型选择将会“增强”数据科学家而不是消灭他们,其作用将是解放他们,让他们把焦点放在需要判断、创造力以及社会化技能或者垂直行业知识的任务上面。
让一切一起协作:数据工作台的崛起
在大多数大型企业里,大数据的采用都是从少数独立项目(这里做一点Hadoop集群,那里用一用分析工具)以及一些新的职位(数据科学家、首席数据官)开始的。
但现在异质性已经开始发展,各种各样的工具在整个企业范围内得到了使用。在大公司的组织范围内,集中化的“数据科学部门”正在让位于更加去中心化的组织,这个由数据科学家、数据工程师以及数据分析师组成的群体,正日益嵌入到不同的业务部门里面。因此,对于平台来说需求已经很明显了,那就是要让一切都能协作到一起来,因为大数据的成功正是建立在设立一条由技术、人以及流程组成的装配线基础之上的。