中国IDC圈2月14日报道:在喜新厌旧的技术初创企业界,已有 3年 历史 “大数据” 听起来似乎已经过气了。虽然 Hadoop 在 2006年 已经出来,但 “大数据” 这个概念大概是在 2011 到 2014年 左右才真正火起来的。也就是在这段时间里,至少是在媒体或者专家眼里,“大数据” 成为了新的 “金子” 或者 “石油”。然而,至少在我跟业界人士交谈中,大家越来越感觉到这项技术已经在某种程度上陷入了停滞。2015年 可能是数据领域的那些酷小子转移兴趣,开始沉迷于 AI 以及机器智能、深度学习等许多相关概念的年份。
抛开不可避免的炒作周期曲线态势不管,我们的 “大数据版图” 已经进入第 4 个年头了,趁这个时候退一步来反思一下去年发生了什么,思考一下这个行业的未来会怎样是很有意义的。
那么 2016年 大数据到底还算不算个 “东西” 呢?我们不妨探讨一下。
企业技术=艰苦工作
大数据有趣的一点在于,它不再像当初经历过那样有可能成为炒作的题材了。
经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家能够接触、可以感知,或者与大众相关联的:比如移动应用、社交网络、可穿戴、虚拟现实等。
但大数据基本上就是管道设施的一种。当然,大数据为许多消费者或商业用户体验提供了动力,但它的核心是企业技术:数据库、分析等,这些东西都是在后端运行的,没几个人能看得见。就像在那个世界工作的任何人都知道那样,用一个晚上的时间就想适应企业端的新技术是不可能的。
大数据现象在早期主要是受到了与一批骨干互联网公司(尤其是 Google、Facebook、Twitter 等)的共生关系的推动,这些公司既是核心大数据技术的重度用户,同时也是这些技术的创造者。这些公司突然间面对着规模前所未有的庞大数据时,由于本身缺乏传统的(昂贵的)基础设施,也没有办法招募到一些最好的工程师,所以只好自己动手来开发所需的技术。后来随着开源运动的迅速发展,一大批此类新技术开始共享到更广的范围。然后,一些互联网大公司的工程师离职去创办自己的大数据初创企业。其他的一些 “数字原生” 公司,包括崭露头角的独角兽公司,也开始面临着互联网大公司的类似需求,由于它们自身也没有传统的基础设施,所以自然就成为了那些大数据技术的早期采用者。而早期的成功又导致了更多的创业活动发生,并获得了更多的 VC 资助,从而带动了大数据的起势。
快速发展了几年之后,现在我们面临的是更加广阔、但也更加棘手的机遇:让中等规模到跨国公司级别的更大一批企业采用大数据技术。这些公司跟 “数字原生” 公司不一样的是,他们没有从零开始的有利条件。而且他们失去的会更多:这些公司绝大部分的现有技术基础设施都是成功的。那些基础设施当然未必是功能完备的,组织内部许多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点,但他们不会一夜间就把自己的关键业务取代掉。任何革命都需要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的谨慎是可以理解的。还有,令创业者感到绝望的是,许多(还是大多数?)企业仍顽固地拒绝把数据迁移到云端(至少不愿迁移到公有云)。
还需要理解的另一个关键是:大数据的成功不在于实现技术的某一方面(像 Hadoop 什么的),而是需要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由产品来完成,而有的则需要人来做。一切都需要无缝集成起来。最后,要想让所有这一切发挥作用,整个公司从上到下都需要树立以数据驱动的文化,这样大数据才不仅仅是个 “东西”,而且就是那个(关键的)“东西”。
换句话说:有一堆艰苦的工作要做。
部署阶段
所以,这就是在经过几年引人瞩目的初创企业如雨后春笋冒头,VC 投资频等头条后,我们开始步入大数据的部署期和早期成熟期的原因。
更有前瞻性的大公司(姑且称之为传统技术采用周期的 “早期采用者”)在 2011 到 2013年 间开始实验大数据技术,推出了若干的 Hadoop 试点计划(往往是因为赶时髦)或者尝试一些点方案。他们招募了各种各样此前并不存在的岗位(如 “数据科学家” 或 “首席数据官”)。他们进行了各种努力,包括吧全部数据都堆到一个数据容器(“data lake”),然后希望紧跟着就会发生奇迹(往往不会)。他们逐步建设自己的内部能力,试验了各种供应商,从试点计划到生产中的局部部署,然后到现在争论要不要全企业铺开(全范围铺开实施的情况还很罕见)。许多情况下,他们正处在这样一个重要的拐点上,即经过大数据基础设施的数年建设后,能够展示的成果还不多,至少在公司内部的商业用户看来是这样的。但是大量吃力不讨好的工作已经做完了,现在开始进入到有影响力的应用部署阶段了。只是从目前来看,这种建构在核心架构之上的应用数量还不成比例。