大数据：巨人间的游戏筹码_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

6171c9dc-3e75-4c44-893f-5f34d17329ec

最近10年，没有一个技术名词能像大数据一样深入社会每个阶层，获得这么广泛的关注。大数据被讨论得如此泛滥已经引起警觉，以至于2013年后，真正从事大数据行业的人尽量避免提及这三个字。本文无意对大数据概念做任何修正，评判，或专家论调。只是一些事实，和来自20年数据分析从业经验的一些感想。

1.辉煌的十年

大数据浪潮来自三股力量推动：技术社区，市场，学术圈。

2004, Google 发表了 “MapReduce: Simplified Data Processing on Large Clusters”，明确提出 MapReduce。值得注意的是，Google 并没有发明什么，’分布执行-中央汇总’ 是最朴素古老的并行思想，Google 这篇文章价值在于，把这种并行思想流程化、规范化了，并提出了可能的实现架构。市场迅速对此作出反应，很多软件实现涌现出来，其中最成功的是 Hadoop, 雅虎慷慨地把它交给Apache 软件基金会。之后数年经过无数人努力发展成了完整的工具栈。

2008年前后以安卓手机为代表的智能设备开始普及，信息采集成本前所未有得低，物联网，大数据变现前景变得乐观。众包思想，自媒体概念深入人心。

2010年，无人驾驶汽车开始测试，2012年3月到2013年12月，美国先后有四个州通过了自动驾驶汽车可上路测试的法律。

2011年，IBM 机器人 Watson，参加美国智力节目Jeopardy，挑战两位人类选手Ken和Brad，获胜。

2011年，深度学习(Deep Learning) 引爆了学界，深度神经网络，ensemble learning, 增强学习这些高度依赖数据规模的算法得到应用。年度大事件是 “谷歌大脑” 项目实现了机器系统对各种不同类型猫图像的自动识别，正确率与人类判断接近。

2012年11月，大型国际科研合作项目“千人基因组计划” 二期目标完成，这一成果将有助于更广泛地分析与疾病有关的基因变异，改善全球人类健康状况。

2013 IBM Watson 系统，微软小冰，苹果Siri 全面开花，标志着大数据进入深层价值阶段。

2014 年中，善解人意会聊天的微软机器人小冰出生。

2015 年底，Google 开源智能引擎 Tensorflow。

我只列举了我熟悉的领域标志性事件，实际上每一年每个领域这个列表可以铺满一页。

2.大数据仍然是巨人游戏

每次重要的技术革新都带给市场一次重新洗牌的机会。这次革新体现尤为突出，值得注意的是这次变革开源社区一开始就参与进来，并且始终在技术层面上推动。这一点不同造成影响非常深刻，甚至改变了游戏规则。

第一就是传统巨头和初创公司之间的硬件资源壁垒变的不明显了。Hadoop 问世之初被称为’穷人的大数据’，因为可以低成本使用廉价硬件堆叠计算能力，给那些买不起 IBM 小型机的企业，特别是创业公司，与巨头竞争的机会。另外网络和智能设备的普及让数据的流通属性发挥的淋漓尽致，一个热门服务短时间就能吸收巨大的数据流量。这其间很多创业公司迅速从几人小团队发展成独角兽公司。

相对小公司的热情拥抱，大公司用谨慎的步伐适应这个转变，特别是传统行业。第一怀疑开源产品的稳定性和安全性，第二大家习惯了付费从厂商得到支持，而不是自己参与到工具维护开发，甚至回馈技术社区。可是一旦度过转型期，大公司充分利用自己的渠道优势，资源优势，会想尽办法把大数据变成巨人游戏。技术只是入场劵，在所有门槛里，这是最低的一道。巨人的游戏考验的是装备，耐力，人力，业务积累，那些成功的小公司的绝不是凭技术胜出。

大公司的优势之一是积累深厚，后劲足。大公司还有个优势是，有足够体量消化大数据的能量。如果公司业务线丰富，比如阿里、腾讯、百度、平安等，同一份数据在多个业务部门都可以释放一次能量，这给了大公司更多空间对数据精耕细作。

3.不要把数据本身当作唯一壁垒，建立自己的数据闭环

数据是非常脆弱的核心竞争力，数据本身不管多么大，无法支撑一个公司的长久运营。脆弱的原因是收集成本与复制成本极度不对等，特别是当前监管落后市场很多，一家电商网站一年的交易情况一个盘阵就可以塞满；在线地图厂商走遍每条街道手工采集的POI数据一个星期就被爬虫收入囊中。公司在制定数据战略的时候要认真考虑这种不对等，多层布局要把数据资产持久化运营和精细化运营。这方面的例子很多，实际上回顾 2010-2015 的互联网的圈地狂潮，大伙儿都在做的两件事就是：抢占入口，自建闭环。为了抢占入口各种地推烧钱，明争暗斗无需多言。入口抢到了闭环的建立更困难。典型的数据闭环是：数据在消费端生成，通过交易、服务渠道完成采集，经过清洗汇总进入仓库，加工分析应用到业务流程，市场反馈再通过消费端回来。这个闭环对业务流程的增量改进意义重大。

1/3 1 2 3 下一页尾页