是什么卡住了大数据的应用?

基于比特的数据与实物最大的区别是数据并非是你拿走我就没有的东西,并且硬件的价格在飞速下降,开源又使数据的访问工具基本免费。这几者叠加在一起,使数据公地成为可能。

这里面很有意思的问题是如果大家更在意我拿到的东西是不是绝对值变大了那数据公地的形成可能性就大些,因为如果存在数据公地,那每个人(企业)一定收获更多,但如果大家更在意我是不是比你多,那数据公地的建设就会多很多障碍,因为公地其实是让相关人员站到同样的竞争起点上。

大数据的问题,在数据的使用上是技术问题,但在数据源上其实是社会经济问题,后者更难,所以大数据应用的发展不取决于技术的发展而取决于社会经济方式的变革速度。在有限的领域里,比如搜索、电商、云计算,技术已经得到比较充分的发展,眼下来看谁付出谁受益的问题是把小数据变成大数据过程中最主要的问题。

大数据的路往那里走?

数据的内在发展动力是数据越全价值越大,其实这也是一种网络效应,这种内在动力导致宏观来看数据所有权的发展只有两种趋势:

一种是像现在移动端一样,每个人都有自己的私有数据源,接下来开始你死我活的竞争,最终有一家活下来,这也可以达成数据统一的终极目标。

另一种则是在竞争中开始联合,建设上面所说的数据公地。

如前所述行业数据和全社会的数据性质上差别很大所以要分开来探讨。

对于行业数据而言,竞争对手间彼此的坦诚合作除非有极为特别的人物出现,否则是不太可能的。这种情况下最简单的办法是引入第三方。

比如说每家运营商都握有几乎所有网民的行动数据,但要想让运营商彼此间开诚布公的合作把这些数据整合在一起创造某种价值,这就很难。这时候如果有第三方介入,制定好利益分配方案那就是可能的。

如果这点可以达成,那唯一的关键点就是相应的商业模式是不是可以超越数据处理的成本。这点必须强调下的是,大数据的价值密度是很稀疏的,很多东西有价值但并不一定值得做,视频网站之所以赚不到钱一个关键原因就是带宽和存储的成本比较高,而对大数据而言商业模式找不好,情形可能比视频网站还差。挖矿的成本怎么也要小于挖矿所得挖矿才有价值。

上述问题在行业数据里可能问题还不是太大,一般来讲行业数据的价值密度终究会大一些,并且因为相对比较垂直,总量终究有限制。所以大数据的行业应用比较容易发展。

但对社会性的数据,这在很多时候就是个问题。我们都知道样本的全面性比数据的多少更有价值,但是如果多是确保样本全面性的唯一手段的话,那就意味必须有全的数据做一件事情才有意义。

社会化的数据有两种应用方向,一种就是企业可以搞定的比如Google,一种则是属于社会层面,很难单独属于某个企业的比如智慧城市相关的人的活动数据。后者则需要上面所说的数据公地来做支撑。

从数据的视角来看,现在有两种数据存放形式:一种是Google这样的企业拥有整个社会某个横截面上的全部数据,这应该是种特例,并且数据会局限在公开信息;一种则是被割裂的各种与人行为相关的数据,比如购物相关的在电商,与人相关的在社交网络和IM,线下服务相关的则在O2O企业,铁路相关的在12306等。Google这种拥有全的数据,但并不拥有人的行为,所以说Google这种企业相当于拥有整个社会的一个横截面的数据。而所有其它企业则只拥有某个垂直领域的数据。

如果依赖于企业做这种数据统一的尝试,在前者就会有投资200亿做O2O类的举动,因为这会补全数据,在后者就会有做电商的想做社交,做社交的想做电商这类事发生。类似的故事还可以在终端上发生,所有这些行为的终极目标都是一家企业搞定所有这些事情,但这是不可能的,这种不可能还不单是经济原因。而数据不能打通,那就只能在割裂的数据上做自以为是大数据的大数据。

所以说这骨子里是数据公地究竟能不能建立的问题,而要想建立数据公地,那至少要解决谁来做的问题,对此开源给出的启示有两点非常关键:第一这不能是个盈利组织;第二这要能获得众多企业的支持。因为数据会牵涉隐私,所以同开源相比那就一定还要有比较清晰的界定数据使用的规则。