从这一点上,应用提供商颇似一个系统集成商。它需要根据用户的实际需求,去判断需要准备什么样的数据,需要采用什么样的算法,需要将数据如何优化,以便达到最优的效果,帮助客户解决什么样的实际问题。
以上,就是我归纳的目前大数据市场上的几种角色。要想在市场立足,必须要先明白自己属于哪个角色。定错了位,没有一个正确的起点,没有一个正确的方向,跑的再辛苦也不会达到终点。
清楚了自己的身份,接下来要做的就是积累,不断地积累、优化;不断地往上爬,争取做到各自领域的前三。只要你提供服务的价值是被市场认可的,赚钱是迟早的事儿。
数据有多重要
近来有个说法,得数据者得天下。在大数据时代,没有数据你怎么能够进入这一市场呢?相反,我有了数据,即使我不知道怎么来用,也比没数据,知道怎么用的公司强,估值高。数据是稀缺资源,待价而沽。
从某种程度来说,这个是有道理的。因为不同的数据质量,决定了不同的业务。业务的发展,从一定程度上会受到数据的质量、数量、维度三方面的限制。
数据的数量、维度比较容易理解。只有拥有了足够丰富的数据维度,足够的数据数量才可以尽可能地去描绘、还原事物的本来面目。经常被人忽略的是数据的质量。所谓数据的质量,其实就是跟被推断,被挖掘事物的关联程度。最好的数据是不需要挖掘的,数据等于“真相”。
举个例子,比方说你在微博上发了一条信息,“我的宝宝今天上午十一点出生了”。那么这条信息作为数据被存储起来,数据等于“真相”。这是不需要任何挖掘和推断的,直接可以被利用。比方说,基于某天“有了宝宝”这一事实,就需要奶粉、尿不湿,之后三年需要早教,等等,等等。
相反,如果信息匮乏,或者说不能直接采集到相关的数据,需要通过已知的信息去推断未知的事物,那么就属于挖掘的范畴。推断的结果自然可能是对的,也可能是错的,这就涉及到准确率的问题了。再好的模型,再丰富的数据维度和再大的数据量,也只能是无限逼近真相。
所以,离真相越近的数据,质量就越高,价值也就越大;相反,离真相越远的数据,质量就越低,价值就越小。这一点已经得到市场的充分认可。
由于数据质量的差别,客观上也造成了业务上的差异。
所幸,从各种迹象上表明,未来成熟的大数据格局,在朝着我所归纳的四种角色发展。数据将逐渐打破垄断,趋于开放。只是好的数据质量自然会贵些,差的数据质量自然会便宜些而已。
当然,这不是一个短期内可以实现的目标,需要一个演进的过程。在这个过程当中,势必会有一些巨头,利用数据资源上的差异,开发出比其他竞争对手更有优势的业务来。但我个人认为,这一优势没有那么大,也不会维系很久。
支撑我观点的原因有两点,一个是随着国家很多数据资源的开放,即便没有少数几个寡头垄断的数据,也可以找到其他替代的数据来达成目标,形成新业务;还有一个原因是可以采取借鸡生蛋的方法,只要想办法搞到初期启动的数据,做成产品,迅速形成商业闭环,用业务产生的数据,用机器学习的方法,不断地训练模型,不断地优化,最终实现目标。
所以,我虽然同意数据是一种战略资源,从某种程度上说,有了垄断的,高质量的数据,可以做出好的数据产品,可以领先别的竞争对手一段时间,提供差异化服务;但我真的不认为,得数据者得天下。
淘金大数据
上面将整个大数据产业链划分成了四种角色。什么角色挣什么钱;有多大本事挣多少钱。想在市场上谋有一席之地,靠的还是实力。
数据提供商
数据提供商领域,依旧属于市场初期。目前没有任何一家数据提供商可以提供所有维度的数据;每家都只拥有网民的部分数据(业界最高的识别率,一般不超过30%)。现在最时髦的各家的“用户画像”也只是盲人摸象。距离真相,还有一定的距离。
这就造成了客观上由于信息不对称,而给一些中小数据提供商的市场空间。中小数据提供商可以充分利用巨头们还在整合数据资源的阶段里,快速地变现(最简单地例子就是数据的粗加工出售,控制成本,做到哪天算哪天,争取利益最大化);或者去寻找某一个行业,苦练内功,成为大数据的应用服务提供商。从而在数据提供商市场垄断到来的那天,能够华丽转身,蜕变成应用提供商,继续在市场中存活。