从中美大数据差异看大数据产业发展

众包——集众人之力。现在能向IBM、甲骨文、EMC、微软发起挑战的都是通过众包的模式进行的。集众人之力,也称作“群狼战术”。因为单个的某个企业买不起IBM的服务器,买不起甲骨文的数据库,买不起EMC的存储,所以要做分布式、虚拟化的调度。因为有这样一群人开始尝试,于是出现了开源。开源的概念其实源于原来的传统产业。有一个做化妆品的大企业聘请了大量的科研人员,研究各种配方,但后来发现这样做的产品成本会非常高,每个新出的化妆品价格必须在六百到八百美元左右,而且科研人员因研究任务复杂几乎被逼疯了。其中有一个化学工程师索性把他要研究的任务扔到网上了,许多志愿者开始研究这个东西,给他出各种的主意后又把结果反馈给他,这就是开源的由来。后来该企业的研究经费降低了20%左右。开源可以汇众人之智,降低成本。

长尾——享众人之功。长尾就是指原来龙头企业能占领60%、70%的市场份额,然后逐渐的被长尾现象所替代,即龙头企业占到30%左右的市场份额,剩下的被各个领域占领,各个方向的人一起分享。因为“群狼战术”,“狼”的筹码不能缺太多,“群狼”一起分享,这样效率就提高了。大数据时代,建设智慧城市还会遇到很多问题,有一个问题就是以数据为生产要素的新一代信息化建设处处繁华似锦,但肯定不能一花一果。所以我建议:一定要做好顶层化的设计,整个的部门想做什么,先有一个大概的方向;第二是强制化,成熟一些了,马上就往前推进行;第三一定要市场化。市场化、强制化、顶层化才能形成创新驱动。

如何判断是否要进行数据驱动创新?

数据驱动建设信息化是有量化指标和架构的,有的东西能做,有的东西暂时不要做。从技术上看着都能实现,但是有的一踩就是地雷,有的就是结果。所以我认为有几个指标供参考,什么可以用数据驱动创新,什么不可以。

架构力度,是指某个产业单位时间内创造出来的生产总值。

基础约束度一定要小,不要受体制、机制、政策、资本的各种约束。如果政府在体制和机制上,没有形成突破,诸如国家统计局,从下面采集上来的数据就有很多的问题,掺沙和水,这时候让做大数据挖掘优化,挖出来的还是沙子和水,体制和机制都有问题的时候,没有办法挖,这是一个约束度的问题。

投资收益度,投的少,收的多,或者叫公益度。公益度指社会服务,诸如我们的社保、文化、教育、医疗。市场接受数据的力度和敏感度。力度越粗,敏感度越敏锐的才有利。比如,你给他一堆甚至都带有错误信息的数据,他都愿意买的时候,这个就可以做;你给了他一个说全国中考的50万个重点要素,孩子们读完以后能涨20分,所有的家长都觉得是谎话,但是觉得能涨20分也行,这就是力度很粗糙,敏感度很高,这可以让你迅速的形成商业模式。

具体的实现和应用的速度要快,中国是发展中国家,速度一定要快,速度慢不仅不能追赶别人还会被落的更远。用户群和地域区域覆盖一定要广。要能跨越行业门槛。在技术上不要总想挑战世界性的难题,只要挑战你的门槛,能跨越这个高度也是可以行的。社会经济发展的支撑度。如果你跑到贵州一个乡里面搞智慧城镇,那他们的收入和需求,根本没办法支撑信息系统建设的成本。

行业的关联度、渗透度和应用维度。你做的数据产品服务除了关注你这个行业以外还要能为别的行业服务。关联度越高,成功的可能性越大。即使我选择错了,也能够转向调头。原有行业规模竞争激烈的程度。行业的规模尽量大,竞争尽量的激烈,它正在转型期,需要这样一个创新的手段去推动。如果用以上这些指标去衡量阿里巴巴、淘宝、facebook、推特,它们几乎完全满足。