邬贺铨:大数据价值堪比石油

目前发达国家已开始了大数据的战略部署,但国内绝大多数的大数据没经过有效的价值挖掘,正处于起步阶段。相关分析显示,中国大数据市场规模将从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%。专家表示,大数据的挖掘利用对提升政府管理职能和企业的决策能力、创新发展模式都将产生深远影响,企业应加快大数据的战略部署,抢占大数据应用的先机。

在近日召开的广东互联网大会上,中国工程院院士邬贺铨援用大量的科学数据与案例表明大数据就是生产资料,大数据引发的产业变革已经开始。

大数据就是新财富

赢周刊:现在各行各业都在谈大数据,我们应该怎样理解大数据?

邬贺铨:大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据规模的标准是持续变化的,当前泛指单一数据集的大小在数据TB和数据PB之间。比如安全监控的数据量,现在视频监控摄像头广泛应用于国内多个城市的主要道路、热点地区、地铁和居民小区的安全监视,在北京差不多就有80万个,在北京只要一个人去了公共场所,一天至少被拍8次以上。

企业数据也不少,全世界企业存储数据总数达到2.2ZB,未来年增67%。10KB大约相当于一张填满了文本的单页纸,如果采用叠纸的方法,100的TB的堆积相当于帝国大厦的高度。淘宝在2010年就已有3.7亿会员、在线商品8.8亿件,每天交易超过数千万笔,其单日数据产生量超过50TB,存储量40PB;仅是(今年)11月11日就接受2.15亿用户购物,处理交易1.058亿笔,峰值时达9万笔/分钟。

赢周刊:大数据有哪些应用价值?

邬贺铨:大数据的应用非常广泛。IBM日本公司的经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算出采纳经理人指数(PMI)预测值。印第安纳大学者利用Google提供的心情分析工具,对270万用户在2008年3-12月所张贴的970万条留言,挖掘出用户的心情。

这是一个企业涉及到管理部门、开发部门、销售部门、支持部门、服务部门的应用,过去这些部门之间的关联是不够的,现在通过大数据分析,可以把一些部门关联起来,可以大改善企业管理效率40%-60%,传统企业有一个数据仓库已经很不错了,但仅仅有数据仓库是不够的,需要从中挖掘内容,提取服务。

大数据在农业应用也很重要,硅谷有一个气候公司,从美国气象局等的数据库中获得几十年的天气数据,将各地降雨、气温和土壤状况及历年农作物产量做成精密图标,从而预测任一农场的明年产量,向农户出售个性化保险,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。

什么顾客最会买东西?妇女。哪个顾客群是黄金(1663.80,0.10,0.01%)顾客?孕妇。有个公司找出一些特点,孕妇一般买一些没有刺激性的化妆品,还有补钙等的保健品,根据这些(能)判断一个妇女是不是怀孕了。他们把一些孕妇产品广告夹在普通的广告宣传单中送到顾客那里,向细分顾客群销售。

大数据的一个经典案例是,沃尔玛通过对消费者购物行为等非结构化数据分析,了解顾客购物习惯后发现,年轻爸爸一般买尿不湿的时候,通常要犒劳一下自己买一下啤酒,因此将这两个商品放在一起来卖效果很好。

华尔街(的)德温特资本市场公司分析全球3.4亿微博账户流言,判断民众情绪。人们高兴时会买股票,而焦虑时会抛售股票。(他们)依此决定公司股票的买入或卖出,该公司今年第一季度获得7%的收益率。最近,我国很多中小企业从银行贷不了款,因为他们没有担保,阿里公司根据淘宝网上的改易情况筛选出财务健康和诚信企业,从而不需要担保贷款,目前已放贷300多亿元,坏账率仅0.3%,可见淘宝的筛选是很准确的。

运营商拥有大量的手机数据,通过对手机数据的挖掘,不针对个人面是遮掩与群体行为,可以从中分析,实时动态的流动人口来源和分布情况,出行和实时交通流信息及拥塞情况,物品热销情况等等。

奥巴马刚刚竞选成功,他的团队通过社交网络和微博收集选民的爱好和关注,利用软件分析并建立选民档案。例如某个选民在Facebook或者Twitter上的大部分帖子都是关于环保和医疗成本的,就可以通过电子邮件发一条源自奥巴马专门谈论环境问题的信息让该选民有理由支持总统连任,同时还可以从选民那里得到新的反馈。