现在有一个大问题,有数据的企业好多商业模式并不以数据为引领,比如BAT,三大运营商,很多人想他们数据太有价值,他们的主业目前并不是以数据模式为引领,三大运营商数据所占的收入只有很少的比例。包括征信企业和大数据应用企业以及APP开发者,他们都想基于某一类数据围绕以数据为核心的商业模式,偏偏这些数据没数据,这就是摆在今天的现实,尽管近今年的商业模式出来的不少,这还是一个主要矛盾,第一个问题解决数据源是唯一的出路,或者你自己有本事自己生产大数据,BAT也互相用对方的数据,除非混合起来。但是把数据源流通汇集并不是我们的最终目的,我们的最终目的让让这些数据实现变现和价值增值,这是我们提出的几个问题和解决办法。具体怎么解决,有一个数据银行的模式?人民币在哪儿流通,银行是最主要的流通方式,现在我们看到很多传统银行去吸纳存款,这有很多种方式,可能政府部门的发工资,商业部门的帐款往来,和公司商品交易的流水大家都愿意存在银行,数字银行业想干这个事儿,我们想把两端打通,真正有价值的数据的企业不以数据为主要引领模式,但是想做以数据为商业模式的机构找不到数据,所以我们在两端之间通过数据银行的模式打通。第一个要做银行存款的吸纳,数据获取,数据堂有一些尝试跟大家分享一下。
第一是数据四大家族,线下的数据很难搜集到。比如在天通苑,我想做一个数据分析的项目,我把一个月的数据找出来,但是天通苑菜市场的价格怎么办,你只能去那儿记,线下的数据非常分散不太容易获取,我们想一个办法用一个众包的方式,在移动端做了一个APP叫众课堂,我们认为在大数据时代下人是一种很好的移动数据传感器,大家在这个会场里,这个会场如果够智能会分布一些传感器,他会记录这个会场的温度湿度和其他的一些因素。这个会场的传感器是固定的只能记录这个地方的数据,我们人是活动的,今天早晨我们还在天通苑,中午我们已经来到这个地方。你可以感知这个体系。所以我们利用线下的力量采集这个数据,大概采集两类数据,一类是超市商品价格数据饭店菜的价格数据我们还可以感知不同商户的Wifi热点数据。另外一个是采集人次的数据,就是采集人的语音数据,比如四川话方言,这样通过移动众包的方式把很多线下分散出去,利用大众的力量搜集上来,我们在去年采集过超市小票的数据,很多老头老太收集小票,第一用途是开发票,第二是拿手机把小票一拍传给我们,我们再用识别技术把商品价格名称记录下来,假如我每天收集两千张搜集半年,基本上这半年的消费频次营业流水可以估算出来,这对于超市是很好的竞争数据。通过移动互联网端众包的方式可以把很多线下数据吸纳到数据银行里。
第二,我们和很多运营商和很多机构在合作,他们的数据我们也会一起联合开发做相应的产品。第三,我们在和政府合作,政府逐渐以一种很开放的心态把政府的数据流通起来,目前的步子相对小一些,因为涉及到安全隐私的问题,很多政府数据是非常有价值的比如工商税务的数据,你在民政局结婚的数据,包括在公安局的户口本的数据,这也是做家庭征信的很好的数据,还有在税务局纳税的情况,这都是很好的个人信用的数据,这一块的数据政府已经在逐渐开放,应该在两到三年内有一个很好的基于政府数据的征信应用出来,这也是我们和政府合作的。通过若干种方式我们可以看到,通过众包的方式获取线下数据,通过行业合作,把很多行业数据的系统获取过来,也有一些数据不是在本地的只是在合作客户那儿,我们通过一个远程的访问机制使用就可以了。还有互联网大数据,在座的各位都有计算机的能力,可能从网上找一个爬虫软件,今天一天可以把微博数据弄千万条。互联网的数据爬只是第一步,你抓了一亿条微博推特,你后面怎么用,还是要用自然语言的数据进行解析,我们把四大家族的数据获取过来,以合作的方式大家去使用。数据堂在若干领域积累的数据多一些,金融征信、人工智能、精准营销等等。
后面是数据怎么增值,因为数据不像矿泉水,从A拿过来经过物流给B,这个交易完成了。数据这个东西中间有很重要的环节,经常的数据需求方,他要的并不是原始数据,我们做的精准广告营销,并不要很原始的数据,我要的是这个人或者企业的偏好和爱好,我要的是某种结果或者处理以后的东西,要想把数据流通起来,中间有一个环节是数据处理,这涉及到几块事情,第一个是数据清洗,这是一个很麻烦的事情,比如我们拿到了政府好几个部门的数据,工商税务人口,这里面涉及到大量的数据格式种类不一样,而且是从不同的系统里上来的。甚至这里面有很多的杂志和垃圾,不可用的。甚至我们看到的数据是直接给你一个Word文档,你要做一个清洗,这里面包括脱敏去燥去虫,为什么我们提出大数据概念,因为现实生活中80%的数据是非结构化,每天坐公交地铁,甚至很多人开车都拿着手机微信,那是传递一条语音数据,可能大家喜欢在群里分享一些视频数据,视频数据是非结构化的,这些数据你怎么样利用,这也是大数据这几年提出的重要的原因。这里面用到一些图像识别语音识别的技术,把海量的图片、文本视频数据转为结构化才能做分析和挖掘;数据清洗和非结构化是相对苦的事儿,但是有一个事情是做数据关联,数据之和的价值大于数据价值之和。很多数据从A拿来一个数据B那来一个数据C有一个数据,三个数据有关联,有的是拿人的维度关联,有的拿时间维度或者地方维度关联,在数据银行关联以后可以产生更多价值。