中国IDC圈4月28日报道,互联网的发展使得大数据引起人们广泛关注。现如今大数据技术早已渗透到金融、通讯等行业以及生物学、物理学等领域。大数据在容量、多样性和高增速方面的爆炸式增长全面考验着现代企业的数据处理和分析能力,与此同时也为各个行业带来了准确洞察市场行为的机会。迄今为止大数据技术与产品有哪些创新,工业大数据应用面临哪些挑战,金融行业大数据应用现状如何等。围绕这一系列问题,4月27日至28日,由工业和信息化部指导、中国信息通信研究院主办的"2016大数据产业峰会"在北京国际会议中心盛大召开。28日下午大数据征信与数据流通分论坛数据堂联合创始人副总裁肖永红做了主题演讲。
以下是肖永红演讲实录:
肖永红:对于今天的论坛应该换一下顺序,应该是数据流通与大数据分析,刚才凭安的杨总讲了他们解决了一个问题,利用中间件的技术把征信机构数据共享起来,不在第三方存储的情况下让大家自由共享数据,对于产业来说数据流通很重要,今天这个题目,可以改成数据流通大数据征信,说到流通这个产业,数据堂2011年开始做数据交易和服务的事情,实际上就是数据流通,在这个过程中我们积累了一些经验和心得,今天跟大家交流一下。第一张图大数据生态链,很多人对里面有哪些产业,分布在哪些领域,还有原来传统云计算行业也跻身于这个里面,包括基础架构基础设施和云计算。大数据整个概念是2011年开始,经过这几年发展,这个产业比较完整了,今天很多专家在提生态和产业链,这个分工越来越细,今天讨论的是数据源这一块,目前整个大数据产业的状态,大家可能平常接触的是大数据应用非常大,包括大数据征信也是应用的一块,数据源大家一开始关注的少一些近几年关注的多一些。
国内的图谱,最上层是大数据应用和分析,一大片,平常都可以接触到。底层的基础架构是做云计算的公司,还有做基础操作系统包括一些开源技术的公司,最下层是数据源,现在有一个好现象,数据源的公司越来越多了,大数据产业要发展底层的数据流通和交流,不解决这个问题整个大数据产业做不起来,对于整个数据源这一块来说,我把他分两类,一类是很多公司和机构这些网站自身在产生大量数据,包括电信运营商BAT,这是一类,本身已经在直接产生数据源。还有一类像数据堂这样数据交易服务的公司,他们把数据源汇集和充分的流通起来,所以数据源分了这么两类。现在整个中国的大数据生态链和产业图谱处于一个相对完整的情况,接下来要做的事情是把数据资源流通起来,要想把数据流通起来,先讲几个思维,第一个大家看到这几年风起云涌的数据交易平台越来越多,这是一个好现象,最关键的一点大家都看到了数据的资产属性。前五年我们要讲数据交易,出门你得被打,这是很敏感的事情,这几年大家再提已经比较热了,第一是数据的资产属性,第二是中关村大数据产业联盟,数据之和的价值大于数据+的之和。本质上是我们的数据需要不停的被叠加,他可以产生1+1大于2的价值。
第三,数据的最大价值被数据源拥有者决定,我的数据不由我决定吗?我们数据堂网上有北京市出租车GPS的定位,这个数据公开之前,我认为这个数据无非用于城市交通优化和实时路矿分析,但是这个数据放出去很多人用了以后发现他的用途五花八门,有一个医科院用我们的数据比如北京爆发一个流行病,他在分析流行病爆发的趋势,从其中做判断,数据如果不流通公开和开放出来,它的价值真的是不由自己决定,当你公开以后由大家所使用的频率和价值决定。第四众包在大数据流通中起了重要的作用。数据的资产属性凸现以后就意味着要被交易。第二,数据之和的价值大于数据价值之和,数据一定要被增值才有意义。第三既然不由你决定就流通。这个要保证合法合规的条件下让数据流通,让A数据碰到B数据产生更多价值,第四个是众包围绕数据流通的重点关健词。
回顾一下整个社会拥有的数据种类,一类,我们有一个论坛讲政府大数据,去年从国务院和政府部门,国家层面推动部门的共享,工商税务人口医疗教育卫生占的整个数据体量是非常大的,但是这一块也是目前开放和流通相对比较慢的一个环节,这是第一块。第二块是行业数据,比如电信运营商电商物流医疗等很多领域,他是一种行业数据,包括BAT。第三是互联网上的数据,比如腾讯、Facebook、各大新闻门户,他们每天在产生大量的数据,前三块的数据大家关注的比较多,有一块关注比较少,比较纯现象数据,比如大家中午在鸟巢旁边吃饭,首先找饭店不太容易,如果你找到一个饭店,你会发现他的价格不便宜,中午在这儿吃饭的时候去超市买的矿泉水比别的地方还贵,你在这片地区消费的时候发现周边的价格数据是纯线下数据,是分布在各个领域的数据,这个数据亲容易被大家所忽略。我们把这四类数据总结为数据四大家族,你逃离不了四大家族,你从中找到和我相关的数据结合我的业务产生价值。