数据流通平台:开放、买卖和合纵连横

很多人都将数据比喻我们这个时代的石油,但是石油如果在没有开采和利用人的那里,只是埋在地底的黑色的沉淀物;在一般人那,只是可以点燃照亮的东西,还冒着浓浓的黑烟;经过提炼之后的石油,可以驱动汽车、轮船、飞机;到了其他制造商那里,原本被认为无用的原油提炼剩余物可以制造出我们铺路的沥青,化学肥料、用的塑料、穿的衣服,还有肥皂洗发水等,当然这一切的前提,原油作为一种生产资料作为必须进入生产环节可以流通和购买。大数据时代,我们面临同样的问题,甚至还更复杂,因为数据作为一种生产资源,还具备隐私性,国家、企业组织及信息个人安全考量,同时其生产者和使用者分离,以及跟原油一样作为国家战略资源的特殊属性。

信息孤岛、数据割裂和难以流通不仅让很多有研究和数据应用条件的单位没有数据可用,也让很多数据沉睡不能发挥价值甚至价值逐渐降低。这样的情况,正如《大数据时代》译者,成都科技大学周涛教授年初所说,全世界今天都还没有准备好迎接这场革命,尚不了解数据的类别、品质和价值如何界定,也不知道数据的隐私、安全和版权如何保障,没有建立良好的数据产业生态环境,也没有针对大数据的教育和训练。在这个问题上我们和其他国家是站在同一起跑线上的,这种“不清晰”也给了我们更多的机会,让我们证府、企业界、学术界、投资界和媒体齐心协力,通过数据交换、流动推动数据行业应用和商业创新,推动这次可能深刻改变我们社会和经济的变革。在此之前,我们需要了解到数据交易或者数据流通,目前存在的可能的范式和操作的例子。

一、最基础的,政府或组织开放

美国Data.gov以及英国、印度、新加坡等国的政府开放计划,都是由政府出面通过国家数据开放平台形式,将地理信息、农业、医疗、天气、交通等数据进行开放,并且提供开放接口和分析工具,以提供给企业或个人开发应用使用。

通过Guardian Datablog,《卫报》及其数据博客每天都会发布新闻背后所隐藏的数据,它鼓励读者对这些数据进行可视化处理和研究。该数据博客利用谷歌电子表格和谷歌云计算数据库(Google Fusion Tables)来发布数据,让读者可以搜索到世界各地数以千计的官方数据集。数据堂是北京一家公司提供的专业的科研数据共享平台,主要为国内外高等院校、科研机构、研发企业及相关科研人员提供科研数据支持。通过对分散在各个领域的数据进行收集、加工、整理,以及用户自行上传并发布的数据,数据堂拥有43227份科研数据集,以计算机学科和交通数据为主。

作为一个为科学研究提供数据与资料开放获取的社交媒体,MyScienceWork以Open Access为理念,旨在为研究人员和公众提供无障碍获取科学知识的途径。它免费向用户提供最新的研究成果、学者简介、行业招聘信息以及学术领域内相关的会议活动预告。目前网站公开资料已经超过3亿份,涵盖101种语言的学术内容。地质、气象、医疗、物理等科研资料的开放全球都有组织或机构牵头进行,谷歌、微软等公司也在这方面做出,这也是个让全社会、各领域都可以受益的大趋势。

二、合纵连横,产业链间数据开放和交易

咨询公司埃森哲在一份报告中指出,Web2.0时代,企业内部数据的权重要远远超过外部数据,这些内部数据包括企业内部产生的交易数据、CRM(客户关系管理系统)数据等。一旦企业内外部的数据真正流通起来后,企业外部数据的权重会越来越上升。

1、合纵,产业链纵向开发或联合

通过日产公司提供的汽车驾驶行为数据,日本损害保险公司2013年7月推出的个人汽车综合保险“DRIVE-LOG”.今天,国内很多大数据领域的创业公司,也是依靠三大巨头BAT或者新浪微博这样的开放数据。沃尔玛和宝洁之间数据交换的例子更是广泛传播:沃尔玛掌握了解消费者在店里的购买行为数据;宝洁则了解宝洁的品牌什么样的消费者会有什么样的偏好,通过数据的交换和贯通,两个企业能够从不同的层面更好的了解消费者。

像百分点这样的企业,通过掌握的互联网行为的数据,也可以为产业链上的电商企业或者是媒体公司,通过推荐引擎和分析引擎优化内部运营和外部广告投放。今年来,阿里巴巴的多项投资,进入新浪微博、高德地图和友盟都显示其整合、打通纵向数据链的意图。自然,百度和腾讯也在做着同样的事情。

2、连横,产业群联合共享数据

大数据时代,数据今天因为是个独特、稀缺的资源,但是根本上作为一种生产资料,数据本身拥有并不意味着拥有未来,对数据挖掘、生产能力会是未来制胜的关键。数据开放、流通是个大趋势,即便在同一行业内部很多企业已经意识到了这点。电子商务网络营销领先企业亿玛公司总裁柯细兴曾表示,“大数据未来一定是开放共赢的,亿玛很愿意将自己的数据开放出来,也业内外同行交换共享,共建生态链。”今年9月5日,亿玛公司还在上海宣布与电子商务软件及服务提供商上海商派(ShopEx)正式达成基于数据和业务平台的战略合作。

 

通过此次合作,亿玛将自身近十年积累的全网数据与商派的站内数据进行比对、挖掘、分析,能更加全面的进行人群画像,提升人群分析的精准度,从而提升广告精准投放效果;而商派则通过与亿玛的合作大大补充其软件的客户营销功能,帮助用户在更广泛的互联网平台上实现和全店其他数据串联融合。

三、第三方主导的数据交换或交易中心

1、政府、行业机构主导的交换中心

由政府部门或者行业联盟、行业协会等组织的数据交换中心。例如,为配合上海市科委 “大数据三年行动计划” ,上海大数据产业技术创新战略联盟正式成立,并提出将联盟内部单位的数据开放共享,推动金融、医疗、电信、零售等领域的大数据创新,具体如何评估数据价值、分配权益、完成交互,保证诚信规等制订由所有相关参与企业共同来完善。

更进一步,正如宽带资本董事长田溯宁此前提出的,随着数据成为重要的国家战略资产,未来可能会出现由政府主导的国家数据银行,而正如国际海洋公约一样,也有可能出现像全球大数据公约,这需要中国能够抓住机会,在变革中成为主导者和引领者。

作为一家从事互联网数据局的公司,北京缔元信公司相信,未来的数据会像现在的石油或者其他金属那样成为一种商品,在世界各地会诞生数据交易所。“你会看到这样的场景,一个小公司的经营者拿着信用卡走进交易所说,我想要购买香港地区所有人刷牙习惯的数据。”缔元信总裁梅涛这样举例。

2、企业建立的第三方数据交易平台

阿里巴巴曾经提出建立一个“数据交易市场”主张,让任何个人和企业都可以将数据和挖掘服务拿上去进行交易,阿里巴巴也会将自己的交易和信用数据逐步放到上面。

将数据变成商品,且可跨组织进行买卖、交换、整合,在国外已经有了一些先行者。InfoChimps成立的目标就是要让每个人都能找到自己需要的数据集。设计上,数据提供者可以将数据集上传至InfoChimps,可以供人免费下载,或者以一定的价格销售。InfoChimps还提供很多API可供用户调用,在超过一定数量的免费API调用限额后,InfoChimps会向用户收取一定的费用。

2008年创办的 Factual提供的多种数据集涵盖了本地服务、娱乐、教育和医疗等多个方面,还包括了可用的政府数据。Factual不仅向大公司提供数据,同时也面向规模较小的软件开发商。Factual按浮动价格向公司和独立软件开发商出售数据,其依据是有多少信息被使用。小规模的数据提供是免费的,大型客户需要支付的费用则会达到成百上千万美元。有些时候,Factual还会与其他公司进行数据交易,目的是扩大自身所占有的资源。包括Facebook、CitySearch、AT&T及其他一些公司都会使用Factual来获得有关某些地方的信息。也有一些专注于帮助开发者和第三方获取Twitter,Facebook和其他社交网站数据资源的社交媒体数据分析公司,比如Gnip和Datasift。 DataSift从Twitter购买了多年的数据同步授权,能够访问所有Twitter管道数据,并将子集卖给第三方,主要是企业客户。

3、个人数据交易平台

一位名叫Federico Zannier美国人,从今年2月份起开始记录自己的网页浏览数据、地理位置信息、鼠标轨迹、屏幕定时截图、摄像头定时照片、键盘输入记录、App登录信息等数据,在短短3个月的时间内,他就积攒了超过7GB的“隐私数据”。5月份,Zannier经将这些数据统计、分类汇总,放到kickstarter众募网站上开卖,截止到5月14日,这7GB数据已经炒至1100美元。

和上面谈到的企业为主的数据交易不同,还有一些数据交易公司或组织,他们的主要目标是“个人数据”,并且是未“去隐私化”的,用户可以在这些平台上,将自己的隐私数据诸如收入、购买意向、职业背景等信息出售给第三方。

例如Reputation 网站主要向企业和个人提供信息发现产品和多种版权数据库。拥有超过 100 万用户的数据库。该数据中包含用户的家庭住址、购买习惯、职业背景、薪水和收入状况等信息,并都可以作为隐私数据进行交易。Reputation 网站还提出将发布一款新产品,让用户通过向其他公司分享自己的部分隐私数据来换取相应的折扣或者是其他好处。

成立于 2009 年Personal,其初衷是让用户自己决定自己的信息可以被哪些广告商获取。除了开发类似于 Reputation 这样的产品让消费者可以选择要交易的数据,获取可以帮助用户取得折扣或优惠。Personal还计划再添一个“交易市场”频道,允许用户出售他们个人信息的访问权。

一份最新2014-2020年IT市场的预测中,Gartner提出市场需求和激励将不断推动消费者自愿分享数据,到2020年,企业和政府将无法保护75%的敏感数据,并会取消保密等级,允许大范围人群、公众访问。而伴随政府和企业存储和使用的数据量大规模的增加,要保护所有的数据是不现实的。相比较承担保护所有数据这一无底的任务,政府和企业会更专注于保护其中一小部分,并且要保护得很好。

既然大趋势如此,我们目前应该做的,就是要推动上述的尝试,用法律和市场手段逐步推进数据所有权、隐私的保护,以及数据交易规则和定价等问题,大数据作为信息时代生产资料,国家竞争的前沿、创新的动力,让它真正发挥应有价值,数据开放和规范流通是目前的首要任务。