而数据不适合共享的第二个原因,就是数据的价值相对性。对于数字内容,一般都是普罗大众都能够接受的产品,比如一部电影再不符合你的口味,闷得慌时凑合看看总是可以的。但数据则不一样,即使是同样一个数据集,对于不同的企业其价值可能是天渊之别,而对于数据这种相对价值差异极大的产品定价,免费模式几乎不可能达到经济上的帕累托最优。
数据的第二个特征是数据价值的相对性。比如我有大量全国方言的语料库数据,这个语料库对于绝大部分人而言其价值几乎为零,但对于如科大讯飞等专门做语音识别的公司,则是能大幅度提升识别准确率的“金子般”高价值数据。另外一个例子是,假设我有整个中国13亿人的兴趣爱好标签数据,虽然这个数据对于几乎所有的企业都是非常有价值的数据,但实际上大部分企业只是需要其中的一部分而已,如上海的淘宝卖家只关心江浙一带用户的数据,母婴电商仅关注其中的女性用户数据。让数据需求方把全体数据买回去无疑是不符合市场规律的,数据交易需要给予数据需求方“挑数据”的能力。
上述两个个案例,分别说明了数据总体价值在需求方的差异性,以及数据本身内在价值分布的差异。对于大部分数据交易,使用传统商品交易的方式,即供给方简单为数据贴上一个价格标签挂平台出售的方式是不合适的。因为在传统商品流通中,不太可能出现比如一本书对于买家A价值高达1万元、但对于买家B仅值10元这样的巨大价值感知差别。
有趣的是,传统商品交易确实会存在上述的情况,比如玉石/字画,或土地/有价证券等价值感知主观性极强的商品交易。事实上我们已经为它们创造了一种几乎完美的定价模式,那就是竞价拍卖,即需求方定价:你觉得对你而言,值多少钱就出多少价。
数据交易第三个特征是,交易的不仅是数据本身,而是知识。这个看起来非常显而易见的观点,实际是数据交易中最为核心的原则。在未来成熟的数据交易市场,主要交易的量会围绕蕴含在数据背后的知识,而数据的知识发现KDD(Knowledge Discovery in Data)将会是数据交易市场的核心任务。而其中的道理也是显而易见的,需求方分别把数据买回去然后做加个应用无疑是不经济的,更好的模式是,知识已经由数据交易市场以云计算的形式处理好,由需求方直接购买回去使用。俗话说书本有价知识无价,而至于怎么对这些“无价”的知识进行定价出售,数据交易市场需要设计一套巧妙的机制,通过需求方定价的方式去激活市场。
在未来,数据交易产品化将会是重大趋势,而数据知识发现KDD是其中的核心问题。正如你去谷歌搜索“数据交易”,谷歌不会粗暴地把所有含“数据交易”关键字的网页打包为一个硕大的txt文档返回给你一样。
数据交易最后一个特征,是数据涉及的隐私性。目前的数据交易之所以困难,在于大部分有交易价值的数据都与用户的个人隐私有紧密关联。如国内三大电信运营商虽然具备用户全行为洞察以及跨屏数据的巨大优势,但在数据变现中脚步蹒跚,最主要原因在于用户隐私红线。数据交易实质是一个复杂的“四方问题”,关于用户隐私和四方问题本文接下来的章节会详细介绍。
第二部分 数据交易的“四方问题”
在数据交易的具体过程中,存在复杂的四方问题,具体如下图所示。在长期以来的数据交易探讨中,我们都倾向于为求简便,有意无意地忽略了数据的“原点”,也就是数据的当事人——用户本身。但在现实当中,大部分数据尤其是行为类数据,都是用户基于与某个服务提供方(第二方)的服务或产品契约,在使用过程中所产生的。数据的当事人,即用户在数据交易的设计与规划中是不能被忽略的,数据交易不能被简化为简单的“三方问题”。而在目前国内成立的一些数据交易所中,数据当事人并未被纳入到其顶层设计之中,仅仅通过一些如“涉及用户隐私或其他法律保护情形的数据,不能交易”等条款含糊应对,这是比较可惜的地方。
在数据交易之中,之所以有用户隐私侵犯甚至违法交易之忧,最本质的原因是数据交易 “四方问题”是一个闭环的结构。也就是说,取之于用户的数据,被售卖到数据购买方后,有可能被用于利或不利于用户的行为之中。如运营商把运营商把数据售卖给征信机构,导致用户在贷款申请中,授信额度被降低了10万元;或电商把用户购物兴趣标签出售后,用户接到了大量的营销电话。因为有这一闭环的存在,服务提供方在未经用户许可的情况下,单方面把数据提供给可能会为用户带来不利后果的购买方,无论是伦理上还是契约上都是不合适的。