国内数据交易平台“数据堂”是第一类数据交易的样板,大家可具体到这个网站感受一下。这类数据在交易过程中的搜寻成本相对较低,通过传统的检索技术就能快速撮合数据买卖双方,但如何降低出售方夸大数据价值、以次充好的风险成本?有一个具启发性的思路就是,数据交易中心可借鉴手机应用商店做法,设计激励政策将数据供给方的角色从“出售者”转变为“数据长期运营者”——鼓励供给方不断维护、升级所提供的数据,比如勘误、定期更新数据(类似应用商店中的版本管理),激励手段举例如给予活跃维护数据的供给方的数据产品提供在平台上更多的曝光、平台扣起部分收入根据购买者售后投诉情况做备用赔付金等。从此以往,数据需求方不再是花钱“购买数据”而是“订阅数据”,从而不仅能减少提供方以次充好捞一票就走的行为,也更能体现交易对象是数据服务的本质。
实际上第一类数据的交易中还存在另外一个交易风险成本,那就是如何保证,数据购买方获得数据以后,不会私下把数据重复卖给其他需求方?这个风险不解决,势必在大范围数据交易中,降低了数据供给方对于数据收益的预期,从而不得不提升数据售价,又反过来迫使购买方通过私下倒卖的方式降低自身购买成本,形成恶性循环。作为一个一般性思路,数据交易市场需要通过规则与技术手段提升购买方的违规成本。如严格的准入与会员等级特权制度,促使购买方珍惜自身交易资格避免违规,另外技术手段上,可在数据中加入用于识别的随机信息,可轻易追查出私下倒卖的会员。
而数据交易中的第二类数据,是形成了“四方问题”闭环的明细用户特征与行为数据,这类数据的特点是由于涉及到个体用户的行为与兴趣,蕴含着巨大的商业价值(下文称作“第二类数据”)——如此前在在线广告数据交易中提及的用户标签数据。这类数据交易前应把PII信息(个人身份可辨识信息)去除,但用于找出这个用户的虚拟用户身份标识是不能被去除的,否则哪怕数据再有内涵,无法定位到用户并转变为营销与洞察,这类数据都是难有有武之地的,但保留用户身份标识又涉及到了隐私保护的问题。正是由于对于隐私保护的忧心忡忡,第二类数据的交易难度与成本都非常的高,而如何促成这类交易,则是数据交易市场的核心任务。
无论是个人征信、在线广告定向、大数据精准营销都与能细分到个人的第二类数据密切相关,同时在线广告业的实践证明,这类数据虽然涉及隐私问题,但并不是不可交易的,需要的是一套隐私保护与管理机制。同时本文认为,第二类数据交易也将会是未来数据交易的核心内容,而交易过程的隐私保护与管理机制同时将会是数据交易市场的核心竞争力。
另外,关于第二类数据交易的隐私保护本文有一个核心观点:最佳的隐私保护方法不是试图隔离用户的知晓,而是让用户这个数据当事人能参与其中,甚至获取部分数据交易的收益。例如,对于允许自身数据被制作为兴趣标签的用户,在精准推荐中能获得商家更好的折扣。
问题二:谁参加数据交易?
现在业内每当在新挂牌的数据交易所会员名单中,发现赫赫有名的互联网巨头时都会兴奋莫名,仿佛数据交易即将会因为这些数据资产寡头的到来而即将被激活一样。但数据交易市场作为一个双边平台,其兴起的根本要素在于具备足够数量的活跃供给和需求方,除了巨头以外,我们还要关心一下长尾数据。
所谓的长尾数据,就是散落在不同所有者上的零散数据,每个所有者拥有的数据量不会特别大,因此不足以激励他们想办法变现数据。而数据交易中心,则作为一个平台能够提供便捷的数据变现能力,需要吸引到长尾数据供给方的到来,并提供平台能力帮助中小数据供给方变现手中的数据。
大数据交易的价值,还应该体现在交易的多样性上,如何吸引长尾数据的到来,是数据交易市场的另外一个关键任务。
问题三:如何对数据进行定价?
本问题实际上是希望回答,数据交易中如何降低讨价还价的高昂成本。即针对数据,我们应该如何去定价,才能最小化交易成本,而对于数据定价,第一类数据和第二类数据是有较大区别的。
对于第一类数据(不涉及用户隐私的统计或科研数据),其定价相对可以比较简单,大部分情况下,采取供给方定价的形式就足够了。一方面是因为第一类数据由于不涉及个人,其价值相对性的波动不会太厉害,无需采用更复杂的定价模式,另外采取供给方定价,能将数据产品运营权保留在供给方,使其能够以各种如限免、促销等方式运营数据,使得有价值的数据能够普惠更多需求方。