总体而言,当前大数据风控有效性欠佳的原因主要有以下几个方面:
(一)数据的质量问题
当前大数据风控的有效性欠佳,其首要原因就是数据的真实性不高,包括社交数据和交易数据两个方面。
1.社交数据的真实性问题
美国lending club和facebook合作获取社交数据,在中国宜信也曾大费周折的收集借款人的社交数据,最后两者得出的结论都是社交数据根本就不能用。美国很多大数据征信公司的信息错误率高达50%,垃圾进、垃圾出。
2.交易数据的真实性问题。
当前许多电商平台的刷单现象非常严重,这将导致交易数据的严重失真。随着网购的火爆,有关电商平台“刷单”的报道屡见报端。
电商“刷单”有两种方式,一种是商家找所谓的消费者进行“刷单”。卖家买快递单号,其收件人和寄件人与实际的买家、卖家不一致。
另一种是快递公司发空包,但快递公司并未完成配送,而帮助商家完成平台上的物流信息。
(二)大数据风控的理论有效性问题
从IT技术层面论证大数据风控的实践性案例已经很多,但是在经济金融的理论层面,大数据风控还面临一些问题需要解决。
1.金融信用与社会信用的相关性不确定
目前大数据主要来源于互联网,而人们在网络中的表现并不能完全反映其真实的一面。相同的人群在不同场合呈现的特征是不一样的,尤其是目前人们在线上、线下割裂的状态,其行为方式往往会出现强烈的反差。
例如有些人不善交际,却将自己做的美食展示在微博上,吸引大量关注,粉丝暴增。因此网络并不能确切地证明某人的社交圈子,也就是说互联网的数据很难还原用户现实中的信息。
2.大数据对于“黑天鹅”事件的滞后性
在现实世界,总会出现不可预测的“黑天鹅”事件,一旦出现则有可能冲击大数据风控模型的基本假设,进而影响大数据风控的有效性。大到美国的次贷危机,小到个人意外事件的发生,在某种程度上大数据风控是无法预测的,但这些事件的发生,对宏观经济和微观主体都会产生重大的影响。
例如,2008年美国次贷危机后产生了一种“策略性违约”行为——贷款主体本身有能力还款,但是其在房价远低于贷款总额的时候,重新购买一套房子,并对之前的房贷断供,贷款者可以此方法进行“套利”。
虽然此类违约者会因此有不良信用记录,但是这对信用报告的影响有限,因为其他的债务按期偿还。而大数据对这种突变事件的预测能力则非常有限。
(三)大数据收集和使用的制度问题
在数据收集和使用的过程中也面临着合法使用的问题。如何高效、适度地开发和使用大数据,不仅仅是一个技术问题,也是一个社会问题,这些泄露的数据大量流入数据黑市,造成了用户安全、企业安全甚至国家安全方面的连锁反应。数据的收集和使用在很多时候都没有征得数据生产主体的同意,这导致了数据的滥用和隐私的泄露。
近年来,个人数据泄露事件频频发生,因个人数据泄露而造成损失的新闻屡见报端。猎豹移动安全实验室发布的《2015年上半年移动安全报告》显示,截至2015年上半年,猎豹共监测到496起数据泄露事件,影响超过544万人。2015年10月19日,乌云网发布消息称,网易的用户数据库疑似泄露。
图2 2005-2014年国内外数据泄密情况
资料来源:上海汉均信息技术有限公司《2005—2014年全球泄密事件分析报告》
数据安全问题也将越来越多的企业推向风口浪尖。
上海汉均信息技术有限公司发布的《2005—2014年全球泄密事件分析报告》显示,10年间,全球泄密事件中,我国泄密事件数量占比为58.5%,其中高频发地域主要是东部沿海经济较发达、产业格局以高技术含量为主的一二线城市(如图2)。
Verizon发布《2015年数据泄露调查报告》,报告覆盖95个国家,其中有61个报告了问题,涉及79790个安全事件(Security Incident),超过2000个(2122个)确认数据泄露(Data Breach)。