这是后话,应该需要一个演进的过程。在这个演进的过程中,需要注意两件事儿。一个是行为的稳定程度,还有一个就是标尺的唯一性。
目前大数据征信主要采集的是互联网上的数据,它反映了一个人的行为特征。那么在征信的应用里,就要考虑这个行为特征的稳定性。只有稳定的行为特征才有被征信的必要。比如,我们早期的移动互联网应用,跟现在的就有很大不同,因为当时人们的很多习惯并没有养成。反映到数据上,就是杂乱无章,毫无秩序,而且不可重复。在没有养成稳定的习惯之前,数据是没有意义的,它不意味着任何事情。
征信是一个信用体系的基础,是一个金融秩序的根本。如果这个秩序乱了,那么一切都会乱了。大到好坏人的评价,小到信用风险定价的步长,不管是通过什么方法实现的,结果必须一致(允许一定误差内)。再好的故事也要为应用服务。美国的三大征信局,对每一个用户都有自己的评分,但一个用户在三大征信局里的评分,误差不会超过50分。道理很简单,因为几乎所有的银行都依据此去做风险定价,如果误差大了,标尺不一致,那么各家银行依此做出的风险定价就不一致,贷款的行为就会出现问题。所以,不管你用什么方法,说的再天花乱坠,一定要有统一的标尺。标尺错了,起点就错了,后面的一切基于这个起点的推断就都是错误的。
为什么不能沿用美国的征信体系
相信这也是所有征信的后来者所困惑的问题,为什么我们不直接照搬美国的征信体系?有的人说,国情不同。到底是什么国情不同?我认为,首先是基础设施的成熟度,其次是人们对信用的观念。
基础设施的成熟度,很容易理解,就是数据的完备。每个人的各项征信所需要的数据都很完备,可以很容易被采集到(当然只有征信局可以被授权使用这些数据)。美国的基础物理设施的成熟度,自然是国内无法比拟的。尤其是个人的隐私信息的管理,有一整套严格成熟的法律法规;而国内,还处于建设阶段。
所以,数据的采集渠道,就造成了在基础设施层面上客观的差异。这也是为什么央行不像美国那样只对三家征信局发放牌照的主要原因。 因为,我国没有统一的数据资源。
人们对信用的观念,初看起来有点虚,其实不然。基础设施的匮乏导致了我国不能采取美国的模式;而信用观念的建立,也不是一朝一夕可以完成的。信用观念的树立,代表了未来市场的成熟度。很难想象,一个成熟的市场中的用户,连信用是什么,我为什么要守信都不知道?!在北美等发达国家,公众有很明晰的信用观念,信用代表一切。所有去过北美的人会深刻感受到这一点,没有信用,寸步难行。只有越来越多的用户有了信用的观念,征信才会被越来越多地应用;也只有这个时候,征信才可以作为一项可以自给自足的业务,独立存在。
投入产出ROI
不知道谁第一个传出征信是一个一本万利的好买卖,“钱多,人傻,速来”!于是,大家就都来了。征信真的那么赚钱吗?
我来给大家算笔账。
先说投入。
目前代表互联网一方介入到征信领域的,多为本身就拥有庞大的网民数据(有to c入口)的企业,但由于即便是他们,业务的侧重不同,也没有办法拥有网民全部的数据。而且上面也分析了,我国还处于建设阶段,国家也没有一个统一的数据中心能涵盖所有数据源。所以,大家都需要跟别人去交换、购买其他部分的数据。
征信需要大量的数据,而且必须是高质量的数据。什么是高质量的数据?就是距离你个人真实情况近的数据。在这些数据里,最需要的是金融相关类数据,比如你的各种消费,你的收入等等。
数据质量越高,价格就越贵。按照目前金融属性比较明显的数据条目来计,每一个个人用户的成本在5-20元,如果征集的属性多,甚至要到50以上。一个征信机构,至少要覆盖1亿以上的人群,过低的识别率(征信用户查询有结果即为可识别)就会使征信机构失去存在的价值了。按照每笔5元的价格来计算,1亿用户就需要5亿的投入。这还没包括其它的基础设施投入等等。
在方法上,目前还没有找到一个在确实信贷历史数据,仅通过网民行为的大数据实现经得起推敲的征信方法,所以还需要继续寻找。这种寻找,又分成了两个方向,一个是继续沿着大数据的路寻找,也许未来某个时间能找到;还有一个就是自身收集金融数据,打通线上线下的数据,来补上信贷历史数据的缺陷。目前,AT都是走的这个路径。也就是AT没有直接去交易数据,而是利用强大的影响力,直接在线下合规地收集数据。每客户数据的获得成本,恐怕比上面的额度还要高。