当今大数据风行一时,各行各业都趋之若鹜。在征信业更是如此。但如果认真的问一下,什么是大数据,却没有一个一致的答案。
很多分析认为借贷双方信用信息是非对称的(asymmetric),大数据可以帮助贷方弥补与借方信息的差距。这个论点的前提是对的,但美国的经验证明信用报告能够很好的解决这个问题。而大数据用于征信存在一些很难逾越的障碍。
大数据由来
准确性是征信的第一准则。本着这种精神,我们来看一下大数据的由来和其准确定义。
在美国计算机协会数字图书馆中,大数据(Big Data) 第一次出现是在1997年10月,迈克尔·考克斯 (Michael Cox)和大卫·埃尔斯沃思(David Ellsworth)发表的一篇关于处理图像数字化后数据量管理的文章里 。 文章开头指出 “图像数字化给计算机系统出了一个有趣的难题,数据都相当大,占用主存储器,终端磁盘,甚至远程磁盘的容量。我们称之为大数据的问题。” 从这以后,数据随着互联网的发展呈现爆炸式增长。“大数据”也成为各行各业的一个热门的话题。
明白“大数据”始于图像数字化非常重要。大数据包括:可视化数据 – 视频,照片,指纹印记等;言语数据 – 声音和语言,其他声音(动物,自然);社会关系 – 工作和个人关系(LinkedIn);各种同时和即时的活动 -人类,动物或自然(信用卡交易,微博,人类活动,传感器和计量器等);等等。但占压倒性比例的数据是影像。思科(Cisco)公司去年的报告指出,目前美国78%的互联网流量是影像。这一比例在三年内会增加到84%。影像在所有新创数据中的比例,应该是接近或超过它在互联网流量中所占的份额。
具体到征信领域,通常把信息局和银行搜集的数据叫做常规数据,其他的叫大数据。
大数据包括了所有可以获得和可以产生的数据。和常规数据相比,“大数据”种类多样(影像),产生速度更快(90%的数据是近两年产生的),数据量比常规数据大千倍万倍。这些特点使得传统数据分析工具和方法难以应对。
美国征信业的起源
国务院“征信管理条例”对“征信业务”做出了明确定义:“征信业务是指依法收集、整理、保存、加工个人、法人及其他组织的信用信息,并对外提供信用报告、信用评分、信用评级等的业务活动”。简而言之,征信是建立和提供“信用档案”和“信用评级”。
将此“征信业务”定义用于美国,它包括了四项相当不同的业务:
1.个人信用信息局 — 包括美国三大信用信息局Equifax、Experian、和Trans Union 和很多小型个人信息公司。
2.信用评分 — 主要用于个人。FICO(费埃哲)基本上垄断了这一行业。
3.商业信用信息局 — 未上市公司的信用信息主要由一家公司Dun & Bradstreet(邓白氏)垄断。上市公司信用信息公开,在美国证卷交易委员会(SEC)的网站上即可获得。
4. 信用评级 — 主要用于商业公司。美国有很多企业在这一领域。但最重要的有三家Standard & Poor’s (S&P), Moody’s, 和 Fitch Group.
个人和企业征信有根本的区别。本文只讨论个人征信。企业征信将在另一篇详细论述。
在美国,当一个人到银行去借钱,银行要对借款人进行“5C” (Character、Capacity、Capital、Collateral、Conditions)贷前分析和审查,以确定借款者是否会还本付息。分析和审查需要的数据,包括认识借款者是谁和其人品,以前是否借过钱,是不是有过借钱不还的记录(Character);借多少钱,什么用途;最近几年收入多少;借款人财产情况;根据收入和财产判断它是否能按时还钱 (Capacity);如果借钱买房,本金占多少比例(Capital);房子价格、状况(Collateral);此外还要分析当地的房市和经济情况(Conditions)。银行会要求借款人提供一系列的证明材料:收入、财产证明、银行月报、信用卡和已有房贷月报,以及其它报表;银行的信贷员还要打电话给申请人单位或者登门拜访,以了解申请人的人品、收入可靠性和稳定性等。银行要花很多时间,做很多工作。如果借款额大(在美国高于十万美元),银行有钱赚,借款人也可以理解。但如果是申请一个少于三万美元的信用卡,上述的过程让银行代价太大,借款人也很麻烦。这个小额贷款对借贷双方费用都太高,也就做不成了。当这成了一个需要解决的社会问题时,征信业应运而生,其目的是提供一个“信用档案”来减少或取消信贷、保险及雇佣过程中所需数据的采集和费用。