“垃圾进垃圾出”大数据征信可靠不可靠_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

当今大数据风行一时，各行各业都趋之若鹜。在征信业更是如此。但如果认真的问一下，什么是大数据，却没有一个一致的答案。

很多分析认为借贷双方信用信息是非对称的(asymmetric)，大数据可以帮助贷方弥补与借方信息的差距。这个论点的前提是对的，但美国的经验证明信用报告能够很好的解决这个问题。而大数据用于征信存在一些很难逾越的障碍。

大数据由来

准确性是征信的第一准则。本着这种精神，我们来看一下大数据的由来和其准确定义。

在美国计算机协会数字图书馆中，大数据(Big Data) 第一次出现是在1997年10月，迈克尔·考克斯 (Michael Cox)和大卫·埃尔斯沃思(David Ellsworth)发表的一篇关于处理图像数字化后数据量管理的文章里。文章开头指出 “图像数字化给计算机系统出了一个有趣的难题，数据都相当大，占用主存储器，终端磁盘，甚至远程磁盘的容量。我们称之为大数据的问题。” 从这以后，数据随着互联网的发展呈现爆炸式增长。“大数据”也成为各行各业的一个热门的话题。

明白“大数据”始于图像数字化非常重要。大数据包括：可视化数据 – 视频，照片，指纹印记等;言语数据 – 声音和语言，其他声音(动物，自然);社会关系 – 工作和个人关系(LinkedIn);各种同时和即时的活动 -人类，动物或自然(信用卡交易，微博，人类活动，传感器和计量器等);等等。但占压倒性比例的数据是影像。思科(Cisco)公司去年的报告指出，目前美国78%的互联网流量是影像。这一比例在三年内会增加到84%。影像在所有新创数据中的比例，应该是接近或超过它在互联网流量中所占的份额。

具体到征信领域，通常把信息局和银行搜集的数据叫做常规数据，其他的叫大数据。

大数据包括了所有可以获得和可以产生的数据。和常规数据相比，“大数据”种类多样(影像)，产生速度更快(90%的数据是近两年产生的)，数据量比常规数据大千倍万倍。这些特点使得传统数据分析工具和方法难以应对。

美国征信业的起源

国务院“征信管理条例”对“征信业务”做出了明确定义：“征信业务是指依法收集、整理、保存、加工个人、法人及其他组织的信用信息，并对外提供信用报告、信用评分、信用评级等的业务活动”。简而言之，征信是建立和提供“信用档案”和“信用评级”。

将此“征信业务”定义用于美国，它包括了四项相当不同的业务：

1.个人信用信息局 — 包括美国三大信用信息局Equifax、Experian、和Trans Union 和很多小型个人信息公司。

2.信用评分 — 主要用于个人。FICO(费埃哲)基本上垄断了这一行业。

3.商业信用信息局 — 未上市公司的信用信息主要由一家公司Dun & Bradstreet(邓白氏)垄断。上市公司信用信息公开，在美国证卷交易委员会(SEC)的网站上即可获得。

4. 信用评级 — 主要用于商业公司。美国有很多企业在这一领域。但最重要的有三家Standard & Poor’s (S&P), Moody’s, 和 Fitch Group.

个人和企业征信有根本的区别。本文只讨论个人征信。企业征信将在另一篇详细论述。

在美国，当一个人到银行去借钱，银行要对借款人进行“5C” (Character、Capacity、Capital、Collateral、Conditions)贷前分析和审查，以确定借款者是否会还本付息。分析和审查需要的数据，包括认识借款者是谁和其人品，以前是否借过钱，是不是有过借钱不还的记录(Character);借多少钱，什么用途;最近几年收入多少;借款人财产情况;根据收入和财产判断它是否能按时还钱 (Capacity);如果借钱买房，本金占多少比例(Capital);房子价格、状况(Collateral);此外还要分析当地的房市和经济情况(Conditions)。银行会要求借款人提供一系列的证明材料：收入、财产证明、银行月报、信用卡和已有房贷月报，以及其它报表;银行的信贷员还要打电话给申请人单位或者登门拜访，以了解申请人的人品、收入可靠性和稳定性等。银行要花很多时间，做很多工作。如果借款额大(在美国高于十万美元)，银行有钱赚,借款人也可以理解。但如果是申请一个少于三万美元的信用卡，上述的过程让银行代价太大，借款人也很麻烦。这个小额贷款对借贷双方费用都太高，也就做不成了。当这成了一个需要解决的社会问题时，征信业应运而生，其目的是提供一个“信用档案”来减少或取消信贷、保险及雇佣过程中所需数据的采集和费用。

1/3 1 2 3 下一页尾页

“垃圾进 垃圾出”大数据征信可靠不可靠

“垃圾进垃圾出”大数据征信可靠不可靠