信贷大数据:祸兮?福兮?

2008年末,从国外度完蜜月,回到位于美国佐治亚州亚特兰大市的家中,凯文•约翰逊(Kevin Johnson)发现了两件事:金融体系正在崩溃,信箱里有一封来自信用卡公司的信。

美国运通(American Express)在信中告知他的信用额度从10800美元下调到了3800美元,理由是,约翰逊光顾的那些商店的常客,都是该公司认为还款记录不佳的人。

约翰逊是一个媒体和互联网企业家,并以此为傲。在约翰逊看来,只是基于和他在相同的商店里购物的顾客的行为,就认为他财力有限,这根本站不住脚。约翰逊表示,当时他的FICO评分在760左右,绝对属于信用良好的范畴。FICO评分是美国衡量消费者信用度的标准指标。

“那有点像一记警钟,”约翰逊说,“金融危机为公司创造了绝好的机会,采用一些狡猾的算法将本应获得贷款的人们拒之门外。”

约翰逊(他还是个非裔美国人)将信件公诸于众,推动了一场关于这种信用评测是否公允的辩论。最终运通放弃了这种做法,并且2009年美国总统巴拉克•奥巴马(Barack Obama)签署通过的信用卡法案(Credit Card Act)也加入了一条要求进一步研究这种做法的条款。

6年后,金融公司有了新选择——海量数据分析技术,让观察购物习惯的方法相形之下显得非常原始。从社交媒体、数字数据中间商和网络记录等渠道收集而来的海量信息,经过算法分析,可用于评定个人信用度,或用于向他们定向投放产品广告。

目前还不清楚主流银行和信用卡公司在多大程度上使用这些算法,也不清楚这些算法的数据输入、计算和计算结果情况如何。一方面,许多种数据驱动算法因不透明和霸道而受到批评;另一方面,将数字化信用评分运用到金融领域又引出了这种做法是否公允的问题。批评者称,使用这些信息对借款人进行预测可能会变成一种自我实现的预言,拒绝向那些与无法获得信贷有关联的人提供信贷,会固化富人与穷人之间的分界线。

“只要走错一步,你就可能陷入死亡漩涡,算法会扩大一个不良数据点,引起连带效应,”马里兰大学(University of Maryland)法学教授弗兰克•帕斯奎尔(Frank Pasquale)说。他著有一本关于算法的书——《黑箱社会》(The Black Box Society)。

这种技术的支持者认为,能够根据潜在客户有哪些朋友、雇主是谁、乃至锻炼习惯如何,得出对这些客户的全面评价,最终将有助于让那些难以在银行开户或获得公平贷款的人有能力获得信贷。

“当消费者进入一种导致他们的财务状况稍微有些失控的支出模式时,他们还能否回到正轨、以及将如何回到正轨?这就是我们能从大数据世界获得的数据,”Moven的总裁亚历克斯•塞恩(Alex Sion)说。Moven旨在为希望更好地掌握自己的消费习惯的用户提供借记账户。

支持者和反对者都同意,在贫富差距成为热点政治问题的背景下,新一代以数据为中心的信贷核发方式和算法评分会引发法律问题。

“现在这还是一大块灰色地带,”曾帮助交友网站eHarmony开发匹配引擎的科学家盖伦•巴克沃尔特(Galen Buckwalter)说。现在他为非传统贷款机构Payoff工作。“妖精已经从瓶子里跑了出来,我们已无法回头,不管是收回信息,还是告诉企业它们不能再分析点击次数、甚至键入模式之类的东西,都是不可能的了。”

美国国家档案馆(National Archives)里放着一份1935年的大亚特兰大(Greater Atlanta)地区地图,上面有蓝色、黄色和红色三种颜色的区域。旁边的手写图例写着:“浅蓝——最佳,深蓝——尚可,黄色——显然在恶化,红色——危险”。

这是美国历史上那段黑暗时期的显著标志。当时,对潜在借款者进行分类的依据,不是他们的个人信用特征,而是他们所居住的区域。

“标红”区域通常比较贫困,居民以某个种族或民族的人为主。在亚特兰大和施行种族隔离的美国南部其他城市,这种做法通常是为了阻止非裔美国人移居到白人为主的社区。

公平借贷法和平等信用机会法等一系列法规出台后,标红区域的做法被法律禁止。但令人忧虑的是,在21世纪,标红区域或许不是用纸和墨水公开写出来的,而是依靠计算机和互联网传输的数据完成的。

尽管美国法律禁止根据性别或种族等因素歧视借款者,但事实表明,通过解析Facebook和Twitter等社交网络上的公开信息,可以精确预测用户的一切信息,从政治倾向、到族裔、再到性取向。