美国ZestFinance:用大数据作金融风险管控

文/中国人民银行征信中心博士后 刘新海、Turbo Financial Group联合创始人、首席风险官 顾凌云、中国联通网络技术研究院高级工程师 丁伟

作为一家创新型的科技金融公司,ZestFinance自创立以来,由于其独特的商业理念而不断受到投资界和互联网金融领域的瞩目。于2013年获得全球第三方支付平台PayPal联合创始人、美国知名投资人彼得·泰尔(Peter Thiel)2000万美元的投资。ZestFinance认为,它的使命是为每一个人创造公平而且透明的信用信息。ZestFinance最初的服务对象是只能使用高利贷的人群(称为借贷日贷款人群),通过大数据挖掘出他们的信用信息,帮助他们享受正常的金融服务。ZestFinance假定每一个消费者都是“好”人,希望通过搜集证据,证明信贷信息不完整人群的真正的信用状况,进而帮助他们实现享受正常金融服务的权利。

和传统征信相同,ZestFinance公司大数据征信对消费者的信用评估也是基于两个基本面的信息:消费者的还款能力和消费者的还款意愿。所不同的是,传统征信中,数据依赖于银行信贷数据,而大数据征信的数据并不仅仅包括传统的信贷数据,同时也包括了与消费者还款能力、还款意愿相关的一些描述性风险特征,这些相关性描述风险特征的抽取与筛选是ZestFinance的技术核心(如图一)。相比于传统征信数据的强相关性,这些大数据征信的数据和消费者的信用状况相关性较弱,ZestFinance就利用大数据技术搜集更多的数据维度来加强这些弱相关数据的描述能力。这样就使大数据征信不依赖于传统信贷数据,可以对传统征信无法服务的人群进行征信,实现对整个消费者人群的覆盖。

图一 大数据征信视角和传统征信视角的比较

优于银行的大数据挖掘技术

ZestFiance的优势在于其强大的数据挖掘能力,能开发出新颖的信用评估模型,从大数据中挖掘出更多不易被发现的消费者信用信息。

不同的应用对大数据有着不同的理解,目前也没有一个统一的概念。ZestFinance的创始人和首席执行官梅里尔(Douglas C.Merill)认为“数据多”并不是“大数据”,能够利用IT技术将碎片化的信息整合起来才能形成真正有用的大数据。这种对大数据的理解特别适用于征信业,因为征信的基本过程也是将分散于不同信贷机构看似用处不大的局部信息整合成为可以完整描述消费者信用状况的全局信息。

值得指出的是,ZestFinance虽然利用大数据技术进行征信,但是主要利用的还是结构化的大数据,对于复杂的大数据类型,例如文本数据和社交网络数据,利用得比较少,主要原因是由于这些复杂的大数据和ZestFinance所服务的消费者的信用风险相关性太弱了。这种现象其实也被其他互联网金融的征信实践所验证,例如最大的互联网P2P公司Lending Club最早从脸谱(Facebook)平台登陆信贷市场,希望通过对社交网络的数据进行信贷审批,结果效果很差,难以为继,最后只好回归传统的信贷手段发展。

ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力,将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。

关键在于多维的数据和算法

ZestFinane的核心业务是消费信贷审批,主要客户是次级贷消费者,主要的竞争对手是银行或典当行。ZestFinance的核心竞争力在于其强大的数据挖掘能力和模型开发能力,将机器学习领域比较成熟的技术创造性地用于传统的信贷风险管理领域。

传统的信用评分模型一般拥有500个数据项,从中提取50个变量,利用一个预测分析模型做出信用风险量化评估。而在ZestFinance的新模型中,往往要用到3500个数据项,从中提取70,000个变量,利用10个预测分析模型进行集成学习或者多角度学习,进而得到最终的消费者信用评分。

如图二所示,ZestFinance的数据源是大数据,可以生成数以万计的风险变量,然后分别输入不同的预测模型中,例如欺诈模型、身份验证模型、预付能力模型、还款能力模型、还款意愿模型以及稳定性模型等。每一个子模型都从不同的角度预测个人消费者的信用状况,克服了传统信用评估中一个模型考虑因素的局限性,使预测更为细致。

机器学习方法在生产、科研和生活中有着广泛应用,而集成学习则是机器学习最近的热门研究方向。集成学习是使用一系列算法模型进行分析预测,并使用某种规则把各个模型分析结果进行整合从而获得比单个算法模型更好的预测效果的一种机器学习方法。