美国ZestFinance:用大数据作金融风险管控

如果把单个模型比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。由于融合多种信息和综合多种决策机制,经过集成学习得到的分析预测要明显优于单一模型。不同角度的信息存在关联,各自包含互补信息、多角度学习的过程,相当于一个不断搜集证据的过程,加强互补信息,进行信息融合。例如,两个独立的评分模型对利润提升的能力分别是16.9%和9.4%,传统信用评估中,第二个模型可能被弃用,但如果发现这两个模型分别包含互补信息,将这两个模型的结果进行融合,可以将利润提高至38%。

这些多角度学习中每一个子模型也没有采用传统的逻辑回归, 而是机器学习中的其它的预测模型(该模型的细节对于ZestFinance是核心机密)。ZestFinance的信用评估中没有利用逻辑回归模型的原因是大数据征信的数据比较零碎,而且变量过多,以及所抽取的风险变量分布不能满足正态分布。

抓住信贷审批管理就能控制80%的风险

根据调查,80%左右的信贷风险来自信贷审批环节,一旦消费者获得信贷,后续的管理只能控制20%的风险,由此可见科学的信贷审批管理十分重要。开发高质量的信贷审批评分模型,进行科学的审批风险管理,可以大幅降低坏账率,并取得比较好的经济效益。虽然ZestFinance并未透漏其坏账率,但在实际应用的过程中,和其竞争对手银行或典当行的放贷者相比,还是取得了一些不错的结果。

1.获得贷款顾客的成本是竞争者的25%。根据JMP2012的行业报告,对于一个在线的借贷者来说,获取一个顾客的平均花销应该在250美元和500美元之间。2014年,通过ZestFinance的服务,获得顾客的成本稳定在100美元左右。

2.首次还贷违约率(First pay default, FPD)低于竞争者。从2012年初起,ZestFinance的首次还贷违约率还在不断波动,有时高于第三个竞争对手,随着模型的不断改进,到2013年已基本稳定,明显低于三个竞争对手。

3.不断提高客户的投资回报率。ZestFinance最初的投资回报率在100%左右,随着模型的不断改进,目前的客户投资回报率达到了150%以上。

4.投资回报率高于竞争对手。图二展示了ZestFinance在不同时间和其竞争对手在投资回报率方面的比较,可以看出ZestFinance的投资回报率明显高于行业标准和其竞争对手。

图二 ZestFinance的投资回报率高于竞争对手

关于ZestFinance信用评估模型

ZestFiance的优势在于其强大的数据挖掘能力,开发出新颖的信用评估模型(见图三),从大数据中挖掘出更多不易被发现的消费者信用信息。

当ZestFinance不断地进行数据搜集和增加新数据源的同时,评分模型也在不断更新。如表一所示,从2012年到目前,差不多每一个季度就会新推出一个新的信用评估模型。而且模型是以每一位不同的开发者命名,目前已经有14个模型。ZestFinance评分模型的改进也提高了其信用风险评估水平。虽然这些新的模型仍然会遇到数据充足性和数据可得性的挑战,但是模型的持续改进还在进行中。

图三 ZestFinance的信用评估模型解读

ZestFinance最早从事的是信贷审批,仅有信贷审批评分模型,随后不断细化其评估模型来支持不断推出新的信用风险业务。如表一所示,2013年第一季度推出了催收评分,2014年第二季度推出了市场营销评分;2014年推出了汽车贷款和法律催收,目前已经开发出八类信用评估模型,用于不同信用风险评估服务。

表一 ZestFinance信用评估模型

丢失数据(Missing data)指的是机器学习中某一些数据项因为种种原因造成了缺失,较多的丢失数据会给建模过程带来挑战。由于ZestFinance利用多维度的大数据,所以丢失数据的现象更加突出。ZestFinance处理丢失数据也有其独特之处。首先ZestFinance不断改进其评分模型,增强其处理丢失数据的能力,最新的评分模型可以处理超过30%的丢失数据。其次,ZestFinance另辟蹊径,充分利用丢失数据之间的关联、和正常数据的交叉,探寻数据丢失的原因。通过这样的深耕细作,获得了一些有用的消费者信用信息。当然,这种做法要求使用于特定环境,要结合信贷业务,并对消费者的行为模式有深入的理解。