思考,细数大数据风控那点事?

Zest Finance公司的CEO介绍了他们公司在大数据风控领域的经验,很值得传统企业借鉴。欧美传统银行通常采用对所有人都适用的线性回归模型,其中包含性别、出生地等20个左右变量,对每个人都简单化处理,以打分卡的形式评分Zest Finance采用的变量则多达70000个,采用的算法也不是线性回归模型,而是来自Google的大数据模型。

FICO信用评分参考的数据变量只有不到50个,很多人摸清了FICO关注的变量后,就可以“模型套利”增加自己的信用评分,例如一个人可以每天反复在图书馆借书还书“刷信用”。

银行往往采用200个一下变量和几个模型,从模型数量而言,传统征信评分通常采用一个模型,Zest Finance采用十个模型,从不同角度进行计算。十个模型从不同角度衡量申请人的分数,其中两个是进行身份验证防欺诈的,一个是预测提前还款概率的,其余都是评判还款意愿和能力的。最后会用一个决策模型将十个模型的结果整合在一起,得到最终的结果。

Zest Finance发现模型越多,准确率越高。有两个模型,对利润的提升分别是16.9%和9.4%,可能第二个模型往往会被弃用。但如果把这两个模型放在一起使用,利润会提升了38.3%。每个模型平均半年就会诞生一个新版本,替代旧的版本。新版本通常会加入更多的变量和数据源。每个新版本模型都以开发者的名字命名,从而纪念付出劳动与智慧的工程师。

Zest Finance模型中大部分信号都是通过机器学习找到的。例如,一个人在网上填表喜欢用大写还是小写就是一个信号。Zest Finance模型发现,填表喜欢全部用大写字母的人违约率更高。在月收入经过验证的情况下(Zest Finance有一些渠道可以大概获知一个人的收入状况),收入越高,违约率越低。然而,在月收入没有经过验证的情况下,自己填写月收入7500美元的人违约率是最低的,填写7500美元以上则数字越大违约率就更高。

很多人将社交数据视为神器,但是ZestFinance不这么认为,主要还是采用结构化和类结构化的数据,例如交易信息、法律记录、租赁信息等,来源主要是从数据代理商处购买。

Zest Finance的先进之处并非数据来源,“我们有的数据银行都有”,区别在于,银行的人有数据却不会用,就好比坐拥大量矿藏却不会冶炼。相反,Zest Finance最大的优势就是“数据冶炼”,同样的数据到了Zest Fiance手中,就可以碰撞产生无数有价值的信号。