在这样的情况下,我们有必要先对建模的基本概念进行阐述,这样我们才能知道对于数据的处理应该聚焦在什么地方。首先,我们在进行有监督学习的时候,我们往往会在方程的两边进行判断。而方程的左边我们叫因变量,或dependent variable,是一个人在之前是否有过还贷记录,也就是我们所谓的好坏标签,而另外一边是描述这个人各种各样的信息,我们叫做自变量,也就是independent variable。
当我们做了这样的定义以后,对于数据的处理就比较清晰了。我们或者要聚焦于对因变量进行处理,或者聚焦对自变量进行处理。
我们先从对于因变量的处理开始,大家可能都知道一个征信公司到底能做的多好,他的数据量有多大是至关重要,而很多人遇到的瓶颈问题就是,他们很难搜集到各种企业和个人进行还贷的历史记录,很少有企业能够完成因变量大规模积累的工作。
这一项工作,在美国如果我们完全不需要人工智能或者机器学习的介入,最传统解决办法我们叫reject inference(拒绝推断)。也就是,当我在这里没有办法在自己的场景当中获取其他人的好坏标签的时候,我们往往会通过其他的征信局或者其他的放贷机构,进行交换或者购买好坏标签的形式来获得。在中国初创征信坏境中,这样的方式十分困难,因为大多数机构都想获得别人的而不愿意分享自己的。所以从这个角度来讲,指望通过reject inference,通过别人的借贷来获得信息就比较困难。
那些在机器学习当中,我们有什么解决方法呢?有两种:self-training and transdurant (SVM)。当我们明确知道有一些是好的和有一些人是坏的前提下,通过一个分类器对其他未知的变量的进行处理的过程中,能够通过一些自适应的学习方法把在未知的人群中把有明显倾向的人分成好的和坏的。