实际上所有这些问题,最后都会归结为几个不同的方面。在这里,我可以简单地介绍一下建立几个好的模型的步骤:获得数据之后,第一步是原始清洗——基于技术数据;第二步是变量选取;第三步变量整合,第四步单一模型的建立;第五步,五多模型建立。每一步中都有许多细节的工作需要完成。
如果今天市场上有100家征信公司,那我可以肯定的说——100家号称自己做征信的公司中,80家是依靠于自己的特殊资源在做简单的数据贩卖的工作,通过自己独特的渠道获得独特的数据,而些依托于自己本身特有场景所产生的数据源变成了目前市场上成为绝对主力的征信公司。真正依托技术做征信的公司实际上并没有那么多。
而在我们看来,真正的征信公司不仅仅是能够产出原始底层数据,关键是应该根据原始数据所带有的特质进行量化提纯工作,并且最终这些可以体现在信用决策上。真正能完成这些的公司并不多,去掉那些贩卖数据的公司,现在征信公司剩下20%都不到。
而在这20%的公司当中,实际上又有很多公司并不是真正的我们意义上的第三方征信平台。实际上他们都是依托于自己本身所拥有的借贷环境——一方面在通过放贷积累数据,另一方面通过自己的建模工作同时提供征信。这样的商业模式并没有问题,但是从某种角度来讲,这样的公司即扮演运动员的角色又扮演裁判的角色,但是在今后中国的征信市场如何看待这样以借贷起来的征信公司,我想还是会有比较长时间的争论。
很多人都会问,一个技术起家的公司,在数据清洗方面到底有什么地方能跟其他公司做得不一样的。这一点上,我想分享一个有意思的应用场景,做机器学习,我们可以把几乎所有的场景变成两个类别Supervised learning(监督学习 ) 和Unsupervised learning(无监督学习)。在这两个场景场景当中,当我们在进行无监督学习的时候,我们并不需要一个人还贷记录这样的好坏标签,我们可以通过一些其他的变量,来判别和进行大的类别的划分。而监督学习或者分类过程中,我们应该让一开始机器先找到一部分找到好坏标签新进行学习,然后再对新进人群进行判断。