大数据征信如何为一个人建立数据肖像?

在方程式的右边,对于所有的自变量,我们有什么方法处理?传统意义上来讲,我们获得所有的变量之后,第一步是变量选取或者整合。而变量选取和整合,在统计和初步机器学习过程当中最常用的是stepwise (逐步回归),它分为forward stepwise(前进逐步回归) 和backward stepwise(逐步后向算法)。顾名思义,stepwise就是通过一个一个把变量拿出来和放进去的方式来决定哪个变量比较重要。

比如,现在我一共有10个变量,我并不知道哪一个好哪一个坏。最常用的方法是,我把10变量都留在里面做一个模型,然后扔掉一个变量再做一个模型,然后再扔掉一个变量做一个模型,以此类推。大家就能看到,10个变量做的模型和9个变量做的模型相比较结果差异到底有多大。那么以此类推,8个,7个都是一样的。我们就能判断每个扔掉的变量扮演的角色到底有多重要,从而判断这是不是一个该留在模型的变量。

那么问题来了,10个变量到底该先扔谁呢?

那么在机器学习的过程中我们有一个新的方法叫lasso的方法来处理这个问题,它可以在多维度空间的方向中进行搜索,选择哪些是重要的哪些是不重要的。

在我讲的这些对于数据清洗的过程,某种程度应该都是比较小的壁垒,能够慢慢积累起来。实际上,还有很多方方面面的工作要做,(都可以形成壁垒)。