这是有意思的问题。我想以“什么数据最重要、最容易建模”的说法来回答这个问题。
很多人认为,外围的行为数据能够比较准确地说明一个人的还贷能力,而事实上并不是这样子的。从机器学习建模的角度来说,所有的数据或者说独立变量可以分为三个部分:第一部分是核心金融数据,如经济能力、经济行为是怎样的,有没有还钱等;第二是泛金融数据,比如住在什么小区,购物消费记录是怎样;第三个才是社交数据,比如网上浏览的鼠标轨迹如何。
但是,这三类数据的重要性是完全不一样的,核心金融数据的重要性远远强于后面二者,而第三类所谓的网上行为或者社交数据用来反欺诈或许有用,但用来判断还贷能力是及其不靠谱的,所以说提问这个例子,会是众多变量中放到模型去考虑的一个,但绝对不可能因为这样的情况而把偿还能力拉低,或者判断为你的信用状况很差。
对个人建立数据肖像,是不是意味着对一个团队也可以建立数据肖像?这两者的差异大吗?
答案是肯定的。而个人征信和企业征信的差异,是在于当各个不同的团体产生后,数据的离散性,包括数据的可持续性都会是很有意思的问题,这些在建模过程中都会是不一样的。