数据挖掘过程中绝不能犯这11大错误

解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

___________________________________________________________________________________

11. 太相信最佳模型(Believe the Best Model)
 
IDMer:还是那句老话-“没有最好,只有更好!”
 
可解释性并不一定总是必要的。看起来并不完全正确或者可以解释的模型,有时也会有用。
 
“最佳”模型中使用的一些变量,会分散人们太多的注意力。(不可解释性有时也是一个优点)
 
一般来说,很多变量看起来彼此都很相似,而最佳模型的结构看上去也千差万别,无迹可循。但需注意的是,结构上相似并不意味着功能上也相似。
 
解决方法:把多个模型集装起来可能会带来更好更稳定的结果。
 
数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方面也保障了设计变量的结构化和完整性。所以我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难的。
 

更多详细信息,请您微信关注“计算网”公众号: