数据挖掘比赛通用框架

1. 前言

Kaggle上有篇名为「Approaching (Almost) Any Machine Learning Problem」的博客(点击底部阅读原文),作者是Kaggle比赛的专业户,博客是他参加Kaggle比赛的经验总结。在进入正题前随便扯几句:

  • 本文并非原博客的翻译版,而是90%的原创,是在原博客基础上融合自己的经验,重写了大部分章节和代码。所以当你看到本文跟原博客差别很大时,请不要怀疑人生 ;-P
  • 原博客题目直译过来是『解决(几乎)任一机器学习问题的方法』,但原博客内容更偏数据挖掘之『术』而非机器学习之『道』,因为讲解了很多实际操作的trick和代码,所以我给本文取名为『数据挖掘比赛通用框架』。为简化描述,后续用ML指代机器学习,DM指代数据挖掘
  • 本文可以看做是一篇科普性质的文章,内容简单基础,关键在于结合实际实践这些想法,所谓 practice makes perfect.
  • 本人连续多天利用数个晚上写成此文,请尊重原创,转载请注明。也希望本文能给各位带来收获,如有疏漏,望积极指正,先行谢过

2. 背景

DM流程通常分两个阶段

  • Step1. 数据清洗,数据格式调整
  • Step2. 特征构建,模型选择,效果评估