建模必须与实际销售场景结合,要么找出自然转化率高的用户采取更低成本的接触方式转化,要么找出一批用户施加营销动作后较自然转化大大提升!
误区三:盲目使用、过度依赖训练集! 训练集是个双刃剑,正确使用能充分发挥技术算法的价值,而滥用则陷入误区。前面说的某央企案例,其实训练那些模型并不困难,不就把各渠道成功下单用户作为训练集嘛,掌握工具的新手都能做出来。训练集要与准备施加的营销动作一致的才有意义。
训练集还要有代表性,譬如历史的数据是和大客户谈妥对其所有员工批量转化的,以这些数据为训练集就没有任何意义。营销场景初始往往没有训练集,必须跳出“训练集”局限。
误区四:要相关不要因果! 《大数据时代》作者提出这个观点的时候,其实并不是要放弃追求因果,而是找出相关关系后,更迫切的是接下来怎么做,因果关系可以慢慢研究。这一点被很多人误读,世间没有无缘无故的爱,也没有无缘无故的恨,两个事物相关度很高,背后必定有一串的因果链条,如果找不到,那可能是因为训练集的问题导致伪相关,我们就要警惕了。
误区五:过于迷信算法! 大道至简,有效的东西一定是简单的。非要复杂,那一定是因为没找到或者没掌握关联度更高的原始数据。算法并不能解决所有问题,没有好的数据基础,它无能为力。建模涉及到很多关键要素,比拼的是综合实力,在同等条件下,努力提升算法才是有意义的。
误区六:盲目追求数据精度! 高的精度意味着更高的成本,对应更少的数据规模,如何取舍就要运用“法”篇说的ROI原则了。
三、建模七术
1、场景驱动
建模的第一件事情是搞清楚应用场景,提炼卖点、利益点,哪些是能打动用户的关键要素。从“命中目标”和“命中营销特性”这两个方面去思考我们要找什么样的用户,匹配什么样的关键特征。
2、迭代建模
建模要用互联网思维“小步快跑,快速迭代”,快速对消费者需求做出反应,否则数据会失去时效。因此我们应从简单开始入手,采用简单算法快速输出数据,后续在实战中不断检验、修正、迭代优化,不断提升数据的精准性。
3、场景还原
确定业务目标后,还原用户的生活场景,设想用户的需求场景,再考察数据能否关联。理解生活,数据挖掘会很简单。商业最终解决的是人们的物质文化需求,你想挖掘什么样的群体,先从生活中去理解它,它在什么场景下需要这些产品,有什么行为习惯,在我们的数据中留下了哪些蛛丝马迹?譬如“外围女”这个群体,你too simple对她们一无所知,就很难把她们找出来。为了挖掘“工业区人群”,我们特地组织前往厂区调研他们购买手机、上网、生活习惯等情况,为了挖掘“出租车司机”,我们打车的时候对他们进行了访谈。
五个方面理解还原:
身份属性:譬如商务精英消费能力高使用Iphone手机比例高
状态变化:譬如夜间位置变换,推测用户搬家了有宽带需求
行为表达:譬如在社交网络、搜索引擎等互联网上表达了对目标商品的关注
习惯偏好:譬如喜欢日本料理、西餐厅的人群超60%使用Iphone手机
关系推测:譬如和快递员交互的用户,我们推测它是一个电商消费者
对于任何一个业务目标,都可以从上述五个方面还原与业务目标相关联的场景,还原足够多的场景,就可以挖掘出足够规模的用户数据。
4、找数据关联
还原出场景后,就要找数据进行关联。有些我们可以基于直接数据进行输出,没有直接的数据,则找间接数据选取算法进行推导,而间接数据的选取,可继续应用上述五个方面场景还原的方法。至于具体如何清洗数据、缺省异常值处理、算法选取、误差分析等等那些实操细节,文章很多。
5、快速收敛
建模是人与机器协作的结果,核心参与者是人,建模方向由人来确定,数据维度的选取主要是人(机器辅助验证),算法也是人设计的,机器所起的所用是训练迭代,而机器储存的数据相对人脑太单一,人对数据结果、应用结果进行解读,及时输入一些理解能加快收敛的速度。