中国IDC圈6月14日报道,建模无疑是大数据里面最艺术的部分,也是最令大数据从业者痴迷、得意的领域,一个好的模型就是一篇作品,是一首诗,令人心旷神怡。建模、模型并不是什么新鲜事物,它们早已出现在很多场合,譬如“产品模型”、“推荐模型”、“营销模型”、“挖掘模型”等等。但,它们有什么不同?
建模的幻影有千万种,有些人做过,有些人没做过,我们该如何看待?建模是不是需具备很多专业知识,非专业人士无法掌握?小白杨的所思所想,都在下面的文字。
一、建模并不神秘:让数据产生新的数据
一些建模的观点已在前面的道与法两篇体现,归纳如下:
建模的本质就是让数据产生新的数据。 人类、智能体的认知、行动需要用到不同的数据(Know->行动),如果这个数据没有被直接掌握,那就要基于已知的事实数据推测,这个过程就是“建模”,得到的结果就是一个新的“数据”。
建模就是在做侦探, 都是利用已掌握的大量的、不完整的、不一定可信的事实数据推导还原事实的全部。几乎所有的领域都涉及建模。
模型分三大类,但万变不离其宗。
第一类,利用已知的事实数据计算推测相关联的其它事实数据,譬如应用人的属性、行为数据推测它的消费需求;
第二类,利用已知的事实数据计算推测规律性的数据,譬如基于历史的购买记录分析商品的销售趋势、细分比较等;
第三类,利用已知的细节事实数据组合建立对事实全局的认识(数据),譬如从生效时间、适用区域及客户群、定价等维度建立产品模型,其实就是综合这些细节数据形成了一个“产品”的“数据”。
对“新”的数据的认识不要拘泥于一定要和以前的数据不一样,多个数据组合形成新的含义也是一种新的数据。
数据是人类对世界的观测,把客观世界抽样、采集到数字世界里面,建模就是要在数字世界里面把客观事实还原回来、预测它的发展。有趣的是,在数字世界里面,可以打破客观物质的当前认知局限,任意交叉组合,从而有无限创新的可能。
总结一下,建模本质就是对已知数据的组合、简单或者复杂的计算处理,最终转换成一个新的数据,从而影响行动。
不同类型建模差别很大,接下来我们将聚焦到数据营销领域来探讨,部分观点不具备普适性。
二、建模的六大误区
误区一:会用工具等于会建模? 数据挖掘 大多遵循CRISP-DM流程,弄来很多的数据维度(有甚者上百种),选取某一种算法,找来训练集训练出一堆莫名其妙的规则,输出的目标用户特征谁也说不清楚,只能告诉你支持度、置信度多少。这个过程本来是没有问题的,前提条件是有明确的挖掘方向。但是很多人都错把业务目标当挖掘方向了。
真正的建模应该从业务目标开始,先基于业务目标理解客户分解挖掘方向(特征明显的群体),再找数据用算法关联推导。懂工具能很好的完成挖掘方向到目标结果的过程,但业务目标到挖掘方向这个过程就不是只掌握工具就能够胜任的了。锐的洞察挖掘方向、正确的数据选取是建摸的核心能力,比掌握工具更加重要!
误区二:建模不与实际销售场景相结合! 某央企(莫乱猜)各省公司大数据成功案例满天飞,模型成功率动辄30-40%。笔者看到的时候自惭形愧,也一直很纳闷,做了这么多年精准营销,大部分模型的营销成功率都是几个百分点,两位数以上的凤毛麟角,怎么别人的水平都已经赶超美帝了!后来终于搞明白,原来他们的目标客户在各种渠道成功下单都算,不管是否施加了营销动作,而我们只统计针对目标用户采取营销动作的直接转化下单。他们得意于挖出目标用户的精准,其实,这些模型的高成功率只能说明这批用户自然转化率高,找出这些用户并无实质意义,因为不施加任何动作用户就已经购买了,挖它出来干嘛?