大数据技术贴:构建一个有指导的数据挖掘模型

大数据

数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。

这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、考虑模型的稳定性。四、通过预测模型、剖析模型来讨论模型的稳定性。下面我们将从具体的步骤谈起,如何构造一个有指导的数据挖掘模型。

有指导数据挖掘方法:

  • 把业务问题转换为数据挖掘问题
  • 选择合适的数据
  • 认识数据
  • 创建一个模型集
  • 修复问题数据
  • 转换数据以揭示信息
  • 构建模型
  • 评估模型
  • 部署模型
  • 评估结果
  • 重新开始

有指导数据挖掘过程

(有指导数据挖掘方法模型)

步骤:

1、把业务问题转换为数据挖掘问题

《爱丽丝梦游仙境》中,爱丽丝说“我不关心去哪儿”。猫说:“那么,你走哪条路都没什么问题”。爱丽丝又补充到:只要我能到达某个地方。猫:“哦,你一定能做到这一点,只要你能走足够长的时间。”

猫可能有另外一个意思,如果没有确定的目的地,就不能确定你是否已经走了足够长的时间。

有指导数据挖掘项目的目标就是找到定义明确的业务问题的解决方案。一个特定项目的数据挖掘目标不应该是广泛的、通用的条例。应该把那些广泛的目标,具体化,细化,深入观察客户行为可能变成具体的目标:

  • 确定谁是不大可能续订的客户
  • 为以家庭为基础的企业客户设定一个拨打计划,该计划将减少客户的退出率
  • 确定那些网络交易可能是欺诈
  • 如果葡萄酒和啤酒已停止销售,列出处于销售风险的产品
  • 根据当前市场营销策略,预测未来三年的客户数量

有指导数据挖掘往往作为一个技术问题,即找到一个模型以解释一组输入变量与目标变量的关系。这往往是数据挖掘的中心,但如果目标变量没有正确的定义以及没有确定适当的输入变量。反过来,这些任务又取决于对要解决的业务问题的理解程度。没有正确的理解业务问题就没办法把数据转化为挖掘任务。在技术开始之前,必须认识两个问题:如何使用结果?以何种方式交付结果?

上述两个问题,都是建立在客户的真正需求是什么?而不是作为数据挖掘工程师认为的什么是有用的数据,什么对客户最好的数据。这些结果看似有利于客户提高销售额,但是我们交付的结果是什么,我们有理解客户的需求吗?所有前提,不要着急急着动手,先理解真正需求,不可盲目主断。

1.1如何使用结果?

例如:许多数据挖掘工作旨在提高客户保留

  • 主动向高风险或高价值的客户提供一个优惠,挽留他们
  • 改变获取渠道的组合,以利于那些能带来最忠实客户的渠道
  • 预测未来几个月的客户数量
  • 改变会影响客户的满意度的产品的缺陷

这些目标都会对数据挖掘过程产生影。响。通过电话或直接邮寄的营销活动接触现有客户,意味着除了确定客户风险之外,你要了解为什么他们处于风险中,从而可以构造一个有吸引力的优惠。电话,不能过早或过迟。预测意味着除了确定那些客户可能离开,确定有多少新客户加入,以及他们会停留多久。而新客户的加入,不只是意味着预测模型要解决的问题,还是被纳入到业务目标和预算之中。