浅谈数据分析和数据建模

数据分析团队应该属于独立的部门,为所有的业务部门提供服务,具有独立的技术团队,可以搭建独立的大数据计算和分析平台,利用最新的数据处理技术来建立模型进行分析。另外数据分析团队的人应来源于业务部门,具有高度的数据商业敏感度,可以将业务部门的需求分解为数据需求,将业务场景同数据场景以及数据分析相结合起来。

数据分析是一项实践性很强的工作,涉及到很多交叉学科,需要不同的岗位和角色,来实现不同的性质的工作。基本的岗位和角色如下:

1 数据库(仓库)管理员DBA

DBA最了解企业内部的数据和可用的数据资源,包括数据的存储细节和数据字典,另外其对数据的采集、清洗和转化起到关键作用。

DBA为数据科学家和数据分析师提供加工好的原始数据,这些数据是数据分析和建模的基础,DBA做了数据分析工作中最重要的基础工作,完成了大量的脏活和累活。

2 业务专家

业务专家的优势是数据的商业敏感度,了解业务需求,可以将业务需求转化为数据需求,进一步找到数据应用场景。另外业务专家也可以通过对数据的分析,找到新的商业机会,同业务部门一起制定商业计划,利用数据分析推动业务增长。

业务专家的经验对于数据分析和建模是非常关键的,他们可能是风险管理人员、欺诈监测专家、投资专家等。数据建模来源于业务经验和业务知识,正是业务专家的专业分析找到了业务规律,从而找到了建模方向,并对建模工作给出建议和解释。

3 数据科学家

过去统计分析依赖于统计分析工具,大数据时代之后,数据量级的提升和数据类型的复杂程度,让很多传统的统计分析工具无法完成分析计算。这个时候,数据科学家出现了,他们可以利用自己的专业技能帮助业务专家和数据分析人员进行建模和计算。

过去数据统计分析建模常用SPSS,SAS,MATLAB等工具,现在基于大数据平台的分析建模可以使用Spark+Scala/Python/R/Java。数据科学家了解模型和算法,可以直接承担建模和调优工作,懂得选择合适的算法来进行计算,提高效率。

4 数据分析师

数据分析师站在数据和商业的角度来解读数据,利用图标和曲线等方式向管理层和业务人员展现分析结果,揭示数据分析产生的商业机会和挑战。

数据分析师将杂乱的数据进行整理后,将数据以不同的形式展现给产品经理、运营人员、营销人员、财务人员、业务人员等。提出基于数据的结果和分析建议,完成数据从原始到商业化应用到关键一步,数据分析师的数据敏感度、商业敏感度、分析角度、表达方式对于商业决策很重要。

5 运营专家

数据分析结果和商业决策出来之后,运营专家负责实现商业决策。通过有计划的运营活动,将数据分析的结果应用到实际的商业活动之中,运营专家是实现数据变现最后一公里的关键人物。

运营专家属于业务人员,实际上参与业务运营活动,利用数据分析结果,实现业务场景和数据场景的结合,实现数据商业化应用。

二 数据分析之前的各项准备工作

数据分析团队各成员确定之后,将进行下一项工作,就是找到有价值的数据进行分析了。数据是分析的基础,因此数据的质量、数据的相关度、数据的维度等会影响数据分析的结果影,其中GIGO(垃圾进垃圾出)对于数据分析结果影响最大。

1 数据源选择

数据分析团队面对大量的数据源,各个数据源之间交叉联系,各个数据域之间具有逻辑关系,各个产品统计口径不同,不同的时间段数值不同等。这一系列问题多会影响数据分析结果,因此确定数据源选择和数据整理至关重要。

DBA可以基于数据分析需要,找到相关数据,建立一张数据宽表,将数据仓库的数据引入到这张宽表当中,基于一定的逻辑关系进行汇总计算。这张宽表作为数据分析的基础,然后再依据数据分析需要衍生出一些不同的表单,为数据分析提供干净全面的数据源。宽表一方面是用于集中相关分析数据,一方面是提高效率,不需要每次分析时都查询其他的数据表,影响数据仓库效率。

2 数据抽样选择

简单的数据分析可以调用全体数据进行分析,数据抽样主要用于建模分析,抽样需考虑样本具有代表性,覆盖各种客户类型,抽样的时间也很重要,越近的时间窗口越有利于分析和预测。在进行分层抽样时,需要保证分成出来的样本比例同原始数据基本一致。