马云和小贝选谁做老公?写给非数据人的数据世界入门指南

2. 维度:即Dimension。指我们平时看事物的角度。比如,同样是网站浏览次数(PV),我们可以从日期角度去看,也可以以流量来源去看(来自直接访问的、来自微博的、来自搜索的等),也可以以新老用户分群来看。更多的场景是同时以两个维度的组合去看,比如这样的图,就是同时结合了时间、来源两个维度对网站流量进行分析:

大数据可视化

两者你知道如何清楚区分吗?

虽然从定义上,你可以看出明显不同,但是现实中,却还是有人喜欢乱用——把明明属于维度的东西写成“我要看什么指标”,或者喜欢用“我想从收藏人数这个维度去看”,虽然我属于强迫症,喜欢帮别人的需求纠错,被冠以扣字眼的“名号”,但是在这件事情,我一定要抠到底。

而且,你抠清楚了,以后你的世界也清晰很多。

区分的一个方法:维度,一定是有成员值的,且成员值是可以枚举出来的——不管它有多少,大不了你多花点时间去枚举,总之是一定可以枚举的,且会维持一定的稳定性。

大数据可视化

比如,日期这个维度,几月几号一定是有限的,一年也就365天,如果是年这个维度,也是一样的。城市这个维度更好理解了吧?

其他你需要了解的:

1. 度量:

  • 除了指标这个有着略略差异的俗称外,有时还会遇到衍生指标这个说法,比如拿指标A和指标B做运算得到的指标C就叫做衍生指标。此外,还要注意可累加以及不可累加的度量说法,比如网站UV(独立访问用户数),这个指标就是典型的不可累加的度量:
  • 除了指标这个有着略略差异的俗称外,有时还会遇到衍生指标这个说法,比如拿指标A和指标B做运算得到的指标C就叫做衍生指标。此外,还要注意可累加以及不可累加的度量说法,比如网站UV(独立访问用户数),这个指标就是典型的不可累加的度量:
  • 某网站1月1日UV=100个,1月2日UV=200个,但是这两天的UV不等于300个,因为1月2日的独立用户数里可能包含了1月1日的用户,所以如果要得到2天的UV,需要重新计算而不能直接相加。而像成交类的金额,不涉及到去重的问题,就叫可累加的度量。

2. 维度:

  • 维度的层次:即Level。有些维度是独立并列的关系,比如城市维度和时间维度。但是有些维度之间有层次关系,比如省份维度和城市维度,行业维度和类目维度,年级维度和班级维度等。有层次关系的维度,则可用于“钻取”场景中,先汇总到比较粗的维度,当有需要的时候,可以层层钻取到更加明细的维度,此时,也会把这些维度叫做某维度类型的不同“粒度”——比如会有一个虚拟的维度类型曰地区维度,而把省份、城市、区叫做地区维的粒度。维度的层次根据不同的需求,可能会钻取到很细(Details),那就是通常我们说的”明细数据”了。比如分析成交金额时,从行业维度,细分到一级类目乃至叶子类目,最后,钻取到某个独立的商品ID(不能再细了),商品ID就是最细小的层次维度。

这么说可能会把你绕晕,那么还是画个图吧(我真的适合当唐僧似的老师……o(╯□╰)o)

大数据可视化
如上图所示,左列也即维度,不管是国家、省份、城市,都是维度,但因为他们有层次关系,所以,有时会被描述为地区维度的不同粒度或层次(明白了吧)。而右侧就是每个维度的维度成员了,有时也被叫成维度值。在可累加的度量中,每一个维度值相加,应该等于上级维度的某成员值总和。比如若城市A只有三个区,这三个区的人口总数应该等于城市A的。

  • 维度的属性:用以描述维度的一些属性,比如上图中“城市”这个维度吧,它可能会有一些属性特征,比如城市类型:省会城市、地级市、县级市等,那么有一个分析需求,可能还会按不同城市类型汇总细分。这种情况,维度的属性会成为分析中的维度。

这时,你可能会明白,平时为什么那么多表单要填写各种字段,这些字段,都可能是分析时的维度哦~