商业智能(BI)需要掌握什么知识,以及发展前景

五、算法

随着面向对象(Orient Object)编程方法兴起,“程序=数据结构+算法”的光荣时代似乎已经一去不复返。如今许多分析人员也不曾听过Knuth和他的The Art of Computer Programming。有一种观点是,在各工具将算法封装得很好的情况下,深入了解算法似乎是没必要的——Just run it。的确,如果你只想做到中级分析师,可以不去理会。但是要成为一名高级分析师,那肯定得有一定深度的研究。一是为了知道针对特定的数据集,选用什么样 的算法,如何抽取样本,抽取多大量的样本(样本出问题,整个项目都完蛋),算法适用条件是什么,比如线性回归的:独立性、常方差、正态性,怎么理解,哪些 必须满足。这些使用如果不熟悉的话,很容易导致分析出问题。一些做这方面工作的BIer,不求甚解,做出来的东西是错的,做分析最可怕的是错了还没意识! 二是客户问到一些问题,知道如何去解释,比如用决策树计算出来的得分,为什么很多样本得分是一样的?客户细分中,有没有算法可以使得同一个客户细分至两个 不同的客户群?没有的话,如何用现有算法解决该客户既有A群属性又有B群属性的问题?三是你能写出针对特定问题的算法,现实中许多问题拥有其他问题一样的 共性,也有它自己的个性,某些时候针对个性的东西越强,分析效果越好,这就需要你手写算法解决。获得Netflix 100万推荐算法大奖的绝不可能是封装好的现成算法不是么。另外还有一类商业智能问题,是封装算法解决不了的,这类问题大多见于与地理结合的GIS决策系 统,这类系统就要求分析人员有图形算法功底。可见如果你想成为顶级的数据分析师,算法与数据结构的知识必不可少。搜索,排序,树,图之所以经典,是因为它 们简单有效而且通用。如果你能把这些算法在数据库里实现,那么你分析技术这方面,确实达到很高的境界了。

六、统计学与其中的分析逻辑问题

商业分析中应用统计学的好处在于,你可以不知道两者的因果而只分析两者的联系,并且在环境没有太多改变的情况下,分析结果都是适用的(更复杂的需要使用微分 方程或其他,但提升度未必高)。关于逻辑,我们来看一个例子:据科学家研究,肥胖的人在社交关系上会聚集在一起。如图3,如果你的朋友肥胖,则你肥胖的概 率比别人高45%(紫柱),如果你朋友的朋友肥胖,则比平均高出25%(红柱),如果你朋友的朋友的朋友肥胖,则比平均高出10%(橙柱)。事实上,这些 都是数据和统计,只能说明肥胖的人可能会聚集到一块儿,因为从数据上你无法分辨出你们是因为肥胖而成为朋友(比如因肥胖到健身房认识)还是因为成为朋友而 肥胖(吃货朋友一起去吃东西),或者互为因果。实际分析中,我们经常发现两样事物是互为因果互相加强的,“事物有普遍联系”和“作用与反作用”的哲学原理 在此体现得淋漓尽致。业务经验在此时显得尤为重要!它能告诉我们哪件因素更重要,一般对于业务人员来说更好实现的过程,更好掌控的因素,就是原因,是我们 后续操作的引线和突破口。

36大数据

图3 相关关系 VS 因果关系(编者注)

关于商业,笔者是技术出身,也处于摸爬阶段。但可以推荐两本书,这两本书是都是国外的,较厚易懂:菲利普科特勒《市场营销》,斯蒂芬鲁宾斯的《管理学》。商业与技术是存在联系的。其实细心的读者会发现,光是有上面的知识还是不够的,纸上得来终觉浅,绝知要做项目呀:)

增值知识

作为分析师宽广的知识面必不可少,没事看看心理学、历史、地理、人口统计学(demography),浏览一下知乎,FT中文网什么的,也是不错的。
很多优秀的数据信息图、资料、报告只有英文的,例如:
数据信息图: http://infosthetics.com/http://flowingdata.com/http://visual.ly/
资料: http://radar.oreilly.com/http://www.businessinsider.com/

更多详细信息,请您微信关注“计算网”公众号: