今后10年IT行业最重要的大熊猫——数据科学家

仅仅四、五年前,对数据科学家的需求还仅限于Google、Amazon等Web类企业中。然而在最近,重视数据分析的企业,无论是哪个行业,都在积极招募数据科学家,这也令人手不足的状况雪上加霜。

大型IT厂商EMC在2011年12月发表的一份关于数据科学家的调查报告“EMC Data Science Study”中提出了一些非常有意思的见解。

该调查的对象包括美国、英国、法国、德国、印度、中国的数据科学家,以及商业智能专家等IT部门的决策者,共计462人。除此之外,EMC还从2011年5月在拉斯维加斯召开的“数据科学家峰会”的参加者,以及在线数据科学家社区Kaggle中邀请了35人参加这项调查。该调查结果的要点如下。

首先,三分之二的参加者认为数据科学家供不应求。这一点与前面提到的麦肯锡的报告是相同的。对于新的数据科学家供给来源,有三分之一的人期待“计算机科学专业的学生”,排名第一,而另一方面,期待现有商业智能专家的却只有12%,这一结果比较出人意料。也就是说,大部分人认为,现在的商业智能专家无法满足对数据科学家的需求。

数据科学家与商业智能专家之间的区别在于,从包括公司外部数据在内的数据获取阶段,一直到基于数据最终产生业务上的决策,数据科学家大多会贯穿数据的整个生命周期。这一过程中也包括对数据的过滤、系统化、可视化等工作

研究生院的成立

随着对大数据分析需求的高涨,未来必将带来数据科学家的严重不足,为了解决这一问题,美国一些大学已经开始成立分析学专业的研究生院。

位于伊利诺伊州芝加哥郊外埃文斯顿市的美国名牌私立大学——西北大学(Northwestern University),就是其中之一。西北大学决定从2012年9月起在其工程学院下成立一个主攻大数据分析课程的分析学研究生院,并开始了招生工作。西北大学对于成立该研究生院是这样解释的:“虽然只要具备一些Hadoop和Cassandra的基本知识就很容易找到工作,但拥有深入知识的人才却是十分缺乏的。”

此外,该研究生院的课程计划以“传授和指导将业务引向成功的技能,培养能够领导项目团队的优秀分析师”为目标,授课内容在数学、统计学的基础上,融合了尖端计算机工程学和数据分析。课程预计将涵盖分析领域中主要的三种数据分析方法:预测分析、描述分析(商业智能和数据挖掘)和规范分析(优化和模拟),具体内容如下。

(1) 秋学期

  • 数据挖掘相关的统计方法(多元Logistic回归分析、非线性回归分析、判别分析等)
  • 定量方法(时间轴分析、概率模型、优化)
  • 决策分析(多目的决策分析、决策树、影响图、敏感性分析)
  • 树立竞争优势的分析(通过项目和成功案例学习基本的分析理念)

(2) 冬学期