数据科学家:二十一世纪最性感的职业

因此,要想挖掘出数据科学家,首先要明白他们在业务中能干什么,其次,他们需要哪些技能?哪些现有的领域会用到这些技能?

数据科学家首要任务是在数据的海洋中探索发现,他们更喜欢用这种方式看待周围的世界。他们要在数字王国里游刃有余,把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析(ad hoc)到持续的数据交互分析。

数据科学家会遇到技术的局限性,但不会让技术阻扰他们寻找新颖的解决方案。当他们有所发现,便交流他们的发现,建议新的业务方向。通常他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。他们会把蕴含在数据中的规律建议给产品经理和主管们,从而影响产品,流程,和决策。

由于这中行当还处于初级阶段,数据科学家常常会推广他们自己开发的工具,甚至进行学术研究。雅虎之前雇佣的一批数据科学家开发出了Hadoop。Facebook的数据团队开发了在Hadoop上编程的Hive语言。很多其他的数据科学家都丰富或者优化了这套工具,尤其是数据驱动的公司,比如谷歌,亚马逊,微软,沃尔玛,eBay,LinkedIn, 和twitter。

什么样的人有能力做这些呢?什么技能让数据科学家成功呢?你可以把他们看成是数据骇客,分析师,沟通高手,值得信任的咨询师,这些东西组合到一起极具威力,也极其少见。

数据科学家最基本最通用的技能是写代码。也许五年后不太会这样了,那时很多人都会在他们的名片上印着“数据科学家”。一个更保值的技能是用所有相关方面都能听得懂语言进行沟通,另一个是用数据讲故事的特殊能力,通过口头表达或者视觉效果,或者两者都有。

但我们觉得,数据科学家占支配地位的品质应该是强烈的好奇心,想要深入问题内部的渴望,找到最核心的问题,提取成清晰的结论,并要经得起检验。比如,我们所知道的一位数据科学家,他研究的是欺诈问题,但他发现这个问题和DNA排序问题非常类似,在融合了两个完全不相干的世界之后,他和他的团队找到了一种能大幅降低欺诈损失的解决方案。

现在你大概清楚了为什么这个新兴的角色会被称为 “科学家”。比如实验物理学家,同样也需要设计仪器,收集数据,反复试验,并最终展示结果。因此,很多公司寻找能处理复杂数据的人才,可很多招到的不错的人才都是有物理或社会科学领域的学习和工作背景。有些最好的最有前途的数据科学家是研究复杂科学的博士生,比如生态学或者系统生物学。George是硅谷Intuit公司的数据科学团队的负责人,本身是天文学博士毕业。更普遍的是,当今业界许多数据科学家毕业于计算机科学,数学,经济学,和任何数据和计算密集型的领域。