- 使用Hadoop、Pig编写MapReduce格式的数据分析
- 能够针对临时数据挖掘流程和标准数据挖掘流程编写复杂的SQL查询
- 能够使用SQL、Pig、脚本语言、统计软件包编写代码
- 以口头及书面形式对分析结果进行总结并做出报告
- 每天对数TB规模、10亿条以上事务级别的大规模结构化及非结构化数据进行处理
必要条件
- 计算机科学、数学、统计学的硕士学位或者同等的经验
- 2年以上数据分析经验
- 大规模数据集及Hadoop等MapReduce架构方面的经验
- 脚本语言及正则表达式等方面的经验
- 对离散数学、统计、概率方面的兴趣
- 将业务需求映射到工程系统方面的经验
来源:Twitter(中文翻译出自译者)
数据科学家所需的素质
这一节的内容与技能部分有所重叠,数据科学家所需要具备的素质有以下这些。
(1) 沟通能力
即便从大数据中得到了有用的信息,但如果无法将其在业务上实现的话,其价值就会大打折扣。为此,面对缺乏数据分析知识的业务部门员工以及经营管理层,将数据分析的结果有效传达给他们的能力是非常重要的。
(2) 创业精神(entrepreneuership)
以世界上尚不存在的数据为中心创造新型服务的创业精神,也是数据科学家所必需的一个重要素质。Google、Amazon、Facebook等通过数据催生出新型服务的企业,都是通过对庞大的数据到底能创造出怎样的服务进行艰苦的探索才获得成功的。
(3) 好奇心
庞大的数据背后到底隐藏着什么,要找出答案需要很强的好奇心。除此之外,成功的数据科学家都有一个共同点,即并非局限于艺术、技术、医疗、自然科学等特定领域,而是对各个领域都拥有旺盛的好奇心。通过对不同领域数据的整合和分析,就有可能发现以前从未发现过的有价值的观点。
美国的数据科学家大多拥有丰富的从业经历,如实验物理学家、计算机化学家、海洋学家,甚至是神经外科医生等等。也许有人认为这是人才流动性高的美国所特有的现象,但其实正如我们在第4章中所介绍的GREE一样,在日本也出现了一些积极招募不同职业背景人才的企业,这样的局面距离我们已经不再遥远。
严重的人才匮乏
数据科学家需要具备广泛的技能和素质,因此预计这一职位将会陷入供不应求的状态,即遇到人手不足的困境。例如,麦肯锡全球研究院(MGI)在2011年5月发表的题为“Big data: The next frontier for innovation, competition andproductivity”(大数据:未来创新、竞争、生产力的指向标)的报告中指出,在美国具备高度分析技能的人才(大学及研究生院中学习统计和机器学习专业的学生)供给量,2008年为15万人,预计到2018年将翻一番,达到30万人。然而,预计届时对这类人才的需求将超过供给,达到44万~49万人的规模,这意味着将产生14万~19万的人才缺口。