从技术方面来看,硬盘价格下降,NoSQL数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外,像Hadoop这样能够在通用性服务器上工作的分布式处理技术的出现,也使得对庞大的非结构化数据进行统计处理的工作比以往更快速且更廉价。
然而,就算所拥有的工具再完美,它本身是不可能让数据产生价值的。接下来我们还需要能够运用这些工具的人才,他们能够从堆积如山的大量数据中找到金矿,并将数据的价值以易懂的形式传达给决策者,最终得以在业务上实现。具备这些技能的人才,就是在大数据浪潮如火如荼的美国目前正千金难求的“数据科学家”。
对数据科学家的关注,源于大家逐步认识到,Google、Amazon、Facebook等公司成功的背后,存在着这样的一批专业人才。这些Web公司对于大量数据不仅仅是进行存储而已,而是将其变为有价值的金矿——例如,搜索结果、定向广告、准确的商品推荐、可能认识的好友列表等。
数据科学(data science)是一个很久之前就存在的词汇,但数据科学家(data scientist)却是几年前突然出现的一个新词。关于这个词的起源说法不一,其中在《数据之美》(BeautifulData,TobySegaran、JeffHammerbacher编著,O’Reilly出版)一书中,对于Facebook的数据科学家,有如下叙述。
“在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了‘数据科学家’这种角色。”
数据科学家
仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后10年IT行业最重要的人才”了。
Google首席经济学家,加州大学伯克利分校教授哈尔?范里安(Hal Varian,1947~)先生,在2008年10月与麦肯锡总监James Manyika先生的对话中,曾经讲过下面一段话(中文版节选自麦肯锡季刊官方中文稿)。“我总是说,在未来10年里,最有意思的工作将是统计学家。人们都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为上世纪90年代最有趣的工作?在未来10年里,获取数据——以便能理解它、处理它、从中提取价值、使其形象化、传送它——的能力将成为一种极其重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。”
范里安教授在当初的对话中使用的是“statisticians”(统计学家)一词,虽然当时他没有使用“数据科学家”这个词,但这里所指的,正是现在我们所讨论的数据科学家。
数据科学家所需的技能
数据科学家这一职业并没有固定的定义,但大体上指的是这样的人才。
“所谓数据科学家,是指运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。”数据科学家所需的技能如下。
(1) 计算机科学
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。
(2) 数学、统计、数据挖掘等
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R ArchiveNetwork)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。