数据科学家:二十一世纪最性感的职业

 2006年Jonathan Goldman到商业社交网站LinkedIn工作,那时的LinkedIn还只是刚创业不久,网站注册人数不到8百万,但是很多成员会邀请自己的朋友和同学加入,因此注册人数迅速增加。但是用户要找到已经在网站注册的用户不太容易,比例达不到管理人员的期望值。很明显,有些社交体验缺失了。如同一位LinkedIn管理者说的,这就好像,你到了会议接待处,结果发现一个人都不认识,你只好站到一边,一个人小酌很可能你早早地离开了。

Goldman是斯坦福物理学博士毕业,他非常着迷于越来越多的用户关联和丰富的用户个人资料。这些原本只能带来一堆杂乱的数据和笨拙的分析,但是,当他开始探究用户之间的联系时,他开始看到新的可能。于是他开始组织他的理论,检验他的猜想,建立模型,预测用户愿意与谁建立联系。他感到,他正在开发的新功能,能带给用户价值。但是LinkedIn的工程师们当时忙于提升网站性能,没有理睬,有些同事则公开表示不看好Goldman的想法:为什么用户想要LinkedIn告诉他们该和哪些用户建立联系呢?网站已经有一个导入通讯录的功能,能导入用户的所有联系人。

幸运的是,公司的联合创世人兼当时的CEO Reid Hoffman根据自己在PayPal的经验,相信数据分析的强大力量,给予了Goldman高度的自主权。其中一项就是,Goldman可以绕开传统的产品发布流程,而以广告的形式把这个小模块发布在网站最受欢迎的页面上。

通过这个模块,Goldman开始了他的试验,用户可能认识一些人,比如和用户来自同一个学校或工作单位, 却还没有在网站上建立起这些关系,如果把这些名字告诉用户,他们会作何反应。他根据用户在网站上注册时填写的背景资料,找出了每个用户可能最想与之建立联系的三个用户,然后定制了一套广告。几天之内,很明显地,奇妙的事情发生了,这些广告的点击率前所未有的高。接下来,Goldman根据“闭环理论”改进了他的推荐方法,闭环理论指的是如果你同时认识张三和李四,那么张三和李四很可能也相互认识。同时,Goldman和他的团队让用户对每个推荐的操作可以一键搞定。

很快LinkedIn的高层开始认识到这是个很好的主意,并将其列为标准功能。从那时起,事情真的开始起飞了。“你可能认识的人(People You May Know)”广告获得了30%的点击率,比其他任何的站内推广广告点击率都要高,共计产生了数百万个新页面浏览。得益于这项新功能,LinkedIn的成长速度大幅提升。

新新职业

Goldman 是一个很好的例子来说明组织中的重要新成员“数据科学家”。这是非常高阶的专业岗位,要有在数据海洋中寻宝的好奇心和相应训练。这个头衔存在有几年了,第一次出现是2008由 D.J. Patil(本文作者之一)和Jeff Hammerbacher提出的,他们后来分别成为了LinkedIn和Facebook的数据和分析团队的负责人。但现在已经有数千位数据科学家工作于创业公司和成熟的大型企业。他们在行业里的忽然走俏,反应了这样一个现状,企业需要处理的信息正以从未遇见过的规模和渠道涌现。如果你的机构存储了几个PB的数据,或者对于你的生意最重要的信息是表格式的,而不再是行列的数据,或者要回答你最大的问题需要各种分析手段的“混搭”,你赶上大数据时代了。

现阶段对于大数据的主要热情都集中在大数据的处理技术上,比如,使用最广泛的分布式文件处理系统Hadoop,和相关的开源工具、云计算、数据可视化技术。这些突破性技术都是非常重要的,重要程度就不亚于有能力与脑力运用好技术的人。对数据科学家的需求快速增加,已经超过了供给,事实上,人才缺乏开始严重制约某些行业。Greylock Partners是一家投资初创企业的风投公司,曾经投资过Facebook, LinkedIn, Palo Alto Networks和Workday,它非常担忧紧张的人才储备,因而建立了自己的招聘团队,负责给自己投资的公司输送人才。招聘团队的负责人Dan Portillo说,“这些公司一旦有了数据,就需要有人管理数据,发现真知。”

他们是谁?

从大数据中获利需要雇佣稀缺的数据科学家,管理人员面临三大挑战,识别人才,吸引人才,善用人才。和其他职责明确的岗位相比,这三项任务都不那么直接明了。首先,目前没有高校项目培养相关人才,同时,数据科学家在组织中处于什么位置,如何让他们创造最大价值,如何衡量他们的作用,这些都没有公认的标准。