数据科学家已供不应求,这已经不是什么秘密了。数据爆炸以及相应的防爆工具,还有摩尔定律和梅特卡夫定律,他们的连锁影响导致与以往相比有更多的数据、链接、以及技术需要处理。在去年的Hadoop世界中,掀起了一股培养数据科学家的狂潮,他们只能勉强满足相形见绌以技术为导向的数据结构师的需求。这意味着:
1.潜在的MacArthur Grant受助人,他需要对数据、数学和统计学技能的有热情和洞察力,它能够明白运算法则,了解绘画图片的艺术性,并且明白所有数据的导向性。这就是数据科学家的意思。
2.这些人可以了解大数据平台的侧面,也就是数据结构师或者数据工程师。
数据结构师将会是更加直面困难的一方。了解大型的数据平台(Hadoop, MongoDB, Riak)和新兴的高级SQL产品(Exadata, Netezza, Greenplum, Vertica, 以及最近崛起的一项技术,比如说Calpont),这是一项技术技能,可以通过明确的课程来进行教授。供给和需求的法则将会解决这一问题——就像早在1999年泡沫创造了对Java程序员的需求一样。
在所有需要Hadoop程序员的呼声背后,还有一个类似的,但是非常安静的,人们争先恐后的急于招聘数据科学家的趋势。就像一些数据科学家称数据科学家是一个流行语一样,这种需求是真实存在的。
然而,数据科学将会有很多的困难需要克服。这所有的一切都是与连接点相关的,并不像听起来那么容易。大数据的V——容量,品种,速度和价值——都需要某些人根据对数据的洞察力而有所发现;传统上,该角色是由数据开发人员来完成的。但数据开发人员只能处理好有限的问题,以及有界(已知)的数据集,这使问题更加二维化。
各种各样的大数据——在形式和来源上引进了一种未知的元素。大数据的解读需要进行精明的调查、沟通技巧、创意/艺术,并且还要有对数字非常直觉的思考能力。并且不要忘记这一切都要建立在坚实的统计和机器学习背景,加上对工具和贸易编程语言的技术知识的基础之上。
有时好像我们正在寻找爱因斯坦或某些智者。
自然界讨厌真空
正像自然界讨厌真空一样,现在人们不但急于定义什么样的人是数据科学家,而且也都在考虑开发出一些程序,通过这些程序来进行教学,通过软件包在某些程度上将这些信息包含在里面,否则就将它们扔到其他的地方。EMC和其他厂商正在加紧开发板块来提供培训,不仅仅是在平台上,还要针对数据科学。kaggle提供一种创新性的基于云的,众包方式的数据科学,提供了预测性的建模平台,然后再分段发起24小时的比赛,用于潜在培养数据科学家制定针对特殊问题的最佳的解决方案(这使人联想到Netflix的100万美元的奖金制度,设计出一个更聪明的算法来预测观众的口味)。
随着数据科学的人才奇缺,我们期望顾问公司购买更多的人才,然后可以“租”给多个客户端。除了少数的国外公司之外,很少有系统集成商(SI)已经加紧推出板块,正式推出大数据实践(逻辑数据科学家将驻留的地方),但我们期望这种情况会很快改变。
Opera的解决方案,自2004年以来,它已经参与到了预测性分析咨询的比赛中来,这一方案下一步采用的是下行的包装路线。去年在系列A中增加了8400万美元的资金,该公司已配备了近200个数据科学家,在谷歌的这一边成为了最大的天才组合之一。Opera的预测分析解决方案是专为各种不同的平台设计的,SQL和Hadoop,今天他们加入了SAP Sapphire的宣布潮流中,同时发布了他们对HANA内存数据库的报价。安德鲁?布鲁斯特对本公告的细节进行了很好的深入分析。
从SAP的角度来看,Opera的预测分析解决方案在逻辑上是合适HANA的,因为它们涉及到各种复杂问题(例如,一个计算触发其他计算),其新的内存中的数据库平台是专门为其设计的。
期望Opera继续保持作为唯一的大型聚集数据科学家的公司,这些科学家可供其他的公司租用,这种期望对于Opera公司来说,具有非常大的价值。但具有讽刺意味的是,市场进入壁垒将会使竞争的空间一直非常狭窄并且高度集中。当然,随着市场需求的增加,将不可避免地出现对数据科学家定义的下行态势,这样越来越多的公司就可以声称他们已经得到了一个或许多的数据科学家。
供给和需求的法则将在数据科学家方面出现偏差,但供给的上升速度不会像更加注重平台的数据建筑师或工程师一样迅速。不可避免的,数据科学家的供应将会受到软件的加强,软件可以自动的解释机器学习的内容,但是软件的功能只能仅止于此,你可以在机器上编制具有创造力和反直觉洞察力的程序。