数据科学家正快速崛起成为21世纪的科技界巨星,这多少要归功精准预测美国大选的统计学家席佛(Nate Silver),以及以数据分析掀起棒球战术革命的德波戴斯塔(Paul DePodesta) ,他们让埋首数字的数学专家从书呆子进化成明星,但多年来,各界都在争论数据科学家的工作与统计员有何差异。
随着资料科学领域不断成长,许多公司企业更迫切希望延揽自己的数据科学家。但,许多人可能意料不到的是这些数学书呆子并没有你想得这么「学富五车」。
在数据领域中许多佼佼者并没有许多人预期的数学或科学专业训练,席佛和德波戴斯塔都只是经济学学士,两人都没有博士学位;Facebook前数据科学家和资料系统处理公司Cloudera联合创办人哈梅巴赫(Jeff Hammerbacher)也仅是数学学士。
巨量资料科学平台商Kaggle执行长高德布鲁(Anthony Goldbloom)说:「其实,我认为资讯科学博士碰上数据时常常会花太多时间思考用哪种演算法,反而忽略一般性问题,像是哪套变数(或特征)比较重要等等。」
数据科学家康迪多(John Candido)同意:「数学知识很重要,但相同重要的是要了解这项研究。了解使用某种数学的原因比了解数学本身更重要。」
康迪多是心理学硕士,没有数学或物理学博士学位。但在资料科学领域发展得相当好,现在在前Google资讯长梅瑞尔(Douglas Merrill)创办的公司ZestFinance负责资料科学工作。
康迪多表示,虽然研究所课程为他的统计学打下好基础,但仍比不上在资料科学领域的实作经验。他推荐参加Kaggle主办的资料探勘大赛。
康迪多说:「我不想贬低博士学历的价值,但不要觉得这是绝对必要条件。」
梅瑞尔表示同意:「我们聘请的数据科学家来自各行各业,有多种不同的专业背景,而且我们团队也有人没有研究所学历… 因为说到资料科学数学只占了问题的一半,它也是门艺术,原因就在这些人才要具备直觉,要能以创意的角度看问题。」
有些软体商利用数据科学家稀有和价格昂贵的观念,向企业推销可以节省资料挖掘人力的商业情报应用程式。资料分析师和商业情报专家通常会知道要分析哪些资料,但数据科学家的作法更具实验性,他们必须找出资料组合,想出可以从中挖掘出哪些资讯,以及如何挖掘。
市面上的软体可以简化数据处理过程,但资料科学并不是只有消化数字而已。
康迪多说,不管数据科学家的学历为何,他们永远不断在学习。他说:「不断掌握该领域最新的知识至关重要,否则很快就会落后。」「参加资料探勘比赛是与时俱进的途径之一,随时注意比你强的对手。」