业分析软件与服务供应商SAS在其最新发布的一份公司刊物中称,大数据时代对数据科学家的需求将激增,而人才匮乏将成为各企业面临的新挑战。
SAS指出,大数据时代的来临向人们展示了大数据分析对企业业务发展的神奇价值,与此同时,大数据的数据量巨大、非结构性强、数据来源庞杂,使得大数据的处理与分析需要有别于传统数据分析的新技术(如高性能分析HPA)和新人才。
数据科学家定位
数据科学家集技术专家与数量分析师的角色于一身。他们和传统数量分析师的区别在于:后者通常利用企业的内部数据进行分析,以支持领导层的决策;而前者更多的是通过关注面向用户的数据来创造不同特性的产品和流程,为客户提供有意义的增值服务。面向客户的性质决定了大部分数据科学家担任公司产品开发或营销部门的职位,或是效力于首席技术官。
专注高性能分析的数据科学家未必是非结构化数据处理的专家,但他们需要探索不同途径,利用高性能分析(HPA)节省下来的时间不断改良分析模型、提高决策速度,以配合数据分析更快的生命周期。
数据科学家必备技能
数据科学家需要具备技术、商业、分析与关系学等各方面的综合技能。很多数据科学家都拥有高级计算机科学学位,或物理学、生物科学或社会科学等一系列对计算机技能有相当要求的高级学位。数据科学家面对、处理的数据量可高达TB级规模,这就要求了他们必须掌握相当多的专业技能,SAS归纳了以下六点:
•处理分布式文件系统工具的能力,如Hadoop、MapReduce等
•Python、Java、 Pig与Hive等编程语言
•机器学习能力
•非传统型数据库工具,如Vertica及MongoDB等
•自然语言的处理
•统计工具的使用
事实上,拥有上述这些高级学位和专业技能还不够,数据科学家同样需要具备一个分析师的素质,比如数学和统计技能,对商业的敏锐嗅觉,以及与客户、产品经理和决策层有效沟通的能力。当然,要一个员工具备上述所有能力并不容易做到,所以不少企业组建了专门的数据科学团队,希望通过人才的多元组合,全面应对各种需求。
招募与培养数据科学家
独立调查研究机构Gartner在2012年于佛罗里达奥兰多市召开的Symposium/ITxpo大会上指出:“大数据将在未来十年内成为新的常规标准,十年后对超大规模的系统及数据进行研究将成为非常普遍的现象。但目前业界非常缺乏对所有数据以及数据的使用方法都很了解的数据科学家人才,我们的公共和私有教育系统尚不能满足我们在这方面的需求。数据专家将是一种稀有和宝贵的财富。”
目前在高等院校几乎没有设置针对数据科学的专业课程,但已经有一些院校开始尝试与像SAS这样的企业合作,开辟出一门或几门有针对性的专业课程并对外开放。一些有志于发展大数据业务或服务的企业则开始有的放矢地开设企业内训课程,从企业内部培养未来的数据科学家, 如EMC开设了面向内部员工及客户的“数据科学及数据分析”培训课程。一些咨询公司也开始向客户提供他们所需要的数据科学家人才。
SAS鼓励企业在大数据时代形势下尽早开始数据科学家的人才储备,将有利于提升企业的核心竞争力。
SAS在高级商业分析领域拥有近40年的经验,自SAS在美国北卡罗来纳州创建以来,一直不断寻找方法来播撒新技术和先进知识的种子。在美国,SAS针对教育者和学生所设计的软件被6,000所学校的35,000多名教师所使用,高校使用SAS软件超过36年之久。
在中国,SAS去年举办的“构建知识的力量、抓住未来机遇”全国高校巡讲非常成功,今年仍会继续通过技术讲座、现场交流等方式,向师生介绍当今大数据趋势下智能分析解决方案等技术动态,通过分享典型应用,让更多在校学生掌握商业智能技术,帮助他们提高在未来就业市场上的竞争力。