解读2015之大数据篇:大数据的黄金时代

据相关报告,国内大数据人才缺口目前已达百万,一名高级数据挖掘工程师月薪高达30K-50K。招聘网站上的每天都会产生大量的大数据相关职位需求。据拉勾网提供的统计来看,从2014年到2015年,IT行业关于大数据的岗位需求增长了2.4倍。人才培养迫在眉睫。复旦大学于今年成立了全国首个大数据学院。阿里云于年底宣布新增30所合作高校,开设云计算大数据专业,计划用3年时间培养5万名数据科学家。各知名大学也将数据科学设为硕士课程。

无论是国内还是国外,数据科学都是目前炙手可热的研究领域,数据科学家、数据分析师都是非常火爆的职位,几乎所有的产业都需要数据科学家来从大量的数据中挖掘有价值的信息。大数据分析领域的专属首席级别头衔也愈发多见。美国政府今年任命了DJ Patil作为政府的首席数据科学家(Chief Data Scientist),这也是美国政府内部首次设立“数据科学家”这个职位。

展望2016:

Hadoop。对于 HDFS,会朝着异构存储介质方向发展,尤其是对新兴存储介质的支持;对于 YARN,会朝着通用资源管理和调度方向发展,而不仅仅限于大数据处理领域,在加强对 MapReduce、Spark等短类型应用支持的同时,加强对类似Web Service 等长服务的支持;

对于Hbase,将会花费更多精力在稳定性和性能方面,正尝试的技术方向包括:对于 HDFS 多存储介质的使用;减少对 ZooKeeper 的使用以及通过使用堆外内存缓解Java GC的影响。

Spark 2.0预计明年三四月份发布,将会确立以DataFrame和Dataset为核心的体系架构。同时在各方面的性能上会有很大的提升。

Apache Kylin 2.0即将发布,随着各项改进的不断完善,该版本将在2016年在OLAP on Hadoop上更进一步!

ElasticSearch开源搜索平台,机器学习,Data graphics,数据可视化在2016年会更加火热。

大数据会越来越大,IOT、社交媒体依然是一个主要的推动因素。

大数据的安全和隐私会持续受到关注。

专家介绍:

董西成就职于Hulu,专注于分布式计算和资源管理系统等相关技术。《Hadoop 技术内幕:深入解析 MapReduce 架构设计与实现原理》和《Hadoop 技术内幕:深入解 析 YARN 架构设计与实现原理》作者,dongxicheng.org 博主。

梁堰波明略数据技术合伙人,开源爱好者,Apache Spark项目核心贡献者。北京航空航天大学计算机硕士,曾就职于Yahoo!、美团网、法国电信从事机器学习和推荐系统相关的工作,在大数据、机器学习和分布式系统领域具备丰富的项目经验。

卢亿雷精硕科技(AdMaster)技术副总裁兼总架构师,大数据资深专家,CCF(中国计算学会)大数据专委委员,北航特聘教授。主要负责数据的采集、清洗、存储、挖掘等整个数据流过程,确保提供高可靠、高可用、高扩展、高性能系统服务,提供Hadoop/HBase/Storm/Spark/ElasticSearch等离线、流式及实时分布式计算服务。对分布式存储和分布式计算、超大集群、大数据分析等有深刻理解及实践经验。有超过10年云计算、云存储、大数据经验。曾在联想、百度、Carbonite工作,并拥有多篇大数据相关的专利和论文。

韩卿(Luke Han) eBay全球分析基础架构部(ADI) 大数据平台产品负责人,Apache Kylin 副总裁,联合创始人,管理和驱动着Apache Kylin的愿景,路线图,特性及计划等,在全球各地不同部门中发展客户,开拓内外部合作伙伴及管理开源社区等,建立与大数据厂商,集成商及最终用户的联系已构建健壮的Apache Kylin生态系统。在大数据,数据仓库,商务智能等方面拥有超过十年的工作经验。