5. Mark van Rijmenam,Datafloq网创始人,大数据相关书籍《Think Bigger》作者。
对于大数据领域来说,2016是令人激动的一年,因为“大数据”终于不再是一个流行词。这说明研究者们正在基于大数据开发真实可用的解决方案和应用程序,而不再是简单的噱头。
2017年,随着技术的进步,以大数据为基础而开发的应用将越来越丰富。由于计算机的计算能力和真实可用的庞大数据量不再是问题,因此以人工智能和深度学习为代表的智能应用也将变得更加聪明,更加普及。总体上说,由于大数据、智能应用和越来越丰富的智能终端产品的出现,2017年应该是值得我们期待的一年。不过,随着大数据的广泛应用,数据安全和隐私问题也将越来越严峻。
6. Ronald van Loon,Adversitement网站主管,大数据科学领域年度10大影响力人物之一。
今年是大数据科学领域产生重大变化的一年。可以看到,无论是单一学科还是跨学科的用户,在这一年中都在向着以数据驱动为核心的组织架构调整。而且通过物联网的进一步普及,我们已经在某些核心应用场景积累了大数据处理和传输的宝贵经验。另外,由于强大的云计算平台的支持,越来越多的机器学习应用也正在研发之中。
在2017年,这一趋势将得以延续,人工智能、机器学习和物联网应用在大数据的支撑下将迎来一个爆发性的增长。目前,技术研发能力已经就绪,对于市场需求的灵活迭代机制也越发成熟,根据预测,截止2020年,接入互联网的设备总数将达到100亿-340亿之间。
7. Jeff Ullman,斯坦福大学计算学科教授,主要研究数据库理论、数据库集成一体化和数据挖掘等。
欧盟刚刚针对大数据的使用和分析模型的建立出台了一个新的隐私保护法(雷锋网获悉,这一法案将于2018年1月起正式施行)。现在还无法确定这一法案将会造成怎样的影响,但有一点似乎可以确定,那就是它将在很大程度上避免深度学习领域内由于分析模型乱用导致的意外问题。目前许多公司都在与欧盟沟通,试图确认究竟哪些数据资源和分析模型是可用的,而哪些不行。比如说,谷歌可以探测一封邮件的内容,并且将其和已知的垃圾邮件对比,如果内容类似就判定这封邮件为垃圾邮件。那么谷歌到底有没有读取用户邮件的权利?这些问题都还有待确定。
8. Matei Zaharia,Databricks平台首席科学家,大数据处理框架Apache Spark创始人。
1) 公有云正在成为部署大数据应用的主流平台。根据今年夏天的用户调查结果显示,在公有云部署Spark框架的用户比例高达61%,而使用Hadoop YARN的用户则只有36%。更重要的是,使用公有云的61%的用户去年只有51%,而使用Hadoop YARN的用户则从去年的40%下滑到36%,这说明公有云的用户正在持续的增长。分析原因,这或许是由于亚马逊AWS S3这样的云服务产品正在变得越来越经济,性能越来越稳定,易用性也越来越好。
2) 今年7月,我们发布了Apache Spark 2.0版,这一版本针对Spark SQL和数据帧(Dataframes)在新款硬件的使用方面进行了较大的性能提升。值得一提的是,我们已经看到2.0版的使用率正在快速增长,目前大约有40%的集群用户正在使用它。这说明用户需要对新硬件建立快速的支持。