2017大数据十大趋势丨海量数据汹涌而来,Hadoop不再一家独大

5.推动大数据投资的是数据的多样性,而不是体量和速

Gartner将大数据定义为“三高”

Gartner将大数据定义为“三高”:高容量,高速率,高品类的信息资产。正如New Vantage Partners最近的一项调查结果所示:虽然三个特性都在凸显,但其中,多元化无疑正成为大数据投资的主导推动力。

随着企业寻求整合更多来源并关注大数据的“长尾”,这一趋势将更加明显。从自由模式的JSON到嵌入式的数据库(如关系数据库和非关系数据库),到非平面数据(如Avro,Parquet,XML),数据格式正在成倍增长,连接器变得至关重要,它将不同格式的数据变成统一的表达/它让不同格式的数据之间实现互通。在2017年,为零散的、不同的资源提供即时连接的能力,将成为评估一个平台能力的重要方面。

6.Spark和机器学习打通大数据的任督二脉

Apache Spark曾是Hadoop生态系统的一个组件,现在正成为大数据平台企业的首选。

在对数据架构师、IT经理和BI分析师的调查中,近70%的受访者表示,现有的MapReduce里边最青睐Spark,它是批量导向的并行处理,但不适合交互式应用程序或实时流处理。

这些以大数据为基础的超级计算能力为计算密集型的平台提供了极大的助力,如:机器学习(ML)、人工智能(AI)、图形算法等。尤其对于Microsoft Azure 机器学习,由于上述计算能力也完全适用于初学者,并能迅速集成到现有的Microsoft平台。向大众开放机器学习将有助于创建更多的模型和应用程序来生成PB级数据。随着机器学习和系统日益智能化,自助服务软件提供商们是时候要挖掘一下大数据的力量如何变现到最终用户身上。

7.物联网、云服务和大数据集结起来便是自助服务的新机遇

在2017年,似乎一切都将有一个传感器把信息送回主体

IoT正在生成大量的结构化和非结构化数据,而且越来越多的数据部署在云服务上。数据通常是异构的,并且存在于多个关系和非关系系统中,如Hadoop集群、非关系数据库等。

虽然存储和管理服务的创新加快了数据获取的步伐、进程程,但访问和理解数据本身仍然是棘手的“最后一米”。因此,对于无缝连接和组合各种云托管数据源的分析工具的需求正在增长。这样的工具使企业实现了大数据库的即时调取和可视化管理,,从而帮助物联网投资者挖掘隐藏的机会。

8.在最终用户驱动下,自助数据预处理走向主流

Hadoop数据如何走进企业用户,是当下最大的挑战之一。

Hadoop数据如何走进企业用户,是当下最大的挑战之一。自助服务分析平台的兴起改善了这一过程。但企业用户希望进一步简化数据分析的流程,尤其在处理多种数据类型和格式时,这一诉求更加明显。

敏捷的自助服务数据预处理工具不仅可以在源处预处理Hadoop数据,而且还使数据作为快照来用,从而进行简易便捷的进一步处理。

我们已经看到了的一大批面向终端用户的大数据预处理创新, Alteryx、Trifacta和Paxata。这些工具降低了后期Hadoop采用者和初学者的进入门槛,并将在2017年体现更大价值。

9.大数据成长:Hadoop增加了企业标准

Hadoop将逐渐成为企业IT环境的核心部分。

Hadoop将逐渐成为企业IT环境的核心部分。在2017年,我们将看到围绕企业系统的安全、管理成为投资热地的更多投资。ApacheSentry提供了一个系统,在这个系统中,我们可以强制对元数据进行细致的、按需分配的授权。

作为数据管理的一项重大创举,Apache Atlas,让企业可以在繁杂的数据生态系统中实行统一的数据分类。Apache Ranger为Hadoop提供集中式安全管理。

客户开始期望从企业级RDBMS平台获得这些类型的功能。这些功能走在新兴大数据技术的前沿,从而消除了企业关于技术迭代而被淘汰方面的担忧。

Hadoop对数据进行细致管理、按需分配的实例

Last.fm创建于2002年,是提供网络电台和音乐服务的社交网络。每个月有2500万人使用,产生大量数据。2006年初,Last.fm开始使用Hadoop。Hadoop是Last.fm基础平台的关键组件,有2个Hadoop集群,运行数百种各种日常作业,包括日志文件分析,A/B测试评测,即时处理和图表生成。

图表生成:图表生成是Hadoop在Last.fm的第一个应用。