5、推动大数据投资的是数据的多样性,而不是体量和速
Gartner将大数据定义为“三高”
Gartner将大数据定义为“三高”:高容量,高速率,高品类的信息资产。正如New Vantage Partners最近的一项调查结果所示:虽然三个特性都在凸显,但其中,多元化无疑正成为大数据投资的主导推动力。
随着企业寻求整合更多来源并关注大数据的“长尾”,这一趋势将更加明显。从自由模式的JSON到嵌入式的数据库(如关系数据库和非关系数据库),到非平面数据(如Avro,Parquet,XML),数据格式正在成倍增长,连接器变得至关重要,它将不同格式的数据变成统一的表达/它让不同格式的数据之间实现互通。在2017年,为零散的、不同的资源提供即时连接的能力,将成为评估一个平台能力的重要方面。
6、Spark和机器学习打通大数据的任督二脉
Apache Spark曾是Hadoop生态系统的一个组件,现在正成为大数据平台企业的首选。
在对数据架构师、IT经理和BI分析师的调查中,近70%的受访者表示,现有的MapReduce里边最青睐Spark,它是批量导向的并行处理,但不适合交互式应用程序或实时流处理。
这些以大数据为基础的超级计算能力为计算密集型的平台提供了极大的助力,如:机器学习(ML)、人工智能(AI)、图形算法等。尤其对于Microsoft Azure机器学习,由于上述计算能力也完全适用于初学者,并能迅速集成到现有的Microsoft平台。向大众开放机器学习将有助于创建更多的模型和应用程序来生成PB级数据。随着机器学习和系统日益智能化,自助服务软件提供商们是时候要挖掘一下大数据的力量如何变现到最终用户身上。
7、物联网、云服务和大数据集结起来便是自助服务的新机遇
在2017年,似乎一切都将有一个传感器把信息送回主体
IoT正在生成大量的结构化和非结构化数据,而且越来越多的数据部署在云服务上。数据通常是异构的,并且存在于多个关系和非关系系统中,如Hadoop集群、非关系数据库等。
虽然存储和管理服务的创新加快了数据获取的步伐、进程程,但访问和理解数据本身仍然是棘手的“最后一米”。因此,对于无缝连接和组合各种云托管数据源的分析工具的需求正在增长。这样的工具使企业实现了大数据库的即时调取和可视化管理,,从而帮助物联网投资者挖掘隐藏的机会。
Hadoop大数据技术案例
让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。包括谷歌,Facebook、LinkedIn还在内的诸多巨头,都在帮助Hadoop改善运营效率。具体包括包括:
情感分析:Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非结构化的文本,包括Tweets和Facebook,以确定用户对特定公司,品牌或产品的情绪。分析既可以专注于宏观层面的情绪,也可以细分到个人用户的情绪。
风险建模:财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据,以确定金融资产的风险,模拟市场行为为潜在的“假设”方案做准备,并根据风险为潜在客户打分。
欺诈检测:金融公司、零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如,信用卡公司使用大数据技术识别可能的被盗卡的交易行为。
客户流失分析:企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。
用户体验分析:面向消费者的企业使用Hadoop和其他大数据技术将之前单一客户互动渠道(如呼叫中心,网上聊天,微博等)数据整合在一起,以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响,从而优化整个客户生命周期的用户体验。
8、在最终用户驱动下,自助数据预处理走向主流
Hadoop数据如何走进企业用户,是当下最大的挑战之一。
自助服务分析平台的兴起改善了这一过程。但企业用户希望进一步简化数据分析的流程,尤其在处理多种数据类型和格式时,这一诉求更加明显。
敏捷的自助服务数据预处理工具不仅可以在源处预处理Hadoop数据,而且还使数据作为快照来用,从而进行简易便捷的进一步处理。