Apache Spark
作为Hadoop生态系统的一部分的Apache Spark是一个开源的集群计算框架,它可充当在Hadoop中处理大数据的引擎。Spark已经成为关键的大数据分布式处理框架之一,而且它可以通过多种方式进行部署。它为Java、Scala、Python(尤其是Natrona Python发行版)和R编程语言(R特别适用于大数据)提供本地绑定,它还支持SQL、流数据、机器学习和图形处理。
数据湖泊
数据湖泊是存储库,这个存储库可以容纳大量以原始格式的形式存在的数据,直到业务用户需要数据为止。数字化转型举措和物联网的发展是数据湖泊发展的推手。数据湖的宗旨是,在用户有需求时,使他们更轻松地访问大量的数据。
NoSQL数据库
常规的SQL数据库是为可靠的事务(transactions)和即时查询(ad hoc queries)而设计的,但它们具有严谨架构(schema)之类的限制,这些限制使得它们不太适合某些类型的应用程序。NoSQL数据库解决了这些限制,并以这样的方式存储和管理数据——将高操作速度和巨大的灵活性考虑进来。很多NoSQL数据库都是由这样的公司开发的——这些公司追求能为大量网站存储内容或处理数据的更好的方法。NoSQL数据库与SQL数据库不同的是,前者可以在数百或数千台服务器上水平扩大和缩小规模。
内存数据库
内存数据库(IMDB)是一种数据库管理系统,它主要依靠主存储器而不是磁盘来存储数据。内存数据库比磁盘优化的数据库运行得更快,这是大数据分析使用和数据仓库和数据集市创建的重要考虑因素。
大数据技能
大数据和大数据分析工作需要特定的技能,无论这些技能是从组织内部还是外部专家那里获取。
这其中有很多技能都与关键的大数据技术组件相关,如Hadoop、Spark、NoSQL数据库,内存数据库和分析软件。
其它技能则针对数据科学、数据挖掘、统计和定量分析、数据可视化、通用编程以及数据结构和算法等学科。我们还需要具备全面管理技能的人员来完成大数据项目。
鉴于大数据分析项目的普遍性在以及这一系列技能的人才的短缺,寻找有经验的专业人员可能是组织面临的最大挑战之一。
大数据用例
大数据和分析可以应用于很多业务问题和用例。下面就是几个例子:
客户分析。公司可以检验客户数据以改善客户体验,提高转化率并增加留存率。
运营分析。提高运营绩效并更好地利用企业资产是很多公司的目标。大数据分析可以帮助企业找到更高效地运营的方法,以及提高绩效的方法。
预防诈骗。数据分析有助于发现可能表明出欺诈行为的可疑活动和模式,并有助于降低风险。
价格优化。公司可以使用大数据分析来优化他们为产品和服务收取的价格,从而帮助提高收入。