分析大量数据只是使大数据分析与以前的数据分析不同的一部分。我们还要了解其它方面。
先有数据,然后是大数据。那么,它们有什么区别?
定义大数据
一般而言,大数据是指容量庞大的数据集,大到传统的数据处理软件产品无法在合理的时间内捕获、管理和处理数据。
这些大数据集可以包括结构化数据、非结构化数据和半结构化数据,人们可以从每个数据挖掘到洞察。
多大的数据才算得上“大”尚无定论,但它通常可能是几个拍字节(petabyte),并且对于艾字节(exabyte)范围中的最大项目也是如此。
通常,大数据的特点是三个V:
极大的数据量
各种类型的数据
数据得到处理和分析的速度
构成大数据存储中的数据可以来自网站、社交媒体、台式机和移动应用、科学实验以及物联网(IoT)中日益增多的传感器和其他设备。
大数据的概念带有一组相关组件,这些组件使组织可以使数据得到实际应用并解决一些业务问题。这包括用来支持大数据所需的IT基础设施、应用于数据的分析、大数据项目所需的技术、一系列有关的技能、以及对大数据很重要的实际用例。
大数据和分析
真正能从组织所收集的所有大数据中实现价值的东西是应用于数据的分析。没有分析的话,这只是一大堆商业用途十分有限的数据。
企业通过将分析应用于大数据就可以看到销售额的增长、客户服务的改善、效率的提高以及竞争力得到全面提升等优势。
数据分析包括检查数据集以获得洞察或得出关于它们包含的内容的结论,例如关于未来活动的趋势和预测。
组织通过数据分析可以做出更明智的业务决策,例如何时何地进行营销活动或引入新产品或服务。
分析可以指基本的商业智能应用程序或更高级的预测分析,例如科学机构所使用的分析。最先进的数据分析类型是数据挖掘,分析师在这里评估大型数据集以确定关系、模式和趋势。
数据分析可以包括探索性数据分析(识别数据中的模式和关系)和验证性数据分析(应用统计方法来确定关于特定数据集的假设是否属实)。
另一个区别是定量数据分析(或对具有可以统计比较的可量化变量的数字数据的分析)与定性数据分析(其侧重于非数字数据,如视频、图像和文本)。
支持大数据的IT基础设施
要让大数据的概念发挥作用,组织需要有合适的基础设施来收集和存储数据、提供对数据的访问并保护信息在存储和传输过程中的安全。
这在较高的层面上还包括为大数据,数据管理和集成软件,商业智能和数据分析软件以及大数据应用设计的存储系统和服务器。
由于公司希望继续利用其数据中心投资,大部分这种基础设施可能会在本地部署。但越来越多的组织依靠云计算服务来处理他们的大部分大数据需求。
数据收集需要有收集数据的来源。其中有很多来源——如Web应用程序、社交媒体渠道、移动应用程序和电子邮件存档——已经就位。但随着物联网的逐渐成熟,企业可能需要在各种设备、车辆和产品上部署传感器、以及生成用户数据的新应用程序来收集数据。(面向物联网的大数据分析具有自身的专业技术和工具。)
为了存储所有传入的数据,组织需要有足够的数据存储。存储选项包括传统的数据仓库,数据湖泊和基于云的存储。
安全基础架构工具可能包括数据加密、用户身份验证和其它访问控制、监控系统、防火墙、企业移动管理以及其它保护系统和数据的产品,
大数据特有的技术
一般来说,除了上述用于数据的IT基础架构之外。你的IT基础架构应该支持大数据特有的几种技术。
Hadoop生态系统
Hadoop是其中一项与大数据密切相关的技术。Apache Hadoop项目为可扩展的分布式计算开发开源软件。
Hadoop软件库是一个框架,该框架支持使用简单的编程模型在计算机集群中对大数据集进行分布式处理。它旨在从单个服务器扩展到数千个,每个服务器都提供本地计算和存储。
该项目包括几个模块:
Hadoop Common是支持其它Hadoop模块的通用工具
Hadoop分布式文件系统,它可以为应用程序数据提供高吞吐量的访问
Hadoop YARN是一个作业调度和集群资源管理的框架
Hadoop MapReduce是一个基于YARN的大数据集并行处理系统。