分析大量数据只是使大数据与以前的数据分析不同的部分原因之一。让我们来从下面三个方面看看。
我们每天都在吃饭,睡觉,工作,玩耍,与此同时产生大量的数据。根据IBM调研的说法,人类每天生成2.5亿(250亿)字节的数据。 这相当于一堆DVD数据从地球到月球的距离,涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等。
这也就是为什么“大数据”成为如此常见的流行词的一个重要原因。简单地说,当人们谈论大数据时,他们指的是获取大量数据的能力,分析它,并将其转化为有用的东西。
1.确切的说,什么是大数据?
当然,大数据还远远不止这些?
· 通常从多个来源获取大量数据
· 不仅仅是大量的数据,而且是不同类型的数据,同时也有多种数据,以及随时间变化的数据,这些数据不需要转换成特定的格式或一致性。
· 以一种方式分析数据,允许对相同的数据池进行分析,从而实现不同的目的 · 尽快实现所有这一切。
在早些时候,这个行业提出了一个缩略词来描述这四个方面中的三个:VVV,体积(数量巨大),多样性(不同类型的数据和数据随时间变化的事实)和周转率(速度)。
2. 大数据与数据仓库:
VVV的缩写词所忽略的是数据不需要永久更改(转换)的关键概念——进行分析。这种非破坏性分析意味着,组织可以分析相同的数据连接池以不同的目的,并可以收集到不同目的的来源分析数据。
(备注:数据库连接池负责分配、管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接,而不是再重新建立一个;释放空闲时间超过最大空闲时间的数据库连接来避免因为没有释放数据库连接而引起的数据库连接遗漏。这项技术能明显提高对数据库操作的性能。)
相比之下,数据仓库是专门为特定目的分析特定数据,数据结构化并转换为特定格式,原始数据在该过程中基本上被销毁,用于特定目的,而不是其他被称为提取,转换和加载(ETL)。 数据仓库的ETL方法有限分析具体数据进行具体分析。 当您的所有数据都存在于您的交易系统中时,这是非常好的,但在当今互联网连接的世界中,数据来自无处不在。
备注:ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来记录事务处理的各种相关数据。据统计,数据量每2~3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占在总数据量的2%~4%左右。
因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。于是,企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
决策支持系统(Decision Support System,简称DSS),是以管理科学、运筹学、控制论、和行为科学为基础,以计算机技术、仿真技术和信息技术为手段,针对半结构化的决策问题,支持决策活动的具有智能作用的人机系统。该系统能够为决策者提供所需的数据、信息和背景资料,帮助明确决策目标和进行问题的识别,建立或修改决策模型,提供各种备选方案,并且对各种方案进行评价和优选,通过人机交互功能进行分析、比较和判断,为正确的决策提供必要的支持。它通过与决策者的一系列人机对话过程,为决策者提供各种可靠方案,检验决策者的要求和设想,从而达到支持决策的目的。