了解你的数据(仓库)
一般来说,存储和分析大数据要么在企业数据仓库(EDW)中,要么与它合作。整合大数据解决方案的所有部分将需要接口到数据仓库流程的每个部分。以下是数据仓库主要子系统的概要。随后,我们将讨论他们是如何受到大数据的影响,以及实施前如何规划。
数据的采集和收集
企业数据仓库(EDW)存储来自原始源系统。它们是典型的实时处理业务数据的系统。例如客户接口系统,如自动取款机(ATM)和银行出纳员, 在线订单输入、客户档案管理、会计系统,等等。
数据转换和移动
虽然大多数业务数据在其原来的形式是可用的,有一些却需要转换,或“清洗”。典型的例子包括无效的日期(如02-31-2013、99-99-9999、或空格), 缺失数据 (一个不存在的客户订单), 未知的数据 (当前开户帐号的关闭帐户日期)等。企业数据仓库(EDW)的转换流程处理源数据的清洗将它以可用的形式存储在数据库中。
这个子流程的另一部分是从源系统移动数据到企业数据仓库(EDW)。可能性包括文件传输、消息传递,甚至高速硬件链接。
数据暂存和设置主键
企业数据仓库中常见在一个暂存区域存储最初获取的数据, 通常是临时文件或DB2表。在加载到企业数据仓库(EDW)之前在那里进行数据积累和相互参照。
键控是一个流程, 企业数据仓库(EDW)中的实体被分配一个代理键。为什么不使用数据的自然键, 如账户号码或客户编号? 企业数据仓库(EDW)是来自多个业务系统的实体积累。为了跨系统比较,键必须有共同的属性。比如“帐号”,企业可能支持该数据的许多不同格式, 每个都有不同的数据类型和长度。指定一个代理键允许分析使用一个共同的键比较这些实体。
数据的访问和分析
有了企业数据仓库(EDW)中存储的数据,现在可以开始分析了。大多数IT企业为用户提供软件包执行详细的分析。有时被称为商业智能分析。一些软件包直接访问数据仓库数据, 而一些为局部分析提取数据的子集。
数据归档
最终数据仓库中的数据老化或变得无关紧要。从仓库中删除旧数据并存档。重要的是仓库人员与业务部门协调做分析, 确定归档数据可以是否简单地存储(比如,在磁带上), 或是否它必须保留,看法规和业务需要以后会重新加载。
大数据如何影响数据仓库
业务处理的大数据将涉及以下一种或多种:
●从数据源捕获大量数据
●数据高速到达存储
●半结构化或非结构化数据。
这就提出了一个有趣的问题: 如果还没有分析,你如何知道什么大数据要存储? 或者, 没有收集和存储,你怎么能分析大数据?
这个问题是大数据实现的重点。甚至涉及大数据分析的一个小测试或试验项目都要求数据必须是获取和存储的。为了在一个分析解决方案中确定的风险和投资回报,必须首先通过数据仓库的采集、清洗、分段和键控步骤处理大数据;否则,能够比较和加入到数据仓库是极其困难的。
下一步是确定每个进程在企业级数据仓库中是如何受影响的。
数据采集和收集
大数据通常就意味着:大量的数据。你必须为数据分配硬件、软件和存储媒介。包括应急存储数据, 直到它可以移动到数据仓库, 以防止由于硬件减速有延误。也要确定这些新资产和过程将如何影响你的灾难恢复计划。
最初的大数据实现将最有可能意味着绕过企业级数据仓库流程,就地在源大数据上测试你的新分析软件。任何方案的成功都应该考虑的是新的分析属于数据仓库的数据访问和分析过程的整合。
数据转换和移动
一些大数据的实施包括非结构化数据。像音频、图像和视频文件,文档图像、传真等等。(虽然从技术上讲,这数据是结构化的,这样它就可以听到或看到,大数据中语境下结构这个词意味着数据实体、属性和关系。换句话说, 存储在DB2表中的记录、字段和键。)
另一个选择是半结构化的数据,最常见的例子是一种可扩展标记语言(XML)流。很多业务应用程序使用XML作为数据的编码方法的常用格式。该数据可以读取、存储、和由多个应用程序处理。
当前版本的DB2允许在本地格式存储XML数据,不要任何预处理或解码进入DB2表。这个特性使得存储、检索和分析XML数据更加容易。
数据移动引出另一个问题。快速移动大量数据可能需要额外的资源,甚至特殊的软件。
更多详细信息,请您微信关注“计算网”公众号: