http://ourjs.com/detail/57e3446f696ab502edd8eac1?utm_source=tuicool&utm_medium=referral
一、 大数据 已成为企业信息供应链中的重要一环
我们对大数据的认知在前几年还仅仅停留在概念和理论中,但转眼间,你会发现身边的 大数据项目 如雨后春笋般拔地而起,大数据俨然成为当今热得不能再热的话题和焦点。因为Hadoop及其相关开源技术的横空出世和迅猛发展,越来越多的企业发现那些尘封已久的历史数据或每天正在以指数级产生的交易数据、日志数据和客户行为数据其实蕴藏着巨大的价值,犹如一座座尚未开发的金矿,谁能抢占先机,就能挖掘并实现巨大的商业价值。互联网企业深谙此道,利用大数据分析结果进行产品推广和定向营销,大大改善了消费者的购物体验和消费习惯,在收获口碑的同时也赚得盆满钵满!与此同时,传统企业也在积极转型,纷纷将Hadoop大数据平台纳入到现有的IT架构和解决方案,那么如何将传统数据和大数据进行高效的集成、管理和分析呢?如何保证数据的准确性,一致性和可靠性呢?带着众多疑问,我们来看看IBM所提供的DataStage 大数据集成方案 ,一切必将豁然开朗。
二、大数据集成所面临的挑战
1.新型的数据存储
大数据引入了新型的数据存储,例如,Hadoop及NoSQL,这些新型的数据存储都需要集成。
没有好的传统方法能够有效集成这些新型数据存储。
2.新的数据类型及格式
非结构化数据;半结构化数据;JSON, Avro ...
视频、文档、网络日志 ...
如何有效处理复杂且多样化的数据
3.更大的数据量
需要针对更大的数据量进行数据移动,转换,清洗等等。
需要更好的可扩展性
三、大数据信息整合是Hadoop项目成败的关键
大部分的Hadoop方案包括以下阶段:
数据收集
数据移动
数据转换
数据清洗
数据整合
数据探查
数据分析
由于面对的是基于海量的,彼此孤立的异构数据源和数据类型,所以大部分企业的Hadoop项目将花费80%的精力在数据整合上,而仅有20%的精力用于数据分析。可见,数据集成对Hadoop项目的成败有多重要。
四、IBM大数据集成解决方案:InfoSphere DataStage
1. 集中、批量式处理:整合和连接、清洗转换大数据
Hadoop大数据作为源和目标,同现有企业信息整合;
与现有整合任务具备同样的开发界面和逻辑架构;
将处理逻辑下压至MapReduce,利用Hadoop平台最小化网络开销;
通过InfoSphere Streams流处理进行实时分析流程;
验证和清洗大数据源的数据质量;
贯穿大数据和/或传统数据流通过世系跟踪和血缘分析;
2.面向大数据和传统数据的丰富接口,支持企业所有的数据源和目标
对DBMS(DB2, Netezza, Oracle, Teradata, SQL Server, GreenPlum,…)提供高性能的原生API;
提供特定的ERP连接器;
基于JDBC、ODBC连接器提供灵活支持(MySQL);
支持简单和复杂的文件格式 (Flat, Cobol, XML, native Excel);
支持扩展数据源:Web Services, Cloud, Java
连接Hadoop文件系统(HDFS),提供可扩展的并行读写
直连InfoSphere Streams,支持实时分析处理
提供对NoSQL数据源(Hive,HBase,MongoDB,Cassandra)的支持
3.最广泛的异构平台支持