天下武功唯快不破,然“大数据+”时代的开启,让很多成名已久的“武林高手”扼腕叹息,结构化数据包打天下的时代已经成为历史!从IT到DT意味着什么?意味着需要顿悟新的功法,应对更残酷的江湖竞争!
继云计算之后,大数据迅速跻身IT江湖热门功法排行榜。云和大数据好比硬币的两面,云计算是大数据处理的依托平台,大数据则是云计算最典型的应用,正引发全球范围内深刻的技术和商业变革。在这个广阔的市场空间,浪潮怎会缺席?
时势造英雄:结构化数据“之退”与非结构化数据“之进”
传统数据处理方式,以结构化数据为主,数据增长缓慢、系统都比较孤立,用传统关系型数据库来管理这些数据基本可以满足各类应用开发。但是在大数据时代,数据来源更加丰富,很多数据通过设备、服务器、应用自动产生的,这些数据以非结构、半结构化为主,增长速度快,价值密度低。所谓的 “大数据生态”,数据类型多样、计算场景复杂,传统数据库对这类需求和应用在架构和功能上几乎束手无策,需要不同的技术手段支撑,这样其实就给类似 Hadoop、MPP、内存数据库等架构体系提供了很好的发展机会和空间。大数据生态除了传统关系数据库之外,还需要MPP、 NewSQL、NoSQL、流式计算、实时计算、内存计算等多种存储和计算手段。
浪潮近期同步推出云海Insight三剑客:云海Insight HD、云海Insight MPP、云海Insight MemDB,涵盖了当前主流的分布式数据存储和计算组件,能支持结构化、非结构化、半结构化等几乎全部数据类型的处理。帮助企业方便快捷地架起完整的大数据处理平台,以期帮助用户构建海量数据的“极速”处理能力,应对大数据的复杂应用场景。对各类数据进行整理、交叉分析、比对碰撞、内容检索、深度挖掘、特征提取等,对用户提供自助的实时、近时、迭代的响应能力等。
电视剧《欢乐颂》热播,通过大数据技术,对网络直播平台的收视点击情况和网友互动评论情况进行分析,可以知道哪 个女主最受男性欢迎。这在传统的收视统计中,是需要收视仪定点采样、人员专门统计等一些列手段,花费大量工作量才能完成的。作为新兴技术技术,大数据的发 展已经从概念到大规模落地,正在为各行业带来一些新奇的变化。
1、分布式计算引擎HD
lHD适合PB级以上的海量数据离线处理,可在大数据应用建设中轻松构建基础资源库。
l它采用Hadoop 架构,融合了业界最新 Spark 实时计算架构,让二者优势互补。可以扩展到数千个节点的集群规模,设计了高度兼容SQL语句的解析引擎,提供可视化运维、统一用户、证书认证滚动升级能力,让用户使用 Hadoop 像使用数据库一样简单。
lHD具备企业级、高安全性、易运维、强兼容性等诸多特点。
2、分布式数据仓库MPP
lMPP是处理TB-PB级的结构化数据的数据仓库和数据集市的最优选择。
l它采用sharenothing架构,性能和扩展性优于传统的oracle数据库(oracle RAC share disk架构)和SQL server数据库(share everything)。
lMPP是基于MPP架构的分布式关系型数据库,其SQL 查询性能比传统的关系型数据库提升 10~100 倍;支持千节点内的稳定运行,可在BI领域替换传统架构。
l总体来说,分布式数据仓库MPP具备开放弹性架构、在线线性扩展、拥有成本可控、海量并行处理、优秀混合负载、平台持续可用、易于管理维护等特点,具体如下图所示。
3、内存数据库MemDB
lMemDB适合TB数量级以下规模超高并发访问的OLTP 和OLAP实时计算和加速场景。
l它基于内存的无共享分布式架构,支持Key-Value、及SQL关系型存储,具备跨地区集群能力;MemDB同时支持分布式事务和毫秒级响应,善于进行实时数据处理。
l内存数据库MemDB具备在线可扩展、计算高性能、数据高可靠、跨地域分布等特点,具体如下图所示。
大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。这句话道出了大数据的本质,随着大数据在不同行业、不同业务领域的渗透,对海量数据的挖掘和运用已经成为推动行业发展的重要因素。