大数据对于很多企业来说,并不意味着机遇或是商业上的无限潜力,在他们能够很好地管理数据之前,大数据只意味着风险和无穷无尽的烦恼。
在大数据的三个重要议题:非结构化数据超越结构化数据、结构化数据量激增和对结构化与非结构化数据进行商业分析之中,前两个议题的解决是第三个议题能够得以实现的基础和前提,没有良好的数据存储、保护、迁移和梳理,想要把数据进行分析无异于天方夜谭——数据从何而来?又如何分析毫无结构、头绪的非结构化数据?企业首要做的就是降低在面对大数据的时候的“数据量风暴和风险”。
但问题并不像表面上看那么简单——这不是存储容量的又一场游戏——而是对企业存储全方位的风险包围和警钟,除了容量危机之外,企业在大数据时代面临着极大的管理风险,这其中包括了日积月累的异构存储架构与复杂环境的“僵硬架构”、有限的存储管理人员无法应对越来越复杂的存储环境、日益增长的数据带来的紧张预算,当然,我们也要看到随着数据量的激增与数据类型复杂度的增加,对于企业的法规遵从也带来越来越大的影响。
可以说,在大数据对容量与数据分析系统造成的挑战与压力背后,是大数据对企业存储管理带来的极大风险——即便是简单的数据与存储工作都会产生风险,如果我们再来看看我们要对数据进行哪些操作,就会觉得这个问题更加可怕:备份、恢复、快照、迁移、复制、远程复制、重复数据删除、容量回收、归档、加密解密——仅仅粗略算来,对数据的操作就不下10项。
无论是从企业存储策略与环境来看,还是从数据与存储操作的角度来看,大数据带来的“管理风险”不仅日益突出,而且如果不能妥善解决,将肯定会造成“大数据就是大风险”的可怕后果。
Gartner:大数据到底有哪些挑战与风险?
全球技术研究和咨询公司Gartner指出,CIO通过排斥信息管理的其它方面而侧重在信息的大容量上来管理“大数据”挑战,但这留下大量的挑战需要在以后解决。当信息管理人员同时失去数据访问和资格方面的控制时,他们可能将侧重点放在量上。Gartner分析师告诫,过于狭窄的侧重点将迫使两到三年后进行大规模的再投资,以解决大数据的其它方面的问题。
Gartner研究副总裁Mark Beyer表示:“当今的信息管理准则和技术根本无法完成处理所有动态信息的任务。信息管理人员必须通过规划信息管理的所有层面,从根本上重新考虑他们的方法。访问大数据浩瀚资源的业务需求为信息管理人员提供了企业改变使用信息方式的机会。IT领袖一定要教育业务同行直面挑战,同时确保一定程度的控制和协调,以使大数据机会不会变成大数据混乱, 这也许会提高合规分险,增加成本并创建了许多信息孤岛。”
正如上文所述,分析师认为,量只是大数据挑战与风险中最直接和最常见的问题,CIO在将大量的交易信息转化为决策上一直存在困扰 — 现在有更多类型的信息需要分析 — 主要来自社交媒体和移动(情景感知)。种类包括表格数据(数据库)、分层数据、文件、电子邮件、计量数据、视频、静态图像、音频、股票行情数据、金融交易和其它更多种类。而速度则涉及到数据流、结构化记录的创建,以及访问和交付的可用性。速度意味着正在被生成的数据有多快和数据必须被多快地处理以满足需求。
此外,在数据泄露、丢失和黑客活动日益增长的今天,更好的数据保护和数据防泄漏都是企业CIO需要关注的问题。就像某汽车行业CIO向DOIT记者曾经说过的,以前全备份一晚上干4个小时,现在全备份4个晚上干完1次算不错,在大量的汽车先进设计手段的刺激下,汽车行业的非结构化数据的压力“暴增”,远远超过原有信息系统的承载能力。
但所有这些内容都需要备份或留档,因为这些都是非常重要的汽车设计资料。极大的风险摆在这位CIO的面前:备份窗口原来越长、重复数据删除技术并不是每一个都对非结构化数据有效、非结构化数据和结构化数据在存储系统中处于互相割裂、孤岛式的管理与存储方式的支撑下。所以这位CIO对分层技术、重复数据删除、固态硬盘、统一存储甚至是云存储都非常感兴趣,“这也是被逼无奈”。