如何管理大数据过载

对存储容量复杂而无止境的需求让存储管理员感到十分头疼。以下我们将为大家介绍一些如何应对数据洪流的方法。

以往只有科研人员、互联网巨头以及亚马逊、推特、脸谱和Shutterfly等社交媒体巨头面临这样的问题,但是现在越来越多的企业开始尝试通过大数据挖掘来发现手中所掌握的有价值的信息,并以此获得竞争优势。如今,沃尔玛、金宝汤、辉瑞默克和Wawa连锁便利店等公司正在为他们的大数据制订一套宏伟的计划。

为了更快的回应客户、更好的追踪客户信息或是更迅速的向市场导入新产品,许多公司开始投资大数据分析。

市场研究机构IDC存储分析师Ashish Nadkarni称: “对于身处互联网时代的任何公司来说,如果他们不这样做,那么他们的竞争对手就会这些做。”

目前所有机构都在逐渐被来自内部和外部的数据所淹没。在这些数据中,许多数据是实时传输过来的,其中又有许多数据只会被用上几分钟、几小时或是几天时间。

市场研究公司Aberdeen Group表示,因此而带来的存储需求增长对大型企业来说尤为棘手。在这些大型企业中,从2010年至2011年,结构化和非结构化数据所需要的存储容量平均增长了44%。无论多大规模的公司,数据存储需求每隔2.5年就会翻一番。而且,对视频存储、电子表格、格式化数据库和纯非结构化数据进行优化分别需要不同的工具。

Aberdeen 集团虚拟化和存储分析师Dick Csaplar 称:“能够让存储方面的花销不随存储需求增长而增长是一个挑战。”能够帮助主流大数据用户避免陷入这一恶性循环的技术有存储虚拟化、去重和存储分层技术。对于科研人员、社交媒体网站与仿真项目开发人员等大数据重度用户,面向对象的和关系型数据库存储都是不错的选择。

与内部日常存储平台相比,为了以易于访问的格式存储拍字节级(和更大规模)数据,系统在设计上要更为复杂。以下是专家对管理和存储大数据提出的一些建议。

你正在分析什么类型的数据?

所需的存储类型取决于你分析的数据类型与数量。全部数据均有一个保存期限。例如,股票报价只在价格变动前的一或两分钟内重要。棒球比赛得分对于人们来说只需要保存24小时或是直到下一场比赛时。这一类型的数据在最需要的时候应当保存在主存储器中,随后即可以转移至廉价的存储器内。多年来的观察已经证明了这一理念,即被长期存储的数据通常并不需要存储在容易被访问到的主驱动器上。

你实际上需要多大存储容量?

在存储大数据时,你需要的存储容量和类型取决于你所需要存储的数据大小和这些数据的使用时限。

在大数据分析中涉及三种类型的数据。Nadkarni称:“它们能够将来自多个来源的数据每秒源源不断的传输给你,在这些数据失去时效性之前,你的时间切片应当为数分钟。”这类数据包括天气、交通、社交网络上的趋势话题和关于全球事件的推文等更新信息。

大数据还包括了那些休眠数据或是公司为了适度使用而生成和控制的数据。

数据传输需要快速捕获和分析能力。Nadkarni称:“一旦你分析了它们,你就不再需要它们了。但是对于休眠数据或被公司控制的数据,你应当将它们存储起来。”

哪种类型的存储工具更合适?

对于那些刚开始涉足大数据存储和分析的公司,行业观察人士建议采用将所有的存储将放在一个保护伞下的存储虚拟化技术、去重压缩数据技术和分层存储方案,以确保最有价值的数据被存储在最容易被访问的系统中。

存储虚拟化提供了一个软件抽象层,让用户无法找到物理设备,并且允许所有设备作为一个单一的池被管理。尽管服务器虚拟化已经成为了目前IT基础设施中一个成熟组件,但是存储虚拟化仍然未被广泛接受。

在2012年2月份,Aberdeen对106家大型公司进行了调查。结果显示,仅有20%的受访者表示他们拥有一个单独的存储管理应用。平均下来,3个管理应用对应3.2个存储设备。

尽管如此,许多存储厂商并不愿意让自己生产的设备接受其他厂商产品的管理。Csaplar称:“存储虚拟化非常复杂并且极为耗时。因此它们无法像服务器虚拟化那样被广泛接受。”相反,许多存储管理员正在关注针对第三或第四层存储的云解决方案,因为云方案能够更为容易地在不同基础设施之间转移数据,同时可以降低存储成本。他补充称:“许多公司已经这么做了,并且收到了良好的效果,但是距离人们的期望值还存在一定的差距。”