重复数据删除技术能够识别并消除冗余的数据段,从而使得备份消耗的存储空间大幅减少。这使得企业可以存储数月的备份数据以确保快速地恢复以及更频繁地备份,创建更多恢复点企业同时还可以通过减少磁盘容量和优化网络带宽节省更多经费。
重复数据删除技术首次被企业采用是应用于缩短备份窗口并减少磁带的使用。其中用户最主要的顾虑在于是否可以和现有的备份技术和流程无缝衔接,并能够简易地进行部署。
在下一波应用中,关注点转变为扩展容量并改善性能。供应商在磁盘容量、性能、网络连接和系统结构方面进行强化,并同时改善了重复数据删除技术的流程。恢复方面则通过应用优化的复制技术进行改善。
在数据持续增长以及高度分布式的环境中,企业和重复数据删除供应商通过其它途径优化数据的重复删除,包括新体系架构、分包技术以及重复数据删除技术。
颇具吸引力的重复数据删除技术
基于ESG的一项调查显示,重复数据删除技术的应用正在不断增加。2010年,38%的调查反馈表示已经采用了重复数据删除技术,而在2008年这个数字为13%。到2012年,另外40%的调查反馈计划采用这一技术。(ESG 2008年1月和2010年4月发布的题为数据保护趋势的调查报告)
此外,根据ESG 2011年IT开销用途的调查报告,1/3的大型企业(超过1,000名员工)将降低数据量列为第一位的存储技术关注点。
当仍有诸多有关重复数据删除技术细节上的争论,比如在文件上还是虚拟磁带库接口上、从数据源还是在目标,硬件方式还是软件方式,联机还是后处理,数据块大小是固定的还是非固定的,重要的是确保所有的重复数据删除技术都以降低整体数据量为目的。
目标重复数据删除系统
在备份数据路径中最后端进行重复数据删除的产品称之为目标重复数据删除系统。他们通常是存储上的一项应用或是可以和任何磁盘配对的网关。
目标重复数据删除技术的供应商有EMC、ExaGrid、FalconStor、Fujitsu、GreenBytes、HP、IBM、NEC、Quantum、Sepaton和Symantec。通常通过其底层体系架构来区别各自产品。撇开是应用还是网关的方式(EMC,FalconStor和IBM提供网关方式),其提供单节点还是多节点配置是另一项关键因素。
在单节点的体系,性能和容量的扩展受限于配置的最大阈值。虽然其中的一些产品可以配置来处理大规模系统所需的扩展性,但你在初期就必须采购过量的配置以满足未来的需要。而当系统达到最大扩展性时,必须将原有系统全部“铲”掉或增加额外的重复数据删除单元,以升级至更高的性能或容量。而后一种方式会导致重复数据删除之间的“孤岛效应”因为备份数据在系统冗余中无法交互。
采用单节点体系架构的供应商有EMC、Fujitsu、 GreenBytes和Quantum。EMC提供Data Domain Global Deduplication Array (GDA),一个包含两个DD880设备的复合系统,作为一个备份应用的单节点系统。EMC可能会说GDA可以满足多节点配置的条件并具备全局重复数据删除功能,其包含2个控制器,2个重复数据删除目录以及2个存储池。不过该设备并不具备高可用性配置,事实上,假设一台DD880发生故障,另一台也无法正常运作。EMC同时将一部分重复数据删除功能分布在备份媒介服务器,不过只能用于支持Symantec OST (OpenStorage Technology)的备份应用程序。在媒介服务器,EMC进行预先处理,创建1MB的数据块用于和重复数据删除目录比较。当数据块中涵盖的内容有冗余时,数据会被分解为更通常的8KB的数据块,压缩后传输至DD880或其它控制器用于之后的处理,这取决于在哪里更容易消除冗余数据。
而在一个多节点的体系架构中,这类产品可以统一管理多个重复数据删除系统。这种方式同样提供了吞吐量和容量线性的扩展方式,高可用性和负载均衡。这可以降低管理成本,并且更重要的是其通常提供全局化的重复数据删除。ExaGrid 的EX系列, FalconStor的File-interface Deduplication System (FDS),HP的Virtual Library Systems (VLS),IBM的ProtecTier,NEC 的Hydrastor,Sepaton的DeltaStor以及Symantec的NetBackup 5000系统都有多节点的配置并提供全局重复数据删除。这些产品模块化的体系架构提供了很强的整体性能并使你的系统可以无缝升级。
Symantec通过和华为合作,创新地推出其在目标端的重复数据删除系统方案。Symantec在数据保护市场占据重要的地位,并且是唯一的在自有软件和硬件备份产品中提供整合的重复数据删除的供应商,也是其通过OST接口在目录级别整合了第三方供应商的备份目标设备。