越来越多的业务需求都在传达一个信号,那就是用户对在他们的虚拟化环境中部署重复数据删除技术都表现出了强烈的兴趣,因为在虚拟化环境下,冗余的数据越来越多。
在这篇来自Taneja集团的高级分析师Jeff Boles的访谈记录中,我们可以了解到为什么越来越多的组织和企业对服务器虚拟化中的重复数据删除技术表现出了更多的兴趣,究竟虚拟化环境中更合适源端还是目的端的去重,我们用什么样的标准来决定何时对虚拟机进行去重处理,以及VMware公司的vStorage API接口为我们带来了什么。
问:据您所了解的,那些部署了服务器虚拟化的组织或企业,是不是越来越对重复数据删除技术感兴趣?如果是这样的话,您能详细解释一下在备份虚拟服务器时,有哪些因素及优势驱使他们倾向于选择去重技术吗?
答:是这样的。之所以有越来越多的用户对虚拟化环境下的重复数据删除技术感兴趣是因为在虚拟机环境下有太多的冗余数据占用了大量的空间。随着时间的推移,我们在如何部署虚拟化服务器方面已经变得越来越有经验。
我们已经完成了许多年前我们就应该已经完成的工作,在整体架构上带来的好处是,我们能更好的将核心操作系统数据和应用数据剥离开来。因此,我们今天看到的虚拟化环境都是严格遵照了最佳实践的,核心的操作系统镜像包含了大多数操作系统文件以及配置信息等。虚拟化环境能将这些文件和应用数据或者文件数据区分出来,一般来说,一台虚拟机后面,都会有许多有着类似的黄金镜像文件以及核心操作系统镜像文件。因此,在使用了重复数据删除后,用户将不再会为大量的冗余数据所困扰。如果用户选择在虚拟化资源池中使用重复数据删除技术,那么使用普通去重算法带来的去重率甚至高于非虚拟化环境中的生产环境。因此,仅从容量使用率的角度考虑,在服务器虚拟化环境中使用重复数据删除技术就会有着许多的优势。
问:针对这种应用,一般会选择使用哪种重复数据删除技术?您认为,究竟是源端去重还是目的端去重我们使用的更多一些,哪种优势更大?
答:如今不同的重复数据删除产品之间的确有着差异。用户可以根据自己的偏好,选择使用备份目的端的去重,比如介质服务器,或者选择使用备份源端的去重技术,源端去重的产品有Symantec公司的PureDisk、EMC公司的Avamar产品和其他一些专注于虚拟化环境的其他厂商的产品。
比起过去,如今源端重复数据删除技术越来越多的被采用,尤其在虚拟化环境中。首先在虚拟化环境中,I/O上的竞争不可避免,这是备份任务一开始就需要面对的问题。一般来说,当开始实施虚拟化的时候,其实备份的方式和物理机上一样,都是装上一个代理,然后将数据备份到外部介质服务器上,与之前在物理机上使用的是相同的备份方法。与在物理机上不同的是,用户不再需要为每一台机器的信息打包,他们需要关注的仅仅是包含所有虚拟机的物理设备,因此,实际上是将一整套的备份任务写进同一个硬件设备里。不管是使用WAN还是稍好些的LAN,用户都面临着I/O上的压力。然而实际上在物理硬件层的的I/O瓶颈是不能被忽视的。因此,传统的备份方式会让备份窗口拉的更长,甚至会影响到恢复时间目标(RTOs)和恢复点目标(RPOs),因为仅通过一个硬件设备上的I/O读写会更慢一些。
因此源端的重复数据删除技术上有着一些有意思的产品应用,它们可以在从虚拟机剥离前,将全部数据分成不重复的数据块。大量的这些使用源端去重的代理方法的出现,有力的推动了不断的变革。因为真正需要备份的数据越来越少,用户可以更为频繁的备份数据,并且在后台也一直在追踪着数据的变化。它们往往知道奥妙在哪里,因此它们可以将需要备份的数据量达到最小。
同样,在源端重复数据删除技术的帮助下,用户可以实现高度优化的针对虚拟化环境的备份效果。到最后真正需要被移动的数据少之又少,因此真正通过物理层链路的数据也是相当少的。从而就不再需要因为I/O上资源的争夺而大伤脑筋,长久下来就可以实现良好的RTOs和RPOs,且虚拟机备份的备份窗口也会更小。
问:在虚拟化环境下使用重复数据删除,会引起某些问题吗?用户应该注意什么?