解读一体化容灾之II 应用不间断是目标

  随着爱数备份容灾家族百城巡展的脚步,爱数一体化容灾的理念走进了全国的三十多个城市,也获得了用户朋友的广泛认可。那我们就借此契机,更加深入地了解爱数的一体化容灾。上一期我们提到,一体化容灾需要同时解决的两个问题是“数据不丢失,应用不间断”。其中“数据不丢失”是基础,那么“应用不间断”的目标如何实现呢?

  一、 基于 CDP 技术的应用容灾

  首先,我们来认识一下爱数备份容灾家族的应用容灾方案。简单地说,整个容灾方案分为三个部分:生产服务器、容灾服务器和基于爱数容灾家族产品成员的容灾管理控制台。这三个部分被“实时复制”和“持续恢复”两项关键技术紧密地衔接在一起。其中,“实时复制”监控生产服务器上用户所选择的数据源,并源源不断地将数据变化传输到爱数第三代引擎所特有的 OFS 介质(下文简称 OFS)上,并可追溯到任意时间点。为了使容灾服务器上的数据与生产服务器保持一致,“持续恢复”OFS 上的数据变化实时地恢复到容灾服务器上。那么如果灾难发生,需要进行应用切换,容灾服务器所能恢复的时间点就是应用中断的那个时刻。如此一来,实现了容灾的恢复点目标(RPO)接近于 0。

  如果真的发生了应用故障,容灾系统的故障检测模块就会首先发挥作用,它会先尝试排除各种异常情况并尝试修复应用。如果应用无法修复,容灾服务器就会自动接管生产服务器的应用(用户也可配置成手工接管,爱数的管理控制台会在应用故障时发出通知)。这时,应用中断时间为接管所需的时间,可以通过以下方式计算出:

  接管时间 = IP 漂移时间 +应用切换时间

  (一般情况下 IP 漂移是十分迅速的,应用切换时间根据应用和数据量的大小而有所不同,但总得来说是不会超过分钟数量级)

  现在,容灾系统顺利地完成了接管,但这并不意味着容灾的结束。接管应用后的容灾服务器还在对外提供服务,所产生的数据依然需要保护。这时,爱数应用容灾的对象随着应用切换变成了容灾服务器。灾难过后,为了让原生产系统继续工作,用户往往需要修复生产系统,应用修复后,爱数特有的“反向复制”技术,会实时地将容灾服务器产生的数据通过 OFS 复制回生产服务器上。只要复制完成,再进行一次反向接管即可将应用重新切换到生产服务器上。这时,应用中断的时间也只相当于一次应用接管的时间。纵观整个容灾和应用恢复的过程,应用中断时间(RTO)仅为两次接管的时间。可以理解为下面的表达式:

  应用中断时间 = 接管时间 × 2

  反观传统的容灾方案,在进行接管后恢复生产应用的一系列操作过程中,一般都会为了保证数据一致性而要求在数据恢复时停止应用。这时,应用中断时间(RTO)可以表示为:

  应用中断时间 = 数据恢复时间 +接管时间 × 2

  (一般情况下,数据量越大、网络条件越差则恢复时间越长,恢复时间与数据量成正比关系)

  由于传统方案中的数据恢复时间会非常大限度地受制于数据量的大小和网络链路状况,所以爱数应用容灾方案大幅降低了应用间断的时间。

  二、 基于级联复制的远程应用容灾

  除了上述容灾方案之外,爱数备份容灾家族还提供了更加安全可靠的远程级联复制容灾方案。所谓级联,就是在不同的地点都部署容灾系统,利用 OFS 的同步功能,将远程容灾中心和本地数据中心的 OFS 数据同步起来,这种同步也是实时的,远程的 OFS 同样可以恢复到任意时间点。由于异地容灾往往是在低速网络中进行,网络的抖动会影响容灾的效果,为此爱数还专门提供了支持断开重连、断点续传等网络传输技术,令远程的数据一致性得到了保证。

  用户也可以在远程容灾中心部署容灾服务器,那么就会至少有四份数据同时被保存下来。发生应用故障时,用户可以选择使用本地或者异地的容灾服务器进行接管。如果本地容灾系统瘫痪,可用远程的 OFS 数据进行修复。即使本地数据中心发生极端的灾难性事故,出现数据中心全部损毁的情况,远程容灾服务器依然可以接管应用、远程 OFS 依然可以提供任意时间点的数据恢复。灾难过后,如果需要修复本地数据中心的生产系统和容灾系统,同样也可以通过远程 OFS 到本地 OFS、本地 OFS 到本地生产服务器之间的反向复制来进行数据恢复,解决了数据恢复时间长、远程数据可能不一致的问题,使得应用中断的时间(RTO)降到最低。