谨记于心:IT灾难恢复计划的两条军规

  对于灾难恢复计划首要的是风险评估,但是理解如果不理解风险的影响,单单只是明白风险本身,这也没什么意义。想要发展一个IT灾难恢复计划,在考虑如何构成最高效的恢复策略时,两个重要的问题需谨记于心。

  1、哪些灾难恢复方案在我们的IT环境中切实可行?

  2、已有的方案如何影响现有IT环境支撑的业务?

  这些问题能够反映评估IT环境风险和判断风险结果需要什么因素,还能体现它对组织的效果。

  风险到底是什么?

  从IT的角度我们可以用多种方法定义什么构成了风险?最普及的观点是“暴露在了已知的威胁存在中,有发生的可能。”如果我们想好好把工作完成,就不要把专业术语挂在嘴边,而是简洁地解释好。比如说,危险暴露可能是因为冗余服务器硬件缺乏,威胁就是经常会硬件故障,就这就构成了一个风险。

  评价风险

  在灾难恢复过程应该很早就查处风险,同样重要的一点是:不要再风险发现了才做灾难恢复策略。

  检查硬盘故障很简单,但是作为风险来说就不算事儿,因为有数据备份,磁盘故障可以很快解决。真理是风险存在,但是控制手段要就位,以便减少影响。

  最佳实践是先评估每个风险,分析其对业务的影响,然后评价现有的控制手段能否在坏影响发生的时候解决问题。

  也就是说风险无论如何都会存在,但是得有控制手段解决。

  尽管评价风险是重要的,但这是建立在有理有据的基础,需要评价它有多少可能发生。要承认计划外的断电确实可能会发生,而主观去想象更重要。

  你需要寻找什么?

  评估风险时要避免把所有可能的危险全都列举出来。而是着重于可能性较为合理 的。由于“飞机撞数据中心”或者“太阳能烧了处理器”这种事情只能分类在范围更广的类别中。

  把所有可能发生的风险因素列举好,然后考查现有的控制手段,确保它们适合。 比如说,你不能因为有一个故障转移站点,就忽视飓风的风险,即使没发生你也得考虑如何最小化这种潜在的破坏。

  IT环境可能要面对以下潜在威胁:

  缺乏冗余数据中心关键架构。包括UPS或者配电路径,没有后备发电机,有单点故障的冷却系统或者不完善的防火等等。

  地理和气候相关的威胁。无论数据中心和IT架构的冗余程度如何,整个设施如果受到气候影响,还是会发生单点故障。

  缺乏冗余IT架构部件或存在单点故障。这部分范围较广,从高级部件比如单独网络连接和关键应用服务器,到粒状的单独电源服务器。

  物理和逻辑安全不足。不锁门,或者安保系统薄弱。

  数据备份步骤不一致。通常是失败的备份、报告或者监控,缺乏站外的备份拷贝或者不一致的站外备份传输。

  未定义恢复时间或者恢复点。这会导致对数据备份的错误评估,通常方法对了,但是结果错误。

  不完善的变更管理步骤。缺乏合适的变更控制,通常会成为计划外断电或者人为数据丢失的起因。

  配置文件材料缺乏。高度依赖IT人员是不能完全代替基础的配置文件。

  缺乏灾难恢复计划。在灾难评估步骤,早就不断强调了这一点。