BWmirror技术与中科蓝鲸文件级盘阵实时容灾方案

  “大数据”时代的应用,所谓BigData的特征主要有:海量、非结构化、跨操作系统平台、文件共享、高性能访问(单客户端&聚合带宽),面向大数据的传统数据保护模式与容灾应急方案也有诸多缺陷。在2011年7月7日中国存储联盟年会中,中科蓝鲸产品总监库依楠先生也就文件级盘阵实时容灾这一话题进行了精彩的演讲,引起了业内广泛的关注和讨论。

  本文就向大家介绍源自中科院计算所存储中心的BWmirror技术,该技术目前是全球领先唯一能实现“FC SAN光纤直联客户端+文件共享+盘阵实时容灾”效果的技术。BWmirror及其实现文件级盘阵实时容灾解决方案主要应用于具有海量非结构化、跨操作系统平台、文件共享、单客户端与整体带宽均要求很高性能、而且对系统可靠性和业务连续性需求最高的环境,主要有:大规模流媒体播出、广电非线性编辑、媒体资产管理、高性能计算、大型网站系统、遥感信息处理、云计算、云存储、大规模VOD、大型信息管理系统等应用场景。尤其是广电领域的新闻网、播出网、综合后期制作网等,对如何解决Raid组级别失效和盘阵级别失效,如何提高系统可靠性和业务连续性的需求最为迫切。

  传统的高性能文件共享高可靠方案

  传统的高性能高可靠性文件共享解决方案是FC SAN + SAN文件系统例如Stornext或者卷共享软件SANergy,通过适当的配置,包括磁盘RAID、双控制器、冗余交换机、双FC HBA卡、多路径软件、SAN FS MDC HA,可以实现文件共享存储系统没有单点故障。但在该方案中,由于数据最终是保存在光纤盘阵的Raid组中,并且只有光纤盘阵是单体结构,当出现Raid组崩溃或者一台光纤盘阵整体出现故障,将会导致所有相关的前端应用中断,造成系统整体事故。尽管通常方案都会配置双控光纤盘阵,两个控制器同时出现故障的几率较小,但这种风险是存在的。

  BWmirror文件级盘阵实时容灾方案配置

  新版本的蓝鲸集群存储BWStor CSA中的采用BWmirror技术提供了盘阵冗余功能可选项,可以满足零数据丢失,零恢复时间的应用需求。典型配置如下图,存储系统由多台盘阵组成,并由BWStor CSA统一管理。用户可以设定其中一部分盘阵为主盘阵,提供主要的数据服务;另外一部分盘阵设定为从盘阵,在主盘阵出现故障时代替主盘阵提供数据服务。开启BWStor CSA的盘阵冗余功能后,所有客户机写入系统的数据都会被实时镜像写入到主、从盘阵上,所以当任意一个盘阵出现故障时,应用程序可以立即通过另外一台盘阵访问数据。盘阵冗余功能完全由内置于BWStor CSA的蓝鲸集群文件系统BWFS实现,所以对客户机及其上的应用完全透明,应用程序仍然以标准的文件系统访问接口,访问已经具备盘阵冗余功能的文件系统,不需要做任何改变。换言之,该功能对所有访问文件系统的应用都兼容。

  方案特点

  1. 零业务中断:数据并行读写冗余盘阵,Raid组故障、盘阵故障探测、切换完全由蓝鲸集群文件系统BWFS的盘阵冗余模块依靠BWmirror技术来控制和实现,保证客户端应用程序数据读写在盘阵整体故障的情况下仍能持续进行,从而保障用户业务不因盘阵整体故障出现任何中断,最大可能保证业务连续性。

  2. 零数据丢失:有别于文件复制方案存储存在数据同步周期,BWFS的盘阵冗余功能能够保证写入冗余盘阵的数据实时同步,在一个盘阵出现整体故障后,其冗余盘阵中仍然保存有完整的数据镜像,所以数据没有任何丢失,最大可能保证数据安全性。

  3. 对应用程序完全透明:盘阵冗余功能在BWFS内部实现,所以可以做到对外接口仍然使用标准的文件系统接口,应用程序仍然像访问普通的NFS、CIFS一样来访问配置成盘阵冗余的BWFS,不需要做任何修改,最大可能保证应用兼容性。

  4. 兼容第三方存储设备:BWFS盘阵冗余功能可以支持所有标准的FC SAN和IP SAN设备,功能的实现不依赖于具体的盘阵品牌和型号,最大可能节约方案成本。

  应对盘阵整体故障现有方案的不足

  目前应对盘阵整体故障的问题,主要采用的方案是主备系统进行文件复制,即采用备用的光纤盘阵搭建一套备份文件系统,通过备份服务器将文件定期从主文件系统复制到备份文件系统中。当主盘阵出现故障主文件系统不能访问时,客户端挂载起备份文件系统,应用程序切换到备份文件系统继续工作。这种基于文件复制的方案,解决了盘阵整体故障后数据彻底丢失不能访问的问题,但从应用容灾的角度看主要存在以下几方面的严重问题: