云计算数据中心运维管理要点

  IT服务根据负载变化可以自动调整所需资源,以求在及时响应和节约成本上取得平衡:同时,计算能力规模越来越大,人工管理资源也越来越不实际。这些新特性对IT管理自动化能力提出了更高要求,企业往往希望在不失灵活性的前提下可以得到更高程度的自动化。

  为此,云计算数据中心需要部署自动化管理平台,集中管理虚拟化和云计算平台、提供自定义规则定制功能的自动化解决方案,用户通过使用事件触发、数据监控触发等方式来自动化管理,节约人力同时提高响应速度。

  六、客户关系管理

  云计算数据中心是为多租户提供IT服务的,为了保留和吸引客户,在运维过程中客户关系管理非常重要。

  (1) 服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备数据中心对服务进行评价和改进。

  (2) 客户满意度调查:客户满意度调查主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。数据中心可根据客户的特点制定不同的客户满意度调查方案。

  (3) 客户抱怨管理:客户抱怨管理规定数据中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。

  七、安全性管理

  由于提供服务的系统和数据被转移到用户可掌控的范围之外,云服务的数据安全、隐私保护已成为用户对云服务最为担忧的方面。云服务引发的安全问题除了包括传统网络与信息安全问题(如系统防护、数据加密、用户访问控制、Dos攻击等问题)外,还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题,例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS应用统一身份认证等问题。

  要解决云服务引发的安全问题,云服务提供商需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需加强用户对不同重要性数据迁移的认知,并在服务合同中强化用户自身的服务帐号保密意识,可以提升用户对安全的认知;在服务管理方面,严格设定关键系统的分级分权管理权限并辅之以相应规章制度,同时加强对合作供应商的资格审查与保密教育;加强安全技术保障,要充分利用网络安全、数据加密、身份认证等技术,消除用户对云服务使用的安全担忧,增强用户使用云服务的信心。

  八、流程管理

  流程是数据中心运维管理质量的保证。作为客户服务的物理载体,数据中心存在的目的就是保证服务可以按质、按量地提供。为确保最终提供给客户的服务是符合服务合同的要求,数据中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使数据中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”.

  数据中心建立的管理流程除应满足数据中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个数据中心的实际运维情况与管理目标存在差异,数据中心需要建立的流程也会有所不同。

  九、应急预案管理

  应急预案是为确保发生故障事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:

  (1) 根据业务影响分析的结果及故障场景的特点编写应急预案,确保当紧急事件发生后可维持业务运作,在重要业务流程中断或发生故障后在规定时间内恢复业务运作。

  (2) 应急预案除包括特定场景出现后各部门、第三方的责任与职责外,还应评估复原可接受的总时间。

  (3) 应急预案必须经过演练,使相关责任人熟悉应急预案的内容。应急预案应是一个闭环管理,从预案的创建、演练、评估到修订应是一个全过程的管理,绝不能是为了应付某个演练工作,制定后就束之高阁了,而是应该在实际演练和问题发生时不断地总结和完善。