当混合云成为普遍选择时,企业IT资源的统一管理就会成为一个新的挑战。例如,企业经常需要面对下面几个问题:
◆如何统一管理公有云主机、私有云主机和物理机?
◆如何以应用视角管理基础设施?
◆如何集成云API,实现自动伸缩?
新型IT运维管理体系只有解决以上几个基本问题才能实现对于不同来源基础设施进行标准化无差别管理,同时也充分发挥IaaS平台带来的弹性基础设施的优势。
问题二:DevOps成为新常态后,如何真正实现持续部署和交付
如前所述,现如今IT系统的交付周期越来越短。而且还需要在持续交付的过程中保证服务的高可用和性能的高稳定。但是,整个IT系统的持续部署和交付需要一个较长的流程来保障。例如,下图就是一个典型的从代码到最终服务的流程。
在这过程中,阻碍整个持续交付流程顺利进行下去的常见问题有:
◆如何建立统一的Artifact仓库?
◆如何保证测试环境和生产环境的一致性?
◆如何在部署后实现快速反馈?
企业在实施IT持续交付过程中经常会因为未解决以上常见问题而导致最终的持续交付流程流于形式,未能达到支持业务创新的目标。
问题三:IT服务能力成为企业核心竞争力后,如何高效运维管理越来越庞大的IT系统
随着互联网+浪潮的逐步深入推进,企业IT系统承载的业务会越来越多,也越来越重要。这也意味着需要更高效的运维方式管理越来越庞大的IT系统,尤其是需要管理日益增多的虚机。同样来自于RightScale 2015年的报告,大部分企业的虚机数量已经超过50台(如下图)。
一般来说,超过50台虚机的规模意味着传统手工运维管理已经很难保证效率和质量。这时企业就会在日常运维管理中,遇到以下常见的问题:
◆如何同时给1000台虚机打补丁?
◆如何实现端到端的监控?
◆如何实现故障自动修复?
要解决企业IT系统规模增加带来的运维挑战,自动化成为现代运维管理系统普遍的选择。这其中就包括自动化构建、自动化测试,自动化部署、自动化修复等一系列最佳实践。
三、新常态下的IT运维管理解决方案
针对IaaS和DevOps成为新常态下的IT运维管理需求,传统以ITIL为标准的ITOM管理软件及相关运维管理实践已经无法适用。克服这些问 题,除了需要新的理念,新的组织架构,也同样期待新型的统一云管理平台(Cloud Management Platform,CMP),这个平台需要具备如下几个方面的能力:
◆管理平台能够统一管理不同来源的IT基础设施,解决企业IT基础设施碎片化的问题。同时需要深度对接主流IaaS平台,响应企业业务对于新型IaaS的需求。
◆管理平台需要以应用为核心构建整个管理体系,而不再是以管理IT基础设施为核心。无论是IT资源的组织方式、服务监控告警的展示方式,还是各种日常运维的操作和部署都需要从应用的角度设计。
◆管理平台需要提供一站式的全栈工具链集成能力,让开发、测试和运维人员都能在其上对于一个应用进行协作和管理。并且,这个平台还需要能够构建应用的全面反馈体系(需要全面的自动化测试和监控),并基于这个反馈体系实现整个工具链的自动化。
对于企业级用户来说,选型统一的云管理平台也就需要充分考虑以上这些要素。具体实施来说,企业可以有以下几种可能途径:
◆基于IaaS平台控制台及相关管理类服务搭建。这种方式是企业用户最容易上手的途径,尤其是在企业IaaS供应商非常单一的情况下可以很快有初步结果。但是这个途径的最大风险在于会被某一个IaaS供应商所锁定(lock-in)。越深入的使用云供应商的管理服务就会越深的被它锁定。
◆基于开源软件完全自建。自建自己的统一云管理平台对于很多企业用户非常有吸引力,尤其是在开源软件如此丰富的今天。如果选择自建云管理平台(尤其是直接利用开源软件搭建)时,企业用户要非常注意传统平台经常会出现的“烟囱效应”,即不同应用场景下使用的工具完全不一样,且相互的信息无法打通。例如,运维管理平台最基础的CMDB层应该在监控、运维以及代码部署等很多运维场景中复用,以便始终保持数据的一致性,降低运维维护负担。但是常见的开源软件基本是以单一场景出发,并未提供一体化解决方案,所以需要用户自身来完成相关整合工作。另外,企业最好还要评估自建平台的成本及收益,做到有的放矢。