泰岳教育张冬洪:从传统到云端,运维人员需解放思想

中国IDC圈11月12日报道,中国IDC产业年度大典作为国内云计算和数据中心领域规模最大、最具影响力的标志性盛会,已成功举办九届,如今第十届中国IDC产业年度大典(IDCC2015)也将于2016年1月5日-7日在北京国家会议中心隆重召开,预计本届大会参会人数和规模将达到8000+人次。

"百家访谈"作为第十届中国IDC产业年度大典的预热环节之一,自启动以来已经得到了业界和行业媒体广泛关注与好评,诸多IDC和上下游知名企业高层均将应邀参与其中,他们的真知灼见为国内IDC行业发展起到了重要推动作用。

近年来,随着我国信息产业的快速发展,一批批互联网企业如雨后春笋般迅速崛起。互联网正以其强大的信息存储、互通和处理能力成为当前最重要的科技生产力。信息技术的飞速发展尤其是云计算的出现对企业运维人员提出了新的要求,自动化运维逐渐取代了手动、面向基础架构的运维,同时运维人员需要革新意识。

那么现有的互联网企业运维的现状是什么样的?在运维的过程中经常遇到哪些难题?云时代运维人员在云端进行运维需要考虑到哪些问题?记者就这一系列问题采访了泰岳教育专职讲师张冬洪,其同时也是Ceph中国社区沙龙活动的负责人,据悉其曾先后在外企和某上市公司担任系统工程师和DBA工作,拥有多年运维经验,并且在大数据,云计算和自动化运维方面积累了丰富一线实战经验。

z

泰岳教育张冬洪

目前互联网企业在运维过程中或多或少存在运维体系和人员两大方面的问题,张冬洪表示:一方面,运维体系不健全,缺少必要的运维管理平台;组织结构没细化,管理混乱,内部分工不明确;监控体系不健全,没有一个完整的流程和体系,除了基本的系统硬件、应用监控,缺少必要的业务监控,而且没有一个完善的灾备机制;前期缺乏对业务增长的预估和调研,有的缺少必要的性能测试,压力测试,导致架构设计不合理,可扩展性不强,系统不稳定,不能很好的满足业务快速增长的需要。另一方面,内部知识分享,文档库(wiki)建设不完善、凌乱,不利于运维人员的成长和部门知识体系储备。有的互联网创业团队,为了节约开支,节省成本,控制人员,给现有的运维人员造成极其重的负担,以至于在多数情况下不能较快地适应新技术,最终导致许多新技术不能被加以利用。

而在运维过程中经常会遇到诸如系统升级,软件包升级,安全策略制定,偶尔会遇到一些DDOS攻击,SQL注入,IDC光纤故障,IDC机房被攻击,操作不当造成业务瘫痪等问题。在中大型企业中,经常会有跨IDC的高可用架构方案的设计规划、异地容灾体系的构建、跨数据中心网络和监控体系部署等难题。

现如今,云计算正以其高可靠性、规模大、高扩展性、虚拟化支持、高稳定性、通用性强、资源利用率高等强大的优势迅速占领高地,运维人员在云端进行运维需要考虑到哪些问题?

云运维要部署适合自身的IDC和网络

对IDC选择来说要从以下几个方面进行综合的权衡,IDC基础设施是否具备较好的冗余性和高可用性,IDC的规模和专业程度、IDC的服务质量、IDC的租用价格(BGP机房、机柜、带宽)、IDC的历史故障率以及响应速度、IDC周边设施(优先选择周边有其他运营商)、IDC的UPS是否冗余、IDC的网络运营商的覆盖面(优先选择覆盖面广,本地线路资源多的)以及是否有较为完善的监控体系和抗Ddos攻击能力。

从网络层面来讲,首先在硬件上就要选择合适的厂商设备,在构建网络高可用时一定要选择同一类型的设备做主备或者堆叠,并且要做好配置备份和及时进行升级。如果有充足的预算可以考虑万兆交换机(通常是千兆交换机)来提高吞吐量。如果是部署的私有云网络,可以通过设置trunk和channel来实现简单的vlan(可以采用openvswitch、linuxbrige等),切记管理网络和业务网络需要分离。在私有云内部也需要划分不同业务和不同网段,默认不需要出外网。特殊情况下,可以通过设置来实现访问外网,来提高安全性。如果企业有需求要构建自己的内部局域网,类似AWS的VPC这种功能,可以运用vxlan或者SDN比较前沿技术。

私有云运维自动化过程中系统需具备可部署性