一个国家要发展,没有能源是绝对不行的。对于汽车来说,这个能源是油;对于厨房来说,这个能源是气;而对于其他的工业、企业和家庭来说,这个能源就是电。
不用任何数据,我们就可以大致想象出国家电网公司具有怎样的规模和体量。而这样一个公司想要完成信息化改造,想要上云,想要部署大数据;那又会是一个不可思议的需求量。而国电南瑞就是这样一家主要为国家电网服务的系统集成商。
有句老话叫“靠山吃山”。守着国家电网这座金山的南瑞凭着自己的关系和背景本来可以轻松的“躺着赚钱”。但这家拥有系统集成一级资质的公司却并不想这样没出息的活着。因为做IT,他们是认真的。
为国家电网这样的超级公司服务,南瑞能够见到别的公司想都不敢想的系统规模,南瑞碰到的也是别的公司解决不了的问题。而在这样的环境中,南瑞积累的经验和得到的洞察是比营收更宝贵的东西。而凭着这些积累,南瑞想做的事就是研发。
自主高性能数据平台
面对国家电网这样规模的IT需求,南瑞碰到了很多深层次的问题。面对无尽的升级和系统扩容,南瑞总是在想:为什么用了这么多小型机,系统整体性能还是上不去?为什么用了这么多高端存储设备,系统的整体IO还是不高,响应还是很慢?是应用开发的不好,还是系统太庞大、并发太高?
总结下来,南瑞发现国电遇到的很多问题其实与早年的互联网巨头遇到的问题本质上是一样的。而且由于国家电网对高可用的硬性需求,问题只会变得更加复杂。
既然软件定义数据中心的思路能够解决互联网公司的问题,那国家电网的问题也应该遵循这个原则。当然,面对高可用这个绕不开的坎,照搬互联网那一套肯定也是不行的。
于是瑞腾高性能数据平台项目就这样上马了。
在很多人的印象中,IOE在IT系统上几乎是无所不能的。但在面对国家电网这样的公司时,IOE的顶尖设备也往往无能为力。
就拿处理性能来说,单台小型机虽然能够提供很高的性能。但小型机的扩展能力毕竟有限,遇到超过其容量上限的问题时,小型机也无能为力。而在系统内部的扩展性上,小型机虽然有很多接口和先进的设计来满足不同类型的需求,但在实际部署过程中,很多接口都是闲置的;而这种闲置就是浪费。一方面是性能瓶颈的存在,一方面又是资源的闲置。解决这种矛盾的唯一方法便是能够横向扩展的x86系统。
再说可靠性。在小型机时代,系统的RAS在很大程度上依赖于底层的硬件来实现。从5个9到6个9,可靠性的提升仅仅是每年几分钟的计划外停机时间,但企业付出的却是几十甚至上百倍的成本提升。拜互联网思维所赐,既然提升单点的可靠性太贵,那不妨以量取胜。借助分布式软件架构,x86系统可以用庞大的数量来成倍的提升可靠性,这样做既能满足性能需求而且在成本上还有优势。
而在IO方面,问题也十分类似。传统专用存储设备虽然能够提供不错的数据可靠性,但性能瓶颈过于明显。面对国家电网一个40-60万IOPS的ERP项目,传统存储几乎是无法完成的。而解决之道就是目前风生水起的SSD技术。
有了对实际问题的这些看法,南瑞瑞腾高性能数据平台的形态也就基本明确了。这是一套采用x86架构、易于横向扩展且能够借助SSD技术提供高IO的设备。当然,这套设备还要对实际的应用进行很好的优化。
经过与x86行业龙头老大的密切沟通,南瑞终于拿出了瑞腾高性能数据平台。以瑞腾2060系统为例,他自带6个分布式存储节点,能够提供100万IOPS;同时它还配备了两个计算节点和一个提供高可用能力的冗余节点。而这样一套平台可使单套数据库横向扩展为16个节点,整个平台可以支撑上百个计算节点和上千个存储结点。
而从实际的使用效果来看,标准双节点的瑞腾平台使用Oracle数据泵导入1.5TB只需要15分钟,而传统小型机则需要几个小时。而当系统节点出现故障,瑞腾平台可以在1小时内通过RMAN恢复13TB的数据,传统小型机在同样情况下恢复数据则用了38个小时。
南瑞背后的“两个大哥”
南瑞能够获得系统集成一级资质并完成瑞腾高性能数据平台的研发,与南瑞所处的环境和技术上努力都是分不开的。
国家电网作为南瑞的大哥和控股人,给了南瑞庞大的发展空间和表现舞台,让南瑞有机会接触到更大的工程和更高端的需求。