“统计云”破解国家统计局数据集中困局

“13亿人口的各项复杂统计两分钟就出了结果,而在过去则至少需要一天。”在4月底刚刚结束的第六次全国人口普查中,由10台IBM POWER服务器组建的几组集群作为核心业务系统的硬件核心,给国家统计局数据管理中心主任许剑毅留下了深刻的印象。不仅如此,随着国家统计局核心业务系统二期的建设,一个覆盖全国、随需扩展、统一业务的“统计云”正初现规模。

在不少政府部门和企事业单位仍对云计算观望的时候,国家统计局已经实实在在地进行了云部署,并计划提供云服务。“总要有第一个吃螃蟹的人。”许剑毅对云计算充满信心,“我们的核心系统方案经过多名专家历时一年半的论证和规划,现在已经初现成效。比如下一步我们即将开始推广企业联网直报系统,一期目标覆盖百万企业,未来将覆盖千万企业。”那么,国家统计局如何成为第一批“吃螃蟹”的机构?这套新的核心业务系统的云架构什么样,又如何为统计工作提供云服务呢?

近10年的困扰

国家数据统计层级共分为国家、省、地、县、乡、村六级系统,采取统一领导、分级负责的体制,这也遗留下来一个历史难题:各级统计在事实上形成了多套系统、应用散乱的局面,不仅国家很难获得全面的一手数据资源,各地甚至各县、乡都要自建机房,这也造成了资源浪费。尽管国家统计局信息化建设很早,从微机代替算盘开始起步,还在国内建立了第一个广域网,进而解决了数据直报的时效性难题,但此后,海关、税务等部门通过“金字工程”纷纷搭建了网上报关、网上报税等统一的业务平台,而国家统计局却在相当长的一段时间内无法实现全国统一的统计平台。
怎么做到数据大集中下的核心资源整合?以前国家统计局各项统计业务都建立在独立系统之上,随着业务的增长,需要不断地投资,不断购买新的系统。据国家统计局数据管理中心处长王洪琛介绍,2002年开始的整合是将独立系统的服务器资源从各个办公室搬到统一的中心机房中来,但当时虚拟化、云计算的技术还不够普及和成熟,物理上的统一并不能保证业务的需求。为此,数据管理中心的技术人员为了能够解决业务中的实际难题,推动业务的发展,近十年来一直在跟踪新的技术趋势。2005年,国家统计局就捕捉到PC服务器上的虚拟化技术趋势,率先在一台PC服务器上支持多个应用,解决了不少实际问题。但数据大集中下的核心资源整合,还需要满足安全、可靠和高性能的高端服务器集群的技术支持。随后掀起的云计算浪潮则深深吸引住了国家统计局数据管理中心的每一个人:如果这样一种如用水用电般简单灵活的服务可以实现,那么全国数据大集中下的核心资源整合难题将迎刃而解。

小型机担重任

全国数据大集中下的核心资源整合到底有多难?许剑毅表示,国家统计局的应用系统是一个庞大的系统。首先,处理信息量很大,可以说是海量数据,除了常规收集社会经济发展信息以外,还有一些大型的国情国力调查;从数据本身来说,还包括图像处理,比如人口普查,一张表就是一张图像,信息处理量巨大。
其次,统计数据的时效性很强,除了年报还有很多月报。这也造成了数据的高并发性特征,比如联网直报中,可能有几十万家企业集中在每月的某一两天报送数据,这就需要高并发处理能力强的硬件系统。许剑毅说:“为此我们遇到了矛盾。从硬件的处理能力来看,大型主机当然适用,但主机系统开销太大,对于国家统计局这种并非直接产生效益的部门来讲,一定要选择性价比更为突出的硬件设备。”

为此,国家统计局数据管理中心在核心业务系统的硬件核心中选择了小型机,并在二期工程中购入了包括4台最新的IBM POWER780在内的小型机。“我们的虚拟化与一般企业正好相反。”许剑毅解释说,“一般企业的一台小型机会通过虚拟化承载多个应用,而我们的小型机恰恰相反,为了能够替代大型主机,这些小型机通过集群的方式组成系统资源池,来满足海量数据、高并发处理的需求。”核心业务系统这一平台,有效解决了IT系统在技术设施建设层面自成体系、IT基础设施资源无法共享和协同调度、资源利用率不高、管理和维护成本高的问题。新型小型机作为核心业务系统的硬件核心,也完善了应用计算方面的处理能力。

资源池构建云基础

目前,国家统计局数据管理中心在“统计云”核心业务系统形成了四大资源池:Web服务器资源池、应用服务器资源池、数据库服务器资源池和存储资源池。存储资源池采用了统一的存储,实现了对老旧设备的统一管理。数据库资源池通过IBM基于POWER小型机的虚拟化技术实现了整个数据库的资源灵活调用。应用服务器根据应用的不同选择了异构架构,包括IBM POWER小型机,同时也选用了其他品牌的小型机和PC服务器,组成虚拟化的应用服务器的资源池。异构原理是通过负载平衡来实现的,每个资源池之间通过防火墙以及其他安全手段实现了隔离。

对于运维人员,它带来了切实的好处。首先通过IBM Tivoli的监控平台和自动部署功能,技术人员日常的管理运维更为简单。比如原来为一台独立的小型机部署应用,需要安装系统、打补丁、装数据库等一整套的程序,至少需要半天时间,而现在通过自动化的管理监控软件,不到半个小时就可以部署成功。第二,资源分配非常灵活,虽然还不能完全实现私有云的服务概念,但是真正能够实现资源在一个池子内灵活调配,满足不同业务的需要。王洪琛强调:更重要的是,每个云服务的用户都希望得到最高效的资源。以前业务部门都需要数据处理中心为自己的业务购买高配置的服务器,这就给运维部门带来了压力。而现在,这个平台按照逻辑分配的性能最优原则为业务部门提供云服务,而且增长量灵活分配,监控报告还可以随时告诉用户资源的调配情况。

云服务渐行渐近

IBM POWER小型机集群很好地发挥了高性能和高并发处理能力。“可以说这个系统的性能得到了惊人的发挥。”许剑毅表示,“以企业联网直报为例,以前我们以每个月为一个周期,处理量是百万级别,按照目前测算,新系统一天的处理能力是千万级别的,处理能力大大超出我们的想象,完全满足了我们业务的需求。”

现在,国家统计局数据处理中心正在开发全国的统一数据处理的应用平台,建成后,中心将集中全国的统一业务,使得核心业务系统可以为整个统计工作提供云服务。这样,企业在全国任何一个地方登录这个平台,都可以完成企业的报送任务。同样,一个基层的统计人员登录这个平台后,可以看到他所管辖的这些企业的报送情况,并及时发起催报和数据审核工作。这意味着,每个人在这套系统中都有唯一的身份,从而确定了相对应的管理权限。核心业务系统将彻底改变过去系统建设分散、系统不统一、机房建设浪费等状况,为整个统计局的业务处理提供一个云服务。未来,企业联网直报将从现在的百万级别提高到千万级别,核心业务系统也将整合更多的数据和应用,而开放的架构让许剑毅格外放心:系统不够用可以横向和纵向扩展,新机器将兼容老的小型机,做到真正资源灵活扩展,灵活调配,灵活服务。“我们建设中的系统平台距离我们云服务的目标越来越近。”许剑毅充满信心。