【尚吉刚/文】冲动是魔鬼。近期全国各省市云起云涌,陆续宣布的云战略和云计划,让人不禁想起这句古老的警示。其中重庆市的目标更是惊人:重庆设计待建的超级计算机,性能将是目前T0P500第一名 “K”超级计算机的十倍。在兴奋之后,我们应该去思考,我们是否陷入了一个由云技术和GDP共同刺激和粉饰的数字陷阱?
各省市陆续发布的云计算宏伟蓝图,将云计算中心或者超级计算中心的建设放在了突出的位置上。我对计算的发展和进步一直持热烈的支持态度,但因为工作关系能了解到一些数据中心的真实运行状态,所以我对各地政府主导的云计算和超级计算的建设规模和狂热程度捏把冷汗。
首先,齐上、大上云基地和计算中心是本轮发展的一个重要特征,且基本不分地域和基础,大有全面开花的趋势。但需要我们正视的是,能源供应和地理位置计算中心选址原则的大问题。
超级计算机往往是耗能大户,就拿日本“K”超级计算机而言,它的功率达到了12660千瓦,这实际上是个极其庞大的数字。如果性能提升10倍,即便工艺和技术成熟度可以抵消掉一些能耗的增加,但总体算下来总功率负荷仍有可能超过50000千瓦、甚至接近100000千瓦。按照新增1千瓦时新增发电、送电设备需要5000元左右的粗算成本,建设一个超级计算中心所需的新增电能负荷也是个惊人的数字,如果常年开机运行,其消耗的电力和庞大的电费也同样是巨大的经济负担。若常年闲置,其硬件折价带来的资产损失同样是极其巨大的。
谷歌为了给数据中心散热,特地选在了一个水源地旁边建设数据中心,云计算中心的选址不单要考虑电力供应,还需要考虑当地的水资源、年度平均气温等环境指标,因为每一个要素都可能对后续成本造成巨大的影响。
现在多数的大城市都面临缺电缺水的局面,而新增发电容量在环保口径越来越严格的前提下,我们也不能做太高的期待。所以,发展云计算基地和超算中心,地理要素是不得不面对的。发展云计算产业,靠三天两头地拉闸限电解决不了问题,能源问题就如同地利,这就决定了云计算不应该也不可能在各地都开花结果。
其次,中国云计算产业发展最大的挑战,可能并不是云计算资源的硬件建设,而是大量能够掌握云计算核心技术的人才匮乏。由于历史原因,原有的超级计算机往往被优先应用在国防、科研等高精尖领域,所以超级计算机的实际应用场合其实是相对狭小的,而超级计算机的利用方法和方式也并不普及。从欧美等发达国家的经验来看,超级计算机对实体经济的拉动和帮助作用并不大。如果各地陆续建成能进入T0P500名单的超级计算机,如何将其商用、如何将其民用,在技术和人才缺口上都是巨大的挑战和难题。
像在内蒙、山西这样能源充裕的地区,发展云计算产业基地在能源供应的地利上没有问题,但在高端的云计算人才的“人和”方面还是匮乏的。从全国层面来说,也仅有阿里巴巴、百度等数量非常有限的公司掌握着核心的云计算技术和经验。铁道部网上售票系统,就是非常生动且残酷的现实案例,不管愿望多美好,在用户负荷变化剧烈的情况下,技术和管理不成熟的云计算资源都可能出现问题,这对于商用来说甚至是灾难性的。
现在全球性的跨国公司在中国建立云计算中心的过程中,表现得积极又主动,非常乐于在技术和方案上帮忙,因为在这个过程中它们可以销售出数量庞大的处理器芯片和其它硬件,但在云计算最终要靠应用服务和收费来实现产业链的贯通,在此方面这些国际巨头并不能给我们太多实质性的帮助。在实际的应用开发环节,还主要得依靠自己的力量。由于目前进入T0P500的超级计算机采用的硬件标准和软件系统各不相同,目前各地建成的超级计算机中心也自然是采用不同的标准,这就为实际应用时的程序开发带来了巨大的困难,云计算标准需要在利益博弈中取得平衡和结果,全国各地在云计算中心的建设上如果各搞一套标准和方案,将来在实际运营中将出现巨大的隐患和麻烦。
第三,云计算产业目前在中国的发展现状与它在理论上具有的优势,存在着巨大的反差。云计算的目的和意义,就在于整合计算资源,提升计算资源的效率,从而让用户得到更为经济实惠,而且方便易用的计算服务。
但在残酷的现实中,云计算产业链上的任意一环出了问题,生意就可以亏本。比如超级计算机一旦运行,就面临着数以千万元甚至亿元计算的电费开支,元件提供商总会说超级计算机每单位功率的计算能力是最优秀的,所以性能越高的计算资源越环保节能,但他们往往故意对一个关键指标忽略了,那就是实际的计算负荷水平。超级计算机的平均计算负荷水平通常来说都是非常低的,如果在排队的计算任务不足以形成一定负荷的持续计算压力,那么超大型计算机在商用市场的经济性方面就毫无优势可言。
超级计算机在作为国家战略的执行工具时,可以不计成本,但如果商用,就必须直面成本和收益的考验。
像淘宝在面临着双十二疯狂促销活动时,并非更换了性能更高的超级服务器,而是采用了低功率的服务器群组做平衡部署,原因就是真实的商业客户必须要在经济性和计算需求方面做好平衡。这才是真实的云计算商业需求和应用实例。而新闻通稿中经常出现的“迫切的”基因研究、气象研究、地震预报等需求,其实也并不需要全国建十几个超算中心来支撑其运行。
科技投入肯定要具备前瞻性和超前性,但全国各地如果都大上、特上云计算中心,一旦计算资源的增加远远高于需求,或者由于人才问题,使得云计算中心的负荷水平都处于低位,那么云计算的效率和成本优势必将消失殆尽。
随着国内网络带宽的提速,互联计算会提升计算资源的利用率。但全国各地陆续发生过为保护本地啤酒,不让外地啤酒品牌进入行政乱执法行为。在各地计算资源冗余的情况下,会不会出现依靠行政命令来干预对云计算服务选择,这些都需要我们做针对性的预防。
如果云计算基地都是商业公司来运营,我觉得他们如何投资和选择都是无可厚非,高科技行业必然要承担较高的风险,并在优胜劣汰的过程中体现效率和成本的神奇作用;如果这些云计算或者超级计算中心,是政府投资或者国家财政支持,那就需要非常详尽的投资时间表和计划书,以及详尽的投资回收率预算,并请清晰注明是哪些专家和学者在支持和赞同那些目标宏大的云计划和云蓝图,原因和理由是什么。
民众有无权利知道每个光辉的云计算产业数字背后需要多少血汗钱来支撑?投资云计算需要承担多大的风险?谁将为这些风险来负责?而这些,恰恰是我在各地云计算发展蓝图中所未见,希望在下一张“云”图上能够看见。