Gmail事件启示:特大规模云计算不见得是好事

【核心提示】云的规模经济效应果真是好事吗?你有150万个用户时,你能够保护他们所有人,并恢复他们的数据吗?哪怕仅仅是一次增量备份,也会带来海量数据。

几乎就在整整一年前,谷歌Google Apps的高级产品经理Rajen Sheth还在竭力宣传谷歌那一套全新的灾难恢复基础架构有多么地出色、具有的规模经济效应又会带来怎样的优势。Sheth在谷歌企业官方博客上吹嘘,谷歌在采取同步复制技术,将数据复制到多个数据中心;这么做对于普通企业来说成本过高,但是对于谷歌来说成本承受得了,这归功于这家公司有庞大的规模。所以,这就是为什么用户选择谷歌比自己托管电子邮件系统来得更安全。

瞧瞧后来发生了什么?谷歌存储更新软件的一个缺陷居然毁掉了存放在多个处理中心的所有那些同步数据文件,于是这家公司被迫回去拿出磁带,为4万左右个用户找到数据。这项工作听起来难度不小。要不然停运事件已经过去了四天,谷歌怎么直到今天才恢复了大多数客户的数据。还真要感谢那个积满灰尘的传统介质:磁带。

这就引出了一个问题:云的规模经济效应果真是好事吗?你有150万个用户时,你能够保护他们所有人,并恢复他们的数据吗?哪怕仅仅是一次增量备份,也会带来海量数据。

客观地讲,谷歌在与客户沟通方面一直做得相当到位,恢复过程似乎也进展顺利。换句话说,谷歌基本上做到了大家所预期的。IT研究分析公司Cutter Consortium的高级顾问Claude Baudoin说:“大家不应该控诉整个云计算模式,因为事件发生的概率比较有限。”实际上,据谷歌声称,Gmail在2010年的正常运行时间几乎接近四个9:达到99.984%。

问题在于,以Gmail这么庞大的规模进行运作时,小小的一次事件都会影响绝对数量非常多的用户。云计算(其实是公用计算改头换面而来的)让各大云计算提供商处在了与美国最大的有线电视服务商康卡斯特公司(Comcast)或离你家最近的那家煤气电力公司同样的境地。搜一下电视频道,要是没有什么好看的节目,最多只会让人有点失望;但是如果你的宽带连接中断,或者对方告知你的电子邮件帐户不存在,那完全是另一码事了。

谷歌是一个大受欢迎的品牌,而这样那样的停运事件也在所难免。确保服务正常运行能持续多长时间呢?同样这个问题值得每一家想在云计算领域大有作为的公司好好思考。