关于云计算可用性的定性与定量研究(5)

本文作者:陈怀临, 中云网技术顾问 弯曲评论创办人 北极光创投投资顾问
 

4 案例研究--亚马逊AWS

4.2 Amazon AWS服务宕机调查 (2006-2009)

Amazon AWS自2006年3月14开放S3文件存储服务和2006年8月25日的EC2服务, 2008年8月的EBS服务以来, 经历过许多服务崩溃下线. 其中包括EC2, S3和EBS等. 其影响面涉及到租用其服务的许多重要的互联网公司.

AWS在2008年2月16日, AWS的S3发生严重的服务宕机并导致许多AWS的用户的服务中断. Amazon的AWS团队进行了深刻的反思,并在4月8日, 开始提供AWS Service Health Dashboard, 每天跟踪发布各种服务的可靠性.

本节试图对AWS上线的重大宕机事件做一个整理列表,并做相应的讨论.

1 Apri 1, 2006

Amazon在开放其S3存储服务不到一个月, 在2006年4月1日,S3发生宕机事件.

事故原因:S3

事故恢复:6个小时

事故解释: AWS团队做S3存储的负载均衡的管理调配.结果导致内部网络负载崩溃,从而使得S3子系统服务宕机.

相关URL: https://forums.aws.amazon.com/thread.jspa?threadID=10185

 

2. Sept 29 . 2007

Amazon的EC2发生宕机, 有些客户丢失了数据. EC2 API管理功能被短暂的停止使用.

事故原因: EC2

事故恢复: 4个小时

事故解释:

相关URL: https://forums.aws.amazon.com/thread.jspa?threadID=17211&start=0&tstart=0

Amazon的AWS团队的解释是AWS的一些管理软件错误的设置导致了一些客户的虚拟机被误杀.当时为了确保整个AWS服务的安全,AWS团队迅速暂时停止了EC2的管理API功能.

 

 

 

3. Feb 15, 2008

08年2月15日, 是Amazon官方对外承认和解释的第一次重大事故.也从根本的角度影响了产业界对公有云可靠性的认识和警惕. 并直接导致了Amazon决定加强服务可用性的监管和透明化.

事故原因: S3

事故恢复: 3个小时

事故解释:

S3服务子系统的认证(Authentication)服务无法承受突然的大面积的服务请求, 从而导致S3系统瘫痪. AWS的官方解释可参阅:

http://www.zdnet.com/blog/btl/amazon-explains-its-s3-outage/8010

 

 

在这次重大宕机之后, AWS团队对业界承诺要作出”Service Health Dashboard”, 从而可以透明的使得用户了解AWS各种服务状况.

4. June 5, 2008

08年6月5日, Amazon在东部弗吉尼亚的数据中心找到雷电击.导致该区域的一些EC2服务宕机.

事故原因: 雷电

事故恢复: N/A

事故解释: 

雷电导致东部弗吉尼亚的数据中心失去电力.导致EC2宕机.

相关URL: http://www.datacenterknowledge.com/archives/2008/06/05/brief-outage-for-amazon-web-services/

 

5.  June 6, 2008

08年6月6日, 基于Amazon本身的网上零售业务突然宕机. 主要是美国和英国的业务.但AWS本身没有出现异常.

事故原因: Amazon没有对这次事故作出任何官方解释. 只是在非正式场合解释了”Amazon的网络系统非常复杂. 出了点小事情是很偶然和正常的...”.

事故恢复: 3个小时

事故解释:

由于Amazon没有对事故作出正式的解释,业界的猜测是Amazon的负载均衡业务,例如DNS服务出现了问题. 另外一种说法是Amazon遭到了木马的恶意DDoS攻击. 证据是, 在Amazon主站点宕机的同时, Amazon拥有的IMDB站点(http://www.imdb.com)被DDoS通过流量和层7放大攻击. 其攻击流量大概是3Mbits/sec. 下图是当天Amazon美国和英国站点的宕机情况.

 

6.  July 20, 2008

08年的7月20日, S3再次发生重大宕机事故. 许多重要的客户受到影响,例如Twitter.Twitter所有的图像基本上都是存放在Amazon的S3系统里.

事故原因: S3

事故恢复: 8个小时

事故解释: S3服务器之间控制信息流不收敛,从而导致S3服务器无法处理任何用户的服务请求. 同时Amazon也承认EC2的服务也受到了影响.有些客户的虚拟机无法运行. 另外, Simple Queue Service (SQS)的服务也受到了冲击和中断.

AWS的官方解释为:  http://status.aws.amazon.com/s3-20080720.html

 

7. June 10, 2009

09年的6月10日, AWS的EC2发生重大宕机事故.  其原因是数据中心遭到雷电击,失去电力.

事故原因: EC2

事故恢复: 8个小时

事故解释:

自然气候, 雷电使得数据中心失去电力.

相关URL: http://www.datacenterknowledge.com/archives/2009/06/11/lightning-strike-triggers-amazon-ec2-outage/

 

8  July 19, 2009

09年的7月19日, AWS的EC2发生性能和宕机事故.  

事故原因: EC2

事故恢复: 2个小时

事故解释:  N/A

相关URL:  http://www.datacenterknowledge.com/archives/2009/07/19/outage-for-amazon-web-services/

 

9. Oct 5, 2009

09年的10月5日,  Bitbucket公司(一个在线开源项目服务公司)在AWS上的业务宕机19个小时.

事故原因: EC2, EBS

事故恢复: 19个小时

事故解释:

Bitbucket在AWS上的服务被黑客用流量攻击的方法打瘫服务. 最开始使用的是UDP Flooding.然后转换为TCP的Flooding. 服务停顿了19个小时. AWS的运维团队在处理过程中表现的缺乏经验.

相关URL: http://www.networkworld.com/community/node/45891

 

10. Dec  10, 2009

09年的12月10日, AWS的EC2发生宕机事故.  其原因是数据中心遭到雷电击,失去电力. 地点发生在东部北弗吉尼亚的数据中心

事故原因: EC2

事故恢复: 45分钟

事故解释:

自然气候, 雷电使得数据中心失去电力.

相关URL:  http://www.datacenterknowledge.com/archives/2009/12/10/power-outage-for-amazon-data-center/