本文作者:陈怀临, 中云网技术顾问 弯曲评论创办人 北极光创投投资顾问
4 案例研究--亚马逊AWS
4.2 Amazon AWS服务宕机调查 (2006-2009)
Amazon AWS自2006年3月14开放S3文件存储服务和2006年8月25日的EC2服务, 2008年8月的EBS服务以来, 经历过许多服务崩溃下线. 其中包括EC2, S3和EBS等. 其影响面涉及到租用其服务的许多重要的互联网公司.
AWS在2008年2月16日, AWS的S3发生严重的服务宕机并导致许多AWS的用户的服务中断. Amazon的AWS团队进行了深刻的反思,并在4月8日, 开始提供AWS Service Health Dashboard, 每天跟踪发布各种服务的可靠性.
本节试图对AWS上线的重大宕机事件做一个整理列表,并做相应的讨论.
1 Apri 1, 2006
Amazon在开放其S3存储服务不到一个月, 在2006年4月1日,S3发生宕机事件.
事故原因:S3
事故恢复:6个小时
事故解释: AWS团队做S3存储的负载均衡的管理调配.结果导致内部网络负载崩溃,从而使得S3子系统服务宕机.
相关URL: https://forums.aws.amazon.com/thread.jspa?threadID=10185
2. Sept 29 . 2007
Amazon的EC2发生宕机, 有些客户丢失了数据. EC2 API管理功能被短暂的停止使用.
事故原因: EC2
事故恢复: 4个小时
事故解释:
相关URL: https://forums.aws.amazon.com/thread.jspa?threadID=17211&start=0&tstart=0
Amazon的AWS团队的解释是AWS的一些管理软件错误的设置导致了一些客户的虚拟机被误杀.当时为了确保整个AWS服务的安全,AWS团队迅速暂时停止了EC2的管理API功能.
3. Feb 15, 2008
08年2月15日, 是Amazon官方对外承认和解释的第一次重大事故.也从根本的角度影响了产业界对公有云可靠性的认识和警惕. 并直接导致了Amazon决定加强服务可用性的监管和透明化.
事故原因: S3
事故恢复: 3个小时
事故解释:
S3服务子系统的认证(Authentication)服务无法承受突然的大面积的服务请求, 从而导致S3系统瘫痪. AWS的官方解释可参阅:
http://www.zdnet.com/blog/btl/amazon-explains-its-s3-outage/8010
在这次重大宕机之后, AWS团队对业界承诺要作出”Service Health Dashboard”, 从而可以透明的使得用户了解AWS各种服务状况.
4. June 5, 2008
08年6月5日, Amazon在东部弗吉尼亚的数据中心找到雷电击.导致该区域的一些EC2服务宕机.
事故原因: 雷电
事故恢复: N/A
事故解释:
雷电导致东部弗吉尼亚的数据中心失去电力.导致EC2宕机.
相关URL: http://www.datacenterknowledge.com/archives/2008/06/05/brief-outage-for-amazon-web-services/
5. June 6, 2008
08年6月6日, 基于Amazon本身的网上零售业务突然宕机. 主要是美国和英国的业务.但AWS本身没有出现异常.
事故原因: Amazon没有对这次事故作出任何官方解释. 只是在非正式场合解释了”Amazon的网络系统非常复杂. 出了点小事情是很偶然和正常的...”.
事故恢复: 3个小时
事故解释:
由于Amazon没有对事故作出正式的解释,业界的猜测是Amazon的负载均衡业务,例如DNS服务出现了问题. 另外一种说法是Amazon遭到了木马的恶意DDoS攻击. 证据是, 在Amazon主站点宕机的同时, Amazon拥有的IMDB站点(http://www.imdb.com)被DDoS通过流量和层7放大攻击. 其攻击流量大概是3Mbits/sec. 下图是当天Amazon美国和英国站点的宕机情况.
6. July 20, 2008
08年的7月20日, S3再次发生重大宕机事故. 许多重要的客户受到影响,例如Twitter.Twitter所有的图像基本上都是存放在Amazon的S3系统里.
事故原因: S3
事故恢复: 8个小时
事故解释: S3服务器之间控制信息流不收敛,从而导致S3服务器无法处理任何用户的服务请求. 同时Amazon也承认EC2的服务也受到了影响.有些客户的虚拟机无法运行. 另外, Simple Queue Service (SQS)的服务也受到了冲击和中断.
AWS的官方解释为: http://status.aws.amazon.com/s3-20080720.html
7. June 10, 2009
09年的6月10日, AWS的EC2发生重大宕机事故. 其原因是数据中心遭到雷电击,失去电力.
事故原因: EC2
事故恢复: 8个小时
事故解释:
自然气候, 雷电使得数据中心失去电力.
相关URL: http://www.datacenterknowledge.com/archives/2009/06/11/lightning-strike-triggers-amazon-ec2-outage/
8 July 19, 2009
09年的7月19日, AWS的EC2发生性能和宕机事故.
事故原因: EC2
事故恢复: 2个小时
事故解释: N/A
相关URL: http://www.datacenterknowledge.com/archives/2009/07/19/outage-for-amazon-web-services/
9. Oct 5, 2009
09年的10月5日, Bitbucket公司(一个在线开源项目服务公司)在AWS上的业务宕机19个小时.
事故原因: EC2, EBS
事故恢复: 19个小时
事故解释:
Bitbucket在AWS上的服务被黑客用流量攻击的方法打瘫服务. 最开始使用的是UDP Flooding.然后转换为TCP的Flooding. 服务停顿了19个小时. AWS的运维团队在处理过程中表现的缺乏经验.
相关URL: http://www.networkworld.com/community/node/45891
10. Dec 10, 2009
09年的12月10日, AWS的EC2发生宕机事故. 其原因是数据中心遭到雷电击,失去电力. 地点发生在东部北弗吉尼亚的数据中心
事故原因: EC2
事故恢复: 45分钟
事故解释:
自然气候, 雷电使得数据中心失去电力.
相关URL: http://www.datacenterknowledge.com/archives/2009/12/10/power-outage-for-amazon-data-center/