“Hi, 各位尊敬的 TeamCola 用户:
非常抱歉,从昨天下午17点32分开始,TeamCola服务器挂了。
具体的原因,是我们的阿里云服务器出现磁盘错误,在维护过程中执行了重启操作,然后就彻底挂了。最坏的情况是10月13日的所有新增数据丢失。再一次的为这次事件表示我们的歉意!我们诚恳的希望得到你们的谅解,在国内找一家靠谱的运营商太困难了 :(---- TeamCola 团队”
打开teamcola的官网http://teamcola.com/,以上言论赫然眼前,作为开发团队工作日志工具的创始公司,teamcola才刚刚崭露头角就立即受到了用户的关注和热情试用,昨日却突然出现挂机事件,这是怎么回事?
挂机事件解析
Teamcola是一款页面友好、使用便捷的团队工作日志记录软件,提供记录、汇总、订阅、邮件等功能,方便查阅团队工作进度、统计分类工作并能快速响应用户需求。据官网和新浪微博显示,本次挂机主要原因还是运营商阿里云的“不靠谱”,并且teamcola微博最新消息,“阿里云方面数据回滚已完成,确认12日与13日的数据已丢失。为确保服务的稳定性我们正在重装系统,TeamCola 预计今天下午三点左右恢复服务。”
中国软件网记者立即关注了teamcola相关人员并询问本次事件的过程和起因:
“企业用户的数据丢失真不是一件小事,就算这次没事儿过去了,想问以后teamcola会不会更换运营商呢?怎样才能建立起云安全和云诚信呢?”
古龄:首先我们自己会做好异地数据备份,这样就算阿里云出问题了,我们也能很快的切换到镜像平台上,另外我们虽然有很多不满,但是不会一棒子打死,只是希望我们自己和其他所有服务提供商都能踏踏实实的做好本分的工作,特别是在这个本来就很落后的国家 :)
“我看到有人说本次事件不全是阿里磁盘错误,那到底是什么原因呢?”
古龄 回复@刘小菲Soft6: 从一开始是在系统上无法创建目录,然后我们写了一条工单询问,按照阿里云的方法处理后还是没有解决,于是我们重启了一次服务器,但是我们的web server需要输入ssl证书的密码,所以无法远程启动,阿里云的工程师没能第一时间判断出来问题,导致他们认为是系统出了无法修复的故障。
“第一,为什么最开始系统出现无法创建目录的情况?第二,你们在重启之前不知道无法远程启动吗?第三,既然远程启动不成功为神马木有及时联系到阿里云告知详情呢?”
古龄 回复@刘小菲Soft6:1. 这个问题的原因是阿里云的操作系统不支持升级,而我们在不知情的时候做了升级操作,所以更新的内核会导致偶尔无法正常创建文件夹;2. 我们确实不知道重启后网卡会后于web server重启,但是;3. 让我们觉得非常不好的是,昨天晚上我们反馈这个问题后,阿里云没有工程师或客服来跟进。
首先,看得出此次挂机事件还是比较严重的,对于用户而言,数据丢失可大可小,甚至可能导致企业用户丢掉饭碗。对此,teamcola团队已推出补救方案,但补救的也许更多是用户心中的惊吓和疑问而不是业务资金上的丁点儿数字。
其次,本次事件虽然主因在阿里,并且根据teamcola人员的反应来看,阿里的态度并不尽人意。“没能第一时间判断出来问题”“没有工程师或客服来跟进”,笔者毕竟想问问阿里的工程师去做客服而客服去做工程师了吗?
第三,作为初始创业公司,思虑不周全,与运营商连通不顺畅也是很大一部分的原因。没有提前做好备份;没有提前了解清楚操作系统是否支持升级和是否支持远程重启便贸然执行;没有与阿里那边“上下一气”,做到有效沟通。都是一早便为本次挂机事件埋下的隐患。
云安全并非说说 云诚信悬空未落
本次挂机事件,许多用户都对云安全提出了疑问,甚至提出了一个新的口号叫“云诚信”。想来也确然,云计算的概念在国内炒得是风风火火,而云计算的落地却“雨点”小的很。这多少让国人有点杞人忧天,安全问题是头等大事,数据丢失好歹还是有用的没用的数据都羽化升天了,要是有效数据不幸泄露可如何是好,这不禁让很多用户对徜徉云端望而却步起来。
“微笑的delia //@蔡学镛:这种新闻看多了,会让人不太敢用云计算的服务呢!要是数据真丢失了,那是很恐怖的事 //@Fenng:云服务器咋还挂了呢?阿里云的人呢?”
“James_wugq 云的最基本功能之一就是就决数据安全问题,否则叫什么云啊?”
“丽人购物 在中国,云服务可怕的不是技术问题,可怕的是人心和诚信问题,云服务在中国,等诚信体制建立起来再说吧,不然别人掌握着你的数据和信息就会变成别人捞钱的工具//@建时:云服务器 可怕 //@蔡学镛:这种新闻看多了,会让人不太敢用云计算的服务呢! //@Fenng:云服务器咋还挂了呢”
“兆民云计算官方微博 做云服务,必须小心小心再小心啊。一次宕机、一次出错,不仅会给客户带来灭顶的损失,更能把公司的饭碗全部砸掉//”
据悉,目前teamcola已正常运转,想要试用可直接登录官方网站http://teamcola.com/申请。虽然本次事件事发突然,但用户普遍还是对teamcola团队及时通知用户和致歉的态度表示了欣慰和满意。中国软件网也将继续为您关注创始公司的点滴发展。
附阿里云进展回复
阿里云在 2011-10-14 09:33:04 回复: 回滚已完成,目前系统开机自检,在继续观察情况,还请继续关注,谢谢。
阿里云在 2011-10-14 09:45:59 回复:您好,回滚到13号凌晨仍然无法启动,请回想一下什么时候主机是正常的,您什么时候做的升级操作,建议尝试回滚到更早的时间。
TeamCola在 2011-10-14 09:54:10 提交:主机从几周前前就偶尔有无法建立目录的问题,但是具体是哪天我也不知道,请回滚到10月 12日试试看呢?如果实在无法回滚,能把硬盘里的数据取出来么?我可以选择重新安装系统,但是数据可以还原进去。
阿里云在 2011-10-14 10:41:00 电话:(大意)工程师正在备份硬盘数据,备份后请重置服务器系统,老数据会在系统重置后由阿里云工程师挂载到新系统上,届时即可做数据恢复。工程师导出硬盘数据后会和我们联系。
阿里云在 2011-10-14 11:41:00 电话:(大意)系统已经由工程师回滚,但是由于系统不支持升级操作,所以回滚后的系统还是不稳定,建议备份系统中的数据,重置系统后再还原。(回滚的系统版本是2011-10-12零点左右的数据,因此丢失了12号和13号的,我们已经询问能否找回这两天的数据了)。
阿里云在 2011-10-14 13:35:00 电话:(大意)回滚到12号后就没有之后的快照文件,因此无法找回12号和13号的数据,因为系统在之前使用apt-get upgrade升级过kernel版本,但是阿里云的操作系统不支持,所以现在的系统还是有风险,所以建议重装一次系统。(我们已经开始重装系统,预计在今天下午3点左右恢复TeamCola的访问,再一次的,表示我们的歉意。)