2013年度国际十大服务器宕机事件

|  阅读量 | 分类: IT业界 | 作者: admin | 时间:2014年01月02日 00:00

2013年,由于火灾、洪水、电力以及软件更新等热门事件的发生,引起了众多数据中心出现停机故障。故障主要覆盖范围包括云计算、企业、网络支付、政府、 州以及相关地方。每起事件都给客户和终端用户带来了不少麻烦。但这也促使我们吸取经验教训:完善数据中心和应用程序,使其变得更加可靠。以下分别列出了 2013年的十项重大停机事件:

1.Healthcare.gov:联邦政府的在线保险网站已经成为IT领域出错的一个典型事件。这次事件已经不单单是一次简单的停机事件。该故障导致了一系列的硬中断和软中断,最终使该网站的功能几乎全部丧失。联邦政府曾尝试增加更多硬件设施来做弥补,但该网站在十二月初直到奥巴马管理的“IT团队”正确定位软件和解决数据瓶颈时才恢复其功能。之后,又通过正式成立医疗改革法案以及政治审查,该网站的性能才趋于完备。恢复之后的网站在一些会导致系统崩溃的关键点上加强了防备。Healthcare.gov转换Web站点性能这一这一事件应该是本年度的新闻头条。

2.BlueHost、HostGator和HostMonster的重大停机事故:2013年8月2日,由位于美国犹他州的数据中心所支持的几大全球知名品牌遭受停机事故,这也是2013年度波及范围最广的一次重大停机事故。该事故是由Endurance 国际集团在犹他州普罗沃的一个设施故障所引起,直接对其客户BlueHost、HostGator和HostMonster造成了重大影响。此次事件归因于Endurance服务器常规维护的硬件故障,但却直接迅速波及整个网络系统。

3.Visa停机事件横跨整个加拿大:2013年1月28日当天,Visa卡暂停服务,促使加拿大人民无法进行网络交易,给当地金融业带来了巨大的损失。该事故归因于TSS(Total System Services Inc.)的一个数据中心的崩溃,直接影响到加拿大商业银行、加拿大皇家银行以及道明加拿大信托银行。

4.Xbox One产品艰难发行:2013年11月,Xbox One产品成功发行,这对于协助于权威Xbox Live的Windows Azure云计算服务来说是非常不易的。早前,该平台一直被各种问题所困扰,其中包括存储和网络问题。但这并不是微软云操作平台的唯一一次瓶颈。2013年3月,某款软件的更新失败直接影响到其数据中心,最终使得微软的基于Web的电子邮件服务系统中断,Hotmail与Outlook.com同时离线长达16小时。

5.停机故障导致DreamHost客户离线:2013年3月20日,虚拟主机提供商DreamHost历经了一次长时间停机故障。该事故归因于美国加利福利亚州尔湾的数据中心的电力系统故障。此次停机事故持续两天,直接给DreamHost的35万多客户造成影响。

6.亚马逊云计算服务未免其难:微软并不是唯一一家遭受停机故障的云服务商。2013年,亚马逊出现了几次非常重大的停机故障,其中最严重的一次发生在8月份,这次事故对Amazon.com主页和AWS双方都造成了严重影响。9月份,连续的网络问题已经引起了AWS的第十三次停机故障,继而直接影响到由AWS提供服务的Heroku、Github以及其他网站。早在2012年圣诞前夕,亚马逊由于一起重大停机故障导致其平台关闭,这起事件甚至影响到Netflix。而亚马逊在2013年度的表现相对于2012年来说已经具有显著提高。

7.数据中心所引发的火灾导致美国密歇根离线:2013年4月17日,一场火灾直接摧毁了位于美国密歇根州马科姆县的数据中心,导致当地IT服务中断。马科姆县位于底特律西部,拥有85万居民人口。此前,马克姆县并没有备份数据中心,当地官员只能采用笔、纸、复印本以及笔记本电脑试图为网络做临时维护。目前该网络仍然处于中断状态,但新的网络运营中心有望在近期上线。该州政府和马克姆社区学院也伸出了救援,帮助其恢复运营。

8.多伦多洪涝灾害击垮科斯数据中心:一场巨大的暴雨导致多伦多遭受洪涝和停电灾害,这也给处于全市最大的数据枢纽中心的居民们带来了不小的挑战。而多伦多供电公司暂停供电时,位于151街道的一家酒店则采用发电机供电。然而,此次洪涝灾害仍然导致了一系列问题,一些数据中心并不能幸免于难。

9.美国新泽西州数据中心停机故障:2013年9月,美国新泽西州的数据中心暂停为一些国家机构服务,包括美国机动车委员会和一些州的官方网站。新西泽为州和当地政府提供的服务记录中已经存在一条最差记录,而在2013年1月和8月又连续出现两次长时间的中断故障。

10.雅虎艰难度过12月:上周,雅虎邮箱连续四天出现一些功能性问题,而雅虎首席执行官 Marissa Mayer对此已做出道歉。Marissa Mayer说,“本次停机事故比我们想象中的要严重很多,我们花了好几天的时间来恢复系统功能”。雅虎本次事件归咎于存储系统一个罕见的硬件故障。

来源: QQ/微信:lusongsong7 ,转载请注明出处!

本文地址: