Skip to content

谷歌云宕机4小时:逃不脱的“宕机噩梦”,企业该如何自救?

谷歌云宕机4小时:逃不脱的“宕机噩梦”,企业该如何自救?

谷歌云发生故障,YouTube、Gmail、Snapchat 等受影响  


近日,谷歌云被曝发生故障,不少网站和服务因此遭到破坏,其中包括谷歌旗下服务以及非谷歌服务。据不完全统计,Snapchat、Vimeo、Shopify、Discord、Pokemon GO,以及谷歌的大部分服务,比如 YouTube、Gmail、谷歌搜索、G Suite 等均受到影响。



据了解,美国东海岸用户率先报告了这个问题,但 DownDetector 的报告表明,可能有更多地区受此影响。随后,一些欧洲用户也报告了这一问题,但北美地区用户受到的影响最大。DownDetector 发布的谷歌云平台声明中称 Google Compute Engine 遇到了多区域问题。


谷歌员工在 HackerNews 中表示,本次故障非常严重,以至于谷歌内部工程师相互沟通的工具也受到了影响,这让恢复工作变得更加困难。

从目前曝光的信息来看,本次故障可能与 Level 3 中断有关,这是一家总部位于美国的 ISP(互联网服务供应商),为谷歌数据中心提供连接和各种其他服务。


盘点谷歌云宕机事件  

事实上,云平台宕机并不是件新鲜事儿。近两年,因为云平台宕机造成的事故数不胜数,比如 Gitlab 曾因误删除引起服务中断 18 小时,并且无法完全恢复;亚马逊 AWS 因一条错误指令引起宕机,随后大部分互联网,包括 Slack、Quora 和 Trello 在内的企业平台停机 4 个小时;微软 Azure 公有云出现超过 8 小时的存储可用性问题等。

谷歌云在过去一年也曾多次发生宕机事件。


2018 年 1 月 18 日,谷歌云自动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。谷歌对此的回应是“网络编程失效”导致 Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。


2018 年 11 月 9 日,谷歌公有云上提供的 Kubernetes 服务(GKE)节点池建置功能出现异常,维运人员无法透过 Cloud Console UI 建立新节点。谷歌派工程团队调查故障原因,并开始着手维修。谷歌表示,受影响的企业用户可以先改为使用 GCP 内建的 gcloud command,建置新 Kubernetes 节点,这次的宕机时间长达 19 小时。


云平台宕机,企业如何自救?  

无论是传统环境还是云环境,都不能做到绝对的“持续可用”。大部分情况下,云环境的可用性和可靠性都比传统环境要高,这主要是因为云平台的运维更加专业。既然任何环境都有出现故障的可能,那么需要重视的问题就是“发生故障时,应该怎么办”。


首先,要接受风险,这一点很重要。从现阶段国内的云计算发展进程来看,上云是不可避免的,在这种情况下,企业应该保持正确的心理,毕竟只要是系统,都会发生故障。国内主流云计算厂商已经投入了大量精力和成本在可用性和可靠性层面,这肯定要优于不少技术能力不足、成本有限的企业自建服务器。如果出现这种情况,那么走应急预案,用非系统的方式尽量降低风险。例如,某个服务宕机了,及时在官网做出声明。


其次,分散风险。云环境的同城双活、异地灾备等方案基本就绪,尽量在经济和人员条件可行的情况下使用这些分散风险的方法。如果故障只出在一个服务器集群,采用异地灾备方案可以在最快时间切换到另一个集群,从而保持系统可用。虽然还是会有中断,但是可以最快时间恢复。


按照此模式,云下系统做云上灾备也是防范传统环境出现可用性问题的一种重要手段。作为企业的 IT 人员,日常做到以下四点可以尽可能避免云故障带来的损失。


  1. 备份、备份,还是备份,要异机异地;

  2. 数据容灾;

  3. 业务双活;

  4. 定期对灾备和双活进行演练。


尽管云平台会发生故障,但企业对云的信赖度依然很高。Gartner 研究主管 Sid Nag 曾表示,云服务市场的增长速度比几乎所有 IT 市场都要快,其中大部分增长是以传统非云服务为代价,尤其是基于云计算的 IaaS 需求在继续增长,预计将在未来 5 年呈现最快增长趋势。因此,我们不能对云服务故障抱有恐惧,而是要提高灾备意识。

相关推荐: 巴菲特不想与马斯克竞争巴菲特不想与马斯克竞争

一、巴菲特再临股东大会 时年93岁的沃伦巴菲特,拉着99岁的多年挚友查理芒格,第59次出现在了2023年的伯克希尔哈撒韦年度股东大会。 每年5月初,这位“股神”都会在公司总部奥马哈露面,连续数小时参与投资者问答环节。这一活动也被全球投资者视作朝圣之旅,抓住机会…

    码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.

    电子商务网站建设的重要性和好处