美国互联网服务提供商CenturyLink周日遭遇重大技术中断,原因是其一个数据中心的错误配置在整个互联网上造成了严重破坏。
由于停机的技术性质--涉及防火墙和BGP路由--该错误从CenturyLink的网络向外扩散,还影响到其他互联网服务提供商,最终导致更多其他公司出现连接问题。
今天因为CenturyLink中断而提供服务的科技巨头名单上包括亚马逊、Twitter、微软(Xbox Live)、EA、暴雪、Steam、Discord、Reddit、Hulu、Duo Security、Imperva、Namecheap、OpenDNS等大牌公司。
CloudFlare今天也受到了严重影响,该公司表示,CenturyLink的向外传播问题导致全球互联网流量下降3.5%,这将成为有记录以来最大的互联网中断之一。
根据美国CenturyLink的状态页面,该问题源于CenturyLink位于加拿大安大略省附近城市密西索加的数据中心。
Flowspec是BGP协议的扩展,允许公司使用BGP路由在其网络上分发防火墙规则。Flowspec公告通常用于处理安全事件,例如BGP劫持或DDoS攻击,因为它允许公司在几秒钟内更改其整个网络以做出反应并减轻攻击。
然而,今天,CenturyLink称其密西索加数据中心发出了一个不正确的Flowspec公告,有效地阻止了该公司的BGP路由扎根。
从远处观察到这一事件的CloudFlare认为,CenturyLink宣布了一组全新的BGP路由,然后通过错误配置的Flowspec规则意外丢弃了所有路由,从而有效地将整个网络陷入了循环。
BGP路由是保持互联网畅通的粘合剂。它们是互联网公司之间相互传递的一种信息。BGP路由告诉每个互联网提供商其网络上有哪些IP地址块可用。
然而,随着CenturyLink错误的Flowspec命令导致其网络内的一些路由器瘫痪,其中一些路由器也开始向其他Tier 1&34;邻近的互联网服务通告错误的BGP路由。
CenturyLink采取了罕见的步骤,告诉所有其他一级互联网提供商去对等,并忽略来自其网络的任何流量,从而修复了这个问题。公司很少做出这样的决定,因为这会导致其所有客户完全失去连接。
哇,那一定是一段时间以来最大的互联网中断之一。@CenturyLink请求其他第1层取消对等。这表明它一定是多么糟糕,无法恢复。客户放弃与3356的对等点,但路由不会被撤回。#哎呀。
-Andree Toonk(@atoonk)2020年8月30日。
根据L3/CTL的要求,我们已经禁用了所有对等会话,直到情况得到控制。很高兴看到全行业的合作,这对AS3356来说无疑是一个艰难的时期。Https://t.co/lbr38IHhyi。
-Johan Gustawsson(@Gustawsson)2020年8月30日。
该公司表示,总而言之,CenturyLink必须重置所有设备,并从干净的BGP路由表开始,从大约12:13 UTC到18:58 UTC,这个过程花了近7个小时才完成。
Cloudflare联合创始人兼首席执行官马修·普林斯(Matthew Prince)在分析这次中断时表示,这是一次严重的全球互联网中断。