联邦通信委员会(Federal Communications Commission)已经完成了对T-Mobile网络中断的调查,主席阿吉特·派(Ajit Pai)称这是不可接受的。但FCC并没有惩罚这家移动运营商,而只是向电话公司发布了一份公开通知,提醒他们业界公认的本可以防止T-Mobile中断的最佳做法。
6月15日,在全国范围内12小时的停电中断了短信和通话服务,包括911紧急呼叫后,派写道,T-Mobile网络中断是不可接受的,联邦通信委员会正在展开调查。我们要求得到答案--美国消费者也是如此。
派有与航空公司强硬交谈的历史,而不采取可能比严厉的警告更具威慑作用的惩罚。昨日,当FCC宣布对T-Mobile的调查结果时,似乎再次发生了这种情况。帕伊表示,T-Mobile的停电是一次失败,因为运营商没有遵循本可以防止或将其降至最低的最佳做法,但他没有宣布惩罚措施。根据昨天的声明,此事似乎已经结束,但我们今天联系了T-Mobile董事长的办公室,询问是否即将对T-Mobile进行惩罚。如果我们得到回应,我们将更新这篇文章。
工作人员调查报告指出了T-Mobile在停电期间犯下的几个错误,停电始于T-Mobile在美国东南部安装新路由器。当该地区的一条光纤传输链路出现故障时,T-Mobile的网络应该已经通过另一条链路传输流量。但运营商错误配置了通往其路由器之一的链路权重,这阻止了流量按预期流向新的活动路由器。T-Mobile没有实施任何故障保护程序来防止错误配置或提醒网络工程师注意该问题。
亚特兰大市场变得与网络的其余部分隔离,导致该地区的所有LTE用户都失去了连接。一个软件错误阻止亚特兰大地区的移动设备通过Wi-Fi向IP多媒体子系统重新注册,从而使情况变得更糟。注册系统不是将设备注册尝试路由到不同的节点,而是重复地将每个移动设备的重新注册尝试路由到其记录中保留的最后一个节点,该节点由于市场隔离而不可用。
这个软件错误已经在T-Mobile的网络中存在了几个月了。FCC表示,在这次中断发生之前,这个软件错误可能没有造成问题,因为这次中断是自T-Mobile将该软件整合到其网络中以来,第一次显著的市场隔离。联邦通信委员会还表示,定期测试本可以在软件缺陷和路由错误配置影响现场通话之前就发现它们。
6月15日事故开始后,T-Mobile的工程师们因为误诊了问题,最终加剧了停电的影响。FCC的报告还说:
T-Mobile认为,当天早些时候发生故障的光纤传输链路继续导致持续的停机。基于这一信念,T-Mobile手动关闭了链路,试图将流量从该链路转移出去。然而,由于开放最短路径优先权重仍然配置错误,这些步骤重新创建了停电的初始条件。亚特兰大市场的LTE客户再次被切断与LTE网络的连接,被迫通过Wi-Fi建立通话,他们的注册尝试再次失败,并引发了一场注册风暴,使T-Mobile的IP多媒体子系统进一步拥堵。
T-Mobile的工程师几乎立刻意识到他们误诊了这个问题。但是,他们无法通过恢复链路来解决问题,因为执行此操作所需的网络管理工具远程依赖于他们刚刚禁用的相同路径。当T-Mobile工程师能够在现场访问设备并在一小时后通过恢复链路来纠正他们的错误时,亚特兰大市场的客户再次能够尝试注册VoLTE[LTE语音]。然而,这再次造成了额外的拥堵,因为T-Mobile的工程师还没有解决导致注册无法完成的软件错误。
FCC的报告解释了停电是如何从亚特兰大市场蔓延到全国的。发往亚特兰大系统的外部通信量被重定向到其他地区,这在这些注册系统中造成了足够的拥塞,从而导致T-Mobile网络将注册尝试发送到其他节点。该软件错误再次将重新注册尝试路由到记录的最后一个节点,该节点可能已经出现严重拥塞。不久之后,IP多媒体子系统、VoLTE和Wi-Fi语音注册开始在全国范围内失败。
绝大多数T-Mobile客户无法连接到LTE语音或Wi-Fi语音网络,因此退回到T-Mobile的3G和2G电路交换网络拨打和接听电话,同时T-Mobile继续尝试向VoLTE网络注册。这导致3G和2G拥塞,导致许多电话呼叫失败。在呼叫终止后,网络节点继续持有这些呼叫会话的资源,使节点的计算资源不堪重负,并导致更多的呼叫失败。