7月2日周日,从下午4:30开始,ca.la域名和所有子域名(站点、API、其他工具)几乎12个小时都无法访问。我们注册了一个备用域名,并通过社交媒体将客户引导到它,但我们仍然看到网站流量大幅下降,在此期间我们的iPhone应用程序不可用。
当我们有停机时间时,我们会进行尸检,找出哪里出了问题,以及下一次如何避免。我们发现这本书很有趣,我们想你也会喜欢看的。
由于我们的域名注册表存在安全问题,另一家注册商(不是管理我们域名的注册商)无法正确地将我们的域名标记为待删除。根据ICANN规范,当域处于“待定删除”状态时,即使正确配置了DNS记录,它也不再包含在区域文件中,并且变得不可访问。
当直接查询时,所有服务器都愉快地为请求提供服务。当通过他们的*.ca.la子域访问时,它们是不可用的。
我们的命名服务器记录仍然指向CloudFlare,它正在启动并运行,提供正确的响应。
$whis ca.la域名:CA.LA...。注册表到期日:2020-04-20T23:59:59.0Z注册器:Gandi SAS注册器IANA ID:域名状态:PendingDelete https://icann.org/epp#pendingDelete。
虽然我们已经续订了几年的域名,以确保我们没有到期的惊喜,但它被标记为“等待删除”。我们注册商的账户仪表盘显示一切正常-域名处于活动状态且未过期,过期日期正确显示为2020年。
3月1日,我们将我们的域名(ca.la)从原来的注册商(www.la)转移到甘地。一切都很顺利,我们和甘地续签了几年的域名。检查WHOIS结果给出了我们所期望的结果:
几周后,我们开始每周收到前注册商发来的电子邮件,告知我们的域名即将到期。我们与甘地确认,域名已完全转移给他们并续订,并忽略了这些通知,假设这只是他们的计费系统中的一个漏洞,不会影响我们。
令人惊讶的是,经过一番挖掘,我们发现,围绕域名管理的很多程序基本上都是在荣誉系统上完成的。
当你在注册商之间转移域名时,所有的授权码和电子邮件确认都是一层文件,而新的注册商刚刚宣布它现在拥有你的域名,并承诺他们已经确认了这一点。
EPP代码(如“待删除”)显然也是如此;只要注册商拥有对给定注册表(在本例中为CentralNIC)的登录访问权限,就没有什么能阻止他们向他们选择的任何域发布任何更新。
与通用顶级域(.com、.net、.Fashion等)不同,ICANN对特定国家/地区的“ccTLD”几乎没有控制。这意味着注册表操作员拥有完全的许可证,可以随心所欲地管理自己注册表的安全性-或缺乏安全性。
我们在7月2日下午3:00收到一封来自前注册商的电子邮件,标题为“域名到期通知”,但直到下午4:30域名变得无法访问时才看到这封邮件。此后不久,书记官长自动向登记处发出“删除”命令,该命令被毫无疑问地接受。
一旦发现问题,我们立即联系www.la和Gandi寻求帮助。我们在www.la的联络点还能够将我们与CentralNIC、.la注册中心和其他几个分机连接起来。
由于我们的整个域(包括MX记录)不可用,因此在停机期间,我们无法通过任何@ca.la电子邮件地址接收电子邮件。我们最初尝试登录www.la仪表板,查看我们可能能够自行解决的任何问题,但未能成功,因为登录验证过程需要单击电子邮件中的链接。
不幸的是,www.la工程团队直到第二天早上才能提供帮助,因为这起事件发生在他们所在的英国凌晨12:30。
我们联系了CentralNIC,并被告知他们不直接处理客户请求,任何问题都需要通过Gandi上报。甘地反应很快,代表我们联系了CentralNIC。尽管甘地定期跟进,但直到7月9日-情况得到解决很久之后-他们才得到回复。
我们打电话给ICANN,他们告诉我们他们无法协助处理ccTLD问题,但给了我们.la TLD的经理LANIC的联系方式。我们联系了LANIC的几个人,但仍然没有得到回复。
由于没有解决方案,我们注册了一个新的gTLD域名,更新了我们的服务配置以引用此域名,并开始通过社交媒体将客户引导到那里。
当www.la工程团队上线时,他们可以手动撤销“待删除”状态。该域名很快又可以使用了。
虽然我们认为注册处和注册处本身都有重大过错,但当我们看到意外的通知电子邮件时,我们会对没有及时跟进承担全部责任。
我们已经集中了我们的站点和API配置,使将来更容易在不同的域之间滚动,并删除了几个服务的不必要的别名层。
我们已经确保我们甘地账户上的电子邮件地址位于一个不是通过甘地注册的域名上,以避免再次发生类似情况时的通信问题。
我们希望我们提供给注册商和注册处的信息将帮助他们制定安全措施,以防止这种情况在未来发生在其他客户身上。
如果您在过去遇到过类似的问题,或者对如何防止类似的问题再次发生有任何想法,我们将非常欢迎您的意见和建议。