截至2020年3月31日,Backblaze在我们的云存储生态系统中拥有132,339个旋转硬盘,分布在四个数据中心。其中,有2380个引导驱动器和129,959个数据驱动器。本回顾着眼于我们数据中心当前运行的数据驱动器型号的2020年第一季度和整个生命周期的硬盘故障率,并在此过程中提供了一些见解和观察结果。此外,在帖子接近尾声时,我们回顾了一年前提出的几个2019年预测。我们一如既往地期待您的意见。
在2020年第一季度末,Backblaze使用129,959个硬盘存储客户数据。在我们的评估中,我们将那些用于测试目的的驱动器和那些没有至少60个驱动器的驱动器型号从考虑范围中剔除(请参见下面的原因)。这样我们就只剩下129,764个硬盘了。下表涵盖了2020年第1季度发生的情况。
2020年第一季度的年化故障率(AFR)为1.07%。这是自2013年我们开始跟踪以来任何季度的最低AFR。此外,2020年第一季度的AFR明显低于2019年第一季度的1.56%。
在本季度,来自3(3)家制造商的4(4)款驱动器发生了0(零)次驱动器故障。东芝4TB和希捷16TB驱动器在第一季度都没有出现故障,但这两个驱动器在本季度的驱动器天数都不到10,000天。因此,AFR的范围可以很大,从驱动器故障的微小变化。例如,如果只有一个Seagate 16TB驱动器出现故障,本季度的AFR将为7.25%。同样,如果本季度只有一次故障,东芝4TB驱动器的AFR将为4.05%。
相反,本季度故障为0(零)的两个HGST驱动器都有合理的驱动器天数,因此AFR的波动性较小。如果8TB型号在本季度有1(1)次故障,则AFR仅为0.40%,而12TB型号在该季度有1(1)次故障时,AFR仅为0.26%。在这两种情况下,本季度0%的AFR都令人印象深刻。
有195个驱动器(129,959减去129,764)没有包括在上面的列表中,因为它们被用作测试驱动器,或者我们没有至少60个给定型号的驱动器。例如,我们有:20个东芝16TB驱动器(型号:MG08ACA16TA)、20个HGST 10TB驱动器(型号:HUH721010ALE600)和20个东芝8TB驱动器(型号:HDWF180)。当我们报告季度、年度或生命周期驱动器统计数据时,那些驱动器少于60个的型号不包括在计算或图表中。我们最少使用60个驱动器,因为所有新部署的存储Pod中都有60个驱动器。
也就是说,所有驱动器型号(包括引导驱动器)的所有数据都包含在我们的硬盘测试数据网页上可以访问和下载的文件中。
在我们的报告中,我们使用术语年化故障率(AFR)。这里的“年化”一词指的是不分观察期(月、季度等)。故障率将转变为年度衡量标准。对于给定的一组驱动器(即型号、制造商等)。我们按如下方式计算一段观察期的AFR:
Drive Days是在观察期间所有被观察的驱动器都处于运行状态的天数。
示例:计算给定最近六个月BB007型变频器的AFR;
在观察期内(6个月),BB007型驱动器全部运行的总天数为878,400天。
AFR=(28/(878,400/366))*100=(28/2,400)*100=1.17%。
在这六个月期间,驱动器型号BB007的年化故障率为1.17%。
你们中的一些人可能想知道“驱动器计数”在这个公式中的位置?事实并非如此,这让一些人感到不安。毕竟,计算AFR不是更容易吗:
AFR=(驱动器故障/驱动器计数)*(366/观察期内的天数)*100。
让我们回到上一段中的示例。在观察期结束时,有6,000个硬盘在运行;计算一下:
AFR=(28/6,000)*(366/183)*100=(0.00467)*(2)*100=0.93%。
使用驱动器计数方法,BB007型的故障率为0.93%。差异的原因是Backblaze不断地增加和减少驱动器。每月都会有新的Backblaze Vault上线;S3兼容性等新功能会迅速增加需求;迁移会用容量更高的新驱动器取代旧的低容量驱动器;有时还会混合使用克隆驱动器和临时驱动器。环境是非常动态的。观察期内任何给定日期的驱动器计数都会有所不同。使用驱动器计数方法时,故障率基于对驱动器进行计数的日期。在这种情况下,是观察期的最后一天。使用行驶天数方法,故障率基于整个观察期。
在我们的示例中,下表显示了我们在六个月的观察期内添加驱动器时的驱动器计数:
当您将驾驶天数加起来时,您得到的是878,400,但是观察期结束时的驱动器计数是6,000。驱动器天数公式响应观察期内驱动器数量的变化,而驱动器计数公式仅响应末尾的计数。
驱动器计数公式得出的0.93%的故障率要低得多,如果您是驱动器制造商,这很好,但对于驱动器在我们的环境中的实际集成和使用方式来说并不正确。这就是为什么Backblaze选择使用驱车天数法,因为它更符合我们业务运营的现实。
在2019年第一季度硬盘统计数据回顾中,我们对2019年底之前将发生的事情进行了一些与硬盘相关的预测。让我们看看我们做得怎么样。
预测:Backblaze将继续迁移出4TB驱动器,到2019年底将少于15,000个:我们目前约有35,000个。
预测:Backblaze将超过1EB(1000PB)的可用云存储。我们目前的可用存储约为850 PB。
事实:我们在2020年3月宣布了1艾字节,刚刚过2019年底。
预测:出于测试目的,我们将安装至少1个来自希捷的基于HAMR的驱动器和/或1个来自西部数据的MAMR驱动器。
总而言之,我想我会回到我的硬盘统计数据,把预测留给占卜者和占卜棒。
下表显示了截至2020年3月31日我们正在使用的硬盘型号的寿命故障率。报告期为2013年4月至2019年12月31日。列出的所有驱动器都是在此时间范围内安装的。
用于创建本评审中使用的信息的完整数据集可在我们的硬盘测试数据网页上找到。您可以免费下载并使用此数据用于您自己的目的。我们所要求的只有三件事:1)如果您使用数据,则引用Backblaze作为来源;2)您接受您对如何使用数据负全部责任;3)您不会将此数据出售给任何人-它是免费的。
如果您只想使用汇总数据来创建本文中的表格和图表,您可以下载包含MS Excel电子表格的ZIP文件。