作为冠状病毒应用程序的制造商之一(如果链接不起作用,请检查此链接),我收到了无数电子邮件,询问我应用程序显示的数据是否可信。我的答案一直都是一样的:
“我们真的不知道。但这是我们掌握的最好的数据。”
有了冠状病毒应用程序,工作就是尽可能快速、准确地合成官方来源报告的数据,并使其可视化。我们是应用开发者,不是流行病学家,也不是政府官员。所以,当政府报告他们的数量时,我们有义务将其显示为报告的数量。并链接回原始来源。
输入本福德定律。如果你不熟悉,可以查看维基百科的文章或Netflix Docuseries“Connected”的“Digits”一集。
取一组随机数。你看每个数字的第一位。如果你有足够多的数字,并且没有任何特殊的原因来解释它们为什么会有其他行为*,那么分布应该是这样的。
你说是违反直觉?当然,人们会认为图表显示的1、2和3的比例相等。。。但事实并非如此,原因如下。
本福德定律在许多情况下都被使用,例如,用于发现税务欺诈者、检测选举欺诈或药物发现数据。以上是数字真正随机时前导数字的自然分布。
但是,当所谓的随机数实际上是由人类编造出来的时候,男孩……分布看起来非常不同。我们人类在创造随机数方面绝对糟糕。
我对这件事没有什么特别的期待。事实上,2019冠状病毒疾病的BoFoD定律甚至应用到了我们过去一年的数据。换句话说,这些数字真的足够随机吗?
以下是自这整件事开始以来(考虑到累积病例、新病例、累积死亡和新死亡),全球每天数字的前几位(即每个国家的总和)的分析。
凉的看起来不错。世界数字是2019冠状病毒疾病的最无偏见的数据集。如果我们假设报告实数的国家比报告篡改数字的国家多(希望如此!),那么总数应该是随机的,足以让本福德的魔法显现出来。
注意:在冠状病毒应用程序中,你可以看到每个病例超过10000例的国家的上述图表。打开任何国家(如美国)的详细信息页面并滚动至底部。
下一步是弄清楚我们应该分析哪些数据集。我们基本上有四个可供使用:
在上面的世界图表中,我们综合了这四个因素。但在本文中(以及我们在冠状病毒应用程序上显示的所有本福德定律图表中),我们将A组与B组,C组与D组。我们将对每个国家进行两次测试。这些测试将告诉我们:政府报告的累积数字有多自然?政府报告的新数字有多自然?
注意:有些国家不每天报告,所以我们在C和D中删除相同的值,在A和B中排除0值
我们选择只分析2019冠状病毒疾病超过10000个的国家。跨越几个数量级的数据集通常会在本福德定律测试中产生更可靠的结果。
单是图表就给了我们一个相当不错的概念,即分布是否遵循本福德定律。但为了使我们的方法在数学上合理,我们必须引入一种称为平均绝对偏差(MAD)的度量。
MAD本质上是通过我们观察到的分布偏离本福德定律的程度来量化的。MAD越低,分布就越自然。越疯狂,我们的朋友本福德就越疯狂(明白吗?)。
因此,对于阅读本文的所有数学向导来说,下面是MAD的计算方法,K是初始位数(那么……好吧,9,对吧?)。
其实很简单。对于每个数字(1到9),计算观察到的分布(O)和本福德预测(B)*之间的差异。MAD只是这9个值的平均值。
*结果必须是一个绝对数(如此正)。否则负值会抵消负值,MAD总是0(=我们什么也没学到)
所以记住,赢家是那些MAD最低的人。MAD值越高,偏离自然分布的程度就越大,因此,这种分布实际上……不是自然分布的可能性就越大。
在累积病例中,MAD的差异(乌克兰为0.4,中国为14.6)远大于新病例(德国为0.68,塔吉克斯坦为6.91)。事实上,这很合乎逻辑。根据定义,新病例比累积病例更随机,因为它们不依赖于前几天的数字。
就病例总数而言,意大利的MAD排名第二。但第二…最好的是在新病例中疯狂。
中国的病例总数为14.1例。但对于新病例,这是一个非常好的2。
在我们的数据集背景下,理解正常MAD是什么的最佳方法是在图表上绘制每个国家。
这里有非常明显的趋势——新病例的正常值在1到3之间,累积病例的正常值在1到6之间。所以离左下角越远,数字越不正常。
一定要记住,不正常并不一定意味着欺诈。一个国家为减缓病毒而采取的任何激进措施(封锁、增加检测、减少检测……)都会扰乱数据的随机性,从而进一步向右偏移。
例如,如果像中国一样,当你有大约80000个病例时,你最终根除了病毒,你可能会在数百天内以8开始。这张图表很好地说明了这一点:这很不寻常。截至2020年11月,没有其他国家做过任何接近的事情。(注:公平地说,中国在纵轴上的立场似乎确实表明,新案件的分布确实遵循本福德定律。)
在较小的程度上,这也是绿色圈中所有国家的情况。每个人都以自己的方式,做了一些事情来搞乱他们累积案例的随机性(自愿或不自愿,欺诈或不欺诈)。
不过,纵轴更能说明问题。虽然今天的累积死亡人数在很大程度上取决于昨天的死亡人数(例如,理论上永远不应该少于昨天),但今天的新死亡人数与昨天的死亡人数没有那么直接的关系。
垂直轴较高的国家的数字分布与本福德定律有很大的偏差。不仅是他们自己,而且与其他国家相比。