本福德定律:欺诈检测

2020-11-06 09:03:02

跳转到导航跳转,搜索多个真实数值集合中前导数字频率分布的观测。

本福德定律,也被称为纽康姆-本福德定律,反常数定律,或第一位数定律,是对许多现实生活中的数字数据集中前导数字的频率分布的观察。法律规定,在许多自然出现的数字集合中,前导数字很可能是小的。[1]例如,在遵守法律的集合中,数字1出现在前导有效位的时间约为30%,而数字9出现在前导有效位的时间不到5%。如果数字均匀分布,则每个数字出现的概率约为11.1%。[2]本福德定律还预测了第二位数、第三位数、数位组合等的分布情况。

右边的图表显示了本福德关于基数10的定律,这是关于以任意(整数)基数表示的数的无限多个广义定律之一,这排除了这种现象可能是以10为基数的数字系统的产物的可能性。Hill在1995年发表了进一步的推广[3],包括关于第n个前导数字以及前n个数字的联合分布的类似陈述,后者导致了一个推论,其中有效数字被证明是统计相依量。[4]))。

研究表明,这一结果适用于各种各样的数据集,包括电费、街道地址、股票价格、房价、人口数量、死亡率、河流长度以及物理和数学常数。[5]与其他关于自然数据的一般原则一样--例如,许多数据集都很好地近似于正态分布--有一些说明性的例子和解释,涵盖了本福德定律适用的许多情况,尽管也有许多其他情况适用本福德定律,这一点很难用简单的解释来解释。[6]当数值分布在多个数量级时,它往往最准确,特别是当生成数字的过程由幂定律描述时(这在本质上是常见的)。

这条定律是以物理学家弗兰克·本福德的名字命名的,他于1938年在一篇题为《反常数定律》的论文中提出了这一定律,尽管西蒙·纽科姆曾在1881年提出过这一定律。[8][9]。

如果前导数字d(d和∈={1,…,{1,…,{9})概率出现,则称一组数字满足本福德定律。

P(D)=LOG 10⁡(d+1)−LOG 10⁡(D)=LOG 10⁡(d+1 d)=LOG 10⁡(1+1 d){\DisplayStyle P(D)=\LOG_{10}(d+1)-\LOG_{10}(D)=\LOG。_{10}\Left({\frac{d+1}{d}}\Right)=\log_{10}\Left(1+{\frac{1}{d}}\Right)}。

量P(D){\displaystyle P(D)}与对数刻度上d与d+1之间的间距成正比。因此,如果数字的对数(而不是数字本身)是均匀随机分布的,那么这就是预期的分布。

例如,一个数字x被限制为介于1和10之间,如果为1,则为数字1;如果为2,则以数字1开头;如果为9,则为数字9;如果为10,则以数字9开头。因此,如果≤为1,则x为数字1;如果为日志2,则x为数字1;如果为日志,则为9;如果为日志,则为9;如果为日志,则为10。间隔[≤≤1,≤=2]很大。因此,如果log x是均匀且随机分布的,则它更有可能落入比更窄的区间更宽的区间,即更有可能从1开始,而不是从9开始;概率与区间宽度成比例,从而给出上面的等式(以及对小数以外的其他基的推广)。

本福德定律有时被用更强的形式表述,声称数据的对数的小数部分通常接近均匀分布在0和1之间;由此,可以推导出关于第一位数分布的主要主张。

本福德定律的延伸预测了除小数外,第一位数在其他基数中的分布;事实上,任何基数b到≥都是2。其一般形式是:

P(D)=log b⁡(d+1)−log b⁡(D)=log b⁡(1+1 d)。{\displaystyle P(D)=\log_{b}(d+1)-\log_{b}(D)=\log_{b}\Left(1+{\tfrac{1}{d}}\right)。}。

对于b=2,1(二进制和一元)数字系统,本福德定律是正确的,但微不足道:所有的二进制和一元数字(除了0或空集)都是从数字1开始的。(另一方面,将本福德定律推广到第二位或之后的位数并不是微不足道的,即使对于二进制数也是如此。)。

按类别查看世界上58个最高建筑物的高度列表显示,无论测量单位是什么,1都是最常见的前导数字。";比例不变性";,下图):

1,2,4,8,1,3,6,1,2,5,1,2,4,8,1,3,6,1...。(OEIS中的序列A008952)。

本福德定律的发现可以追溯到1881年,当时加拿大裔美国天文学家西蒙·纽科姆(Simon Newcomb)注意到,在对数表中,前几页(从1开始)比其他页更破旧。[8]Newcomb公布的结果是这一观察结果的第一个已知实例,还包括了第二位数的分布。纽科姆提出了一个定律,即单个数字N作为数字第一位的概率等于−(N)+log(1)和log(N)。

1938年,物理学家弗兰克·本福德(Frank Benford)再次注意到了这一现象,他利用来自20个不同领域的数据对其进行了测试,并将其归功于此。他的数据集包括335条河流的表面积、3259个美国人口的规模、104个物理常数、1800个分子质量、5000个数学手册条目、一期《读者文摘》(Reader‘s Digest)中包含的308个数字、《美国科学人》(American Men Of Science)前342个人的街道地址以及418个死亡率。论文中使用的观察数据总数为20229个。这一发现后来以本福德的名字命名(使其成为斯蒂格勒定律的一个例子)。

本福德定律往往最准确地适用于跨越几个数量级的数据。根据经验,数据平均覆盖的数量级越多,本福德定律适用的就越准确。例如,人们可以预期,本福德定律将适用于代表英国定居点人口的一系列数字。但是,如果一个定居点被定义为人口在300到999之间的村庄,那么本福德定律就不适用了。[13][14]。

考虑下面显示的概率分布,参考对数标度。[15]在每种情况下,红色的总面积是第一个数字为1的相对概率,蓝色的总面积是第一个数字为8的相对概率。

对于第一种分布,红色和蓝色区域的大小与每个红色和蓝色条的宽度大致成正比。因此,从这个分布中得出的数字将大致遵循本福德定律。另一方面,对于第二种分布,红色和蓝色面积的比例与每个红色和蓝色线条的宽度比例有很大的不同。相反,红色和蓝色的相对面积更多地取决于条形的高度,而不是宽度。因此,这种分布的第一位数根本不符合本福德定律。[14]。

因此,相当均匀地跨越几个数量级的真实世界分布(例如村庄/城镇/城市的人口、股票市场价格)很可能非常精确地满足本福德定律。另一方面,大部分或完全在一个数量级(例如成人的身高或智商分数)内的分布不太可能非常准确地满足本福德定律,或者根本不符合本福德定律。[13]然而,这并不是一条尖锐的线,而且随着分布变得越来越窄,与本福德定律的差异通常会逐渐增加。

就传统的概率密度而言(指的是线性标度而不是对数标度,即P(X)=dx而不是P(Logxx)和d(Logxx)),相当的标准是,当P(X)在几个数量级的变化中与1/x成正比时,将非常精确地满足本福德定律[15]。

这一讨论并不是对本福德定律的完整解释,因为它没有解释为什么数据集如此频繁地出现,当以变量对数的概率分布绘制时,在几个数量级上是相对均匀的。[16]。

1970年,沃尔夫冈·克里格证明了现在所称的克里格生成器定理。[17][18]2009年,Oded Kafri[19]利用Kafri球箱模型推导了本福德定律。[20]Krieger生成器定理可以被视为对Kafri球和盒子模型中的假设的证明,即在给定的底数B{\DisplayStyle B}中具有固定数字0,1,……的情况下,Krieger生成器定理可以被看作是对Kafri球箱模型中的假设的证明。N,...,B−1{\DisplayStyle B-1},数字n相当于一个包含n个非交互球的卡夫里盒。其他一些科学家和统计学家对本福德定律提出了与熵相关的解释。[21][22][23][24][25]

本福德定律的许多真实例子都源于乘性波动。[26]例如,如果股票价格从100美元开始,然后每天乘以0.99到1.01之间的一个随机选择的系数,那么在一段较长的时间内,其价格的概率分布越来越精确地满足本福德定律。

原因是股价的对数正在经历一次随机游走,因此随着时间的推移,其概率分布将变得越来越广泛和平滑(见上文)。[26](更严格地说,中心极限定理说,将越来越多的随机变量相乘将产生一个方差越来越大的对数正态分布,因此最终它几乎均匀地覆盖了许多数量级。)。为了确保近似符合本福德定律,当放大到10倍时,分布必须是近似不变的;具有较大离散度的对数正态分布数据集将具有这种近似性质。

与乘性涨落不同,加性涨落不会导致本福德定律:相反,它们会导致正态概率分布(同样是根据中心极限定理),这不符合本福德定律。例如,我在某一天经历的心跳次数可以写成许多随机变量的总和(例如,一天中每分钟的心跳次数之和),所以这个数字不太可能遵循本福德定律。相比之下,上述假设股价可以写成许多随机变量(即每天的价格变化系数)的乘积,因此很可能非常符合本福德定律。

安东·福尔曼(Anton Formann)提出了另一种解释,他将注意力引向了有效数字分布和观察变量分布之间的相互关系。他在一项模拟研究中表明,随机变量的长右尾分布符合Newcomb-Benford定律,而对于两个随机变量之比的分布,拟合程度通常会提高。[27]对于从某些分布(智商分数,人的身高)得出的数字,本福德定律不成立,因为这些变量服从正态分布,已知该正态分布不满足本福德定律[9],因为正态分布不可能跨越几个数量级,其对数的尾数也不会(甚至是近似地)均匀分布。然而,如果一个人将这些分布中的数字混合在一起,例如从这些分布中取数字。这也可以从数学上得到证明:如果一个人反复选择一个概率分布(从一个不相关的集合中),然后根据该分布随机选择一个数字,那么得到的数字列表将遵守本福德定律。[11][28]对于日常生活数字中本福德定律的出现,也提出了类似的概率解释,表明当人们考虑均匀分布的混合物时,本福德定律自然会出现。[29][29]。

如果有长度列表,则无论所有长度是以米、码、英尺还是英寸等为单位,列表中数字的第一位的分布通常都是相似的。

情况并不总是如此。例如,成年人的身高在以米为单位测量时几乎总是以1或2开始,在以英尺测量时几乎总是以4、5、6或7开始。

但考虑一下分布在多个数量级上的长度列表。例如,科学论文中提到的1000个长度的清单将包括对分子、细菌、植物和星系的测量。如果所有这些长度都是用米写的,或者都是用英尺写的,那么第一位数字在两个列表上的分布应该是相同的,这是合理的。

在这些情况下,数据集的第一位数的分布是尺度不变的(或者与表示数据的单位无关),第一位数的分布总是由本福德定律给出。[30][31][31]

例如,无论度量单位是英尺还是码,此长度列表中的第一个(非零)数字都应该具有相同的分布。但是一码有三英尺,所以以码为单位的长度的第一位数为1的概率必须与以英尺为单位的长度的第一位数为3、4或5的概率相同;同样地,以码为单位的长度的第一位数为2的概率必须与以英尺为单位的长度的第一位数为6、7或8的概率相同。将此应用于所有可能的度量尺度都会得到本福德定律的对数分布。

1972年,哈尔·瓦里安(Hal Varian)建议,这项法律可以用来检测为支持公共规划决策而提交的社会经济数据清单中可能存在的欺诈行为。基于一个合理的假设,即编造数字的人倾向于相当均匀地分布他们的数字,简单地将数据的第一位数频率分布与本福德定律(Benford‘s Law)的预期分布进行比较,应该会发现任何反常的结果。[32][font=宋体]。

在美国,基于本福德法律的证据已经在联邦、州和地方各级的刑事案件中被采纳。[33][33]。

本福德定律被引用为2009年伊朗选举舞弊的证据[34],也被用来分析其他选举结果。然而,其他专家认为本福德的法律存在问题或具有误导性,认为这是选举舞弊的一个统计指标。[35]。

同样,根据本福德定律,希腊政府在加入欧元区前向欧盟(EU)报告的宏观经济数据很可能存在欺诈行为,尽管是在该国加入欧元区多年之后。[36][37][37]。

本福德定律作为调查价格数字的基准,已经成功地引入到定价研究的背景下。欧洲范围内的一项研究首次证明了这一基准对检测价格异常的重要性[38],该研究调查了引入欧元前后的消费者价格数字,以进行价格调整。2002年引入的欧元,其汇率各不相同,扭曲了现有的名义价格模式,同时保持了实际价格。尽管名义价格的第一位数是根据本福德定律分布的,但研究显示,名义市场价格的第二位数和第三位数明显偏离了这一基准,在欧元面世的名义冲击之后,有明显的心理定价趋势。

真核生物和原核生物的开放阅读框数目及其与基因组大小的关系不同,前者呈对数线性关系,后者呈线性关系。本福德定律已经被用来检验这一观察结果,与这两种情况下的数据都有很好的契合性。[39][font=宋体]。

对已发表的论文中的回归系数进行了检验,结果表明符合本福德定律。[40]作为对照组,受试者被要求编造统计估计。伪造的结果在第一位数上符合本福德定律,但在第二位数上不符合本福德定律。

研究人员展示了本福德定律的适用性,用来评估新冠肺炎公布的总确诊病例和每日确诊病例以及死亡人数等可能存在的欺诈行为。[41]这项研究建议俄罗斯和伊朗的数据可能发生变化,但美国、巴西、印度、秘鲁、南非、哥伦比亚、墨西哥、西班牙、阿根廷、智利、英国、法国、沙特阿拉伯、中国、菲律宾、比利时、巴基斯坦和意大利的数据没有变化。

虽然卡方检验已经被用来检验是否符合本福德定律,但当用于小样本时,它的统计能力很低。

Kolmogorov-Smirnov检验和Kuiper检验在样本量较小时更有效,特别是当使用斯蒂芬斯的校正因子时。[42]这些检验在应用于离散分布时可能过于保守。本福德测试的数值已经在第二天生成。[43]测试统计的临界值如下:

这些临界值提供了在给定的显著性水平上拒绝遵守本福德定律的假设所需的最小检验统计值。

已经发布了两个特定于该定律的替代测试:首先,max(M)统计量[44]由下式给出。

M=N⋅max i=1 9{|pr(X具有fsd=i)−日志10⁡(1+1 i)|}{\displaystyle m={\sqrt{N}}\cot\max_{i=1}^{9}\left\{\left|\pr(X{\text{has fsd}}=i)-\log_。{10}\Left(1+{\frac{1}{i}}\Right)\Right|\Right\},}。

D=N⋅∑i=19[Pr(X具有fsd=i)−log 10⁡(1+1i)]2,{\displaystyle d={\sqrt{N\cdot\sum_{i=1}^{9}\Left[\pr(X{\text{has FSD}}=i)-\log_{10}\Left(1+{\frac{1}{i}}\right)\right]^{2}},}。

其中,FSD是第一个有效数字,N是样本大小。Morrow已经确定了这两个统计数据的临界值,如下所示:[43]

Morrow还表明,对于任何随机变量X(具有连续的pdf)除以其标准差(σ),可以找到一个值A,使得随机变量(X/σ)A的第一个有效位的分布概率将与本福德定律相差小于ε>;0。[43]A的值取决于ε的值和随机变量的分布。

如果目标是与本福德定律达成一致,而不是不同意,那么上面提到的适合度测试是不合适的。在这种情况下,应该应用特定的等价性测试。如果概率质量函数之间的距离(例如总变化距离或通常的欧几里德距离)足够小,则经验分布称为等同于本福德定律。Ost中描述了这种应用于本福德定律的测试方法。

.