那一年是1943年。美国轰炸机正遭受德国防空的重创。军方认为它需要一些关于如何减少损失的建议,所以他们咨询了哥伦比亚大学统计研究小组的巫师,看看他们最好的选择是什么。一种可能性是在飞机上使用更多的装甲,但装甲重量很大,增加太多会显著降低性能。因此,空军高层问SRG,我们应该使用多少盔甲才能达到最佳效果,我们应该把它放在哪里?
SRG是美国加入战争后不久成立的几个合作科学家小组之一。它始于1942年夏天的故事在W·艾伦·沃利斯的自传体回忆录中讲述得很好。SRG的工作人员非常多,包括许多战后世界上最杰出的统计学家,后来获得诺贝尔经济学奖的经济学家米尔顿·弗里德曼(Milton Friedman)和乔治·斯蒂格勒(George Stigler),以及数学家亚伯拉罕·沃尔德(Abraham Wald)。诺伯特·维纳(Norbert Wiener)曾是该集团的顾问。SRG的招募是由一个老家伙网络(借用一句话也适用于另一次成功的战时在布莱奇利公园(Bletchley Park)的行动)进行的,但它以我们所说的多样性而自豪。
沃尔德1902年出生于前奥地利-匈牙利帝国,现在称为克卢日(Cluj)。它宣传自己是特兰西瓦尼亚的非官方首府,特兰西瓦尼亚现在是罗马尼亚的一部分,但过去主要由匈牙利人居住,匈牙利语是沃尔德的母语。他在维也纳开始了他的职业生涯,最初是一名纯粹的数学家,但在35年代中期开始对统计数学感兴趣。作为一名犹太人,他在奥地利被剥夺了学术地位,和其他与他处境相同的人一样,能够移居美国是幸运的。SRG成立时,他是哥伦比亚大学的教员,这也是SRG所在的地方,他是SRG的首批成员之一。所有人都说,他令人印象深刻地聪明--最近的一本书说,他是房间里最聪明的人(但请记住,大多数时候房间里有很多聪明人)。
装甲飞机的问题被指派给沃尔德。在执行任务的同时,他还得到了大量关于飞机损坏的统计数据,例如被敌机击中的损坏位置。碰巧大部分损坏位于机身上,发动机周围区域很少,军方预计会在命中密度最高的机身上增加装甲。别那么快,沃尔德说。你真正应该做的是在马达周围加装甲!你忘了的是,受损最严重的飞机不会返航。你看不到他们。德军炮弹的命中大概是随机分布的。你看到的损坏发动机的数量远远少于随机性会产生的数量,这表明发动机是薄弱环节。我们采纳了这个建议,事实上,沃尔德解释飞机损坏统计数据的技术在后来的两次冲突中一直延续着。
看看谷歌先生要给你看的是什么,你会发现戏剧性的头条新闻:
亚伯拉罕·沃尔德和丢失的弹孔看到是难以置信 第二次世界大战的故事如何塑造了今天的Facebook 洞穴故事:你看不到的东西会要了你的命。
令人兴奋的原因是,飞机失事是众所周知的生存偏见的一个例子。这是一个我们都很清楚的术语:死者往往没有机会讲述他们自己的故事,但有时如果他们这样做会更好。损失是各种错误信息的来源,正如互联网将强调地告诉你的那样。包括抛售热门股票的欺骗性做法,这可能在很大程度上解释了人们的热议。
嗯,看到一位伟大的数学家成为传奇人物的理由是好的,而不是坏的,这是令人欣慰的。数学天才与军队高官的比分!读起来相当不错。毕竟,关于数学家的宣传通常集中在我们大多数人宁愿不考虑的特征上。但是,如果这个故事有更多的真相,或者至少有更多的理由相信它,那就更令人欣慰了。我们中的一些人更喜欢从非小说类书架上上历史课。
这个故事很可能是真的,正如我们将看到的那样,其中肯定有一种坚实的真理胚芽,但很少有证据证明最好的部分。瓦尔德的胶囊传记是准确的,尽管他可能不是房间里最聪明的人,但他可能几乎总是房间里最有成就的数学家,这一点很重要。但是.。故事的其余大部分--用慈善的话说--是看似合理的重建。沃尔德所说的关于飞机损坏的素材非常少。
W.Allen Wallis的自传体回忆录是SRG运作的最佳来源--实际上是唯一的来源。这是令人惊讶的娱乐性和信息量,但它的报道沃尔德在SRG的工作集中在顺序分析的发明,沃尔德最终成为当之无愧的名气。这是一种提高军械生产质量控制的技术。它被数以千计的战时生产设施使用,显然取得了巨大的成功。但这并不完全是互联网头条的好材料:";嘿!1944年8月,军用载重轮胎产量增长了6.37%!
确切地说,关于沃尔德在飞机损坏方面的工作,我们有(1)在沃利斯关于飞机脆弱性的工作回忆录中有两个简短而相当含糊的提及,(2)收集了沃尔德就这一主题所写的实际备忘录。就是这样!所有不在这些地方的东西都必须被认为是虚构的,而不是事实。或者,正如我所说的,充其量也就是看似合理的重建。不要抱怨太多--数学史上充斥着这样的诱惑,很少有人抗拒,要按照事情的本来面目去写,而不是原来的样子。现实很少像人们希望的那样合乎逻辑。我要补充的是,在这个故事的网络版本中,被忽视的不仅仅是数学现实--你应该会对伴随着互联网头条的图片感到相当有趣。许许多多的飞机上到处散落着弹孔。有人甚至声称它正在向你展示沃尔德自己的草图(我们完全不知道他是否做过任何草图)。大多数飞机的示意图绝不会与一定涉及的飞机相匹配--我最喜欢的是一架老式的DC3,军方称之为C-47的飞机。这些船在二战中充当货船,除了偏离航线外,很少看到真正的战斗。只要它有马达和苍蝇,似乎就是艺术品的标准。一些网站展示了美国飞机在行动中被摧毁的令人不寒而栗的片段。这些当然表明,如果你可能忘记了,在曼哈顿上城舒适的环境中开发的这项表面上抽象的技术最终涉及到什么利害关系。
沃利斯回忆录中含糊的提法特别有趣,因为书中没有提到沃尔德。其中一人(p.323)整体上说,飞机脆弱性的问题促使SRG设计了一种从我们自己的飞机幸存下来的损坏中确定脆弱性的技术……另一人(p.324)称沃利斯自己是一篇题为“飞机脆弱性数字的用途”的笔记的作者。然而,这只是从特别代表小组随机挑选的报告清单之一,很可能还有关于同一主题的其他报告。(这些报告是否仍然存在于某些深度存档中?)。
因此,对沃尔德作品唯一真正可靠的描述是我们在沃尔德自己的著作中发现的东西。
沃尔德的备忘录是非常技术性的。一点都不戏剧化。特别值得一提的是,沃尔德对军方应该做些什么来改善情况只字不提。如果我对沃利斯的理解是正确的,那么SRG的一般政策是只回答提出的问题,而从不--嗯,几乎从来不--试图就他们的发现提供应用方面的建议。军事决定是由军方做出的。
备忘录是如此技术性,事实上,在乔丹·埃伦伯格(Jordan Ellenberg)的描述中,一页文件的照片被闪现在读者面前,为突然引入一个可能只适合成年人的话题而道歉。然而,马克·曼格尔和弗朗西斯科·萨曼尼亚戈的备忘录有一本非常有价值的指南,几乎是在海军分析中心向公众提供备忘录的同时出现的。
备忘录中有八个项目。他们中的五个人处理一个单一的问题,在飞机已经被击中的情况下,估计飞机的生存概率。它的突出特点是,它提供了一种方法来估计再也没有回来的飞机的损失。确实是一种魔力。其中一节--只有一节--涉及飞机不同部分的脆弱性问题,这一部分与前几节分享了一些令人印象深刻的估计。也就是说,正如网络小说所暗示的那样,双方都必须处理击落飞机的问题
考虑一下第一个问题。我们只得到了返回飞机的数据,如命中次数。沃尔德问的问题--或者可能是他被要求看的那个问题--是,根据这些数据,我们能说出在给定点击率下存活下来的概率是多少?这不是一个复杂的问题,而是一个复杂的答案。关于那些没有返航的飞机,我们所知道的只有……。他们没有回来。事实上,这可能有许多原因,因为--例如--战争中的一些死亡是由机械故障造成的。当然,沃尔德必须非常小心。人们可能会认为,原则上讲,所有被击落的飞机汽油都用完了。关键是,这是极不可能的。换句话说,这个问题的任何答案都会因为与被击落的飞机相关的丢失数据而变得复杂。沃尔德只能通过做出某些合理的假设来计算他的概率,并对这些假设如何在结果中发挥作用非常非常小心。事实上,在他所有的统计著作中,他都以非常、非常谨慎地对待假设而闻名。
他的第一个简化假设是飞机被击落是因为敌人的炮火。而不是机械故障。
沃尔德需要处理哪些数据?这似乎时不时地有所不同,但至少在这个问题上,他得到了执行任务的飞机数量,返回的数量,以及每架返回的飞机的命中率。在曼格尔和萨曼尼亚戈(以下是Wald)处理的示例中:
执行任务的$N$飞机分为两大组,$S$幸存者和$L$飞机被击落。它们又根据它们获得的命中次数分为组:$N_{i}$是恰好具有$i$命中的总数,类似于$S_{i}$和$L_{i}$。当然,我们知道所有的$S_{i}$,但对$L_{i}$除了三件简单的事情外一无所知:(1)$L=\sum L_{i}=N-S$,(2)$L_{i}+S_{i}=N_{i}$,以及(3)$L_{0}=0$,因为我们假设所有丢失的人都是因为被击中而丢失的。设$N{\ge i}$是和$\sum_{j\ge i}N_{j}$等,则$$N=N_{\lti}+N_{\ge i}\,.。$$。
这看起来有点疯狂,但我们真正想做的是找出所有丢失的数字$L_{i}$是什么,或者至少以一种合理的方式估计它们。乍一看,这似乎是魔术师的任务,而不是数学家的任务。
如果像曼格尔和萨姆尼亚戈建议的那样,你自己思考这个问题,你很可能会被引导去想出一些相当复杂的东西。然而,沃尔德的推理非常简单。他最好的想法之一是引入我们至少有一些机会估计的变量,然后根据这些变量可以计算出所有其他的变量。设$p_{i}$是在第$i$次命中时倒下的条件概率,在第$i-1$次命中中幸存下来。因此,$p_{1}$只是在第一次命中时倒下的概率,而$p_{i}$是获得$i$命中的人被$i$击落的比例。在方程:$$p_{i}={L_{i}\on N_{\ge_i}}\中,.。$$。
我们也可以将其写为$$\eqign{L_{i}&;=p_{i}\cdot\Big(\sum_{j\ge i}N_{j}\Big)\cr&;=p_{i}\cdot\Big(N-\sum_{j\lt i}N_{j}\Big)\cr&;=p_{i}\cdot\Big(N-\sum_{j\lt i}S_{j}-\sum_{j\lt i}L_{j}\Big)\,\cr}$$。
这里是即将到来的魔术的基础:我们知道$S_{i}$是什么。因此,$L_{i}$的最后一个方程是可以对$L_{i}$进行归纳法求解的方程,因为我们知道$L_{0}=0$,只要我们知道$p_{i}$!因此,$$\eqign{L_{0}&;=0\cr L_{1}&;=p_{1}\cdot(N-S_{0})\cr L_{2}&;=p_{2}\cdot(N-S_{0}-S_{1}-L_{1})\cr&;\dots\cr}$$
当然,这就引出了一个问题--我们怎么才能算出$p_{i}$是什么呢?简短的答案是,我们不能,但沃尔德能够通过一个在我看来越微妙的论点,对它们做出各种估计。
设$q_{i}=1-p_{i}$,它是在至少存在$i$的情况下存活$i$命中的条件概率。这些是我称之为沃尔德基本方程式的主要成分:$$\sum_{m=1}^{n}{S_{m}\on q_{1}q_{2}\ldots q_{m}}=1-S_{0}\.。$$。
过一会儿我会试着解释这是从哪里来的--据我所知,这不是一个明显的关系,尽管它并不难推导,而且更不明显的是,它能让我们到达任何地方。这是一个有多个未知数的方程,所以通常会有很多可能的解。沃尔德的方法是在这个庞大的解决方案世界中找到最有可能的解决方案。
但首先让我给你们一些概念,这个方程是如何给出$p{i}$的近似值的。在沃尔德和曼格尔-萨曼尼亚戈之后,让我们先来看看一个不切实际的简单案例。我们预计命中会削弱飞机,或者至少不会提高其概率,这意味着$$Q_{1}\ge Q_{2}\ge\ldots\,,$$。
但是作为第一个非常粗略的近似,我们可能会猜测所有的$q_{i}$都是相等的,因此对于分母$$q_{1}q_{2}\ldots q_{i}=q^{i}$$。
一些固定的$Q$。这相当于假设一次撞击不会削弱飞机,这似乎与事实不谋而合。有了这个假设,沃尔德';的基本方程变成${s_{1}\over q}+{s_{2}\over q^{2}+\cdots+{s_{n}\over q^{n}=1-s_{0}\,在我们的例子中,$${0.080\Over Q}+{0.050\Over Q^{2}}+{0.010\Over Q^{3}}++{0.005\Over Q^{4}}+{0.005\Over Q^{5}}=0.2$$这告诉我们,$Q$是一个相对简单的方程的根。我在下面包括了左边函数的图形,以及$0.20$的水平线。我们看到$Q$大约是$0.85$,稍微多计算一下(例如,使用牛顿的方法)就会得到稍微精确一点的$0.851$(但是,考虑到数据的粗糙性,额外的小数位是虚假的)。
从这一点出发,沃尔德的备忘录继续应用基本方程式,以便通过更微妙的论点,找到$Q_{i}$可能值的合理界限,而不是精确的猜测。在那之后,他将类似的技术应用到定位飞机上最致命的撞击的问题上。亚伯拉罕·沃尔德不是死灵法师,但他是个魔术师。他也许不能让死人说话,但他能凭空拉出几只兔子。
与其讨论这些话题,我将试着解释一下基本方程式是从何而来。
曼格尔和萨曼尼亚戈紧随其后的是沃尔德自己对他的基本方程式的论证。它非常聪明。沃尔德做了一件只有数学家才会喜欢的事情,他说,实际上,让我们考虑一个只发射假子弹的想象场景。我必须承认,我觉得这个论点有点晦涩难懂,我认为这是因为它的似是而非似乎依赖于我没有的某种概率直觉。所以我提供一些新的东西,如果不那么冒险的话。
我从沃尔德提到的、似乎认为重要的东西开始,但并没有以关键的方式使用:飞机上的点击次数是有限制的,因此$N_{\gt n}=0$对于大约$n$。在我们的示例中,$n=5$。现在,$p_{i}$的归纳公式告诉我们$$\eqign{p_{i}&;={L_{i}\over N_{\ge i}}\cr q_{i}&;=1-p_{i}\cr&;={N_{\ge i}-L_{i}\on N_{\ge i}}\cr S_{i}+N_{\ge i+1}&;=q_{i}N_{\ge i}\cr}$$。
全部$I$。如果我们结合这些事实,我们首先推导出$$S_{n}=Q_{n}N{\ge n}\,.。$$但我们还推导出一个下降归纳公式:$$N_{\ge_i}={S_{i}\over Q_{i}}+{N_{\ge i+1}\over Q_{i}}$$,从而得到公式$$\eqign{N_{\ge n}&;=S_{n}/q_n\cr N_{\ge n-1}&;={S_{n}\over Q_{n-1}q_{n}}+{S_{n-1}\over Q_{n-1}}\cr&;\dots\cr N_{\ge0}=N&;={S_{n}\over Q_{1}\dots Q_{n}}+\cdots+{S_{1}\over Q_{1}+S_{0}\,.。最后一个方程式是沃尔德的基本方程式!Quod erat示威性备忘录!
我对互联网处理沃尔德作品的方式的愤慨被夸大了。斯蒂芬·斯蒂格勒(Stephen Stigler,乔治之子,芝加哥大学(University Of Chicago)统计学家)让我注意到W·艾伦·沃利斯(W.Allen Wallis)本人的一份笔记,他在笔记中明确提到了沃尔德在生存偏见方面的研究。沃利斯在“美国统计协会杂志”(Journal Of The American Statistics Association)上发表了一篇原文,随后是两条非常简短的评论,然后又进行了长达一页多一点的反驳。他说,接近尾声时,军方倾向于为返航飞机上点击率最高的部件提供保护。沃尔德根据充分的证据推测,战斗中的打击是均匀分布在飞机上的。由此得出的结论是,在返航飞机上发现对较脆弱部件的命中的可能性低于对较不脆弱部件的命中,因为在较脆弱部件上命中的飞机返回提供数据的可能性较小。从这些前提出发,他设计出评估各部分脆弱性的方法。
斯蒂芬·斯蒂格勒向我们回忆说,沃利斯和他的父亲乔治·斯蒂格勒在谈话中多次提到沃尔德的这部作品。他在1989年5月出版的“自然”杂志上发表的一封信中提醒人们注意沃利斯的言论,他在信中还指出了生存偏见与解释三叶虫化石统计记录的相关性。这可能是后续评论树生长的原始种子。
感谢马克·曼格尔和菲尔·德波伊的帮助。感谢Pawan Gupta在专栏最初的帖子中指出了其中两个公式中的一个小错误。
沃尔德的备忘录原件是沃尔德在1943年左右写的,后来在1981年由弗吉尼亚州亚历山大市北博雷德街2000年海军分析中心的文件中心出版,邮编22311。
人们可能会很想知道,沃尔德备忘录的出版,以及曼格尔和萨曼尼亚戈几乎同时发表的这篇文章,是如何产生的。为什么要等近四十年呢?
1980年左右,W·艾伦·沃利斯(W.Allen Wallis)正在离开他工作多年的罗切斯特大学(University Of Rochester)。在这个过程中,他发现了一些他在SRG的日子遗留下来的物品,并将它们提供给了菲尔·德波伊(Phil DePoy),也是在。
.