“谁想成为百万富翁?”咳嗽模式的统计分析。
这是一篇关于使用统计数据来理解与咳嗽相关的指数增长过程的中等水平的帖子。
我说的是查尔斯·英格拉姆2001年在“谁想成为百万富翁”节目中臭名昭著的亮相?据称,他在妻子戴安娜·英格拉姆(Diana Ingram)和一个名叫特文·惠特克(Tecwen Whittock)的男子的帮助下,以欺骗的方式赢得了100万英镑。
谁想成为百万富翁的模式?(WWTBAM)在1998年首次播出时是开创性的。多项选择题开始时简单得令人难以置信,可笑,但很快就会变得困难起来。奖金也一样。问题4的价值是500 GB,这个数字随着随后的每个问题(即指数增长)大约翻了一番,直到问题15的奖金是100万GB。不过,只要回答错一个,你就输了。
她的丈夫查尔斯·英格拉姆少校随后在2001年9月出现在节目中,在两个晚上的拍摄中亮相。
在第一个晚上,他用掉了两条救生索,达到了4000 GB(问题7),按照节目的标准,这被认为是相当糟糕的表现。
第二天晚上,他的表现要好得多,一路成功地赢得了100万英镑的奖金,成为有史以来第三位做到这一点的参赛者。
制作团队怀疑拍摄过程中存在作弊行为,随着调查的进行,这一怀疑进一步加深。
据称,英格拉姆夫妇与一位名叫泰文·惠特托克(Tecwen Whittock)的大学讲师合谋,为了帮助查尔斯·英格拉姆摆脱困境,这位讲师在说出正确答案后会咳嗽。
2003年,该案提交至刑事法院(R诉Ingram,C.,Ingram,D.和Whittock,T.)。引起了小报的狂热。
最近英国独立电视台的一部电视剧再次引发了人们对Ingram和Whittock的兴趣。詹姆斯·格雷厄姆(James Graham)的迷你剧“智力竞赛”(Quiz)对英格拉姆夫妇给予了相当好的评价,突出了针对他们的法律案件存在的问题,以及一些至今仍未得到回答的问题。
尽管英国公众和法院已经对英格拉姆夫妇的罪行做出了明确的决定,但格雷厄姆的纪录片提出了一个问题:对于英格拉姆夫妇来说,这真的是一场噩梦吗?在这场噩梦中,一对受人尊敬的夫妇的声誉被一个复仇而痛苦的制作团队拖入了泥潭,他们在站不住脚的证据基础上构建了一个看似合理的故事。
我决定让̶a̶‘s̶t̶e̶利用我的统计学知识来帮助确定真相。
在庭审中,辩方辩称,此案极其不同寻常,因为提供构成关键证据的录音的是制作WWTBAM的制片公司塞拉多,而不是警方。这一证据采用了“磁带G”的形式,这是这一集的一个版本,他们放大了背景录音麦克风,以至于可以听到极大的咳嗽声。据我所知,网上唯一可用的录音都是“Tape G”的后代,也就是说,他们都在混合中放大了所谓的作弊咳嗽。
辩方团队提到的一个关键事实是,在录音过程中,实际上总共咳嗽了192次。我不确定录音到底持续了多长时间,但这显然是为了听起来像一个大数字,并将放大的咳嗽放在上下文中。正如维基百科所说:
一名声音分析员证实,在拍摄过程中听到了192声咳嗽,声音监督员说,有19声“明显”的咳嗽来自现场麦克风附近,他认为这是惠托克坐在一边的FFF麦克风之一。(链接)
有趣的是,惠托克并不否认他在这些时刻咳嗽过。他的辩解是,即使他有,那些咳嗽都是在正确答案出现的时候发生的,这是一个巧合。事实上,辩方出示了几名关键证人,他们提供的证据表明惠托克反复咳嗽,这表明他无法控制咳嗽的时间。
那么,“严重”咳嗽发生的可能性有多大呢?它们会不会只是在那些时候随机发生,然后被放大?(我认为塞拉多不会堕落到通过添加全新的咳嗽来操纵镜头的地步。)。
要了解像这样的事件发生的可能性或可能性有多大,一个有用的起点是泊松分布。这假设事件是独立的(一次咳嗽不依赖于另一次咳嗽),并且以统一的平均速率发生。因此,如果我们知道平均每分钟有3次咳嗽,我们就可以计算出在给定的一分钟内咳嗽5次的可能性。
泊松分布被用于许多经典的统计分析中,从分析普鲁士军队踢马造成的死亡(适合英格拉姆少校)到伦敦上空飞行炸弹的分布。
根据本·克劳尔的视频,第二天晚上的拍摄持续了25分钟(这当然是低估了,但我们正试图对惠特克尽可能慷慨:更短的时间对他的辩护更好,因为这会让他有更高的咳嗽频率,因此在给定的时间间隔内出现咳嗽的可能性更高)。
在拍摄过程中,惠托克随机和独立地咳嗽,平均咳嗽频率为19/25=每分钟0.76次咳嗽。
从问题8开始,一个问题的正确答案-不包括在“最终答案”被锁定后说的-总共被说了62次。
英格拉姆负责其中的48个;克里斯·塔兰特说有14个。(这是因为当他读出问题和答案时,他总是至少说一次答案;有时他稍后会重复。)
让我们假设答案后5秒内咳嗽对查尔斯·英格拉姆非常有用,如果这确实是(所谓的)计划的话。然而,公平地说,在这62个正确答案中,有一些是快速接连说出来的。因此,我们只删除在最后一次说出正确答案后的5秒内说出正确答案的情况。这种情况发生了20次。因此,在拍摄过程中,正确答案被说了42次。
所以总共有42x5秒的持续时间,在此期间,惠托克承认咳嗽了19次。这将是5.42cpm的平均咳嗽速率,大约是我们假设的平均咳嗽速率的7倍。所以这对惠托克来说已经不是什么好事了。
然而,为了让我们对总体统计数据有一个概念,让我们在泊松分布的假设下运行一些模拟。在42次“试验”(正确答案后5秒)中咳嗽19次的可能性有多大?
我们可以通过为10,000次模拟模拟具有给定参数的泊松分布来做到这一点。换句话说,想象一下10,000个不同的WWTBAM镜头,惠托克参加了,并以他通常的咳嗽速度随机和独立地咳嗽,然后塞拉多的邪恶声音编辑们就用他们的方式处理了产生的镜头。其中有多少次看起来对他不好,在回答后的5秒内至少有19次咳嗽?
上图向我们展示了制作人有19次咳嗽的概率是…。小得惊人。请注意,x轴甚至不到19!在我们想象中的一部影片中,这段时间内最多的咳嗽次数是10次。因此,假设惠托克总共19次咳嗽是随机的,并且是独立的,那么在这些时间里咳嗽19次的概率是<;1/10000。
在这一点上,如果我是英格拉姆夫妇的辩护律师,我会反驳:“法官阁下,仅仅因为我们已经证明惠特托克的咳嗽不太可能是泊松散布的,这并不意味着这是作弊计划的一部分。是的,我们现在可能有强有力的证据表明咳嗽的频率不是一致的,咳嗽也不是相互独立的,但我们期待的是什么呢?咳嗽并不是一成不变的,它可能会随着时间的推移而变化。事实上,我们辩护的一个关键部分是,随着拍摄的进行,惠托克的喉咙变得越来越干,咳嗽也越来越多。它也不是独立的:正如反复咳嗽的患者所知道的那样,一次咳嗽可以引发其他咳嗽。难道在高度紧张的时候,我们不可能预计会有更多的咳嗽吗?
都是好观点。但这确实让巧合辩护看起来相当不可信--对于大多数对“巧合”的定义而言。
如果我们假设所有192次咳嗽中有一半是惠托克咳嗽,那么咳嗽频率是我们之前假设的~5倍,那么(毫不奇怪)在42次试验中发生19次咳嗽的可能性就变得更有利了:
在一些模拟实验中,在42次试验中甚至有超过19次咳嗽。事实上,如果我们把这种(相当慷慨的)情景的总概率加起来,在42次试验中至少咳嗽19次的概率是7.82%。
换句话说,如果Whittock在整个WWTBAM中真的是一个超级咳嗽者,那么他在观众中大约8%的剧集(假设参赛者一直到了第15题)在从第8题开始的正确答案之后可能会有19次或更多的咳嗽。
这仍然不太可能,但绝对在统计上可信的范围内。(用于决定“重要”结果的常见阈值是5%,因此根据该阈值,我们可以得出结论,这并不重要。)。不过请记住,这是假设惠托克在拍摄过程中咳嗽了96次。那太多了。
编辑:自从最初写下这篇文章以来,我发现了一份当代的报道,声称英格拉姆在拍摄的第二天晚上花了50分钟回答问题,并提到了惠托克总共咳嗽了36次(尽管还没有证明是谁咳嗽的,也没有提到19次“重大”咳嗽)。假设咳嗽速率为36/50=0.72cpm并运行模拟,结果仍然对Whittock不利:在泊松分布下的42‘正确答案+5秒’试验中,这19次咳嗽中仍有万分之一的几率发生。
好了,关于惠托克咳嗽总数的统计论据就到此为止。理想情况下,我们应该观察所有咳嗽的实际模式,不偏向于(假设)是惠托克还是其他人。
我知道你的担忧:但要做到这一点,我们需要一个匹配的咳嗽数据集,并以最接近的秒分辨率正确回答。这样的事情根本不存在!
在一个理想的世界里,我们只要回到“原始”的那一集的录音,仔细地分析它就行了。这是我最初的计划。还有什么更好的方式来度过一天的禁闭呢?
我马上就遇到了困难,甚至找不到一致的录音来看整集。例如,WWTBAM YouTube官方频道在4月17日发布了一段名为“查尔斯·英格拉姆欺诈丑闻”的视频,视频中的描述是“它终于来了!查尔斯·英格拉姆扮演百万富翁的真实镜头,现在你可以自己看了,自己决定了!“
我试着用这一集进行分析,但委婉地说,这段编辑可以合理地描述为“宣传”。镜头经常被剪切的屏幕打断,告诉你要注意什么,在几个点上,镜头会暂停、回放和重播。要记录准确的咳嗽时间和答案以进行统计分析并不是最容易的。
幸运的是,WWTBAM的超级粉丝、YouTube用户本·克劳尔(他的频道名为“百万富翁之家”)将所有15个问题无缝拼接在一起,编辑成一个单独的剪辑,并于4月19日上传。
我很快坐下来开始工作。我通过耳机播放音频观看这一集,音量调大,没有视频(为了避免分心,事实上塞拉多使用剪辑来呈现特定的叙述),并记录下我听到的每一次咳嗽。然后我回去仔细检查了每一次咳嗽。我还记录了克里斯·塔兰特或查尔斯·英格拉姆对问题8之后(据称咳嗽计划已经开始)所说的每一次*任何*答案。这些计时都精确到一秒之内。
(正是在这一点上,我想知道我是否真的像我想象的那样很好地应对了禁闭期间的生活。)。
我相当有信心,这代表了与英格拉姆事件相关的最全面的咳嗽时间记录数据集。不幸的是,当我在4月21日回去查看这段视频时,由于版权的原因,这段视频在英国是不可用的。(编辑:截至4月24日似乎已回档)。
不幸的是,我在这段视频中提到的咳嗽等的绝对时间会有所不同,这取决于你在YouTube上找到的哪个片段(而且有相当多)。但是,当克里斯·塔兰特读出问题的前四个答案时,你应该能够把你看过的任何一段视频排成一条线。
这种分析存在明显的问题。例如,在前面的问题中,音乐的声音更大,所以比在后面的问题中更难听到咳嗽的声音,而且正如前面提到的,音频已经被很好地操纵了。但就目前而言,让我们使用我们拥有的数据(这是统计学家的常见问题)。现在我们可以以前所未有的详细程度逐一检查英格拉姆一集的问题,也许这是自R v Ingram,C.,Ingram,D.和Whittock,T.本身以来未曾见过的详细程度。
我首先要逐一回答问题,从第8个问题开始,因为这是拍摄的第二个晚上,“严重的”咳嗽应该已经开始了。为了对咳嗽者的身份保持不可知性,我对所有咳嗽都一视同仁。如果它是远程可听的,它就在这里,并且被同等对待。
从问题8开始,总共有64次咳嗽和143次陈述的答案。(如果整集总共有192次咳嗽,这似乎是对的,而我们在这篇分析中只看了一组经过编辑的剪辑。)。
在下面的图中,为了使咳嗽清晰可见,我增加了1秒的宽度;咳嗽发生在垂直灰色条的起始处。答案显示为短垂直线,正确答案用红色表示。在塔兰特说出答案而不是英格拉姆的地方,有一个小写的“T”。“明显的”咳嗽将出现在正确答案的右边。
(如果你不喜欢统计数据/咳嗽,还有一些与每个问题相关的非咳嗽琐事。)。
马上,我们看到了一些可能对辩方有帮助的东西。实际上有一些咳嗽是在有人说错答案后立即发生的!例如,英格拉姆一说“罗纳德·里根”,就马上咳嗽起来。它们在混合中的放大程度不像塞拉多选择的“显著”咳嗽那么多,但它们仍然可以听到。谁知道呢,说不定演播室里也会有同样的声音呢?不幸的是,我们根本不知道。
英格拉姆似乎立刻相当自信地认为这就是亚里士多德·奥纳西斯,并轻而易举地回答了这个问题。
不咳嗽的琐事:罗纳德·里根(Ronald Reagan)和杰奎琳·肯尼迪(Jacqueline Kennedy)结婚的可能性被短暂提出。肯尼迪1968年嫁给亚里士多德·奥纳西斯(1906年出生)时39岁;里根57岁(1911年出生)-比亚里士多德·奥纳西斯年轻整整5岁。
对英格拉姆来说,这不是一个特别困难的问题。再一次,他似乎从一开始就很有信心,认为这是瑞士。当他说瑞士(正确答案)时,几乎同时会咳嗽一声。然后,他确实罗列了所有的答案,没有一个答案后面跟着咳嗽。
不咳嗽的琐事:英格拉姆声称他肯定吃了“一百次”埃门塔尔。拍摄时他38岁,所以假设他成年后只吃埃门塔尔,那大约是一年5次。看起来很有可能。
这个问题是本期节目的关键问题之一。英格拉姆在这个问题上花了很长时间,他立刻承认他不知道正确答案是什么。他用完了剩下的生命线(50分50秒),只剩下答案C和D,因此塔兰特在16分钟之前重复了一遍,然后他在其间弹跳。他说他会选择A1,承认他“从来没有听说过克雷格·大卫”,但在17分钟后改变了主意。
如果你看了这一集,你会注意到一些“明显”的咳嗽来自戴安娜·英格拉姆(Diana Ingram)。我没有在图表上显示这一信息,因为我们(试图)对咳嗽者的身份保持不可知性。值得注意的是,幽灵咳嗽者在这个问题中根本没有咳嗽。检方辩称,对于像惠托克这样的智力竞赛爱好者来说,“轻松的流行文化”并不一定容易。
不咳嗽的琐事:英格拉姆声称他从来没有听说过“酷玩”,把重音放在第二个音节上,这听起来很奇怪,表明他说的是事实。此外,我发现听到两个男人反复说“克雷格·大卫”非常有趣,令观众惊讶的是观众没有咯咯地笑。但是“Bo';Selecta!”直到2002年9月才播出,所以那个令人难以置信的恼人的口号还没有出现。当惠特托克在英格拉姆之后出现在他自己的节目中时,他也在与流行文化作斗争:他在一系列其他假名(例如,摇晃的加巴)的GB2000问题中找不出“赫特人贾巴”是真正的“星球大战”角色,所以他不得不问观众。
一个相当少咳嗽但答案丰富的问题。塔兰特重复了大约一半的答案,尽管英格拉姆打断了他。在“板球”之后会有一些“明显的”咳嗽。然而,英格拉姆似乎相当自信(在问题8和9上没有那么自信)。
不咳嗽的琐事:英格拉姆使用的论点是,他从香烟卡片上回忆起绅士与球员与板球联系在一起。我的猜测是,他可能在考虑球员香烟,其中确实有著名的普通兴趣香烟卡-包括一些与板球相关的香烟卡。但我不认为这与一年一度的板球比赛有任何明确的联系。尽管如此,这显然还是让他找到了正确的答案。
Van Eyck之后的早期咳嗽-不寻常,因为人们似乎在塔兰特看书的时候控制住了咳嗽。霍尔宾之后会发生很多咳嗽,但只有一部分是放大的幻觉咳嗽。有些似乎是“附带损害”咳嗽,可能是人们在(下意识)听到咳嗽后突然感到咳嗽的冲动造成的。(效果可能相当强烈:我刚写完那篇文章就咳嗽了。)。英格拉姆似乎知道不是霍尔宾就是伦勃朗。
不咳嗽的琐事:英格拉姆说他看过这幅名画。(对我来说,奇怪的是,如果你只看“大使”,维基百科会把你带到1903年亨利·詹姆斯(Henry James)的小说,这似乎比霍尔宾的画要晦涩得多,但我们就到这里了。)。英格拉姆没有说他是否站在正确的位置看到头骨被解决。事实上,大多数站在国家美术馆的人都把头放错了地方-如果你在特拉法加广场感到无聊,走进去看着人们排队,期待着会感到惊讶,然后耸耸肩,迷惑地离开。这是一件正在进行的行为艺术作品。但是如果你把头准确地放在正确的位置,这是一种令人难以置信的错觉。亚历山大·博克瑟(Alexander Boxer)制作了一段关于这幅画的有趣视频,他在视频中以不可思议的精确度重建了错觉。
这个问题回答得很快。塔兰特早早咳嗽说“帽子”,但英格拉姆立刻认为这是一顶“帽子”。也许我有偏见,但这似乎是他应该知道的事情。幻影咳嗽出现了,而且很快就结束了。
不咳嗽的琐事:“牛津英语词典”将这一术语定义为“安东尼·伊登爵士经常戴的那种通常是黑色的洪堡帽”,“华盛顿邮报”最早在1936年证明了这一用法。这看起来就像是“其中的一句话”,是由一些不知名的人开始的,并且被困住了。在1958年的“旁观者”中,有人想知道“柔软的黑色洪堡是如何被称为‘安东尼·伊甸园’的?”
整个录音中最具争议性和争议性的问题之一。英格拉姆首先说,他确定是柏林,使用了关于“豪斯曼”听起来像GE的论点。
..