为什么你不能依赖选举预测

2020-11-02 22:19:53

如果我们担心在上班的路上被淋湿,我们可以看看气象学家的计算机模型对天气的预测。如果天气预报说有百分之八十的可能性下雨,我们就带把伞。

在对周二的投票感到焦虑的情况下,我们中的许多人指望统计学家的选举模型来告诉我们会发生什么,这是可以理解的。如果他们说你的候选人有80%的机会获胜,你会感到放心。

但在唐纳德·特朗普(Donald Trump)在2016年出人意料的获胜似乎挑战了这些模式之后,人们一直在质疑我们应该对选举预测给予多大的关注。

为什么我们要有模特?为什么我们不能只考虑民调平均值呢?嗯,总统不是由全国选票总数选出的,而是由每个州的选举人票选出的,所以全国民调不能给我们提供我们需要的信息。正如过去五次选举中的两次-在2000年和2016年-有可能赢得普选,但输掉选举人团。模型为我们提供了一种方法,可以处理50个州的不同质量的民意调查,以得出预测。

有两种广泛的方法可以对事件建模:使用“基本面”-可以影响事件的机制-和概率-像民意测验这样的测量。对于选举,基本面应该是历史经验教训,比如“更好的经济有利于在任者。”对于民意调查,没有关于他们为什么会是现在这样的理论。我们只是使用他们产生的数字。

选举预测建模人员根据各种输入运行选举模拟-包括州和全国民调、关于问题的民调以及关于经济和国家形势的信息。比方说,如果他们运行1000个不同的模拟,对这些输入进行不同的排列,如果乔·拜登(Joe Biden)在其中800张模拟中获得270张选举人票,预测拜登赢得选举的可能性为80%。

这就是天气和选举预报开始不同的地方。对于天气,我们有基本原理-关于大气动力学如何工作的先进科学-以及来自大量观测站的多年详细的、每天甚至是每小时的数据。在选举方面,我们根本没有这方面的知识或数据。虽然我们对影响选民的因素有一些理论,但对于人们为什么会这样投票,以及我们掌握的民调数据相对稀少,我们没有细粒度的理解。

因此,大多数每天更新的选举预测-比如来自FiveThirtyEight或《经济学人》的预测-在很大程度上依赖于当前的民调和过去选举的民调,但也允许基本面产生一些影响。由于许多模型使用的是1972年现代初选时代开始时的民调,因此过去的总统选举只有12个例子,具有可靠的民调数据。这意味着只有12次机会来检验假设和结果,尽管目前还不清楚这实际上会涉及到什么。

一个更棘手的问题是,与天气事件不同,总统选举并不是真正的“重复”事件。Facebook可能直到2012年才在选举中发挥重要作用。推特直到2006年才成立,特朗普认为如果没有推特,他可能不会获胜。1972年的一次选举,当时几个广播频道主导了公共领域,告诉我们2020年可能会发生什么?

正确解读选举预测是另一个挑战。如果候选人以53%的得票率赢得选举,那将是一个决定性的胜利。如果一个概率模型给出一个候选人获胜的可能性为53%,这意味着如果我们对选举进行100次模拟,该候选人将获胜53次,而对手获胜47次-赔率几乎相等。

在2016年的最终预测中,FiveThirtyEight认为希拉里获胜的可能性为71.4%。(小数点后的数字提供了一种人造精度的光环,就好像我们可以区分71.4%和71.5%。)。所有这些数字实际上都表明,克林顿有大约三分之一的机会输掉大选,这一点大多数看到了大量数据的人都无法理解。大多数网站给出的数字甚至更高,“纽约时报”预测克林顿在投票当天获胜的可能性为85%。

自2016年以来,像FiveThirtyEight这样的网站在展示方面已经变得更好,专注于赔率和情景,甚至明确敦促人们记住,意外胜利是可能的。尽管如此,预测的重点是预测,当人们看到一个方向上的压倒性赔率似乎是压倒性的可能性时,他们可能不太可能认为“任何事情都有可能发生”。

2016年的一个关键问题是民调机构在为选民建模时所做的假设-那些真正会去投票的人。民调机构在估计选民的教育水平方面有点偏差,特别是在中西部地区。此外,晚些时候决定偏好的人更倾向于投票给特朗普,他的支持者投票的可能性比模特们想象的要高一些。即使是像这样的小变化也很重要;如果它发生在一个州,它可能会在许多类似的州发生。

在2020年,依靠民调或以前的选举更加困难:在一个手机、推动民调和不信任的时代,除了调查存在的所有问题之外,我们正处于一场流行病之中。当民调不一定停止对已经投票的人进行投票时,史无前例的提前投票数字意味着什么?选举前几个月的早期预测,因此更不确定,对提前投票的人有什么影响?面临大流行风险的老年人会避免投票吗?选民压制将如何进行?共和党人最终会在选举日蜂拥前往投票站吗?这些都是很大的未知因素,给模型增加了巨大的不确定性,特别是考虑到选举人团中的赢家通吃的设置,在选举人团中,只需以1%的四分之一的优势赢得一个州,就可以获得所有的选举人票。

关于选举预报以及它们与天气预报的不同之处,还有一个更基本的问题需要考虑。如果我读到有20%的可能性下雨,并且不带伞,那么下雨的可能性不会改变。相比之下,选举模型积极影响人们的行为方式。

例如,在2016年,联邦调查局(FBI)局长詹姆斯·科米(James Comey)的一封信告诉国会,他已经重新启动了对克林顿电子邮件的调查,在距离竞选活动只剩下几天的时候,这封信撼动了竞选的动态。科米后来承认,他认为克林顿会获胜的假设是他决定寄出这封信的一个因素。

同样,Facebook在2016年大选前受到保守派的重创,是否认为克林顿的胜算如此之高,以至于这些错误信息几乎没有什么作用,所以对其平台上虚假信息的泛滥采取了不干预的态度?奥巴马政府是否像报道的那样,推迟公开它所知道的关于俄罗斯干预的所有事情,认为等到克林顿假定获胜之后再公布更好?

事实上,在一项研究中,研究人员发现,暴露在预测预测中“增加了对选举结果的确定性,让许多人感到困惑,并降低了投票率。”是不是有很多人像爱德华·斯诺登(Edward Snowden)那样想,他在选举日前18天向数百万粉丝发了一条著名的推文,称“可能从来没有比这更安全的选举了,投票给第三个选项”,并补充了“纽约时报”的一篇预测文章,称希拉里·克林顿(Hillary Clinton)在他的推文中获胜的可能性为93%。是否有更多的克林顿选民留在家里,认为他们的投票没有必要?是否有更多的人持观望态度,他们认为这将是对唐纳德·特朗普的抗议票?我们永远不会知道。

当概率模型第一次出现时,我希望它们能减少有时夸大不确定性的赛马新闻(因为否则还有什么令人兴奋的呢?)。以及寻找叙事转折点(好于预期的辩论表现!这是一场失败者的卷土重来!)。我曾希望我们会得到更多实质性的、以政策为导向的报道。取而代之的是,模特已经被纳入了赛马报道。

考虑到选举预测的不确定性、误解和脆弱性,我不确定,比如说,20%和40%的获胜机会之间有什么有意义的区别。这也就是说,这些预测没有那么有用,如果人们把它们看得太重,甚至可能是有害的。

人们不应该刷新页面来更新预测,而应该做唯一真正影响结果的事情:投票、捐款和组织。其他一切都在误差范围内。

“泰晤士报”致力于向编辑发表各种信件。我们想听听您对这篇文章或我们的任何一篇文章的看法。这里有一些小贴士。这是我们的电子邮件:[email protected]