一位民调专家对民调出错原因的解释

2020-11-11 03:21:19

是的,民调正确地预测了乔·拜登(Joe Biden)将赢得总统大选。但他们掌握了各种细节,以及一些参议院竞选,都大错特错了。FiveThirtyEight的民调模型预测,拜登将以8.3个百分点的优势赢得威斯康星州;在基本上所有选票的情况下,他只以0.63%的优势获胜,差距超过7个百分点。在缅因州参议员竞选中,FiveThirtyEight估计民主党人萨拉·吉迪恩将以2个百分点的优势击败共和党现任总统苏珊·柯林斯;吉迪恩以9个百分点的差距落败,落后11个百分点。

拜登的领先优势足以在这种民调错误的情况下保持,但像吉迪恩这样的候选人(或者显然,尽管还没有正式命名,北卡罗来纳州的卡尔·坎宁安)的领先优势却并非如此。并不是所有的选票都已经清点完毕,这可能会改变选票错失率的估计,但在威斯康星州和缅因州等几乎全部计票的州,错失率已经很明显了。

为了弄明白今年民调的巨大失败,我联系了我认识的最聪明的民调专家:大卫·肖尔(David Shor),他是一名独立数据分析师,是奥巴马总统竞选团队的资深人士,今年早些时候离职之前,他曾在Civis Analytics进行过一项大规模的网络调查。他现在的工作是为超级政治行动委员会提供广告测试方面的咨询。自2016年以来,肖尔一直在试图说服我,以及基本上任何其他愿意倾听的人,关于那一年的民调出了什么问题,以及他认为2018年和2020年的民调出了什么问题。

其理论是,回答民意调查的人与拒绝回答民意调查的人在系统上是不同的--这一点最近开始以一种系统的方式对民意调查产生偏见。

这挑战了民调的一个核心前提,即你可以利用民调参与者的反应来推断整个人群的看法-如果民调参与者和非受访者之间存在差异,他们可以通过根据种族、教育程度、性别等进行加权来在统计上对其进行“控制”。(为了更好地匹配特定群体在实际人口中所占的份额,加权可以增加和降低特定群体在民意调查中的回答的重要性。)。如果这两个群体确实存在系统性差异,那就意味着结果是有偏见的。

认为受访者和非受访者基本相似的假设,一旦得到适当的加权,过去是大致正确的-然后,从2016年开始,它变得非常、非常错误。肖尔认为,不回答民意调查的人总体上对他人的信任度往往较低。这些低信任度的人过去投票时和其他人一样。但到了2016年,他们不会这么做:他们倾向于投票给共和党人。

现在,在2020年,肖尔认为,受访者和非受访者之间的差异变得更大了。部分由于新冠肺炎的狂热,民主党人,特别是为竞选捐款和志愿服务的高度公民参与度的民主党人,变得更有可能回答民意调查。当我们都感到无聊的时候,这是一件可以做的事情,而且它给人的感觉是有益的。肖尔认为,这对民调产生了深刻的偏见,即使是最好的民调(包括他自己的民调)也难以解释。

自由民主党人回答了更多的民调,所以民调夸大了自由民主党人和他们的观点(即使在加权后),因此民调显示拜登和参议院民主党人夸大了获胜的几率。

肖尔和我上周四在Zoom上谈到了2020年的民调失误,他是如何努力防止这种情况再次发生的(至少是他自己的调查),以及为什么定性研究容易受到同样问题的影响。以下是经过长度和清晰度编辑的文字记录。

所以基本情况是,特别是在新冠肺炎之后,民主党人非常兴奋,参与率非常高。他们以更高的捐赠率等等,这转化为他们也接受调查,因为他们被锁在家里,没有其他事情可做。有一些非常明显的证据表明,这几乎就是全部:这是党派的不回应。民主党人刚刚开始进行一系列调查(当民调机构要求他们进行调查时,而共和党人没有)。

就这些数字而言,如果你看看提前投票的结果,并将其与民调显示的早期选民的支持率进行对比,很明显早期选民并不像人们想象的那样民主。竞选民调人员实际上可以将接受调查的人加入选民档案,从3月份开始,我们接受调查的人中,比如说ActBlue捐赠者的比例飙升。受访者的平均社会信任度上升了,核心态度发生了变化--基本上,自由主义者刚刚开始以非常高的比率进行调查。事情就是这样发生的。

你提到了社会信任。给我讲讲你的基本理论,关于同意接受调查的人是如何获得更高水平的社会信任的,以及这是如何在最近几年的民调中产生偏见的。

在连续三个周期中,民调机构高估了民主党在一些州的支持率,低估了其他州的支持率,这种模式一直存在。这是相当一致的。这发生在2018年。这发生在2020年。之所以会发生这种情况,是因为(民调机构)现在做民调的方式根本行不通。

民调推特(Poll Twitter)倾向于将这些神秘的力量归功于这些不同的民调机构。但他们都在做非常相似的事情。从根本上说,每个“高质量的民意调查机构”都会进行随机数字拨号。他们拨打一堆随机号码,大约1%的人拿起电话,然后他们会问一些问题,比如教育、年龄、种族和性别,有时还会问家庭规模。然后他们把它加到人口普查中,因为人口普查显示有多少成年人做了所有这些事情。如果回答调查的人和不回答调查的人是一样的,一旦你控制了年龄、种族、性别和所有其他因素,这一点是有效的。

但事实证明,回答调查的人真的很奇怪。他们比平时更多地参与政治活动。我进行了一项五因素测试(一种人格调查),他们的宜人性(衡量人们合作和热情程度的指标)要高得多,如果你仔细想想正在发生的事情,这是有道理的。

他们的社会信任度也更高。我用的是综合社会调查的问题,“一般来说,你是说大多数人都是可以信任的,还是说你在与人打交道时不能过于谨慎?”GSS的运作方式是,他们雇佣大量的人去获取面对面的回复。他们得到了70%的回复率。我们基本上可以相信他们说的话。

事实证明,在GSS中,70%的人说人们不能被信任。如果你做电话调查,并称体重,你会得到50%的人说人们是可以信任的。这是一个相当大的差距。[社会学家]罗伯特·普特南(Robert Putnam)实际上对此做了一些研究,但不信任他人和机构的人回答电话调查的可能性要小得多。这并不令人惊讶!这一直是事实。这在过去是无关紧要的。

过去,一旦你控制了年龄、种族、性别和教育,信任邻居的人基本上和不信任邻居的人投票相同。但后来,从2016年开始,情况突然发生了变化。如果你看看没有接受过大学教育的白人,高度信任的非大学白人倾向于(民主党),而低信任的非大学白人强烈反对我们。2016年,我们对这些高度信任的选民进行了民意调查,所以我们高估了克林顿。这些低信任度的人仍然投票,即使他们不回答这些电话调查。

同样的偏见在2018年再次发生,人们没有注意到,因为民主党人无论如何都赢了。这个周期的不同之处在于,2016年和2018年,全国民调基本正确。这一次,我们将看到所有选票都清点完毕,但全国民调结果大错特错。如果你看看原因,我认为答案是相关的,那就是回答电话调查的人比整体人口更多地参与政治。

如果你将投票记录与投票历史相匹配,那么回答电话调查的人中,确实有95%的人会投票。这就是“潜在选民筛选”的问题所在(它试图通过将投票对象限制在最有可能投票的受访者来改善民调)。如果你限制那些从未在选举中投票的人,70%的电话调查参与者会投票。如果你限制那些说他们肯定不会投票的人,那么76%的人会投票。

通常情况下,这并不重要,因为政治参与实际上与党派之争并不高度相关。这通常是正确的,如果不是这样,投票就会完全崩溃。2020年,他们破产了。在Covid期间,自由主义者的政治参与度非常、非常高。你可以从数据中看到,这确实发生在3月份左右。民主党在参议院的公开民调从3月份开始大幅上升。由于Covid的缘故,自由主义者被关了起来,所以他们开始更多地回答调查,更多地参与进来。

这就得出了民调真正可怕的地方,那就是民调从根本上是建立在这样一个假设之上的,即一旦你有足够的条件,回答调查的人和不回答调查的人是一样的。这在任何给定的时间都可能是真的。但我们正在努力测量的这些东西是不断变化的。因此,你可以有一种在过去的周期中奏效的方法突然中断。

为什么你不能通过称体重来解决这个问题呢?为什么不干脆通过性取向或宗教来控制结果来绕过这个问题呢?

你可以从GSS中了解到,比如说,全国有多少人的社会信任度较低。但这并不能告诉你--可能的选民呢?或者俄亥俄州第十三国会选区的潜在选民呢?这是如何按种族、性别或教育程度划分的?这与投票率有何关系?所有这些东西都变得相当难。

民调机构不把每件事都放在首位是有原因的。假设你有800个回复。你加权的变量越多,你的有效样本量就越小。一旦你控制的东西的数量超过了某个点,传统的技术就开始失效,你需要开始进行机器学习和建模。

这是我试图说明的关于这个行业的更重要的一点。在过去的世界里,民调包括打电话给人们,应用经典的统计调整,并将大部分重点放在解释上。现在,你需要选民文件、专有的第一方数据和机器学习工程师团队。这已经成为一个更难解决的问题。

我从几个方面看到的一个反应是,2020年的情况表明,量化方法不足以理解选民,民调机构需要做更多的工作,纳入人种学技术、深度访谈等。在某种程度上,你提出了相反的建议:民调机构需要在量化方法上变得更加复杂,以克服今年破坏民调的偏见。我的理解对吗?

我是说,我不是机器人。定性研究和解释对于赢得选举很重要。但我认为这是对民调错误原因的误解。

很多人认为,民调出错的原因在于“害羞的特朗普选民”。你和某人交谈,他们说他们还没有决定,或者他们说他们会投票给拜登,但这不是真的。然后,如果你有一个焦点小组,他们可能会说,“我会投票给拜登,但我不知道。”然后,你的民族志专家可以读到不确定性,然后决定,“好吧,这不是一个坚定的拜登选民。”作为一种解释,这类事情是非常时髦的。

但这并不是民调出错的原因。事实并非如此。当你问他们投票给谁时,人们会说实话。平均而言,他们确实是这样做的。民调错误的原因是,回答这些调查的人是错误的人。如果你做人种学研究,如果你试图招募这些焦点群体,你将会有同样的偏见。他们通过叫人来招募焦点小组!接受调查的人都很奇怪。焦点小组中的人甚至更奇怪。定性研究不能解决这样的问题:一组人真的非常非常兴奋地分享他们的观点,而另一组人却不是。只要这种偏见存在,它就会渗透到你做的任何事情上。

数以百万计的人依靠Vox来了解华盛顿做出的政策决定,从医疗保健到失业再到住房,可能会对他们的生活产生怎样的影响。我们的工作来源充足,研究驱动,而且深入。这类工作需要资源。即使在经济复苏之后,仅靠广告也永远不足以支撑经济。如果你已经为VOX做了贡献,谢谢你。如果你还没有,请帮助我们让我们的新闻对每个人都是免费的,现在就捐款吧,最低只需3美元。