我希望Dunning-Kruger效果真实。最初是由David Dunning和Justin Kruger在1999年发表的一篇开创性论文中描述的,这种影响一直是记者的宠儿,他们想解释为什么哑巴人们不知道自己是哑巴。甚至还有一段视频,讲述了图兰朵著名咏叹调Nessun dorma的奇幻趣味,解释了邓宁-克鲁格效应。 “他们不知道,”歌剧歌手高潮地说道,“他们不知道。”
我打算写一篇关于邓宁-克鲁格效应的非常短的文章,感觉就像在桶中射鱼。效果,发现方式,含义。故事结局。
但是,当我仔细检查学术文献时,疑问开始蔓延。在试图理解原始研究提出的批评的同时,我掉进了一个兔子洞,与一些有统计学头脑的人交谈,与Dr. 。使自己昏昏欲睡,并试图了解我们的大脑是否真的偏向于夸大我们在我们所从事的活动中的能力……或者著名的效果仅仅是我们与数字打交道的独特方式带来的海市rage楼。
根据邓宁博士的说法,人们对邓宁-克鲁格效应犯的最重要的错误与谁成为受害者有关。他写信给我:“影响是关于我们的,而不是他们。” “效果的教训总是关于我们应该如何谦虚和谨慎对待自己。”邓宁-克鲁格效应与愚蠢的人无关。当涉及到我们不太擅长的事情时,这主要是关于我们所有人的。
简而言之,邓宁-克鲁格效应最初被定义为我们思维中的偏差。如果理论上我很糟糕,并且被告知回答测试我的英语语法知识的测验,那么根据理论,我的这种偏见会使我相信我会得到比实际更高的分数。而且,如果我擅长英语语法,那么效果将决定我可能会低估自己的水平。我可能会预测我会得到70%的分数,而我的实际分数将是90%。但是,如果我的实际分数是15%(因为我在语法方面很糟糕),我可能会更看重自己,并预测分数为60%。这种差异是影响,据认为是由于我们的大脑评估其技能的能力存在特定问题。
这就是1990年代后期,学生参加Dunning和Kruger研究项目的过程。对语法,幽默和逻辑推理进行了评估。每个人都被问到他们认为自己的表现如何,每个人都得到了客观的评分,然后对两者进行了比较。
从那时起,已经进行了许多研究,这些研究报告了在其他知识领域的这种影响。邓宁博士告诉我,他相信这种影响“更多是与误导而不是无知有关”。如果问到汞的沸点,很明显我的大脑没有把握答案。但是如果我被问到苏格兰的首都是什么,我想我可能会说格拉斯哥,但事实证明这是爱丁堡。那是错误的信息,它压低了我脑海中的那个自信按钮。
案件结案了吧?反之。在2016年和2017年,两篇论文在名为Numeracy的数学杂志上发表。在他们中,作者认为邓宁-克鲁格效应是海市rage楼。我倾向于同意。
Ed Nuhfer博士及其同事撰写的这两篇论文认为,可以通过使用随机数据来复制Dunning-Kruger效应。 “我们所有人都认为[1999]的论文是正确的,” Nuhfer博士通过电子邮件告诉我。 “推理和论证非常有意义。我们从未着手反驳。我们甚至是该纸的粉丝。”在Nuhfer博士自己的论文中,该论文既使用计算机生成的数据,又使用经过科学素养测试的实际人员的结果,他的团队反驳了以下观点:大多数不熟练的人都不知道(“ 5-6%符合我们的数据”),而是表明专家和新手都以相同的频率低估或高估了他们的技能。他写信给我说:“仅仅是专家们在较小的范围内做到了。”
缠着我的脑子花了好几个星期。我招募了一个夫妻小组,帕特里克·E·麦克奈特博士(来自乔治·梅森大学心理学系,也是Sense About Science和STATS.org的顾问委员会)和西蒙妮·C·麦克奈特博士(来自全球系统技术有限公司),以帮助我了解发生了什么。帕特里克·麦克奈特(Patrick McKnight)不仅相信邓宁·克鲁格效应的存在:他还正在教导人们警告学生注意他们实际知道的东西以及他们认为自己知道的东西。但是,在使用不同的平台(统计计算语言R而不是Nuhfer的Microsoft Excel)复制了Nuhfer博士的发现之后,他变得确信效果只是对被测量物的真实测量的一种伪像。
在我不断退缩的过程中,我们进行了长时间的交谈。作为怀疑者,我很容易被诸如“您所知道的一切都是错误的”这样的故事所吸引。那是我的偏见。为了克服这个问题,我一直与McKnight队打恶魔的拥护者,以确保我们不会忘记某些事情。每当我感到自己的理解力日渐明确时,第二天就会产生怀疑,与麦克奈特兄弟的讨论也将恢复。
我终于到达了一个可以肯定地确定邓宁-克鲁格效应并未被证明是我们的偏见,只是一种人工制品。那么,这就是我对效果似乎是真实的最简单的解释。
为了使人类心理产生真实的效果,无法使用随机噪声严格复制它。如果在翻转硬币时人脑倾向于选择正面,则可以将其与计算机做出的随机预测(正面或反面)进行比较,并查看偏差。与计算机相比,人会说更多的头,因为计算机在随机下注,而人则偏向头。使用邓宁-克鲁格效应,情况并非如此。实际上,随机数据可以很好地模拟这种效果。
最初在1999年描述的效果使用了非常特殊的图形。 “据我所知,该图对于大多数科学领域来说都是非常不寻常的,”帕特里克·麦克奈特(Patrick McKnight)告诉我。在最初的实验中,学生参加了测试,并被要求猜测分数。因此,每个学生都有两个数据点:他们认为自己获得的分数(自我评估)和他们实际获得的分数(表现)。为了直观显示这些结果,Dunning和Kruger将每个人分成四分位数:表现最差的25%的人,得分最高的25%的人和中间的两个四分位。对于每个四分位数,绘制平均表现得分和平均自我评估得分。这导致了著名的Dunning-Kruger图。
以这种方式进行绘制,看起来收入最低的25%的人认为自己的表现要好得多,收入最高的25%的人低估了他们的表现。人们认为这种观察是由于人的大脑造成的:不熟练的人没有意识到这一点。但是,如果我们从等式中删除人脑,则会得到以下结果:
上面的Dunning-Kruger图是由Patrick McKnight使用计算机生成的结果进行自我评估和绩效创建的。这些数字是随机的。编码中没有偏见,可以使这些虚拟学生猜测他们的实际分数非常低时的表现确实很好。但是我们可以看到,这两条线看起来与Dunning和Kruger的开创性实验极为相似。在最初的Dunning-Kruger论文发表三年后,Phillip Ackerman博士及其同事进行了类似的模拟,结果相似。
衡量某人对任何事物(包括自己的技能)的看法充满了困难。如果明天整件事都做完,那时候我的考试成绩可能会改变,那时我的心情可能会有所不同,我的自信可能会动摇。因此,这种自我评估的测量在一定程度上是不可靠的。这种不可靠性-有时是巨大的,有时不是这样-意味着在实验的情况下,确实存在的任何真正的心理影响都将被测量为较小。由于不可靠,这称为衰减。 “书籍,文章和章节的评分突显了测量误差和衰减效应的问题,” Patrick McKnight告诉我。在他的随机测量模拟中,随着测量误差的增加,所谓的邓宁-克鲁格效应实际上变得更加明显。他继续说:“我们在科学发现的历史上没有任何实例,其中发现随着测量误差的增加而得到改善。没有。”
当我将“ Dunning-Kruger效应”插入Google新闻时,我从《纽约时报》,《新科学家》和CBC等媒体获得了超过8,500次点击。如此多的人只是简单地认可这种效应作为大脑的真实偏见,所以难怪人们没有意识到自从效应首次发表以来就一直存在的学术批评。不只是Nuhfer博士和他的Numeracy论文。其他学术批评家指出,例如,回归均值。
但是正如帕特里克·麦克奈特(Patrick McKnight)所指出的,当随着时间的推移采用相同的度量并跟踪其演变时,均值就会回归。如果我每天早晨测量体温,并且有一天发烧,那么同样的方法将(希望)在第二天下降,并随着发烧减弱而恢复到平均值。那是对均值的回归。但是,在邓宁-克鲁格效应的背景下,随着时间的流逝,什么也无法衡量,自我评估和绩效完全是不同的衡量指标,因此不应该采用均值回归。然而,自我评估测量本身的不可靠性是解释Dunning,Kruger和其他科学家(此后在其他情况下报告了这种影响)实际描述的内容的重要依据。
这个故事还没有结束。毫无疑问,在这一问题上,学术期刊上会溅出更多的墨水,这毕竟是科学研究的健康部分。研究质子和电子相对容易,因为这些粒子没有自己的头脑。相比之下,研究人类心理学要困难得多,因为要处理的变量数量非常多。因此,当心理学发现不真实时,就很容易显得真实。
有没有意识到自己愚蠢的愚蠢的人吗?当然,但这绝不是邓宁-克鲁格效应的含义。有没有对自己的无知非常自信和自大的人?绝对地,但在这里,邓宁和克鲁格在1999年也没有测量信心或傲慢。心理学家还知道其他影响,例如过分自信的偏见和优于平均水平的偏见(大多数汽车驾驶员认为自己的偏见远高于平均值,这在数学上没有意义),因此,如果令人信服地证明Dunning-Kruger效应只是海市rage楼,那并不意味着人脑一尘不染。而且,如果研究人员在面对严厉的批评时仍然相信这种效应,那么这不是邓宁-克鲁格效应的悖论性例子。在最初的经典实验中,学生进行自我评估时没有收到任何反馈。可以公平地说,研究人员现在处于不同的位置。
多年来,新闻记者和怀疑论者都用“唐宁-克鲁格效应”这个词来形容,以解释愚蠢和无能。 也许该破咒了。 带回家的信息:-Dunning-Kruger效应最初于1999年描述为观察到,在特定任务上表现糟糕的人认为自己比他们要好得多,而擅长此事的人往往会低估自己的能力 -Dunning-Kruger效应从来不是关于“愚蠢的人不知道自己是愚蠢的”,也不是关于“无知的人非常自大,对缺乏知识充满信心”。 -由于可以在计算机生成的随机数据中看到效果,因此它可能不是我们思维中的真正缺陷,因此可能并不存在