评级系统能帮助权衡科普书籍中的说法吗?(2019年)

2020-11-14 21:21:56

在一个有力的姿势中晒黑会提高你的睾丸素水平。一万小时的练习造就了精通和高成就。在大碗里吃饭会导致暴饮暴食。这些只是构成科普书籍基础的几个大想法的例子,只是被进一步的研究或更仔细地阅读证据而推翻的几个例子。

皇冠出版社执行主编阿曼达·库克(Amanda Cook)说:“流行心理学在某种程度上是建立在”唯一真理“这一理念之上的。”库克曾参与过许多科学书籍的出版工作。“优秀的科学家认为真相是暂时的。他们知道科学是动态的,科学方法将引导他们获得新的真理或对真理的提炼,但读者想要的是唯一真实的东西,在流行心理学中,这意味着将改变他们生活的唯一真实东西。“。

斯坦福大学(Stanford University)心理学家贾米尔·扎基(Jamil Zaki)试图在他的新书“为善而战:在碎裂的世界中建立同理心”(The War for Kindness:Building EMERENSION in a Fracted World)中解决。这本书以流行科普畅销书典型的轻松、通俗易懂的风格写成,但扎基以一个转折的方式结束了这本书:附录对他所说的话的稳健性进行了评级。数字评级系统是他试图承认,一些想法比其他想法有更多的证据支持它们,而其中一些想法可能被证明是错误的。扎基希望他的系统可以为其他想要避免炒作交易的作者提供一个模式。

扎基指出,心理学正在进行清算,因为该领域许多备受瞩目的发现都未能复制,或者在随后的研究人员试图重复这些实验时再次被发现。他写道:“我们心理学家以此为契机,加强我们的研究方法,使我们的研究过程更加透明,明确我们知道什么和不知道什么。”“本着这种精神,我决定读者应该有工具来进一步评估这本书中提出的证据。”

因此,扎基聘请了斯坦福大学的同事、心理学博士生卡里·莱博维茨(Kari Leibowitz)对关键主张背后的证据进行独立审查。她仔细阅读了每一章,确定了主要的主张,然后进行了她所说的“微型文献回顾”,以评估证据的现状。她按照1到5的等级(从最弱的证据到最有力的证据)对每一项索赔进行评级,并在提交给扎基讨论之前写下了这一评级的理由。

“我不想影响她的得分,”扎基说。在几个例子中,他指出她忽略了一些研究,或者提供了她没有考虑过的其他方面的证据,但更多的是,低评级促使他要么从书中删除这一主张,要么在书中使用更谨慎的措辞。莱博维茨说:“如果他认为这一主张不够有力,他会回去在文本中把这一点说得更清楚。”

莱博维茨试图以不偏不倚的方式评估这些主张,但她在每一个转折点都面临着棘手的决定。要对书中的每一项索赔都进行评级是不可行的,所以她和扎基不得不选择突出哪些索赔。尽管他们已经制定了一些分类证据的总体标准,但这样做也需要多项判断。莱博维茨说:“一般说来,要被评为5级,必须对一个特定的主张进行数十项研究,这些研究往往有许多综述论文和/或荟萃分析作为佐证。”

评级为4的研究结果非常一致,但没有或很少有荟萃分析来支持这一结果。3级意味着只有少数几项研究支持这一说法,或者在文献中对此存在分歧。例如,她说,有很多证据支持这样的说法:“遭受剧烈痛苦的人往往会因此变得更亲社会。”但也有很多证据支持相反的观点,即暴力会导致暴力,痛苦会让人变得残忍或虐待,所以这一说法得到了3分。

她对失败的复制进行权衡,就像她做成功的复制一样,“作为单独的证据”。她说,如果数量很多,分数就会降低,但如果有数十项研究支持一个特定的主张,一两个失败的复制通常只会把一个主张从5分提升到4分。

莱博维茨对书中的51项索赔进行了评级,并花费了100多个小时。她说:“我们做了最好的工作,给出了每一种说法的相对概述,并给出了在我们脑海中构成真正有力证据的理由。”在这本书的网站上,读者可以下载莱博维茨用来评估这些主张的原始材料的电子表格。

尽管这种方法的用意是好的,但它的客观性是有限度的。这个过程充满了主观的要求,从声称要检查每项研究的权重到给每项研究赋予多大的权重。许多说法都非常宽泛,比如“有同理心的人在专业上表现出色”和“正念可以提高照顾者的同理心”,这些说法可以根据这些观点的定义而有不同的解释。

加州大学戴维斯分校(University of California,Davis)心理学家、心理科学改善协会(Society For The Improvance Of Mental Ological Science)联合创始人西敏·瓦齐尔(Simine Vazire)表示,她担心扎基的评分系统似乎只看表面价值,“鉴于我们对有问题的研究和出版实践的了解,这似乎是值得怀疑的,”她说。在瓦齐尔看来,“它基本上将同行评议的出版物等同于一定数量的证据,这在某种程度上体现了同行评议是确凿证据的良好指示器这一观点。”可复制性危机的全部意义在于,这并不是我们所认为的信号。“。

评级系统也有可能被玩弄。曾为《发现》、《大众科学》和《广达》等杂志做过事实核查的《板岩》记者香农·帕勒斯说:“我的直觉是,他们在这样的事情上走在了正确的道路上,但任何事情都会被滥用的方式太多了。”“人们很容易夸大证据的质量。”

Palus担心,这种索赔评级可能会变成一种“对证据的表演性筛选”,目的是让某些索赔获得可信度,而不是找出他们是否赢得了可信度。她看到环境工作组(Environmental Working Group)和Care/of等倡导组织采用了这种策略。环境工作组的食品评级系统旨在帮助“消费者做出更健康、更绿色的食品选择”。Care/of是一家在网上销售维生素和补充剂的公司,评级向消费者保证它们的有效性。

哥伦比亚大学(Columbia University)统计学家安德鲁·吉尔曼(Andrew Gelman)也表达了她的担忧,他一直直言不讳地批评夸大的流行科学。他说:“听起来他们的目的真的是评估证据,这很好。”他说,关键问题是,使用这种系统的作者是带着批判性的眼光来工作,还是只是想得到认可,以表示“一切都好”。

他表示,评估证据需要细微差别。“一篇发表的论文提出了很多主张,”他说,并解释说“通常会有一部分是合理的,另一部分是不合理的。”

读者似乎很欣赏收视率。Goodreads的一位评论者发帖称:“作者花了9页对他提出的主张进行评级,并解释了他将证据不充分的主张纳入其中的理由,这一事实让我充满了喜悦。”另一位网友写道:“我很少读到这样一本书,对他的主张提供这样的细分。老实说,我希望所有的书都能做到这一点。“。

但普通读者会对收视率有多大的关注,谁都说不准。如果没有人用它来更新自己的信念,评级系统的价值是有限的,也很难知道有多少读者会真正检查附录。

扎基和莱博维茨希望其他作者能采用某种证据评级系统。莱博维茨说:“我对这本书的愿景和梦想是,这只是一个开始,其他人会接受这个想法,并加以改进,这将成为这类书的标准。”

库克是《为善而战》的编辑,他很欣赏索偿核查过程塑造了扎基在文本中所说的话。她说,她愿意让她的其他作家做类似的事情,但那必须是他们自己的冲动。“半心半意的版本不会有多大价值。”

库克的大部分作者现在都聘请了事实核查人员。她说:“即使在五年前,情况也完全不是这样,但在这个”事后世界“,真相”似乎更紧迫“。

在今天的媒体环境中,错误可以在几分钟内成为热门话题标签。库克说,如果你犯了一个错误,破坏了你的书的伟大理念,“这可能会毁了你的声誉。”作为一个例子,她提到了作家娜奥米·沃尔夫(Naomi Wolf)最近的遭遇,当时一位BBC电台主持人在接受现场采访时指出,在她的新书《暴行:性、审查和爱的刑事化》中,她误解了档案法律文件中对她的论文至关重要的一个术语的含义。沃尔夫的出版商取消了该书在美国的发行。

出版商通常不会为事实核查付费,因此大多数作者不得不自掏腰包。再加上索赔检查的费用,总账单很容易达到五位数,这将超出大多数作者的承受能力。

归根结底,扎基和莱博维茨索赔评级工作最重要的结果可能是,它迫使扎基额外考虑他索赔的力度。这是值得迈出的一步,也指出了他的方法论中最具局限性的方面。西雅图记者兼自由职业事实核查人员简·C·胡(Jane C.Hu)表示,最担心夸大说法的人可能是那些参与其中的人,他们的罪过最轻。她曾对大量科学书籍进行过事实核查。

她说:“如果你想用你的资历来写一本书,在书中你会提出一大堆似是而非的说法,你可能不是那种会经历雇佣事实核查人员来让他们通过这本书的痛苦过程的人。”

克里斯蒂·阿施万登(Christie Aschwanden)是一位获奖的科学记者。她是《Good to Go:What What the Sports in We All of the Strange Science of Recovery》一书(诺顿出版社)的作者,也是播客《新兴形态》的联合主持人。在Twitter上@CragCrest找到她。