杜克大学科学家用新的研究故障任务fMRI质疑自己的研究

2020-07-08 20:43:01

这一切都始于一项被拒绝的拨款提案。杜克大学(Duke University)神经学家艾哈迈德·哈里里(Ahmad Hariri)对结合基因测试和心理评估使用所谓的任务功能磁共振成像感兴趣。所谓任务功能磁共振成像是指受试者在接受大脑扫描的同时执行专门设计的认知任务。我们的目标是确定人们处理思想和情绪的方式差异的特定生物标记物,这些差异可能决定给定的受试者在未来更有可能或更少地经历抑郁、焦虑或与年龄相关的认知下降,如痴呆症。

哈里里告诉“每日邮报”,我们的想法是收集一次这些数据,然后再收集一次,然后能够跟踪一个人随着时间的推移大脑的变化,以帮助我们了解他们一生中发生了什么变化。因此,他提交了一份资金提案,概述了他沿着这些路线进行纵向研究的计划。该提案假设,例如,一个人的创伤史将映射到他们的杏仁核对威胁相关刺激的反应。反过来,这将使研究人员能够对个人未来的精神健康状况发表一些看法。

哈里里和他的团队为此设计了四种与任务相关的核心措施:一种是针对杏仁核的威胁反应,一种是针对海马和记忆,另一种是针对纹状体和奖励,第四种针对的是前额皮质和执行控制。他认为自己有坚实的科学基础。因此,基于对功能磁共振成像收集这类数据的可靠性的怀疑,当这项提案甚至没有得到评论家的评分时,他感到震惊。

哈里里说:这才是真正的刺激,我需要更认真地考虑功能磁共振成像任务的可靠性。这些担忧导致他对已发表的研究进行了广泛的回顾,声称可以使用任务功能磁共振来预测一个人的思维或感觉模式。他特别研究了什么是所谓的重测可靠性:当一个人在接受扫描的同时接受了同样的认知测试,然后又重新接受了同样的认知测试,两者之间有多大的相关性。最近发表在“心理科学”上的一篇论文中描述的结果压倒性地表明,任务功能磁共振成像不是一个可靠的指标:同一个人的一次扫描和后来一次扫描之间的相关性只是中等到很差。

这些发现给哈里里带来了一点职业危机。他非常坦率地告诉“今日公爵”,这与我的工作比其他任何人都更相关。这是我的错。我要把自己扔到公共汽车下面去。如果我们不能解决这一关键限制,功能磁共振成像的整个分支都可能灭绝。

诚然,他并不是说不可能可靠地测量大脑激活功能。他告诉ARS,你不能用我们一直在做的事情,用我们一直在用的任务来做这件事。

拉塞尔·波德拉克在接受“今日杜克”采访时表示:这并不是说我们不知道这些可靠性问题,但这篇论文将它们更清晰地结合在一起。波德拉克是斯坦福大学的心理学家,他没有参与这项回顾研究,尽管他15年前的一篇功能磁共振成像论文包括在分析中。他说,这是一个很好的警钟,这是艾哈迈德正直的标志。

功能磁共振成像是当今使用的最流行的大脑成像技术之一,部分原因是它能产生令人惊叹的全色图像-统计数据的惊人可视化-显示不同任务下大脑活动的亮点。传统的医用核磁共振成像产生大脑的静态图像,类似于X射线,但功能核磁共振成像(FMRI)监测一组神经元在对给定刺激做出反应时共同放电产生的血流量增加。具体地说,它检测到血液含氧量的轻微增加,即所谓的大胆反应。

成像过程会产生大量原始数据-每次扫描多达50,000个数据点。因此,神经科学家依靠计算机算法来筛选所有这些信息,将许多不同研究参与者的扫描结果平均出来,这些参与者都参与了相同的任务(通常是一项控制任务,另一项是为测量特定目标而设计的)。控制性任务与指导性任务的差异越大,大胆反应越强。只有那些超过某一统计阈值的信号才会被认为显示了被指导的任务与任何受影响的大脑区域之间的相关性。

不可避免地会有假阳性(同一区域随机地在两次不同扫描中点亮),但神经科学家们非常努力地将潜在的假阳性纳入他们的统计分析。这一点的重要性在2010年的一篇论文中得到了著名的说明,该论文通过对一条死鲑鱼进行fMRI扫描,发现了一个可测量的大胆反应。加州大学圣巴巴拉分校的神经学家克雷格·贝内特(Craig Bennett)是这项研究的合著者之一,当时他是达特茅斯大学的研究生。他负责校准核磁共振仪,这通常是通过扫描装满矿物油的气球来完成的。他和他的实验室伙伴决定找点乐子,试着扫描一只康沃尔猎鸡、一个南瓜,最后扫描臭名昭著的鲑鱼。

班尼特和他的实验室伙伴将三文鱼放入头部线圈内,然后进行校准测试,其中包括向这条鱼展示带有人脸照片的照片,并要求它确定每张照片中显示的情绪。瞧,当他分析数据时,数据中出现了一个信号-尽管死亡的鲑鱼根本不可能显示出任何大脑活动。Bennett et al.。因其富有启发性的工作而获得2012年搞笑诺贝尔奖神经科学奖。

重点并不是说功能磁共振成像是一项不可靠的技术。相反,事实证明,对于执行相同任务的参与者群体的研究,它是相当可靠的,因为这产生了一个广泛的、一般的样本,使科学家能够准确地找出人群中的共同点。当我们谈论的是试图衡量一个人的大胆反应的研究时,事情就变得有点棘手了-比如,确定受试者是否在撒谎,他们对上帝的信仰,或者他们的同理心水平。例如,如果你把100个人放在扫描仪里,试图找出他们中哪些人在撒谎,你最多只能说一个小组比另一个小组撒谎的频率更高。你已经获得了整个群体的统计意义上的快照,但这并不等同于确定该群体中的某个特定人在撒谎。

这就是为什么个体的功能性磁共振成像研究通常会让受试者参与多次扫描,以补偿小样本(N=1)并达到所需的统计阈值。但要从数据中梳理出强烈的相关性要困难得多,而且很容易说服自己,你在数据中看到的模式和相关性其实并不存在。