在不正当激励和过度竞争的环境中保持科学诚信

2022-02-21 22:07:55

版权所有©Marc A.Edwards and Siddhartha Roy 2016;玛丽·安·利伯特公司出版。

本开放获取文章根据知识共享署名非商业许可的条款发布http://creativecommons.org/licenses/by-nc/4.0/)允许在任何媒体上进行任何非商业性使用、分发和复制,前提是原始作者和来源均已被认可。

在过去50年中,我们认为,学术科学家的激励措施在研究资金竞争、衡量绩效的量化指标的开发以及高等教育自身不断变化的商业模式方面变得越来越不合理。此外,联邦和州一级自由支配资金的减少正在为这些机构的科学家创造一个政府机构(如EPA、NIH、CDC)之间的超级竞争环境,对于从各种渠道寻求资金的学者来说,不当激励和资金减少的结合增加了可能导致不道德行为的压力。如果临界数量的科学家变得不值得信任,那么就有可能出现一个转折点,科学事业本身就变得内在腐败,公众信任丧失,从而有可能进入一个新的黑暗时代,给人类带来毁灭性的后果。学术界和联邦机构应该更好地支持科学作为一种公共产品,鼓励利他主义和道德成果,同时不强调产出。

在过去的半个世纪里,学术界发生了巨大的变化。终身职位竞争加剧,大多数美国博士毕业生选择在行业、政府或其他地方工作,部分原因是目前博士学位的供应远远超过可用的学术职位(Cyranoski等人;Stephan,2012a;Aitkenhead,2013;Ladner等人,2013;Dzeng,2014;Kolata,2016)。鉴于兼职或兼职教授职位占学术劳动力的76%,大学也越来越多地“在兼职教授的支持下平衡预算”,而平均每班工资为2700美元,没有福利或工作保障(Curtis and Thornton,2013;美国众议院教育和劳动力委员会,2014)。关于现代学术文化还有其他担忧,研究表明,学术研究职业的吸引力随着学生的成长而下降;与其他职业相比,一级机构的博士课程(Sauermann和Roach,Schneider等人,2014),反映了对定量指标的过度强调、对有限资金的竞争,以及将科学作为公共品追求的困难。

在这篇文章中,我们将(1)描述反常激励和过度竞争如何改变研究人员和大学的学术行为,减少科学进步,增加不道德行为,(2)提出一个概念模型,描述强调数量与质量如何对真正的科学进步产生负面影响,(3)考虑这种环境对下一代科学、技术、工程和数学(STEM)研究者、公众感知和科学本身的未来的影响,最后,(4)提供建议可以帮助我们的科学机构提高生产力和维护公众的信任。我们希望开始所有利益相关者之间的对话,他们承认学术界的不正当激励,考虑改变以增加科学进步,并坚持该行业的“高道德标准”(NaE,2004)。

当你依赖激励时,你就会破坏美德。然后当你发现你真的需要那些想做正确事情的人时,那些人就不会';不存在…-巴里·施瓦茨,斯沃斯莫尔学院(Zetter,2009)

学术界人士都是人,他们很容易对激励做出反应。自从终身教职概念首次流行以来,实现终身教职的需求影响了教师的决策、优先事项和活动(Wolverton,1998)。然而,最近,对定量绩效指标的强调(Van Noorden,)增加了对静态或减少联邦研究资金的竞争(如NIH、NSF和EPA),在私立商业模式下运营公立大学的稳步转变(Plerou等人,1999年;Brownlee,2014年;Kasperkevic,2014年)正在创造一种越来越反常的学术文化。这些变化可能会在学术界个人和机构层面造成问题(表1)。

衡量科学生产力的目标产生了量化的绩效指标,包括发表数量、引文、综合引文发表数量(如h指数)、期刊影响因素(JIF)、总研究经费和总专利。这些量化指标现在主导着教师招聘、晋升和任期、奖励和资助的决策(Abbott等人;Carpenter等人)。古德哈特(Goodhart')表示,由于这些措施容易被操纵,它们注定会产生误导,甚至适得其反;“当一项措施成为目标时,它就不再是一项好的措施”(埃尔顿,2004年;菲舍尔等人,2012年;沃纳,)。

归根结底,善意地使用量化指标可能会造成不公平和比它们所取代的体系更糟糕的结果。具体来说,如果奖励不成比例地给予操纵指标的个人,那么旧的主观范式(例如,老男孩和人际网络)的问题相比可能会被克服。在2010年的一项调查中,71%的受访者表示,他们担心同事可以通过“游戏”或“欺骗”的方式在他们的机构进行更好的评估(Abbott,),这表明科学家对当前体系中滥用的可能性非常敏感。

量化指标是以学者为中心的,是奖励产出,这与实现与社会相关且有影响力的研究成果的目标不一定相同。从第二次世界大战开始(Bornmann和Mutz,2015年),以引用的工作衡量的科学产出每9年翻一番,产生了“更繁忙的学术、更短、更不全面的论文”(Fischer等人,2012年),气候变化从“出版或毁灭”到“资金或饥荒”(Quake,2009年;Tijdink等人,2009年)。人们对知识产业的这种指数式增长的可持续性提出了疑问(Price,1963;Frodeman,2011),以及根据Goodhart和#39;这是法律。

最近的曝光揭示了期刊操纵影响因素的计划,研究人员利用p-hacking挖掘具有统计意义且可发布的结果,操纵同行评审过程本身,和过度心悸(法拉加斯和亚历克西奥,2010年;日伏托夫斯基和克鲁托夫斯基,2008年;巴特内克和科克尔曼,2012年;德尔加多·洛佩斯-科扎等,2012年;麦克德莫特,2013年;范诺登,2014年;巴里,2015年)。最近,一个虚构的角色被创造出来,展示了一场“科学中心的垃圾邮件战争”,该角色在Google Scholar上生成了102篇虚假文章,并获得了94的恒星h指数(Labbé,2010)。描述如何在不进行彻底欺诈的情况下更谨慎地提高h指数的博客也很常见(例如,Dem,2011)。

从强调研究质量而不是研究数量的角度,以及反常激励的效果(图1)来概念化基本问题,是很有启发性的。假设科学事业的目标是最大限度地实现真正的科学进步,一个过分强调质量的过程可能需要三倍或四倍盲的研究,独立方强制复制结果,并在发布前对所有数据和统计数据进行同行审查,这样一个系统将最大限度地减少错误,但由于过度谨慎,几乎不会产生什么结果(左图1)。在另一个极端,过分强调数量也是有问题的,因为在统计、复制和质量控制方面接受不那么严格的科学要求,或者接受不那么严格的审查过程,会产生非常多的文章,但在考虑到与高错误率相关的代价高昂的挫折之后,真正的进展也会很低。假设的最佳生产率介于两者之间,我们目前的做法(通过同行审查实施)可能会在一个不太合理激励的环境中演变为接近最佳。

然而,从长期来看,在不正当激励制度下,真实的生产率曲线会因操纵和/或不道德行为的增加而发生变化(图1)。在一个过分强调质量的系统中,偷工减料的动机就更少了,因为制衡让问题更容易被发现,但在一个强调数量的系统中,由于粗心大意、细微的篡改(即消除不良数据)而产生的大量错误文章可能会大大降低生产率,如果不是直接制造(即干贴标),则审查不合格。

虽然几乎没有研究探索反常激励对科学生产力的影响,但学术界的大多数人都会承认,多年来,我们的行为发生了集体转变(表1),以质量为代价强调数量。对于吸引和留住有利他主义思想的学生,尤其是女性和代表性不足的少数民族(WURM)从事STEM研究职业而言,这个问题可能尤其令人不安。因为现代科学职业被视为关注“个体科学家和个人成就”,而不是利他主义目标(托曼等人),而WURM学生往往出于利他主义动机被STEM领域所吸引,包括服务社会和一';在s社区(Diekman等人,Thoman等人),许多人离开STEM去寻找更符合他们价值观的职业和工作(例如Diekman等人,Gibbs and Griffin,Campbell等人)。

因此,过分强调产出与结果、数量与质量的另一个危险是建立一个“扭曲自然选择”的体系,有选择地淘汰道德和利他主义行为者,同时选择那些从一开始就对扭曲的激励更为舒适、反应更灵敏的学者。同样,如果正常道德行为人觉得有必要从事不道德行为以维持学术生涯(Edwards,2014),他们可能会成为Granovetter和#39;s完善的集体行为阈值模型(1978年)。在这一点上,不道德行为已经“嵌入到”专业文化的结构和过程中,几乎所有人都“被诱导认为腐败是可以允许的”(Ashforth和Anand,2003)。

这也说明,《高等教育纪事》(编年史Vitae,2013-2014)中出现了一种新的文章类型,称为“戒烟”,其中成功、利他、,有公众意识的教授为离开他们曾经热爱的职业给出了完全合理的理由,这些人很容易被更适应当前环境的新员工取代。离职的原因包括就业市场饱和、缺乏自主权、与学术结构本身相关的担忧(CHE,2013年),以及“维持现状、奖励平庸、阻止潜在高影响力跨学科工作的不当激励结构”(Dunn,2013年)。

虽然量化指标提供了相对于主观指标评估研究生产率的客观方法,但现在它们已经成为目标,不再有用,甚至可能适得其反。继续过分强调量化指标将迫使除最有道德的科学家外的所有科学家过分强调数量而牺牲质量,在整个体系中制造“偷工减料”的压力,并选择被不正当激励吸引的科学家。

科学协会、研究机构、学术期刊和个人都提出了类似的论点,一些人签署了《旧金山研究评估宣言》(DORA)。DORA认识到需要改进“评估科学研究成果的方式”,并呼吁挑战性的研究评估实践,尤其是目前正在实施的JIF。截至2016年6月30日,在737个组织和12229名个人中,签署者包括美国细胞生物学学会、美国科学进步协会、霍华德·休斯医学研究所和美国国家科学院院刊。事实上,《自然》、《科学》和其他期刊的出版商呼吁淡化JIF指标,美国微生物学会宣布计划“清除影响因素的讨论”,并将其从所有期刊中删除(Callaway,)。争论的目的不是要消除指标,而是要降低它们在机构和融资机构决策中的重要性,或许还要投入资源来创建更有意义的指标(ACSB,2012)。DORA将是阻止主导研究评估的绩效指标“雪崩”的正确方向上的一步,这些指标不可靠,长期以来一直被认为会威胁研究质量(Rice,1994;Macilwain,)。

我们必须进入前100名。这对东北航空来说是生死攸关的问题-理查德·弗里兰,东北大学前校长(库特纳,2014)

学术机构的不当激励在范围和影响上都在不断扩大,美国新闻与广播公司(U.S.News&;《世界报告》年度排名,据称衡量“学术卓越”(Morse,2015)。这些排名对公众对教育质量及其提供的机会产生了积极或消极的强烈影响(Casper,1996;Gladwell,2011;Tierney,2013)。尽管美国新闻和;一些人对《世界报道》的排名不屑一顾,不可否认,他们仍然对大学管理者和大学领导层具有非凡的影响力。客观量化排名所产生的认知决定了“学生、家长、高中和大学如何追求和感知教育”(Kutner,2014;Segal,2014)。

排名依赖于主观的专有公式和算法,古德哈特和#39削弱了这些公式和算法最初的有效性;美国的法律大学试图通过重新分配资源或在排名指标强调的领域进行投资,来玩弄这一体系。例如,东北大学(Northeast University)通过明确改变班级规模、录取率甚至同侪评估,毫无歉意地从1996年的162人上升到2015年的42人。其他人则通过报告不正确的统计数据(巴克内尔大学、克莱蒙特·麦肯纳学院、克莱姆森大学、乔治·华盛顿大学和埃默里大学都是被抓获者的例子)进行作弊,以提升排名(斯洛特尼克和佩雷斯·佩纳,2012年;安德森,2013年;库特纳,2014年)。根据2013年盖洛普和内部高等教育民意调查(Jaschik,2013),576名大学招生官员中有90%以上认为其他院校向《美国新闻》提交了虚假数据,这进一步造成了在整个系统中作弊的压力,以维持前几节所讨论的被认为是公平的排名。

如果你打算做的工作不是';我几乎不能肯定会成功,然后它赢了';诺贝尔奖得主罗杰·科恩伯格(Roger Kornberg,2007年)

在这种环境中唯一能生存下来的人是那些对自己的生活充满激情的人';重新开始,并有自信和竞争力,一次又一次地回去,坚持申请贝勒医学院罗伯特·沃特兰(Robert Waterland)的资助(Harris and Benincasa,2014)

联邦政府';中国在资助研发、创造新知识或履行国家安全、农业、基础设施和环境卫生等公共使命方面的作用已变得至关重要。高风险、长期研究的成本通常具有不确定的前景和/或效用,二战后主要由美国政府承担,形成了大学和工业为人类集体进步做出贡献的生态系统的一部分(Bornmann和Mutz,2015;Hourihan,2015)。

然而,在当前竞争激烈的全球环境下,中国预计将在研发方面超过美国;到2020年,一些人担心“美国创新大厦建立在日益脆弱的基础上”,因为联邦研发支出下降;D过去十年(卡萨苏,2014年;经合组织,2014年;麻省理工学院,2015年;波特,2015年)。美国的“研究强度”(即联邦研发占美国国内生产总值(GDP)的比例)已降至0.78%(2014年),低于1960年的约2% s(图2)。由于联邦预算的可自由支配支出预计将减少,研究强度可能会进一步下降,尽管行业资金有所增加(Hourihan,2015)。

美国学院和大学的核心使命一直是“为公众服务”,随着大学转变为生产专利和新产品的利润中心,这一目标将更加难以实现(浮士德,2009年;米洛夫斯基,2011年;布朗利,2014年;辛克斯-琼斯,2014年;塞利格松,2015年;美国艺术与科学院,2016年)。直到21世纪末,研究机构和大学都在借贷的推动下进行着一场建筑狂潮,人们期望增加研究资金可以进一步提高研究生产率——这一周期在2007-2008年金融危机后破灭(Stephan,2012a)。大学也被允许以间接成本的形式抵消注定失败的扩张努力所产生的债务(Stephan,),这会增加管理费用,并减少可用于研究的资金,即使通过拨款筹集的资金保持不变。

联邦政府在研究方面的投资停滞不前或不断下降,造成了“50年来最糟糕的研究资金情况”考虑到竞争拨款的研究人员数量正在增加,资金竞争进一步加剧(Lee,2007年;Quake,2009年;Harris and Benincasa,2014年;Schneider等人,2014年;Stein,2015年)。1997年至2014年间,NIH补助金的资助率从30.5%降至18%,R01同等补助金的首次PI平均年龄已增至43岁(NIH,2008年,2015年)。在过去十年中,NSF的资助率在23%到25%之间一直停滞不前(NSF,2016)。尽管这些资助率仍远高于6%的盈亏平衡点,即撰写建议书的净成本等于获得资助者从资助中获得的净值(Cushman等人,2015年),但毫无疑问,资助环境是超竞争的,容易受到审查者偏见的影响,并且强烈依赖于之前通过量化指标衡量的成功(Lawrence,;Fang和Casadevall,)。研究人员必须调整自己的思维,使其与所请求的资金保持一致,并将大约一半的时间用于解决行政和合规问题,将重点从科学发现和翻译上转移(NSB,2014;Schneider等人,2014;Belluz等人,2016)。

科学是人类的事业,尽管它在历史上对文明进步做出了明显的贡献,但越来越多的证据表明今天';美国的研究出版物往往缺乏可复制性,依赖有偏见的数据集,采用低水平或不符合标准的统计方法,未能防范研究者的偏见,其结果被夸大(Fanelli,;Aschwanden,2015;Belluz and Hoffman,2015;Nuzzo,;Gobry,2016;Wilson,2016)。一种令人不安的不道德行为,公然假装同行评议和撤回,已经被揭露,鉴于曝光、披露或承认的成本很高,这可能只占总数的一小部分

......