我试图举报科学不端行为。 怎么样了

2021-01-28 22:22:57

这是关于我如何发现自己认为是科学上的不当行为以及我在举报时发生的事情的故事。

科学应该是自我纠正的。为了检验科学是否确实可以自我纠正,我尝试通过多种科学自我纠正机制来报告这种不当行为。结果向我表明,心理学对不可靠的数据基本上没有防御力。

我想与您分享这个故事,以便您了解一些事情。您应该了解,在您的领域中可能有一些人从事的工作要么是欺诈性的,要么是错误的,因此很可能是欺诈性的。您应该了解,他们的工作在政策声明中被引用,并被纳入荟萃分析中。您应该了解,如果您想查看数据或报告问题,这些事情会根据期刊主编的意愿发生。您应该理解,如果主编不愿为您提供帮助,那么他们通常对任何人都不负责,并且他们总是可以无视您,直到法律规定的期限用完为止。

基本上,生成不可靠的数据非常容易,并且很难收回它。

两年前,我读了一篇期刊文章,该文章似乎对其所有统计数据都毫无意义(Zhang,Espelage,& Zhang,2018)。表格中的数字均未累加:p值与F值不匹配,F值与均值和标准差不匹配,自由度与样本量不匹配。令人沮丧的是,样本量为3,000名参与者。如果这些数字是错误的,那么在将来的荟萃分析中,它们将获得很大的帮助。我给编辑写了一封便条,说“嘿,这些数字都没有道理。”编辑说,他们要求作者改正,我继续前进。

图1. Zhang,Espelage,&的表格Zhang,(2018)。平均值和标准差没有意义,考虑到F值,重要性星号不正确。

然后我读了其余的博士。张的第一篇文章,并意识到存在一个更广泛,更严重的问题-两年后,我仍然花时间和精力尝试清理。

张的论文经常会报告不可能的统计数据。许多论文的亚组均值无法组合起来得出均值。例如,一篇论文报告说,男性和女性的平均任务得分分别为8.98ms和6.01ms,但平均任务得分为23ms。

其他论文的均值和标准差在此范围内是不可能的。例如,一项研究报告了3,000名年龄在10至20岁之间的儿童(M = 15.76,SD = 1.18),其中1,506名在10至14岁之间,而1,494名在15至20岁之间。进入SPRITE,您将发现,要达到所报告的平均年龄和SD标准,所有参与者都必须在14至19岁之间,并且只有大约500名参与者可以在14岁之间。

更严重的是,统计输出表似乎在纸上被回收。有两篇不同的文章描述了在两个不同种群上的两个不同的实验,会得出非常相似的单元均值和F值。即使一次运行完全相同的实验两次,采样误差也意味着将2×3设计的所有六个单元都拿出来的可能性很大再次在几个小数点之内都相当低。几年后,在不同人群中进行完全不同的实验的可能性仍然较小。

例如,考虑这张表,该表发表在《青年与社会》(Zhang,Espelage和Rost(2018))(A组)中,其中2,000名儿童(4-6年级)执行两种颜色的Stroop情感任务。平均值和F值与74位高中生的样本(Zhang,Xiong,& Tian,2013,Scientific Research:Health,B板)和190位高中生的样本(Zhang,Zhang,& A. Wang,2013,科学研究:心理学,C组)。

图2.张和同事的三个不同实验的三个高度相似的表。该表的所有九个值的相似度都很高。在我向《青年与社会》发表第一个简短说明后,张博士的p值与F值不匹配,之后张博士开始向期刊提交更正。这些校正的显着之处在于,它们将简单地将一个整数添加到F值中,以使它们在统计上有意义。

例如,在人格和个体差异上考虑以下更正(Zhang,Tian,Cao,Zhang,& Rodkin,2016):

图3.无法解释的ANOVA表通过从F统计量中加上或减去一个整数值得到纠正。校正仅将2或3加到非有效的F值上以使其与星号匹配,然后从有效的F值中减去5使其与缺少的星号匹配。

图4.通过添加十位数,非显着的F值在统计上变得显着。请注意,这些现在应具有三个星号,而不是分别带有一个和两个。

重要的是,在这些勘误中,其他摘要或推论统计都无需更改,因为如果分析中有错误,您可能会期望。取而代之的是简单地破坏F值,以使它们与重要性星号匹配。

在我研究2018年及更早的张的工作时,他发表了另一项大规模的3,000人参与的``攻击行为''实验(Zhang等,2019)。鉴于报告的总体粗略性,我对张正在发布的令人难以置信的数据量感到焦虑。

我问张医生是否可以查看这些研究的数据以试图了解发生了什么,他拒绝了,说只有研究团队才能看到这些数据。

因此,我决定问学习小组。我问张的美国合著者是否看过这些数据。他们说还没有。我建议他们索要数据。他们说张拒绝。我问他们是否认为这很奇怪。他们说,不,这是中国的事情。

考虑到跨研究的表回收,不可能的统计,庞大的样本量,围绕数据的保密性以及仅使F值显着提高的勘误,我怀疑我发现了研究不当行为。 2019年5月,我撰写了一份报告,并将其发送给重庆西南大学所属学院的学术委员会主席。您可以在此处阅读该报告。

一个月后,我很惊讶地收到张医生的电子邮件。这是来自Youth& amp; amp; amp;的原始数据我以前曾要求并被拒绝的社会条款。

查看原始数据可发现许多可疑问题。首先,应该将参与者随机分配给电影,但是性格侵略性高的女孩和学生则更有可能分配给非暴力电影。

关于反应时间数据还有一些其他技术上比较严格但很严格的数据。基本上,像Stroop这样的任务的反应时间数据应该显示对象内效应(某些条件的RT较其他条件更快)和对象间效应(某些人的响应比其他人更快)。因此,即使来自QuickDraw McGraw的不一致审判也可能比来自Slowpoke Steven的一致审判更快。

由于这些主体间的影响,在一种情况下受试者的反应时间与另一种情况下他们的反应时间之间应该存在相关性。如果您查看我从OSF上可靠来源获得的色带数据,您会发现相关性非常强。

图5.主题之间的相关性颜色词Stroop任务中的均等词RT和均等词RT。来自Lin,Inzlicht,Saunders和&的数据弗里斯(2019)。如果查看Zhang的数据,就会发现完全不存在相关性。您可能还会注意到,主题的均值分布很奇怪,与您期望的正态分布或对数正态分布不同。

图6.主题之间的相关性在攻击性情感Stroop任务中表示攻击性单词RT和非攻击性单词RT。来自Zhang,Espelage和Rost(2018)的数据。平均值的分布是奇数,并且相关性异常弱。

不可能将研究随机化,也不能保证研究数据是可靠的Stroop数据。我给该机构写了另一封信,详细介绍了这些怪癖。您可以在这里阅读其他信件。

我收到的信宣告:"博士。张谦缺乏统计知识和研究方法,但没有足够的证据来证明数据欺诈[sic]。信中指出,正如我所指出的那样,ANOVA表是胡言乱语的,自由度与报告的样本不符,正如我所指出的那样,张博士的统计数据非常非常糟糕,将接受补救培训并撰写一些勘误表。大小。还注意到,对程序和研究对象的描述缺乏逻辑性,并且怀疑程序存在矛盾,并且样本不一致。不管它是什么意思。

但是,这封信没有对不当行为的最有力证据进行评论:可回收表,不可能的统计数据以及原始数据的不现实属性。我敦促主席对这些问题发表评论。

四个月后,主席答复说,他们咨询的两位专家确定“这些讨论属于学术纠纷。”我要求看专家们的报告。我没有收到回复。

该机构不愿解决任何问题,因此我决定访问这些期刊。在2019年9月和2019年10月,我向每个期刊发送了每个期刊发表的特定文章中的问题的描述,并描述了跨文章不当行为的更广泛证据。

我希望这些信件能够引起人们的迅速回缩,或者至少引起人们的关注。我会很失望的。

一些期刊似乎进行了善意的调查和撤回尝试。其他期刊的帮助较小。

人格和个体差异花了10个月的时间才决定退出。 2020年7月,编辑给我看了一篇文章撤回通知。我仍在等待撤学通知发布。当更换期刊经理时,它显然丢失了;一旦恢复,就必须将其发送给作者和发布者,以进行另一轮编辑和批准。

HumanBehavior中的计算机仍在调查中。编辑收到了我的关注并给予了适当的关注,但是对于编辑还是发行者应该进行调查似乎有些困惑,这使流程变慢了。

我觉得这些期刊通常都尽力而为,并且流程的缓慢可能是由于流程的官僚主义以及编辑对该流程缺乏经验。我觉得其他期刊都没有做过这样的尝试。

在2019年10月,Zhangsent给我了他的《攻击行为》文章中的数据。我发现这些数据具有与我从张现在缩回的《青年与社会》文章中接收到的原始数据相同的奇异功能。我写了一封信详细说明了我的担忧,并将其发送给了总督克雷格·安德森(Craig Anderson)首席编辑。

您可以在此处阅读的信详细介绍了四个问题。一是关于平均Stroop效应的合理性,该效应非常大。另一个问题是关于随机分配的失败:卡方检验发现,随机分配的条件在性别和性格攻击方面有所不同,p值小于1兆兆。另外两个问题涉及原始数据的属性。

花了三个月时间和两封电子邮件发送给整个编辑委员会,以确认我的来信。再过四个月,该期刊通知我它将进行调查。

现在,在我提出申诉的15个月后,该杂志做出了令人失望的决定,以纠正该文章。更正解释了将随机化的失败解释为翻译错误;作者现在声称,他们让参与者自行选择他们的状况。我很难相信这一点。原始文章多次强调使用随机分配,并将该设计描述为“真实的实验”。他们在每种情况下的样本也完全相等(n = 1,524名学生观看了“暴力”卡通,n = 1,524名学生观看了“非暴力”卡通。)如果没有随机分配,这是极不可能发生的。

这种纠正并没有减轻我的担忧。我觉得这更接近掩盖。我将在以后的文章中更详细地表达对AggressiveBehavior流程的不满。

自从我开始联系期刊以来,Zhang出版了四篇新期刊文章和一份ResearchSquare预印本。我还对他的其他两个建议担任同行审稿人:一个被拒绝,而另一张在我一再要求提供原始数据和材料时退出了。

这些最新的论文都谨慎地避免了我以前抱怨的原因。我曾抱怨说张不可能每个实验都要收集3,000个对象。新研究的样本量范围为174至480。我曾抱怨过,在一个受试者中进行主动试验和非主动试验的RT分布不合理;新研究仅分析并提出了积极的试验性RT,或者他们报告的措施不需要RT。

有两篇论文将public数据集作为在线补充的一部分,但这些数据集仅包含攻击性试验性RT。当我联系张先生时,他拒绝分享非侵略性的TrialRT。他还拒绝分享任何试验的准确性数据。这可能是一种避免对我在他的《青年与青年》中发现的问题进行质疑的策略。社会和攻击行为文章。

由于Zhang拒绝我访问数据,因此我不得不尝试要求这些期刊的编辑执行APA道德规范第8.14节,该节要求共享数据以验证结果。

在《实验儿童心理学杂志》上,我请David Bjorklundto主编干预。 Bjorklund博士已要求Zhang博士提供所需的数据。我感谢他坚持《道德守则》。自Bjorklund博士干预以来已经过去了一个半月,而我还没有收到Zhang博士所要求的数据和材料。

在《儿童与青年服务评论》上,我请总编辑Duncan Lindsey进行干预。 Zhang声称这些数据仅包含激进审判的RT,并且他无法共享该程序,因为该程序“包含许多儿童的私人信息并拥有版权。”

我向林赛(Lindsey)解释了我的案件。林赛(Lindsey)给我寄了9个字-“您需要与作者一起解决。” -再也没有回答。

Lindsey博士未能在自己的期刊上遵守《道德守则》,这是可耻的。学者应注意,《儿童与青少年服务评论》选择不执行数据共享标准,并且《儿童与青少年服务评论》中发表的研究无法通过检查原始数据来验证。

我还没有要求张在网络心理学,行为学和社交网络或《侵略,虐待》杂志上发表新文章的数据。外伤。

我很想知道科学的自我纠正机制将如何应对我看来很明显的情况,即不可靠的数据和可能的研究不当行为。事实证明,布兰多利尼的法律仍然成立:“反驳废话所需的能量比产生废话要高一个数量级。”但是,我并没有准备好受到科学自我校正机构本身的阻挠和阻碍。

西南大学的回应令我感到失望。他们的判决保护了Zhang,并使他能够继续以很大的速度发表可疑研究。但是,考虑到大学,这个结果似乎并不特别令人惊讶。普遍不愿调查自己的行为,以及中国普遍渴望清除研究人员的欺诈指控。

通常,我也对期刊的回复感到失望。事实证明,像在《青年与社会》中那样迅速进行两个月的流程是一个例外,而不是常规。

在总编辑愿意采取行动的情况下,整个过程非常缓慢,只能适得其反。我读过,在此之前,编辑和期刊几乎没有时间或资源来调查甚至一个不当行为。我很清楚,发布系统尚未准备好大规模处理不当行为。

在总编辑不愿采取行动的情况下,上诉的余地很小。编辑可以忙于行动,而忽略投诉者,如果有人试图绕过编辑委员会的其他成员,他们可能会感到愤慨。目前尚不清楚谁将负责编辑,或如何负责。除了在本报告中对他们及其期刊发表不良言论的能力之外,我对Craig Anderson或DuncanLindsey的影响力很小,充其量他们可能会再退休一年或两年,而我可以请一位新任编辑来为我辩护。

我的举动最明显的结果就是张在出版方面做得更好。每当我报告他的数据有违规行为时,他的下一篇文章都不会以这种违规行为为特征。从本质上讲,每种指出数据不可信性的技术都只能使用一次,因为编辑人员或大学的调查包括向作者显示所有不合规定之处并要求良性解释。当甚至“我不明白随机分配的含义”或“我对统计数据非常不好”这样微弱的解释也可以接受时,这是一个严重的问题。

Zhang报告了实验,样本量总计超过11,000名参与者(根据激进行为校正得出8,000名)。 这是与整个荟萃分析和ManyLabs项目相匹敌的大量数据。 如果此数据有缺陷,将对审查和荟萃分析产生严重后果。 总体而言,试图撤回这些论文比我预期的要困难得多,而且回报不大。 经验使我对科学的质量和完整性感到绝望。 如果这些可疑数据无法迅速撤回,那么一定不可能发现欺诈案,这些欺诈案具有技能,资金或社交关系。