|
临床医生需要靠临床试验结果作为疾病诊断治疗的依据,但是发表在医学期刊上的这些临床试验如果存在错误甚至是伪造的结果,那么给临床实践和患者带来的潜在危害显示是非常巨大。卡莱尔医生把这些故意伪造或数据错误的临床试验论文称为僵尸论文。如何应对和破解临床试验的僵尸论文困局?应该是今天的医学领域重视的问题。
医学期刊上有多少临床试验研究是假的或有致命缺陷的?2020 年 10月,约翰·卡莱尔报告了一个惊人的估计1.
卡莱尔是一名为英格兰国家卫生服务局工作的麻醉师,他以在医学试验中发现狡猾数据的能力而闻名。他还是《麻醉》杂志的编辑,2017年,他决定搜索他处理的所有报告随机对照试验(RCT)的手稿——这是医学研究的黄金标准。在三年多的时间里,他仔细研究了500多项研究。1.
在150多项试验中,卡莱尔可以访问匿名的个人参与者数据(IPD)。通过研究IPD电子表格,他判断这些试验中有44%至少包含一些有缺陷的数据:例如,不可能的统计数据,不正确的计算或重复的数字。他判断,26%的论文存在如此普遍的问题,以至于试验无法信任——要么是因为作者水平不够,要么是因为他们故意伪造数据。
卡莱尔称这些试验为“僵尸”试验,因为它们具有真实研究的外表,但仔细观察表明它们实际上是空壳,伪装成可靠的信息。甚至他自己也对它们的流行感到惊讶。“我预计可能是十分之一,”他说。
然而,当卡莱尔无法访问试验的原始数据时,他只能研究汇总表中的汇总信息。他判断,这些案例中只有1%是僵尸,2%的数据有缺陷(见“僵尸”试验的流行率“)。这一发现也让他感到震惊:这说明,如果没有IPD——期刊编辑通常不会要求,审稿人也不会看到——即使是经验丰富的侦探也无法发现隐藏的缺陷。
“我认为期刊应该假设所有提交的论文都有潜在的缺陷,编辑应该在发表随机对照试验之前审查个体患者数据,”卡莱尔在他的报告中写道。
卡莱尔拒绝了每一篇僵尸试验,但到现在,差不多三年过去了,大多数都已经发表在其他期刊上——有时数据与他看到的手稿不同。他正在写信给期刊编辑提醒他们,但预计不会有作用。
卡莱尔在麻醉学方面的发现是否延伸到其他领域?多年来,许多科学家、医生和数据侦探一直认为,虚假或不可靠的试验非常普遍。他们搜索了各种医学领域的随机对照试验,例如女性健康、疼痛研究、麻醉学、骨骼健康和 COVID-19,并发现了数十或数百个试验,这些试验的数据似乎在统计上是不可能的。根据他们的个人经历,有些人说四分之一的审判不可信可能被低估了。“如果你搜索关于某个主题的所有随机试验,大约三分之一的试验将是捏造的,”伦敦卫生与热带医学院的流行病学家伊恩·罗伯茨断言。
这个问题在一定程度上是臭名昭著的论文工厂问题的一个子集:在过去十年中,许多领域的期刊发表了数以万计的可疑假论文,其中一些被认为是由第三方公司生产的,称为论文工厂。
但伪造或不可靠的RCT是一种特别危险的威胁。它们不仅涉及医疗干预,而且可以通过纳入荟萃分析和系统综述来洗白,这些荟萃分析和系统综述彻底梳理文献以评估临床治疗的证据。医疗指南经常引用此类评估,医生在决定如何治疗患者时会参考它们。
澳大利亚墨尔本莫纳什大学(Monash University)专门研究妇产科的Ben Mol认为,纳入女性健康系统评价的RCT中,多达20-30%是可疑的。
许多研究诚信专家表示,这个问题确实存在,但其程度和影响尚不清楚。一些人怀疑这个问题是否像最令人震惊的例子所暗示的那样糟糕。“我们必须认识到,在高质量证据领域,我们越来越有噪音。有一些人支持这一点,并制作了非常可怕的统计数据。但学术界也有很多人认为这是危言耸听,“英国利物浦大学胎儿和母体医学专家Žarko Alfirević说。
今年,他和其他人正在进行更多的研究,以评估问题的严重程度。由Alfirević领导的一项研究的初步结果并不令人鼓舞。
清洗虚假试验
医学研究总是有欺诈者。例如,罗伯茨在2005年为Cochrane协作网(Cochrane Collaboration)合著一篇系统综述时首次遇到这个问题,Cochrane协作网是一个享有盛誉的团体,其对医学研究证据的审查经常被用来塑造临床实践。该综述表明,高剂量的含糖溶液可以减少头部受伤后的死亡。但在对论文中引用的三项关键试验产生怀疑之后罗伯茨收回了这一综述,这些问题试验均由同一位巴西神经外科医生胡利奥·克鲁兹(Julio Cruz)撰写。罗伯茨从未发现这些审判是否是假的,因为克鲁兹在调查开始前就自杀身亡。克鲁兹的文章没有被撤回。
最近的一个例子是日本骨骼健康研究员佐藤义弘(Yoshihiro Sato)。佐藤于2016年去世,他在数十项可能预防骨折的药物或补充剂试验中捏造了数据。根据撤稿观察网站编制的一份名单,他有113篇撤回论文。他的工作产生了广泛的影响:研究人员发现,佐藤撤回的27项RCT已被88项系统评价和临床指南引用,其中一些为日本推荐的骨质疏松症治疗方法提供了信息。3.
如果排除佐藤的试验,这些评论中的一些发现会改变,英国阿伯丁大学的医学研究员Alison Avenell说。她与新西兰奥克兰大学的医学研究人员安德鲁·格雷(Andrew Grey)、马克·博兰德(Mark Bolland)和格雷格·甘布尔(Greg Gamble)一起,推动大学调查佐藤的工作并监督其影响力。“它可能使人们无法接受更有效的骨折预防治疗,”Avenell说。
然而,对僵尸试验论文的担忧不仅仅是个别造假者在雷达下飞行。研究人员担心,在某些领域,来自不同研究小组的大量随机对照试验可能不可靠。
例如,在大流行期间,对抗寄生虫药物伊维菌素是否可以治疗 COVID-19 进行了一系列随机对照试验。但是,没有参与的研究人员此后指出了许多研究的数据缺陷,其中一些已被撤回。2022年更新的Cochrane综述认为,这些RCT中超过40%是不可信的4.
“不可信的工作必须从系统综述中删除,”德国符尔茨堡大学的生物学家斯蒂芬妮·韦贝尔(Stephanie Weibel)说,他是该评论的合著者。
在孕产妇健康方面 - 另一个似乎充满问题的领域 - 罗伯茨和莫尔已经标记了一种称为氨甲环酸的药物是否可以阻止分娩后危险的大量出血的研究。每年约有1400万人患有这种疾病,约70万人死亡:这是世界孕产妇死亡的主要原因。
2016年,罗伯茨回顾了使用氨甲环酸治疗分娩后严重失血的证据。他报告说,调查该药物的26项RCT中有许多存在严重缺陷。有些有相同的文本,有些则有数据不一致或没有道德批准的记录。有些人似乎没有充分随机地将受试者分配到对照组和治疗组。5.
当他跟进个别作者询问更多细节和原始数据时,他通常没有得到回应,或者被告知记录丢失或因计算机被盗而丢失。幸运的是,在2017年,罗伯茨帮助进行的一项大型高质量多中心试验确定该药物是有效的。6.罗伯茨说,在这些和其他此类案件中,一些可疑的试验很可能是模仿欺诈——研究人员看到正在进行一项大型试验,并产生了没有人会质疑的小而不合格的副本。然而,这种欺诈并不是无受害者的犯罪。“它导致置信区间变窄,使得结果看起来比实际更加确定。它还有可能放大错误的结果,表明治疗在无效时有效,“他说。
这可能发生在另一个问题上:如果医生在分娩后将药物注射到每个接受剖腹产的人身上,作为预防措施怎么办?2021年综述在调查这一观点的36项RCT中,共涉及10000多名受试者,得出的结论是,这将使大量失血的风险降低60%。然而,今年4月,一项由美国领导的有11000人参加的大型RCT报告了轻微且无统计学意义的益处。8.
Mol认为,之前36项RCT中的一些问题解释了这种差异。2021 年的荟萃分析包括在法国进行的一项多中心研究,有 4,000 多名参与者参加,发现严重失血量略微减少了 16%,另外 35 项较小的单中心研究,主要在印度、伊朗、埃及和中国进行,总共估计下降了 93%。Mol说,许多较小的RCT是不可信的,他已经详细挖掘了其中的一些。
目前尚不清楚这些不可信的研究是否影响了临床实践。世界卫生组织(WHO)建议使用氨甲环酸治疗分娩后失血,但没有预防性给药指南。
Mol指出了一个不同的例子,其中不可信的试验可能会影响临床实践。2018年,研究人员发表了一篇Cochrane综述。9关于给剖腹产的人服用类固醇是否有助于减少婴儿的呼吸问题。类固醇对婴儿的肺部有益,但会损害发育中的大脑,Mol说;当婴儿早产时,益处通常大于危害,但在怀孕后期使用类固醇时,平衡不太清楚。
2018年综述的作者由希腊塞萨洛尼基亚里士多德大学母胎医学专家亚历山德罗斯·索蒂里亚迪斯(Alexandros Sotiriadis)领导,分析了对怀孕后期剖腹产患者施用类固醇的证据。他们最终进行了四项随机对照试验:2005年的一项英国研究,涉及940多名参与者,以及2015年至2018年间进行的三项埃及试验,在证据库中又增加了3,000人。审查得出的结论是,类固醇“可能”降低呼吸问题的发生率;它在200多份文献和一些临床指南中被引用。
然而,在2021年1月,莫尔和其他人更深入地研究了这些文件,对埃及的审判提出了担忧。他指出,最大的研究有近1300名参与者,是基于第二作者的论文 - 但论文中的试验结束日期与论文不同。据报道,男婴与女婴的比例不可能达到40%至60%。莫尔也查询了其他论文,并写信给作者,但他说他没有得到满意的答复。(一位作者告诉他,他在搬家时丢失了数据。Mol的团队还报告了同一作者的其他一些作品的统计问题。
2021 年 12月,Sotiriadis 的团队更新了其评论10.但这一次,它采用了新的筛选方案。在那一年之前,Cochrane系统综述旨在纳入所有相关的随机对照试验;如果研究人员发现试验的潜在问题,使用“偏倚风险”清单,他们会降低对研究结果的信心,但不会将其从分析中删除。但在2021年,Cochrane的研究完整性团队引入了新的指导方针:作者应该尝试识别“有问题”或“不可信”的试验,并将其排除在综述之外。Sotiriadis的小组现在排除了除英国研究之外的所有研究。研究人员说,只剩下一项试验,“没有足够的数据”来得出关于类固醇的确切结论。
正如撤稿观察报道的那样,到去年五月,埃及的大型审判被撤回(作者不同意)。该杂志的编辑在撤稿通知中写道,他们没有收到其数据或作者的满意回应,并补充说“如果数据不可靠,妇女和婴儿就会受到伤害”。另外两项试验仍在由出版商泰勒和弗朗西斯进行调查,作为更大论文案件的一部分,该公司出版道德总监Sabina Alam说。在2018年的审查之前,一些临床指南表明,在怀孕后期使用类固醇可能是有益的,并且这种做法在一些国家(如澳大利亚)一直在增长,Mol报道。然而,最新更新的世卫组织和区域指南建议不要这样做。
总体而言,Mol和他的同事在800多篇已发表的医学研究论文中声称存在问题,其中至少有500篇是RCTs。到目前为止,这项工作已经导致80多次撤回和50次关注表达。莫尔的大部分工作都集中在中东国家,特别是埃及的论文上。一位研究人员回复了他的一些电子邮件,指责他种族主义。然而,莫尔说,他遇到了许多可疑的统计数据,并拒绝分享伊朗、埃及、土耳其和中国等国RCT作者的数据,这是一个事实,他应该能够指出这一点。
可信度筛选
“Ben Mol无疑是检测和打击数据造假领域的先驱,”Sotiriadis说,但他补充说,很难证明论文是伪造的。Sotiriadis说,当他的团队在更新中排除这些试验时,他并不依赖Mol的工作,他不能说这些试验是否腐败。
相反,他的小组遵循了旨在检查“可信度”的筛选方案。它是由Cochrane的独立专家组之一,Cochrane妊娠和分娩(CPC)小组开发的,由Alfirević协调。(今年四月,作为重组战略的一部分,Cochrane正式解散了这个集团和其他一些集团。它提供了作者应遵循的详细标准列表,以检查RCT的可信度 - 例如试验是否具有前瞻性注册以及研究是否没有异常统计数据,例如参与者身高,体重或其他特征的平均值难以置信的窄或宽分布,以及其他危险信号。如果RCT未通过检查,则指示评价员联系原始研究作者 - 如果答复不充分,则排除该研究。
“我们支持这样一种观点,即如果一项研究没有通过这些标准,那么就没有难受的感觉,但我们称它不够值得信赖,”Alfirević解释说。
对于Sotiriadis来说,该协议的优点是它避免了他不得不宣布审判错误或欺诈;他们只是没有通过可信度测试。他的团队最终报告说,它排除了埃及的试验,因为它们没有被前瞻性地注册,作者没有解释原因。
其他Cochrane作者也开始采用同样的方案。例如,评论11去年44月发表的旨在预防早产的药物中,它排除了122项研究 - 占文献中<>项试验的四分之一。
什么才算值得信赖?
可信度检查有时是否对RCT的作者不公平,以及究竟应该检查什么来分类不可信的研究,仍然有待商榷。在 2021 年的社论中在介绍可信度筛查的想法时,Cochrane的高级研究诚信编辑Lisa Bero和奥罗拉科罗拉多大学安舒茨医学院的生物伦理学家指出,没有经过验证的,普遍同意的方法。
“将真正的研究错误分类为有问题可能会导致错误的综述结论。错误分类还可能导致作者的声誉受损,法律后果以及与参与者参与研究相关的道德问题,只是为了打折,“她和另外两名研究人员写道。
目前,有多种可信度协议在发挥作用。例如,在2020年,Avenell和其他人出版了REAPPRAISED,这是一个更针对期刊编辑的清单。当Weibel和其他人审查去年将伊维菌素作为COVID-19治疗方法的试验时,他们创建了自己的清单,他们称之为“研究完整性评估”。
贝罗说,其中一些检查比编辑和系统审稿人通常习惯的劳动密集型工作要大。“我们需要说服系统评审员,这是值得他们花时间的,”她说。她和其他人咨询了生物医学研究人员、出版商和研究诚信专家,提出了一套危险信号,可以作为创建广泛认可的评估方法的基础。
尽管Mol等研究人员对此表示担忧,但许多科学家仍然不确定有多少评论受到不可靠的RCT的影响。今年,由英国曼彻斯特大学健康研究员杰克·威尔金森(Jack Wilkinson)领导的一个团队正在利用贝罗的咨询结果,将76项可信度检查应用于50项已发表的Cochrane综述中引用的所有试验。(这76个项目包括对试验数据和统计数据的详细检查,以及检查资金、资助、试验注册、研究方法的合理性和作者发表记录的细节——但在这项工作中,没有要求提供来自个别参与者的数据。
目的是了解有多少RCT未通过检查,以及取消这些试验会对综述的结论产生什么影响。威尔金森说,一个50人的团队正在从事这个项目。他的目标是制作一个通用的可信度筛选工具,以及一个单独的工具,以帮助检查参与者数据,如果作者提供的话。他将于9月在Cochrane的年度座谈会上讨论这项工作。
与此同时,Alfirević的团队在一项尚未发表的研究中发现,在25篇关于营养和怀孕的Cochrane综述中,约350项RCT中有18%使用CPC的方法未能通过可信度检查。排除这些随机对照试验后,研究小组发现三分之一的综述需要更新,因为他们的发现会发生变化。研究人员将在九月报告更多细节。
在Alfirević看来,审稿人使用哪种可信度检查并不特别重要,只要他们做一些事情来更仔细地审查RCT。他警告说,在过去十年中,期刊发表的系统综述和荟萃分析的数量一直在飙升——由于劣质的筛选方法,其中许多评论不可信。“不可信的系统综述比不可信的初级研究危险得多,”他说。“这是一个完全失控的行业,几乎没有质量保证。
罗伯茨于2015年首次在系统综述中发表了他对有问题的医学研究的担忧13,Cochrane组织花了六年时间才做出回应,但仍然没有足够认真地对待这个问题。“如果系统综述中高达25%的试验是欺诈性的,那么整个Cochrane工作都是可疑的。我们认为基于系统综述所知道的大部分内容都是错误的,“他说。
贝罗说,Cochrane广泛咨询了2021年关于解决有问题的试验的指南,包括纳入Roberts、其他Cochrane评价员和研究诚信专家的建议。
ICMJE秘书Christina Wee表示,尽管委员会将来可能会重新审视其做法,但“存在重大的可行性挑战”,以强制IPD共享。许多医学期刊出版商告诉《自然》杂志的新闻团队,根据ICMJE的建议,他们不需要试验作者的IPD。
然而,一些期刊 - 包括Carlisle's Anaesthesia- 已经走得更远,并且已经需要IPD。“大多数作者在被告知这是要求时提供数据,”卡莱尔说。
威尔金森说,即使共享IPD,以卡莱尔的方式搜索它也是一项耗时的工作 - 给审稿人带来了进一步的负担 - 尽管统计数据的计算检查可能会有所帮助。
除了要求提供数据外,期刊编辑还可以加快决策速度,研究诚信专家说。Avenell说,当侦探提出担忧时,编辑应该准备好更快地表达对医学研究的担忧,如果他们没有收到作者的回复。今年四月,一份关于可重复性和研究诚信的英国议会报告称,当学者提出问题时,出版商发表更正或撤回研究的时间不应超过两个月。
如果期刊确实撤回了研究,系统综述的作者应该被要求纠正他们的工作,Avenell和其他人说。这种情况很少发生。例如,去年,Avenell的团队报告说,它仔细且反复地通过电子邮件向引用佐藤撤回试验的88篇评论的作者和期刊编辑发送电子邮件,告知他们他们的评论包括撤回的工作。他们得到的回复很少——到目前为止,11条评论中只有88条得到了更新——这表明作者和编辑通常并不关心更正评论。3.
这令人沮丧,但对团队来说并不奇怪,该团队此前曾叙述过对佐藤工作的机构调查是如何不透明和不充分的。Cochrane协作网在2021年更新的指南中指出,当发生撤稿时,必须更新系统综述。
最终,一个挥之不去的问题是 - 就像论文工厂一样 - 为什么这么多可疑的RCTs首先被生产出来。莫尔根据他调查埃及研究的经验,指责缺乏监督和肤浅的评估,根据出版物的数量来促进学者的发展,以及机构和期刊对不良做法缺乏严格的检查。然而,埃及当局已采取一些措施来改善审判的治理;例如,埃及议会于 2020 年 12月发布了第一部临床研究法。
“解决方案必须是从源头上修复,”卡莱尔说。“当这些东西被大量生产出来时,就像扑灭野火并失败一样。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 14:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社