||
资料来源:NEJM医学前沿2021年10月16,23日
在英国流行病学家Austin Hill于20世纪40年代正式提出随机对照试验(RCT)方法的70多年间,RCT重塑了医学知识和实践。从20世纪中期开始,临床研究人员和统计学家努力推广RCT,以减小临床试验偏倚和提高准确性。RCT往往很好地达到了上述目的,但这一“金标准”也显现出许多局限性。
《新英格兰医学杂志》(NEJM)在2016年发表的文章回顾了关于RCT的科学史和政治史所展示的医学和疾病复杂性,以及经济和政治力量对医学知识的生产和传播造成的影响。我们在此分两期介绍这篇论文的主要内容,10月19日发表上部,23日刊登下部。
RCT的兴起
数千年来,医师和医学研究人员一直试图运用病例报告、病例系列、公开演示、推荐信、临床推理以及偶尔的临床试验来评估治疗干预措施。到了19世纪末,科学在医学中的作用越来越大,医师也以越来越严格的标准开展临床研究。20世纪初,创新者引入了许多旨在消除偏倚的临床试验技术,包括盲法、试验组交替入组和统计学分析。英国流行病学家Austin Bradford Hill于20世纪40年代正式提出RCT方法。幸运的是,英国也在同一时期投资于合作研究,例如提供支持RCT的基础设施。
人们最初对RCT褒贬不一。反对者担心拒绝向对照组提供有前景的新干预措施会带来伦理问题。临床试验人员反驳说,RCT可以确定新干预措施是否优于对照组接受的标准治疗。支持者则提出面对20世纪50年代大量涌现的新药(包括抗生素、抗高血压药和抗精神病药),我们亟需通过RCT评估制药商所宣称的药效。RCT支持者逐渐说服了反对者。很快,美国国立卫生研究院(NIH)和其他政府机构像英国一样开始资助RCT(图1)。
图1. RCT的资金来源
许多早期RCT是由英国和美国政府机构资助。监管机构将临床试验纳入审批标准之后,工业界资助的RCT逐渐增多。与此同时,未披露资金来源的试验数量也在增多。这些趋势只反映了发表的文献,数据来自包含600多项已发表RCT的系统抽样。DHHS表示美国卫生和人类服务部(Department of Health and Human Services)。
然而,RCT在学术和政府圈子之外得到的支持最初很弱。制药商不愿意将资源和时间投入到RCT中,因为他们可以依靠专家推荐信和病例报告宣传药品,宣传的内容还更为广泛。在这一无监管状态下,1961年发生了一场悲剧,当时已被数千孕妇服用的反应停在全球引起了大量死产和短肢畸形。因为这一事件,美国国会于1962年颁布法律(联邦食品、药品和化妆品法案Kefauver–Harris修正案[Kefauver–Harris Amendments to the Food, Drug, and Cosmetic Act]),规定新药必须在“充分且严格对照的研究”中证明有效。到1970年,美国食品药品管理局(FDA)将这一规定解释为新药审批必须有RCT 。
这些规定以及二战后美国制药业的发展使美国成为开展RCT最多的国家(图2)。欧洲经济共同体理事会、日本政府和许多国家的监管机构很快也实施了类似法规。随着时间推移,各国监管机构合作建立了临床研究的国际标准,进一步系统化了RCT。而为了遵守法规并在竞争激烈的市场中使新药适应证获得监管机构批准,工业界成为了RCT的主要资助方。到20世纪90年代,工业界已取代政府和医学界成为开展RCT的主要力量(图1)。
图2. 从1946—2015年,RCT研究中心的地点
RCT起源于英国,后来受到美国青睐。第二次世界大战后,美国NIH的资助、制药业的发展和相关法律的通过使美国开展的RCT大幅增多。美国和英国以外的许多试验都是由美国或英国研究人员和资助方牵头,尤其是早年间。随着越来越多的国际监管机构开始在药物审批中要求RCT,RCT逐渐成为全球金标准,试验资助方也变得多样化。
与此同时,临床流行病学家提出RCT是使医学更加理性的最佳途径。到20世纪80年代初,他们已将RCT视为医学知识的金标准。随着接下来几十年间循证医学地位的不断提高,方法学金字塔出现了,其中病例报告位于底部,而RCT位于顶部。
RCT并非唯一标准
但RCT从来不是生产医学知识的唯一途径。包括病例系列甚至病例报告在内的旧方法仍然很有价值。观察性研究的新方法不断涌现,例如运用大型患者数据库,在常规医疗中高效比较各种治疗结局。医师除依赖经验数据之外,还依赖生理学原理。冠状动脉成形术和之后崛起的支架并不是因为RCT的成功,而是因为关于这些技术的直觉逻辑和血管造影提供了令人信服的直观证据。
即使在RCT成为药物研究的标准方法之后,临床研究人员也很难将其应用于医学其他领域。虽然精神科医师对心理疗法开展了许多RCT,但反对者指出,通过这一方式评估此类高度个体化的长期干预措施并不合适,有时甚至并不可能。一些大规模的心理疗法试验因为方法学问题而受到削弱。此外,因为对精神药物开展RCT比对心理疗法开展RCT更为可行,因此精神药物的证据基础变得更加可靠。尽管上述差异使制药商受益,但却可能导致医师在精神病治疗中采用的方法并不全面。
外科手术RCT也面临类似困难。外科医师从20世纪50年代开始进行RCT,例如设立假手术对照,评估胸廓内动脉结扎术对心绞痛的疗效。然而,随着20世纪60年代和70年代外科手术RCT的增多,外科医师越来越认识到它们的局限性:每位患者有独特的病理检查结果,每位外科医师有不同的手术技能,而每台手术在麻醉、术前用药、手术方法、器械和术后护理方面涉及无数选择,这些因素使临床试验要求的标准化难以实现。此外假手术对照不能用于大手术,因此我们没有机会开展盲法试验。
关于冠状动脉旁路移植术(CABG)RCT的争论体现了上述问题。在对CABG开展的第一项大规模RCT中,接受CABG的大多数慢性稳定型心绞痛患者并无生存获益。本试验的批评者对其做出猛烈抨击:参与者太健康,外科医师太缺乏经验,手术死亡率太高,统计学分析令人怀疑。著名外科医师提出RCT不适用于外科手术。在CABG开发中发挥了关键作用的René Favaloro认为:“随机试验已达到如此高的科学地位和接受度,以至于它们被赋予了近乎宗教的神圣性......。完全依赖它们可能会很危险。”
一个长期存在且可能难以解决的问题是RCT时间跨度和快速创新之间的矛盾。1976年,在人们争论评估CABG的最佳方法时,外科医师抱怨说,“正当我们经过足够长时间,积累了足够数据时,我们发现手术技术已有所改进或药物治疗已发生改变或上述两种情况均有,而我们刚刚得到的结论已不再适用。”大规模RCT的患者招募、随访和分析通常需要多年才能完成。对于快速发展的疗法,RCT结果在发表之前似乎已经过时。当COURAGE试验(采用血运重建和积极药物治疗的临床结局评价,Clinical Outcomes Utilizing Revascularization and Aggressive Drug Evaluation)于2007年表明冠状动脉成形术的疗效令人失望时,该手术的支持者提出,这些结果已不再有意义,因为试验中评估的裸金属支架已被新的药物洗脱支架所取代。这种认为任何创新均具有优越性的逻辑使得临床试验人员必须努力跟上不断出现的创新,类似于进化生物学中的“红皇后”效应。
即使是实施情况良好的RCT有时也未能影响医疗实践。20世纪60年代末,精心设计的UGDP试验(大学研究团队糖尿病项目,University Group Diabetes Program)发现抗糖尿病药物甲苯磺丁脲与心血管死亡率增加相关。然而,在人们持续争论试验实施和解读方法的10多年间,甲苯磺丁脲处方却奇迹般地增加了。2002年出现了类似情况,当时公共机构资助的ALLHAT试验(通过抗高血压和降脂治疗预防心肌梗死的试验,Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial)表明,在治疗高血压方面,仿制药噻嗪类利尿剂与更新、更贵的钙通道阻滞剂和血管紧张素转换酶抑制剂同样有效。由于这些结果受到制药商和持怀疑态度的医师的质疑,因此新型抗高血压药物的销售量增长速度超过了利尿剂。2002年的另外一项RCT试验(一项假手术对照试验)也挑战了传统观点,该试验表明对膝关节慢性骨关节炎实施关节镜下清创术无益。许多骨外科对这一结果不屑一顾,并继续实施这一手术,尽管结果已得到反复证实。
另一方面,一些RCT结果曾被我们当做事实,而之后又被证明缺乏外部效度。开展RCT需解决各种难题,包括设立合适的纳入标准,将干预措施标准化,以及确定最相关的结局。这些局限性促使研究人员寻求其他方法,而其他方法又有其自身局限性。
社会和伦理问题也挑战一些RCT的合理性。20世纪80年代末期的艾滋病危机使各种矛盾显现无疑。患者对RCT推迟抗逆转录病毒药获批时间感到沮丧,因此要求在试验完成前获得药物。临床医师感到自己作为医师和科学家的角色存在冲突。激进派赢得了支持,临床研究可以采用更灵活的方法(包括使用替代终点),并且出现了FDA附条件批准以及在试验之外提供药物的平行途径。反对者担心放宽标准会破坏科学的严谨性,而且会鼓励当时在工业界支持下出现的十分危险的放松管制的企图。
20世纪90年代爆发了关于在发展中国家开展HIV疗法RCT的伦理争议,尤其是在欧洲或北美使用安慰剂对照不合伦理的情况下,如果一些国家的治疗标准比较低,是否意味着使用安慰剂对照就是合理的。
这些争议引起了社会科学家和政策学者的关注。正如社会学家Steven Epstein所指出的,RCT已经成为“谈判可信度、风险和信任的重要场所。”在令人担忧的医疗、社会和政治环境中开展RCT时,它们“非但不能解决争议,反而可能是反映和推动了争议。”历史学家Harry Marks认为,RCT绝不能单纯地理解为科学技术,还须理解为社会事件:“即使最简单的RCT也是经过谈判的社会秩序的产物,充满了决策(有些有争议,有些没有)和未经检验的假设。”尽管设计RCT是为了获得可推广且普遍的生物医学知识,但它们仍与当地社会状况、经济和政治深深纠缠在一起。
地域和经济因素
RCT也无意中限制了医学知识的生产者。当病例报告构成疗效的有效证据时,一名医师可根据临床经验撰写一篇可能改变临床实践的论文。而RCT却需要在大量支持下开展合作研究。随着时间推移,RCT已成为由政府和公司资助的庞大项目,需要昂贵的基础设施进行研究设计、患者治疗、记录保存、伦理审查和统计学分析。到21世纪,一项3期RCT的成本可能达到3000万美元甚至更多。因此,试验资助方通常来自北美、西欧或东亚,即使研究是在其他地区开展。因此,RCT更大程度上反映了工业化地区的利益。RCT的高成本还带来了其他意想不到的后果:在缺乏药价管控的市场,这成为了处方药费用高昂的理由。
此外,一定程度上由于试验成本高昂的缘故,研究人员及其资助方极为关注如何获得阳性试验结果。大量证据提示,工业界资助的试验比公共机构资助的试验更有可能产生良好结局。此外,到了20世纪90年代,很明显,阳性结果往往比阴性结果更易被发表,而这损害了医学知识。为解决这些问题,监管机构和期刊编辑努力提高RCT透明度,他们要求披露经济利益冲突和注册所有临床试验,这样阴性试验就不会默默地消失。
随着RCT发展成高成本、高价值的营销工具,临床试验产业迅速壮大。20世纪70年代末出现的合同研究组织(CRO)现已成为价值250亿美元的产业。他们使美国临床试验中的项目负责人从教学医院的医师科学家逐渐转向以根据合同在私营企业工作的非学术医师。CRO还在其所在国以外,在当地条件有利于开展研究的中等收入国家寻求未接受过治疗的试验参与者。各国如今竞相说服制药业和CRO相信他们在监管、临床和公共卫生方面提供了理想的试验条件,即使当地民众在试验完成后不太可能有机会使用目前正在试验的药物。
即使研究地点变得多样化,研究目标并没有多样化:许多临床研究仍然关注对公众健康影响有限,在高收入国家有巨大市场潜力的药物。结核、疟疾和在低收入国家引起灾难的其他疾病受到的关注要小得多。随着工业界在全球知识生产中发挥的作用越来越大,现代RCT在多大程度上服务于公众健康是值得我们深思的伦理和政策问题。
RCT的过去、现在和未来
到了21世纪初,RCT已成为治疗证据的金标准,但却是有明确局限性的金标准。医师继续寻求产生知识的其他方法,希望这些方法比RCT更快速、更低成本,或者可以解答RCT无法解答的问题。而在医学领域之外,RCT逐渐被模仿,甚至被理想化。
然而,尽管有其局限性,RCT仍然阐明了无数干预措施的利弊,并以此彻底改变了医学研究,提高了医疗质量。得到政府资助和美国FDA法规授权的临床研究人员利用RCT推动了临床研究理论和实践的发展。但RCT的反对者们越来越善于发现RCT中的缺陷,迫使临床试验人员对其试验设计更加谨慎。从历史的角度来看,RCT并非单一或成熟稳定的技术,而是随着医师修改和完善临床研究而不断发展的方法。
过去,人们认为RCT是解决医学争议的唯一权威仲裁者,现在这一想法已经让位于更注重实效的方法。实验主义者继续寻求生产知识的新方法,从荟萃分析到可以轻易纳入大量多样化患者的登记系统研究。观察性方法被视为对RCT的补充,新的监测形式可将RCT嵌入电子病历的数据收集结构中。RCT现在只是用于判断疗效和监管治疗市场的多种研究工具中的一种,但可能是最关键的部分。随着近期转向(回归)个体化或精准医疗,这种状况可能会继续变化。随着医学聚焦于个体患者的独特病理生理学和合并症,来自RCT的通用数据的适用性将受到严格审视。
我们正处于RCT历史上的关键时刻。最初设计RCT的目的是减小研究中的偏倚,现在RCT却成了各种利益的冲突点,需要我们仔细审视。药物和医疗器械制造商追求的是使其可以将产品销售给新人群的数据。执业医师想要得到的是证明哪些治疗对患者最为有益的可靠证据。RCT要同时服务于上述两个目的,正如RCT发展史同时体现了科学、政治和经济发展。理解这一复杂的历史有助于我们更审慎和有效评估RCT。
展望未来,鉴于RCT在加重全球医学研究不平等方面起到的作用,我们如何确保未来的试验可以解决对于医学和全球公共卫生真正重要的问题?对于致力于推进可靠、实用医学研究的学术界研究人员、工业界研究人员和政府官员而言,如何应对RCT历史上出现的这些情况将是对其职能和责任的基本考验。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-25 05:57
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社