||
癌症研究基因标签:25年回顾和未来路径
基因标签的现状
癌症基因组图谱(Cancer Genome Atlas,TCGA)是一个综合性资源,为各种类型的癌症提供了丰富的基因组和临床数据。自1999年Eric S. Lander提出基因标签以来,“基因标签”的科学论文已经发表了数万篇。
如果在Google Scholar上搜索“TCGA标签”,屏幕上会弹出大约9万条研究结果(图1A)。目前,TCGA包含来自69个原发癌症部位的多组学数据,这可能意味着每种癌症类型已经被分析了超过1000次。“基因表达特征”最初被定义为在诊断、预后或预测治疗反应方面具有特异性的单个基因或一组改变基因。在过去的25年中,人类疾病产生了大量的基因标签(图1B)。2024年,基因表达标签将继续在癌症研究和临床应用中发挥关键作用。这些标签包括基因活动模式,为预后、治疗反应和患者分层提供了有价值的见解。
最近的研究,如评估老年乳腺癌患者PAM50基因表达标签的研究,强调了其预后能力。此外,由Merck与NanoString合作开发的由18个基因组成的肿瘤炎症标签(TIS)已被证明在识别可能受益于特定癌症治疗的患者方面具有实用价值。
临床上有几种基因标签,如Oncotype和Prosigna。通过整合更大的数据集和现代算法,提出了更好的基因表达标签来改进这些商业平台。此外,癌症治疗诱导的患者源性基因表达标签等进展有助于在分子水平上更深入地了解治疗效果。
随着技术和研究的进步,基因表达标签仍然是不可或缺的工具,为个性化医疗提供可操作的信息,增强我们对癌症生物学的理解。这些最新基因标签的关键特征包含了代表疾病不同生物学功能的数十个基因。例如,TIS的18个基因涵盖了与T和自然杀伤细胞、抗原细胞、干扰素γ生物学和T细胞耗竭相关的四个生物学领域。
时至今日,仍有许多生物过程相关的基因标签被提出,如铜坏死、坏死性下垂、铁下垂、炎症、上皮-间质转化(EMT)、干扰素γ相关的基因标签。基因标签的最终目的是帮助改善患者治疗,加速精准医疗。然而,基因标签之间只有少数重叠基因,有时甚至会出现矛盾,阻碍了临床应用。最近在单细胞RNA-seq差异表达分析中也提出了类似的问题。正如最近文献所讨论的,单细胞RNA-seq差异表达分析中的高错误发现率给基因标签的临床应用带来了重大挑战。
单细胞RNA-seq数据固有的可变性和噪声可能导致差异表达结果与临床中常用的大量RNA-seq数据不一致。这种差异可能导致基因标签在应用于异质组织样本时可靠性和可重复性较差,从而限制了其临床有效性。在最近的观点文章中,Liu等人对生物信息学中基因标签的整体景观进行了快照,概述了这一科学领域的主要挑战和资源。
基因标签的生物学
转录组固有的动态特性强调了细胞或组织内RNA分子丰度的复杂性和持续波动(图1C),包括细胞组成、组织起源和发育阶段在内的各种因素都可能影响基因表达模式。因此,从一种疾病中识别出的基因标签可能不适用于其他疾病。基因标签不仅应该在功能上进行注释,还应该与详细的元数据捆绑在一起,例如如何进行采样,以及哪些年龄、性别和组织属于起源队列。很大一部分差异基因列表被发现是非特异性的,反映了共同的生物学,而不是技术人为因素或确定偏差。转录、RNA加工和降解过程的不断相互作用增加了转录组学景观的复杂性。此外,RNA物种的多样性,如信使RNA (mRNA)、非编码RNA (ncRNA)和各种剪接变体,为检测过程增加了另一层复杂性。
而且,目前大多数基因标签主要是在基因水平上,而不是在异构体水平上。基因功能的复杂性包括其在组织中的不同作用、与伙伴的相互作用以及多方面的功能。TGF-β就是一个例子,它在上皮癌变的初始阶段起肿瘤抑制作用。然而,在晚期,TGF-β转化为肿瘤启动子,癌细胞通过多种机制对其生长抑制作用产生抗性,包括TGF-β信号传导成分的改变。TGF-β对癌细胞的影响可能是有害的,也可能是有益的,这取决于细胞环境。然而,基因组中有许多多面基因。目前的基因标签组可能没有考虑不同基因组合对预后表现的影响。
值得注意的是,目前的多项研究依赖于来自同一生物学过程的基因标签。单个生物过程相关基因可能包含冗余。一个例子是基因共表达分析,它侧重于基因集而不是单个基因,有助于减少冗余。为了更好地推断低表达基因的差异基因表达,研究者整合了额外的基因共表达数据,以增强差异分析的能力。与单个基因相比,基因共表达模块已被确定为癌细胞系中的稳定单元。这可能是由于基因相互作用的复杂性和基因冗余。
不同基因的功能障碍可能诱发同一种疾病,但同一种疾病并不总是涉及同一组基因的功能障碍。对于个性化治疗来说,一种对一个病人有效的药物可能对另一个患有同样疾病的病人没有同样的疗效,因为这两个病人可能没有相同的失调转录组。这方面可以解释为什么一个群体中的基因特征的行为在另一个群体中并不总是可重复的。人们已经认识到,每个患者都是独一无二的:独特的生活史、独特的生活方式、独特的遗传、独特的健康习惯等等。
精准医疗强调根据每个病人的具体特征,包括基因组成、生活方式和环境因素,量身定制医疗服务。这种方法认识到患有相同疾病的个体可能根据其独特的健康状况对治疗的反应不同。因此,在一个数据集中识别出的基因标签在新的数据集中显示出较低的准确性并不奇怪。这可能部分解释了90%以上的候选药物在临床试验中失败的事实,这些候选药物可能只在具有确切特征的患者中起作用。
技术、方法和最佳实践
不同的测序技术可能导致观察到的基因表达谱的差异。这种差异可能源于测序化学、测序深度、读取长度、错误率和其他平台特定特征的差异。因此,跨平台数据生成缺乏统一性,这对实现一致和可重复的基因标签构成了挑战。在解释和比较转录组数据时,研究人员需要严格考虑这些与平台相关的因素。这一问题强调了仔细的实验设计和分析策略的重要性,以提高不同测序平台发现的可靠性。新的数据分析方法也被开发出来进行与平台无关的分析。
利用不同的数据分析算法和软件工具,基因标签的可变性可能会恶化。事实上,不同分析方法、参数设置和统计方法的选择会导致转录组数据解释的显著差异:归一化技术、差异表达标准和批次效应处理等因素导致基因特征中观察到的差异。
此外,随着时间的推移,特定于软件的特性、更新和算法改进可能会影响结果的一致性。为了提高基因标签的可重复性,研究人员应该仔细考虑数据分析工具的选择,坚持最佳实践,并进行稳健验证。标准化方案和基准测试练习有助于评估不同算法的性能和可靠性,最终有助于在转录组学分析中获得更一致和有意义的结果。
可重复基因标签识别面临着一些挑战,但方法和实践的进步提供了有希望的未来前景:建立标准化的实验设计、样品处理和数据分析的协议和指南至关重要(图1A)。虽然科学界对最佳实践的共识将有助于提高可重复性,但对不同算法和软件工具进行基准测试的持续努力将为了解其优势和局限性提供有价值的见解。跨多个平台和算法的比较研究将有助于研究人员做出明智的选择,提高透明度和可重复性,多组学数据的整合,结合基因组学、转录组学、蛋白质组学和其他层面的信息,可以增强基因特征识别的稳健性。ENCODE是一个成功的多组学项目。关于开源软件包,R中的mixOmics和Python中的INTEGRATE都是这方面的有效工具。
这种整体方法可以更全面地了解分子变化,并增加识别特征的可重复性(图1C)。此外,机器学习和深度学习技术的进步有望提高基因特征识别的准确性和可重复性。这些方法具有在大规模组学数据集中识别复杂模式和相互作用的潜力。拥抱开放的科学实践,比如开放的数据共享、开放的源代码共享和透明的报告,可以增强再现性。在这种情况下,选择开源编程语言和软件包是任何可靠的生物信息学项目的关键支柱:事实上,使用开源软件代码,如R、Python、Rust或Julia,可以保证世界上任何人都可以自由、不受限制地再现计算实验。开源流行的计算生物学项目,如Bioconductor、Bioconda和Galaxy值得生物信息学家特别关注。
当然,重复性可能会受到软件特定更新的影响,这可能会提高结果的精度,但需要研究人员的努力和精力来安装。在刚刚提到的平台(Bioconda、Bioconductor和Galaxy)中,通过对文档的特别关注和关注,这些问题得到了缓解。另一方面,开放的数据集存储库和标准化的元数据可以促进研究结果的验证和比较:开放的公共在线生物信息学资源可以帮助研究人员发现和发布用于标签识别的新数据集。以下是一些开放的、不受限制的、未识别的生物医学数据的在线资源和搜索引擎:
Gene Expression Omnibus (GEO)
ArrayExpress
Sequence Read Archive (SRA)
Zenodo
Kaggle
University of California Irvine Machine Learning Repository
Figshare
PhysioNet
Google Dataset Search
re3data.org
如果数据可用性是关键,那么在这个场景中,不同数据格式的集成也是一个相关方面。科学界内部协调数据格式、处理管道和分析工作流程的合作努力,以及在实验和分析过程的各个阶段整合严格的质量控制措施是至关重要的(图1C)。此外,用于评估数据质量、归一化有效性和批次效应校正的标准化指标可以增强再现性,而利用最先进的单细胞RNA-seq和结构化本体信息以及改进的统计方法可以帮助识别无偏的基因标签。
正在进行的免费培训和教育计划使研究人员了解最新的方法和最佳实践,例如软件木工,可以有助于培养熟练的研究人员。此外,诸如PLOS Computational Biology期刊的开放获取教育收藏和Coursera上的免费在线生物信息学视频课程等举措对全世界的学生和研究人员都很有用,特别是在发展中国家。应考虑报告与高折叠变化相关的基因的偏差,并应开发检测基因标签的新算法。建立全面、更新的基因标签数据库,让研究者可以上传自己的基因标签,并使用不同的方法计算基因标签之间的重叠程度,将结果与已发表的数据进行比较。
最后,需要一种基于证据的方法将基因标签从实验室转化为临床实践。所有这些改进将有助于评估新发现基因标签的可靠性,这最终会影响更好的疗法和药物的发现,而这反过来又会对医院患者的生活产生积极的影响(图1C)。在未来,我们期望更频繁地采用刚才提到的最佳实践来发现新的、更强大的、更有效的癌症研究基因标签。
图1 影响新遗传标签发现的因素。在过去的25年里,已经发表了数千篇关于癌症基因特征的出版物;然而,可重复性并不总是可能的。(A)出版年份为1999-2023年。(B)词云显示了出版物中经常被提及的词。(C)影响和改善标签再现性的因素。向内箭头表示可能影响基因标签再现性的因素,包括不同的测序技术、内在随机性、样本异质性和复杂的调控网络。向外的箭头表示可能有助于提高基因标签可重复性的策略,包括最先进的算法、深度学习技术、数据集和元数据的开放存储库、数据和代码共享、协作努力以及培训和教育
参考文献
[1] Liu W, He H, Chicco D. Gene signatures for cancer research: A 25-year retrospective and future avenues. PLoS Comput Biol. 2024 Oct 16;20(10):e1012512. doi: 10.1371/journal.pcbi.1012512.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社