||
北京时间2023年11月7日凌晨0时,美国得克萨斯州立大学MD安德森癌症研究中心陈轶文教授团队在Nature Structural & Molecular Biology上发表了题为“CRISPR–Cas9-based functional interrogation of unconventional translatome reveals human cancer dependency on cryptic non-canonical open reading frames”的文章 。
该研究结合核糖体印迹测序技术和CRISPR/Cas9高通量筛选技术系统性探索了隐秘于长链非编码RNA(long non-coding RNA, lncRNA) 中非经典阅读框编码的暗蛋白质组 (Dark Proteome) 在癌症中的功能。
目前在人类蛋白质组大概两万个蛋白中,有蛋白水平上可信检测证据支持的占93%左右(HUPO Human Proteome Project, 2022 release)【1】。然而,直接编码这些蛋白的序列只占人类基因组序列的不到2%。高通量组学技术的发展使我们重新认识到了基因组的蛋白编码潜力【2】。大量未经注释的开放阅读框(ORFs)被发现广泛分布于整个基因组中,具有编码新功能性蛋白质或肽段的潜力。这些开放阅读框不仅大量分布于基因间隔区,还隐匿于已经注释的编码基因的非翻译/编码区域(UTR)和非编码RNA中。从序列上推测,存在于已注释编码基因UTR区域的小ORF(<300 nt) 数量可能达到5万个左右,而存在于长链非编码RNA中的小ORF数量可能多达17万个左右【3】。尽管它们在基因组中普遍存在,但目前对这些非经典开放阅读框(non-canonical ORFs)的研究相对较少,其蛋白质编码能力以及生物性功能有待系统性研究。
生物信息学预测结合质谱分析是寻找和鉴定开放阅读框及其编码蛋白的重要技术手段。但由于很多非经典开放阅读框序列较短加上它们编码的相对小的蛋白可能也无法形成能被质谱检测到的肽段【4】,这些开放阅读框和所编码的蛋白不容易被传统的基于序列分析的预测算法和质谱分析发现。核糖体印迹测序技术(Ribo-seq)通过分析在翻译过程中被核糖体保护的RNA片段,能够大规模监测翻译活跃的RNA。这一新技术手段有助于高通量分析非经典开放阅读框的编码潜力,并克服了传统方法的限制【5】【6】。
在这项最新研究中,研究团队首先利用Ribo-seq 分析了结直肠癌细胞系中翻译活跃的RNA, 并运用该组前期开发的Ribo-TISH【6】算法预测了1046个由长链非编码RNA编码,且以ATG为起始密码子的非经典开放阅读框。进一步该团队利用CRISPR/Cas9 筛选结合The Cancer Genome Atlas (TCGA) 癌症基因组图谱数据分析, 从1046个非经典开放阅读中,筛选出25个 能够促进结直肠细胞生长, 且在结直肠癌中RNA水平表达高于正常组织的开放阅读框。部分开放阅读框在不同的癌症亚型 (subtype) 里显示比较特异的RNA水平表达, 包括6个高表达于CMS1亚型, 7个高表达于CMS2亚型,2个高表达于CMS3亚型, 2个高表达于CMS4亚型,暗示这些ORF可能具有多样性的功能。
该团队进一步验证了隐藏在长链非编码RNA AC012363.4和ELFN1-AS1的开放阅读框的蛋白编码能力以及其编码蛋白的功能。AC012363.4和ELFN1-AS1不仅在结直肠癌中表达高于正常结直肠组织,而且在其他类型的正常组织中表达极低,是促进肿瘤发生发展的潜在因子。通过分析TCGA 癌症基因组图谱数据发现ELFN-AS1表达与结肠癌患者的总体生存时间显著负相关。于是,该团队对ELFN1-AS1编码的微蛋白(microprotein, <100 aa), SMIMP(SMC1A-interacting microprotein) 展开了深入的研究。通过产生针对SMIMP的抗体,并结合靶向定量质谱分析, 该团队首次在蛋白水平上检测到了结直肠癌细胞系和癌组织里SMIMP的表达, 并且通过蛋白质印迹实验证实了癌组织中SMIMP的表达显著高于癌旁的正常组织。
为了验证SMIMP在结直肠癌发生发展过程中的作用, 该团队通过设计敲降回补实验,发现SMIMP蛋白能够促进结直肠癌细胞系以及裸鼠皮下肿瘤的生长。随后,该团队利用免疫沉淀-质谱分析系统地寻找SMIMP在细胞中的相互作用蛋白,发现SMIMP能够与黏连蛋白(cohesin)复合体核心亚基SMC1A相互作用。作为黏连蛋白(cohesin)复合体的重要组成部分,SMC1A蛋白不仅在确保染色体正确分离,调控染色体三维结构,参与DNA损伤修复中发挥作用,而且大量证据表明SMC1A在细胞基因表达调控中扮演着重要角色。SMC1A蛋白 N-端具有ATP结合结构域,C-端具有ATP水解酶活性结构域。N-端和C-端结构域所形成的ATP酶是黏连蛋白复合体与DNA的结合,以及黏连蛋白介导的DNA与DNA之间相互作用的关键。该团队发现SMIMP蛋白能够结合到SMC1A的N-端和C-端区域,从而调控SMC1A 与特定的DNA区域的结合。通过整合RNA-seq, ChIP-seq,和TCGA癌症基因组图谱基因表达数据, 该团队发现SMIMP/SMC1A 能够调控CDKN1A和CDKN2B的表达。CDKN1A和CDKN2B是细胞周期蛋白依赖性激酶抑制剂, 在细胞周期调节过程起到关键作用,也是癌症发生发展过程中的重要抑制因子。进一步,该团队发现SMIMP通过调控SMC1A结合到CDKN1A和CDKN2B基因的顺式作用元件,从而参与基因的表达调控。
综上所述,该研究结合核糖体印迹测序技术、CRISPR/Cas9筛选以及多组学大数据联合分析,系统解析了隐藏于长链非编码RNA中非经典阅读框编码的暗蛋白质组在结直肠癌中的作用。并且解析了灵长类动物特异性长链非编码RNA ELFN1-AS1编码的微蛋白SMIMP促进结直肠癌肿瘤生长的分子机制。该研究使人们重新审视了“非编码RNA” 的潜在蛋白编码能力。这些由非经典开放阅读框编码的暗蛋白质组在细胞中扮演着重要角色,参与了癌症以及其他复杂疾病的发生,可能会成为一个新的发现诊断和治疗靶点的来源。
该研究由美国得克萨斯州立大学大学MD安德森癌症研究中心郑才尚博士主导。郑才尚博士和魏艳军博士为该文章的共同第一作者。陈轶文教授为该论文的通讯作者。
MD安德森癌症研究中心的Scott Kopetz教授、徐函教授、王文漪教授,美国克利夫兰诊所勒纳研究所的胡明教授,得克萨斯州立大学休斯顿健康中心的李文博教授,杜克大学的刁亚锐教授,以及休斯顿健康中心的张朝研究员(现任职复旦大学)等也参与了这项研究。
陈轶文教授实验室长期招聘博士后和研究人员,热忱欢迎计算生物/生物信息,肿瘤学,免疫学,生物化学,分子生物学等背景的人才加入(联系方式:jobchenlab@gmail.com)。
相关论文信息:
DOI:10.1038/s41594-023-01117-1
参考文献
(1)Omenn GS, et al. The 2022 Report on the Human Proteome from the HUPO Human Proteome Project. J Proteome Res, 22(4), 1024-1042 (2023). (2)The ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57–74 (2012). (3)Couso, JP., Patraquim, P. Classification and function of small open reading frames. Nat Rev Mol Cell Biol 18, 575–589 (2017). (4)Bradley W. et al. The dark proteome: translation from noncanonical open reading frames. Trends in Cell Biology, 32, 243-258 (2022). (5)Ingolia, N. T., Ghaemmaghami, S., Newman, J. R. & Weissman, J. S. Genome-wide analysis in vivo of translation with nucleotide resolution using ribosome profiling. Science 324, 218–223 (2009). (6)Zhang, P. et al. Genomewide identification and differential analysis of translational initiation. Nat Commun 8, 1749 (2017).
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-8 23:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社