||
ELATUS:使用单细胞转录组数据发现功能性lncRNA
生物体的功能最终是由组成其组织的每个单个细胞转录程序所协调驱动的。对细胞转录结构的深刻理解可以揭示病理过程背后的机制。虽然新技术能够在单细胞分辨率上分析转录组,但对于探索非编码区域的转录事件,迫切需要新的计算方法。
大多数单细胞水平的基因表达研究都集中在蛋白质编码基因上,而非编码RNA研究很少。相当一部分非编码RNA被归类为长链非编码RNA (lncRNA),即缺乏蛋白质编码潜力的RNA 转录物,最近根据其超过500个核苷酸的长度重新定义。与蛋白编码基因相比,lncRNA具有较高的组织和细胞类型特异性,这与它们的调控功能有关。与其在基因调控中的作用一致,lncRNA表达的改变与多种病理相关。所有这些研究都证明了他们在单细胞分辨率下研究的潜在好处,这是实现细胞身份的改进和完整定义所必需的。然而,由于其表达能力低、标注准确性低等局限性,极大地阻碍了其在这类研究中的应用。根据保守且广泛使用的GENCODE注释,人类基因组中存在超过19,000个lncRNA。与蛋白质编码基因的稳定定量相比,lncRNA注释在过去十年中一直处于不断的进化和增长中。除了不太稳定之外,lncRNA在进化过程中的低保守水平和低表达值,使它们在bulk转录组学数据中的检测变得复杂,并使lncRNA定位更具挑战性,进而突出了对合适计算方法的需求。
单细胞RNA测序(scRNA-seq)通过研究单个细胞中的基因表达,提供组织的全面表征,并允许检查细胞动力学,从而改变了转录组学。特别是,基于scRNA-seq液滴的方法,主要是10xGenomics技术,通过增加细胞的通量和降低测序成本,已经彻底改变了这一过程。10xGenomics scRNA-seq实验的计算流程从测序样本的预处理步骤开始,以生成未经过滤的细胞-基因计数矩阵。这一关键步骤包括绘制包含测序cDNA的读数,以及校正细胞和UMI条形码,以便识别单个RNA分子。基于STAR的不同程序,该程序读取参考基因组,如广泛使用的Cell Ranger(由10xGenomics开发)或STARsolo,执行整个预处理步骤。此外,伪比对器Kallisto和Salmon(基于将读取的k-mers与转录组进行匹配)也整合了一套工具来预处理scRNA测序的读数,分别命名为Bustools和Alevin。最初发布时,Kallisto和Salmon是基于类似的算法,但随着时间的推移,由于一些修改,例如Salmon所采用的选择性对齐策略,它们已经出现了分歧。
迄今为止,专注于lncRNA的scRNA-seq主要是使用芯片或基于平板的技术进行的,例如Fluidigm C1微流控平台,或SMART-seq或SMART-seq2协议。然而,这些技术在可以联合测序的细胞数量上有一个重要的限制。最近,基于液滴的10x Chromium技术由于其高产量而成为scRNA-seq的主要协议。然而,通过10x基因组学研究lncRNA的研究仍然很少,并且仅限于应用标准的Cell Ranger预处理管道。在此背景下,遗憾的是,之前对scRNA-seq预处理管道的比较研究并没有关注lncRNA的检测和定量。
最近,在对主要的scRNA-seq预处理方案进行基准测试后,包括计算验证和对其差异的综合表征,Goñi等人观察到Kallisto在lncRNA的检测和定量方面优于其他方法,因为后者的注释不太准确。在此详尽的基准测试基础上,Goñi等人开发了一个专门的工作流程,称为ELATUS(图1),以简化先前在10x scRNA-seq实验中未检测到的功能相关lncRNA。重要的是,实验验证鉴定了ELATUS独家检测到的lncRNA AL121895.1,是三阴性乳腺癌细胞特异性的顺式抑制因子。这些结果强调了ELATUS在揭示细胞类型特异性和生物相关lncRNA表达模式方面的潜力,这些lncRNA通常被标准scRNA-seq管道所忽视。最后,开发的工作流程ELATUS作为R包公开提供(https://github.com/ML4BM-Lab/ELATUS),以促进更广泛的生物医学界采用。
图1 ELATUS工作流程
在这项工作中,作者们已经表明,在广泛而多样的公共scRNA-seq数据集中,lncRNA检测和定量受到预处理选择的严重影响,因为它们的注释不太准确,并且为lncRNA量身定制的工作流程ELATUS是必不可少的。ELATUS不仅可以定义详尽的功能性lncRNA集合,而且还可以发现以前未检测到的重要生物学意义的lncRNA。根据提出的工作流程,ELATUS倾向于检测具有更高细胞类型特异性的lncRNA,即高特异性指数(SI)。可以推断,这组lncRNA将包括那些最有趣的生物学特征。然而,虽然高细胞特异性被认为是lncRNA的普遍特征,但也不应排除普遍存在的lncRNA在其中发挥重要作用。ELATUS计算工作流程可能有助于解锁细胞特征和转录复杂性,增加对细胞身份和lncRNA生物学的了解。
参考文献
[1] Goñi E, Mas AM, Gonzalez J, Abad A, Santisteban M, Fortes P, Huarte M, Hernaez M. Uncovering functional lncRNAs by scRNA-seq with ELATUS. Nat Commun. 2024 Nov 9;15(1):9709. doi: 10.1038/s41467-024-54005-7.
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具
33. CanCellVar:人类癌症单细胞变异图谱数据库
36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-25 12:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社