zhangjunpeng的个人博客分享 http://blog.sciencenet.cn/u/zhangjunpeng

博文

ELATUS:使用单细胞转录组数据发现功能性lncRNA

已有 454 次阅读 2024-12-11 10:47 |个人分类:科普|系统分类:科普集锦

ELATUS:使用单细胞转录组数据发现功能性lncRNA

生物体的功能最终是由组成其组织的每个单个细胞转录程序所协调驱动的。对细胞转录结构的深刻理解可以揭示病理过程背后的机制。虽然新技术能够在单细胞分辨率上分析转录组,但对于探索非编码区域的转录事件,迫切需要新的计算方法。

大多数单细胞水平的基因表达研究都集中在蛋白质编码基因上,而非编码RNA研究很少。相当一部分非编码RNA被归类为长链非编码RNA (lncRNA),即缺乏蛋白质编码潜力的RNA 转录物,最近根据其超过500个核苷酸的长度重新定义。与蛋白编码基因相比,lncRNA具有较高的组织和细胞类型特异性,这与它们的调控功能有关。与其在基因调控中的作用一致,lncRNA表达的改变与多种病理相关。所有这些研究都证明了他们在单细胞分辨率下研究的潜在好处,这是实现细胞身份的改进和完整定义所必需的。然而,由于其表达能力低、标注准确性低等局限性,极大地阻碍了其在这类研究中的应用。根据保守且广泛使用的GENCODE注释,人类基因组中存在超过19,000lncRNA。与蛋白质编码基因的稳定定量相比,lncRNA注释在过去十年中一直处于不断的进化和增长中。除了不太稳定之外,lncRNA在进化过程中的低保守水平和低表达值,使它们在bulk转录组学数据中的检测变得复杂,并使lncRNA定位更具挑战性,进而突出了对合适计算方法的需求。

单细胞RNA测序(scRNA-seq)通过研究单个细胞中的基因表达,提供组织的全面表征,并允许检查细胞动力学,从而改变了转录组学。特别是,基于scRNA-seq液滴的方法,主要是10xGenomics技术,通过增加细胞的通量和降低测序成本,已经彻底改变了这一过程。10xGenomics scRNA-seq实验的计算流程从测序样本的预处理步骤开始,以生成未经过滤的细胞-基因计数矩阵。这一关键步骤包括绘制包含测序cDNA的读数,以及校正细胞和UMI条形码,以便识别单个RNA分子。基于STAR的不同程序,该程序读取参考基因组,如广泛使用的Cell Ranger(由10xGenomics开发)或STARsolo,执行整个预处理步骤。此外,伪比对器KallistoSalmon(基于将读取的k-mers与转录组进行匹配)也整合了一套工具来预处理scRNA测序的读数,分别命名为BustoolsAlevin。最初发布时,KallistoSalmon是基于类似的算法,但随着时间的推移,由于一些修改,例如Salmon所采用的选择性对齐策略,它们已经出现了分歧。

迄今为止,专注于lncRNAscRNA-seq主要是使用芯片或基于平板的技术进行的,例如Fluidigm C1微流控平台,或SMART-seqSMART-seq2协议。然而,这些技术在可以联合测序的细胞数量上有一个重要的限制。最近,基于液滴的10x Chromium技术由于其高产量而成为scRNA-seq的主要协议。然而,通过10x基因组学研究lncRNA的研究仍然很少,并且仅限于应用标准的Cell Ranger预处理管道。在此背景下,遗憾的是,之前对scRNA-seq预处理管道的比较研究并没有关注lncRNA的检测和定量。

最近,在对主要的scRNA-seq预处理方案进行基准测试后,包括计算验证和对其差异的综合表征,Goñi等人观察到KallistolncRNA的检测和定量方面优于其他方法,因为后者的注释不太准确。在此详尽的基准测试基础上,Goñi等人开发了一个专门的工作流程,称为ELATUS(图1),以简化先前在10x scRNA-seq实验中未检测到的功能相关lncRNA。重要的是,实验验证鉴定了ELATUS独家检测到的lncRNA AL121895.1,是三阴性乳腺癌细胞特异性的顺式抑制因子。这些结果强调了ELATUS在揭示细胞类型特异性和生物相关lncRNA表达模式方面的潜力,这些lncRNA通常被标准scRNA-seq管道所忽视。最后,开发的工作流程ELATUS作为R包公开提供(https://github.com/ML4BM-Lab/ELATUS),以促进更广泛的生物医学界采用。

image.png

1 ELATUS工作流程

在这项工作中,作者们已经表明,在广泛而多样的公共scRNA-seq数据集中,lncRNA检测和定量受到预处理选择的严重影响,因为它们的注释不太准确,并且为lncRNA量身定制的工作流程ELATUS是必不可少的。ELATUS不仅可以定义详尽的功能性lncRNA集合,而且还可以发现以前未检测到的重要生物学意义的lncRNA。根据提出的工作流程,ELATUS倾向于检测具有更高细胞类型特异性的lncRNA,即高特异性指数(SI)。可以推断,这组lncRNA将包括那些最有趣的生物学特征。然而,虽然高细胞特异性被认为是lncRNA的普遍特征,但也不应排除普遍存在的lncRNA在其中发挥重要作用。ELATUS计算工作流程可能有助于解锁细胞特征和转录复杂性,增加对细胞身份和lncRNA生物学的了解。

参考文献

[1] Goñi E, Mas AM, Gonzalez J, Abad A, Santisteban M, Fortes P, Huarte M, Hernaez M. Uncovering functional lncRNAs by scRNA-seq with ELATUS. Nat Commun. 2024 Nov 9;15(1):9709. doi: 10.1038/s41467-024-54005-7.

以往推荐如下:

1. 分子生物标志物数据库MarkerDB

2. 细胞标志物数据库CellMarker 2.0

3. 细胞发育轨迹数据库CellTracer

4. 人类细胞互作数据库:CITEdb

5. EMT标记物数据库:EMTome

6. EMT基因数据库:dbEMT

7. EMT基因调控数据库:EMTRegulome

8. RNA与疾病关系数据库:RNADisease v4.0

9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target

10. 非编码RNA与免疫关系数据库:RNA2Immune

11. 值得关注的宝藏数据库:CNCB-NGDC

12. 免疫信号通路关联的调控子数据库:ImmReg

13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM

14. AgeAnno:人类衰老单细胞注释知识库

15. 细菌必需非编码RNA资源:DBEncRNA

16. 细胞标志物数据库:singleCellBase

17. 实验验证型人类miRNA-mRNA互作数据库综述

18. 肿瘤免疫治疗基因表达资源:TIGER

19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA

20. 首个全面的耐药性信息景观:DRESIS

21. 生物信息资源平台:bio.tools

22. 研究资源识别门户:RRID

23. 包含细胞上下文信息的细胞互作数据库:CCIDB

24. HMDD 4.0miRNA-疾病实验验证关系数据库

25. LncRNADisease v3.0lncRNA-疾病关系数据库更新版

26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA

27. CellSTAR:单细胞转录基因组注释的综合资源

28. RMBase v3.0RNA修饰的景观、机制和功能

29. CancerProteome:破译癌症中蛋白质组景观资源

30. CROST:空间转录组综合数据库

31. FORGEdb:候选功能变异和复杂疾病靶基因识别工具

32. Open-ST3D高分辨率空间转录组学

33. CanCellVar:人类癌症单细胞变异图谱数据库

34. dbCRAF:人类癌症中放射治疗反应调控知识图谱

35. DDID:饮食-药物相互作用综合资源可视化和分析

36. SCancerRNA:肿瘤非编码RNA生物标志物的单细胞表达与相互作用资源

image.png

 



https://blog.sciencenet.cn/blog-571917-1463813.html

上一篇:人类基因组尺度代谢网络转录组定位的转录组数据归一化方法基准
下一篇:PRONA:患者报告结果网络分析
收藏 IP: 39.128.49.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-25 12:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部