||
txtools:分析RNA修饰、结构和相互作用工具包
RNA测序数据最广泛的用途是基因表达定量,它只需要计算重叠每个基因的测序读数数量。然而,除了它们所映射的基因的身份之外,测序读数还存储了丰富的附加信息,我们将其称为“读出”,包括(i)读取起始的相对位置,(ii)读取末端的相对位置,(iii)与参考序列相比的核苷酸识别频率和(iv)缺失计数。这些“读出”已被用来检索与RNA代谢的各个层面有关的信息,包括但不限于RNA结构、RNA修饰和RNA结合蛋白。当RNA被逆转录成cDNA时,关于这些层的信息通常会丢失,而用不同的化学物质、酶和/或亲和试剂对RNA进行预处理,可以在逆转录时保留这些信息,并且以上述四种“读出”中的一种或多种形式也可以被捕获。例如,广泛的RNA修饰,包括m6A, m1A,伪尿嘧啶,m5C和ac4C都是基于这些修饰诱导的RT截断(导致读取起始点的积累),RT错结合(导致错配)或切割事件(引起读取起始点和末端的积累)而检测到的,通常是在特定化学物质或酶处理之后。同样,绘制RNA结构的方法,如DMS-seq、CIRS-seq、SHAPE-seq和LASER-seq,都依赖于优先相互作用和修饰非结构化RNA的化学物质,导致RT诱导的错结合。最后,基于CLIP的RBP和mRNA之间相互作用位点的绘制方法,或用于绘制修饰特异性抗体和mRNA之间相互作用的衍生物,也会导致RT错误合并和截断。
因此,虽然基因表达水平的量化只需要记录基因水平上的读取计数,但上述讨论的调控水平的检测和量化需要在单核苷酸水平上量化上述“读出”。到目前为止,已经开发了几种工具来提供这种单核苷酸读数。获得这类数据的一个广泛使用的计算工具是samtools的mpileup工具。mpileup是一个非常快速的工具,输出一个长表,其中包含每个基因组位置的三个主要值:覆盖该位置的读取数、读取碱基和测序质量。另一个类似的工具是JACUSA2,它主要用于检测NGS数据中的单核苷酸变异和RT阻滞。JACUSA2支持两种模式的样本设置:单样本模式,其识别针对参考序列的变体;配对样本模式,通过比较两种情况下的样本来识别变量。它的输出是一个表,其中设置了每个变体的分数和每个基因组位置上的碱基数量。另一个工具是RNAframework,它是一种综合工具,用于分析来自一系列RNA结构和RNA修饰检测分析的数据。虽然这些工具和其他工具提供了许多优点,包括速度和内存消耗,但它们有两个关键的(部分相关的)限制。
一个限制是,这些工具被设计为在一个单一的“空间”中工作,即基因组或转录组。对于以RNA为中心的定量,只选择其中一个空间是有限的。一方面,考虑整个基因组空间用于图谱目的是直观的,以避免错误地将读数映射到错误的转录本。如果它们起源于的转录本没有在转录组注释中表示,则可能发生错误的转录本。另一方面,读取源的功能单位是转录本,因此对读取图谱模式(如误合并或过早终止)以及下游分析的准确解释必须基于转录组学空间,而不是基因组空间。当前工具的第二个关键限制是它们对成对端读取的处理。测序RNA片段的两端可以比单端对应物协同更多的信息。考虑使用提前RT截断来检测修饰的情况。如果只对一端读到的一个短片段(例如40nt)进行测序,则每次这样的读都通知在39 3’端片段中的任何一个都没有发生RT截断。然而,如果一个40nt长的配对读取是可用的,但是相对于第一次读取的插入大小为150 nt,这个配对读取不仅通知非RT突变发生在40nt长的读取部分的任何地方,而且在第一次和第二次读取的测序部分的70个(未测序的)核苷酸间隔内的任何地方。因此,尽管在两个读取之间的间隔内没有任何序列覆盖,但配对端读取的可用性允许对修改状态进行推断。作为另一个例子,一些绘制mRNA修饰的方案依赖于对修饰敏感的RNA酶的修饰依赖性切割。再一次,配对末端读取提供了关键的信息——在这种情况下,关于没有切割——沿着整个中间的,两个测序对之间的非测序元素。作为最后一个例子,当涉及到转录数据中的峰值调用时,桥接成对端读取允许提高峰值调用的准确性。然而,现有的工具并没有整合来自两个读段的信息,因此不能捕获成对端读段中存在的全部信息。
在这里,Garcia-Campos等人提出txtools(图1,https://github.com/AngelCampos/txtools),一个R包促进基因组数据分析、探索,并在单核苷酸分辨率可视化。txtools的主要输出和数据结构包含转录组范围的核苷酸分辨率平均值和“读出”,同时无缝连接基因组和转录组坐标系统。txtools提供了几个帮助文档,展示了txtools通过几行简短的代码对不同类型的数据集执行从头到尾分析和可视化的能力。
图1 txtools主要进行RNA-seq读取处理。txtools允许轻松加载所需的数据:从BAM文件中映射到参考基因组的读数形式的RNA-seq数据,BED-12或BED-6格式的转录组注释,以及来自FASTA文件的参考基因组。使用这些数据,txtools可以使用tx_reads()将基因组读取处理到转录组空间,然后使用tx_makeDT_*()家族函数生成一个转录组汇总数据表(txDT)。txDT的行对应于转录组中的每个核苷酸,包含有关平均、读取开始、读取结束、核苷酸频率和缺失的数据。对端读取计数覆盖率。与其他工具不同的是,它们只计算读取的序列长度到平均计算的长度,txtools计算成对端读取的整个宽度,即从read1的开始到read2的结束。
参考文献
[1] Garcia-Campos MA, Schwartz S. txtools: an R package facilitating analysis of RNA modifications, structures, and interactions. Nucleic Acids Res. Published online March 21, 2024. doi:10.1093/nar/gkae203
以往推荐如下:
5. EMT标记物数据库:EMTome
8. RNA与疾病关系数据库:RNADisease v4.0
9. RNA修饰关联的读出、擦除、写入蛋白靶标数据库:RM2Target
13. 利用药物转录组图谱探索中药药理活性成分平台:ITCM
19. 基因组、药物基因组和免疫基因组水平基因集癌症分析平台:GSCA
22. 研究资源识别门户:RRID
24. HMDD 4.0:miRNA-疾病实验验证关系数据库
25. LncRNADisease v3.0:lncRNA-疾病关系数据库更新版
26. ncRNADrug:与耐药和药物靶向相关的实验验证和预测ncRNA
28. RMBase v3.0:RNA修饰的景观、机制和功能
29. CancerProteome:破译癌症中蛋白质组景观资源
30. CROST:空间转录组综合数据库
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 07:14
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社