|
在 RNA-seq 数据分析的过程中,往往不能很好地处理嵌套基因和多拷贝基因的定量问题,要么定量出错,要么直接忽略,都极大地降低了 RNA-seq 定量的精确性和基因覆盖度。为解决这个问题,加拿大谢布鲁克大学的学者开发了 CoCo 软件,论文于 2019 年 5 月 29 日发表于 Bioinformatics 杂志。
网址:https://doi.org/10.1093/bioinformatics/btz433
※
RNA-seq 定量的过程中,CoCo 软件考虑了高等真核生物的转录组中大量的重叠和重复基因。CoCo 利用一个修正的注释文件来突出嵌套的基因,并按比例在重复序列中分配非唯一比对的 reads。通过 PCR 验证和 bedgraph 比较发现,CoCo 可以拯救超过 15% 的比对上但又被抛弃掉的 RNA-seq reads,并显著改变编码和非编码 RNA 的丰度估算。CoCo 软件的工作原理参见下图所示。
※
CoCo 软件的源代码地址为:http://gitlabscottgroup.med.usherbrooke.ca/scott-group/coco
※
CoCo 软件的用法如下,支持三种运行模式, 其中 corrention_annotation 和 correction_count 为两个主要的运行模式,分别用于生成修正的注释文件和基因表达数据。
※
另外,CoCo 的运行时间要慢于 featureCounts,快于 RSEM、HTSeq-count 和 Cufflinks,下表为一组测试数据的运行时间和消耗的内存。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 19:40
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社