近期越来越多的研究关注重复序列在表观遗传调控中的作用,特别地,有些研究关注在特殊情况下重复序列表达转录本的情况,因此通过RNA-seq数据进行重复序列基因表达的需求越来越多。有两种方法可以实现这一目的,第一种利用bedtools对重复序列的read数进行count,第二种是基于cuffquant的重复序列表达定量。下面简单介绍两种方法.
第一种方法:利用bedtools对重复序列的read数进行count,大概的流程如下:
相信大部分做过测序数据分析的同行都能看懂上面的草图了,在此就不再赘述了。
第二种:基于cuffquant的重复序列表达定量。该方法中将重复序列看成单外显子的基因,首先通过UCSC table browser下载对应物种的Repeat文件(例子:
小鼠mm9的重复序列),构建重复序列的gtf文件,下面是将重复序列位置转换为gtf文件的linux命令:
### Convert rmsk to gtf
cat RMSK_mm9.txt | awk 'NR>1{printf $6"\tmm9_rmsk\tgene\t"$7"\t"$8"\t.\t"$10"\t.\tgene_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"\"; transcript_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"\";\n"$6"\tmm9_rmsk\texon\t"$7"\t"$8"\t.\t"$10"\t.\tgene_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"\"; transcript_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"";n"}' > RMSK_mm9_gene_exon.gtf
这样就可以利用该gtf文件作为cuffquant的输入,进行表达定量。关于cuffquant的使用,请参考其
官方指南。
最后,祝各位大侠享受数据分析的快乐!
更多实用技术请关注我们的“计算表观遗传学”公众号(WeChat ID: intro4gcer)
https://blog.sciencenet.cn/blog-97949-1073342.html
上一篇:
转录组数据处理之~~~gtf文件下一篇:
PHP7升级后Mysql报错的解决方案