生物信息学 之 计算表观遗传学分享 http://blog.sciencenet.cn/u/hongbo919 森罗万象是表观, 追根溯源系遗传。 计算精研千淘漉, 生物殿堂乐其间。

博文

基于RNA-seq的重复序列表达定量

已有 4948 次阅读 2017-8-30 06:12 |个人分类:科研经验|系统分类:科研笔记

近期越来越多的研究关注重复序列在表观遗传调控中的作用,特别地,有些研究关注在特殊情况下重复序列表达转录本的情况,因此通过RNA-seq数据进行重复序列基因表达的需求越来越多。有两种方法可以实现这一目的,第一种利用bedtools对重复序列的read数进行count,第二种是基于cuffquant的重复序列表达定量。下面简单介绍两种方法.

第一种方法:利用bedtools对重复序列的read数进行count,大概的流程如下:

相信大部分做过测序数据分析的同行都能看懂上面的草图了,在此就不再赘述了。
第二种:基于cuffquant的重复序列表达定量。该方法中将重复序列看成单外显子的基因,首先通过UCSC table browser下载对应物种的Repeat文件(例子:小鼠mm9的重复序列),构建重复序列的gtf文件,下面是将重复序列位置转换为gtf文件的linux命令:
### Convert rmsk to gtf
cat RMSK_mm9.txt | awk 'NR>1{printf $6"\tmm9_rmsk\tgene\t"$7"\t"$8"\t.\t"$10"\t.\tgene_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"\"; transcript_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"\";\n"$6"\tmm9_rmsk\texon\t"$7"\t"$8"\t.\t"$10"\t.\tgene_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"\"; transcript_id \""$6"*"$7"*"$8"*"$11"*"$12"*"$13"";n"}' > RMSK_mm9_gene_exon.gtf
这样就可以利用该gtf文件作为cuffquant的输入,进行表达定量。关于cuffquant的使用,请参考其官方指南
最后,祝各位大侠享受数据分析的快乐!
更多实用技术请关注我们的“计算表观遗传学”公众号(WeChat ID: intro4gcer)
转录组数据处理之~~~gtf文件 (提取Gene ID与Gene Symbol的对应关系) - 刘洪波 - 刘洪波




https://blog.sciencenet.cn/blog-97949-1073342.html

上一篇:转录组数据处理之~~~gtf文件
下一篇:PHP7升级后Mysql报错的解决方案
收藏 IP: 72.35.43.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-26 20:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部