bioseq的个人博客分享 http://blog.sciencenet.cn/u/bioseq

博文

转录组数据分析之tophat篇

已有 7799 次阅读 2012-9-7 16:13 |系统分类:科研笔记| 转录组, 数据分析, tophat

  • TopHat简介

   TopHat是一个基于Bowtie的RNA-Seq数据分析工具。它可以快速确认exon-exon剪切拼接事件。TopHat有Linux和OS X x86_64编译版本,当然也可以使用原代码编译适合自己操作系统的版本。

其上游软件是Bowtie,下游是Cufflinks

   理论上,TopHat是针对Illumina Genome Analyzer而设计的软件,它偶尔也能对其它来源的数据进行分析,但不保证成功。它针对75bp以上长度的短序进行了优化。

   在使用TopHat前,必须将Bowtie的可执行文件的目录输出到PATH变量中去,例:

   export PATH=$PATH:/share/sbin/bowtie

   确保TopHat可以运行bowtie, bowtie-inspect以及bowtie-build。

   还需要下载安装samtools



  • TopHat的使用范例:
    tophat [options]* <ebwt_base> <reads1_1[,...,readsN_1]> [reads1_2,...readsN_2]

  • tophat的参数,解释其中一部分:

-o/--output-dir <string> 输出目录。默认值为 “./tophat_out”.
-r/--mate-inner-dist <int> 比对时两成对引物间的距离中值。比如说,如果你的插入片段有300bp,而每个引物有50bp,那么r值就应该是200=(300+50*2)/2。没有默认值,如果是末端配对比对时这个值是必须的。
--mate-std-dev <int> 末端配对时中间插入片段的长度的标准差,默认值为20bp
-a/--min-anchor-length <int> 锚定点长度”anchor length”. TopHat可以判断junction(剪切拼接)。这需要设定锚定点的最短长度,最短不能少于3,默认值为8
-m/--splice-mismatches <int> 锚定点范围内错配的个数。默认值为0
-i/--min-intron-length <int> 最短的内含子长度。默认值为70
-I/--max-intron-length <int> 最长的内含子长度。默认值为500000.
--max-insertion-length <int> 比对时插入错配最长的长度,默认值为3.
--max-deletion-length <int> 比对时缺失的最长长度,默认值为3.
参考资料http://seq.cn/forum.php?mod=viewthread&tid=1650&extra=page%3D1


https://blog.sciencenet.cn/blog-777771-610177.html

上一篇:RNA-seq数据分析方法
下一篇:illumina的小RNA测序adapter
收藏 IP: 159.226.43.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-23 11:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部