陈俭海分享 http://blog.sciencenet.cn/u/chenjianhai 科学需更需要勇气。你敢,这世界就不同

博文

reseq数据分析

已有 8923 次阅读 2015-3-13 21:29 |系统分类:科研笔记

reseq数据分析之一:aspera+sra

发现网上ncbi 的aspera安装教程不完整,特此补充。

建议下载sra用aspera,此程序下载速度惊人。可以挤占宽带,基本上有这一个程序,其他的wget就从top界面消失了。

1. 进入linux服务器。

输入:wget http://downloads.asperasoft.com/download/sw/connect/3.1/aspera-connect-3.1.1.70545-linux-64.tar.gz
将会开始下载。
2. 下载完毕后,解压,输入: tar xvf aspera-connect-3.1.1.70545-linux-64.tar.gz
3. 安装输入:sh aspera-connect-3.1.1.70545-linux-64.sh
4. 此时 ls 没发现什么东西,原因是隐藏了,可以cd 到/home/usrname文件夹,ls -a就能看到 .aspera
这就是安装的文件夹。
5. 重要一步,添加环境变量,否则不能用。输入  
export PATH=$PATH:/home/username/.aspera/connect/bin
6. 可以按照这个模板去下载了
nohup /home/usrname/.aspera/connect/bin/ascp -i /home/usrname/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra /home/yhfu/sra &    开头结尾一定要加上 nohup和 &,可以保证你后台下载,下线了 还在下载。
如果不好意思一个人下载,把别人的wget都挤下去了,
可以用wget来下载,其中-c代表断点续传,代码如下:
nohup wget -c ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra


7. 下面步骤比较重要:

sra转换成fastq

下载sratoolkit

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"

解压安装。这个简单不说,

下一步重要,环境变量

export PATH=$PATH:a/b/c/sratoolkit/bin

然后后台运行:

nohup fastq-dump SRR949627.sra  这个将会转换成一个fastq,但是如果Pair end测序的结果要mapping,一般需要分割  用下面命令。

#pair-end

fastq-dump --fasta --split-3 /media/E/GM12878/single/SRR306998.sra


reseq数据分析之二:fastqc


 1. fastqc用于查看fastq的质量,可以比较qc前后的结果来确定数据是否适合后续分析。

下载fastqc

wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.10.1.zip

2. 解压:   unzip fastqc_v0.10.1.zip

3. 给予执行权限,否则执行的时候会显示没有权限
chmod 755 FastQC/fastqc


4. 后台执行,加入参数
格式  nohup  fastqc位置  fq文件位置
例如:
nohup /FastQC/fastqc   a/b/output_forward_paired.fq

5. 等待执行完毕,打开HTML文件,如果发现没什么红叉叉的警告,说明文件可以后续分析。

如果有红叉叉,说明要进行修剪,去掉adapters等。

去掉adapters。

RESEQ数据分析之三:TRIMMOMATIC去掉接头

 用的trimmomatic软件,去除接头。

背景知识:什么是接头?哪些接头?http://onetipperday.blogspot.jp/2012/08/three-ways-to-trim-adaptorprimer.html

命令:java -jar trimmomatic-0.32.jar PE -threads 16  SRR949628_1.fastq SRR949628_2.fastq output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

注意 PE是双端测序。

处理完了之后,解压可以output_forward_paired.fq.gz,

用fastqc看看output_forward_paired.fq的质量是否提高,可以看到结果文件里面html。



https://blog.sciencenet.cn/blog-1224852-874249.html


下一篇:适应度和选择系数
收藏 IP: 122.205.65.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 04:23

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部