reseq数据分析之一:aspera+sra
发现网上ncbi 的aspera安装教程不完整,特此补充。
建议下载sra用aspera,此程序下载速度惊人。可以挤占宽带,基本上有这一个程序,其他的wget就从top界面消失了。
1. 进入linux服务器。
输入:wget http://downloads.asperasoft.com/download/sw/connect/3.1/aspera-connect-3.1.1.70545-linux-64.tar.gz
将会开始下载。
2. 下载完毕后,解压,输入: tar xvf aspera-connect-3.1.1.70545-linux-64.tar.gz
3. 安装输入:sh aspera-connect-3.1.1.70545-linux-64.sh
4. 此时 ls 没发现什么东西,原因是隐藏了,可以cd 到/home/usrname文件夹,ls -a就能看到 .aspera
这就是安装的文件夹。
5. 重要一步,添加环境变量,否则不能用。输入
export PATH=$PATH:/home/username/.aspera/connect/bin
6. 可以按照这个模板去下载了
nohup /home/usrname/.aspera/connect/bin/ascp -i /home/usrname/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra /home/yhfu/sra & 开头结尾一定要加上 nohup和 &,可以保证你后台下载,下线了 还在下载。
如果不好意思一个人下载,把别人的wget都挤下去了,
可以用wget来下载,其中-c代表断点续传,代码如下:
nohup wget -c ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR949/SRR949627/SRR949627.sra
7. 下面步骤比较重要:
把sra转换成fastq
下载sratoolkit
wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"
解压安装。这个简单不说,
下一步重要,环境变量
export PATH=$PATH:a/b/c/sratoolkit/bin
然后后台运行:
nohup fastq-dump SRR949627.sra 这个将会转换成一个fastq,但是如果Pair end测序的结果要mapping,一般需要分割 用下面命令。
#pair-end
fastq-dump --fasta --split-3 /media/E/GM12878/single/SRR306998.sra
reseq数据分析之二:fastqc
1. fastqc用于查看fastq的质量,可以比较qc前后的结果来确定数据是否适合后续分析。
下载fastqc
wget http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.10.1.zip
2. 解压: unzip fastqc_v0.10.1.zip
3. 给予执行权限,否则执行的时候会显示没有权限
chmod 755 FastQC/fastqc
4. 后台执行,加入参数
格式 nohup fastqc位置 fq文件位置
例如:
nohup /FastQC/fastqc a/b/output_forward_paired.fq
5. 等待执行完毕,打开HTML文件,如果发现没什么红叉叉的警告,说明文件可以后续分析。
如果有红叉叉,说明要进行修剪,去掉adapters等。
去掉adapters。
RESEQ数据分析之三:TRIMMOMATIC去掉接头
用的trimmomatic软件,去除接头。背景知识:什么是接头?哪些接头?http://onetipperday.blogspot.jp/2012/08/three-ways-to-trim-adaptorprimer.html
命令:java -jar trimmomatic-0.32.jar PE -threads 16 SRR949628_1.fastq SRR949628_2.fastq output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
注意 PE是双端测序。
处理完了之后,解压可以output_forward_paired.fq.gz,
用fastqc看看output_forward_paired.fq的质量是否提高,可以看到结果文件里面html。
https://blog.sciencenet.cn/blog-1224852-874249.html
下一篇:
适应度和选择系数