Chen Lab @ HZAU分享 http://blog.sciencenet.cn/u/chenzhenxia119

博文

【生信技能】SRA Database的数据下载升级款

已有 3508 次阅读 2018-7-17 17:19 |个人分类:学习经验|系统分类:科研笔记

 作者:程奇炜


首先发表于本实验室微信公众号:EvoDevo好好玩

微信公众号:EvoDevo好好玩
如有问题或建议,请公众号留言
最近更新:2018-03-17
参考资料:

  1. https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump (fastq-dump)

  2. https://www.ncbi.nlm.nih.gov/books/NBK158900/ (SRA toolkit)

SRA Database的数据下载升级款

大家好,我是佩奇的师兄炜哥。
我的师妹之前写了一款SRA数据库文献下载的文章,但是很多同学可能看完还是有的不知道该怎么办,所以这里我就顺便更新一篇文章,结合狒狒的文章从头开始将如何下载SRA数据库中的数据。并且更新一下佩奇的几处问题。

当然首先我们简述一下下载数据的流程

  1. 在SRA数据库中检索好想要的数据,这里师妹做了详细的说明,需要注意的是,注意测序数据的类型。

    测序仪器和类型

  2. 得到sra_id.txt列表,在了解数据的类型之后,就是勾选你想要的数据,得到相应的SRR号码,然后开始下载数据了,将得到的数据复制下来。然后在你的linux机器上常见一个sra_id.txt文件,把复制的内容保存进去。选择Runinfo Table还可以得到更加详细的信息。记得使用less -S来进行查看,这样更加清楚。更关键的是你可以知道你的数据分别对应着什么样品,你可以清楚地知道其生物意义。

    Runifo Table

  3. 下载sra toolkit。首先在你的linux机器home目录下创建软件的文件夹,最好要用的软件都放在这里。mkdir Biosoft,然后可以参考我的shell脚本,保存成001.sh,直接使用sh 001.sh运行:

1#!/bin/sh
2# download biosoft for RNA-seq
3cd ~/Biosoft
4mkdir sratoolkit && cd sratoolkit &&
5wget -P ~/Biosoft/sratoolkit  https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/2.8.2-1/sratoolkit.2.8.2-1-centos_linux64.tar.gz &&
6tar -zxvf sratoolkit.2.8.2-1-centos_linux64.tar.gz &&
7rm sratoolkit.2.8.2-1-centos_linux64.tar.gz
  1. 然后就可以使用佩奇的prefetch命令下载了,当然需要注意几件事。首先使用wget命令也是可以的,注意wget中有一个断点续传的功能,使用参数-c就不会出现下载不完全的问题了。其次的问题就是,要注意prefetch下载也是很不稳定的,毕竟从🇺🇸下载数据嘛,最好检测一下数据的完整性。推荐使用md5sum进行检测。

  2. 用循环来处理下载好的sra文件是一个不错的选择,这里有一段代码也可以实现同样的效果,个人认为更加简便。下面这段代码试,在括号中加上你想要的代码,就可以吧之前的sraid.txt文件里的内容加上写生一个shell脚本,直接运行就可以得到想要的数据了。这里大家可以看一下我们的参考资料,我们使用fastq-dump中主要使用的参数--split-3可以将双端测序的数据分开显示,如果不是双端的则不分开,结合之前Runinfo Table中的数据,你可以分别给你的文件命名。

1cat sraids.txt | awk ' { print "fastq-dump --split-3 -O sra " $1 } ' > get-data.sh

总结一下

在使用sra数据的时候应该注意几个问题,最主要的就是实验设计和样本之间的一一对应关系,其次是数据下载完整性的关系,和软件参数的选择问题。想要尝试的同学可以多读官方的参考文献结合一些中文的资料,先跑出来再说,后面的结果可以慢慢再看。




https://blog.sciencenet.cn/blog-355779-1124535.html

上一篇:【生信技能】SRA Database的数据下载
下一篇:【生信技能】用 Adobe Illustrator CS6 美颜科学作图
收藏 IP: 220.249.99.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-24 04:05

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部