zd200572的个人博客分享 http://blog.sciencenet.cn/u/zd200572

博文

SILVA数据库全库下载序列的处理

已有 10927 次阅读 2017-11-10 08:52 |个人分类:biology|系统分类:科研笔记| silva

处理用于QPCR引物设计的16S序列

最近在做肠道微生物的课题,搜索得知SILVA数据库是最近更新而且用的最多的,看网上的教程把其全库的序列下载了下来,没有比对的有200多兆,比对完的超过三个G,参考的那个微信公众号文章说只需要下载没有比对的,我还不信邪,把两个都下载下来了,一个解压后有3G,另一个有76g多,实在是难以处理,3g多的还勉强可以操作,于是就一小的文件做了筛选。

筛选用的是我刚入门的python,虽然水平挺菜,但是至少能用,水平也或许制约这我难以处理76g的文件。贴上我的一段筛选代码,及其简单,都没有什么复杂结构,水平啊!就是从中筛选出一个门或者属/种的16S序列。



筛选完后发现太多了,特别是门,有几十万条,于是就再精选一下,把门中每个属只留一个,瞬间就变成千条左右了。


好了,这样差不多就能愉快地比对找保守区域设计引物了。

菌门/属、种总条数筛选后(每属一条)
厚壁菌门Firmicutes7754352642
变形菌门Proteobacteria9362161121
拟杆菌门菌Bacteroidetes396435316
放线菌门Actinobacteria362892381
阿克曼氏菌属Akkermansia2777
普拉梭菌Faecalibacterium prausnitzii**340
解木聚糖拟杆菌Bacteroides xylanisolvens**7
瑞士乳杆菌Lactobacillus helveticus**1321
费氏丙酸杆菌Propionibacterium freudenreichii**18
厌氧球菌属Anaerotruncus colihominis**3
一致粪球菌Coprococcus eutactus2

Escherichia albertii**78
普通拟杆菌Bacteroides vulgatus**35
脆弱拟杆菌Bacteroides ovatus**32
迟缓埃格特菌Eggerthella lenta28
罗斯氏菌属Roseburia5905
我的博客:http://blog.zd200572.comwww.zd200572.com



https://blog.sciencenet.cn/blog-623545-1084601.html

上一篇:Cytoscape学习笔记
下一篇:R语言包安装笔记--Y叔包yyplot的艰辛安装
收藏 IP: 114.222.255.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 17:43

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部