|||
最近在做肠道微生物的课题,搜索得知SILVA数据库是最近更新而且用的最多的,看网上的教程把其全库的序列下载了下来,没有比对的有200多兆,比对完的超过三个G,参考的那个微信公众号文章说只需要下载没有比对的,我还不信邪,把两个都下载下来了,一个解压后有3G,另一个有76g多,实在是难以处理,3g多的还勉强可以操作,于是就一小的文件做了筛选。
筛选用的是我刚入门的python,虽然水平挺菜,但是至少能用,水平也或许制约这我难以处理76g的文件。贴上我的一段筛选代码,及其简单,都没有什么复杂结构,水平啊!就是从中筛选出一个门或者属/种的16S序列。
筛选完后发现太多了,特别是门,有几十万条,于是就再精选一下,把门中每个属只留一个,瞬间就变成千条左右了。
好了,这样差不多就能愉快地比对找保守区域设计引物了。
菌门/属、种 | 总条数 | 筛选后(每属一条) | |
---|---|---|---|
厚壁菌门 | Firmicutes | 775435 | 2642 |
变形菌门 | Proteobacteria | 936216 | 1121 |
拟杆菌门菌 | Bacteroidetes | 396435 | 316 |
放线菌门 | Actinobacteria | 362892 | 381 |
阿克曼氏菌属 | Akkermansia | 2777 | |
普拉梭菌 | Faecalibacterium prausnitzii** | 340 | |
解木聚糖拟杆菌 | Bacteroides xylanisolvens** | 7 | |
瑞士乳杆菌 | Lactobacillus helveticus** | 1321 | |
费氏丙酸杆菌 | Propionibacterium freudenreichii** | 18 | |
厌氧球菌属 | Anaerotruncus colihominis** | 3 | |
一致粪球菌 | Coprococcus eutactus | 2 | |
Escherichia albertii** | 78 | ||
普通拟杆菌 | Bacteroides vulgatus** | 35 | |
脆弱拟杆菌 | Bacteroides ovatus** | 32 | |
迟缓埃格特菌 | Eggerthella lenta | 28 | |
罗斯氏菌属 | Roseburia | 5905 |
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-20 15:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社