|||
为了批量从已注释的转录组数据中查找特定的基因并复制相关的信息,利用python语言,本人编写了1个小程序,只要输入关键字即可完成批量查找及复制,并且可以完成将基因的序列从测序的fasta文件中也copy出。
本小程序还适用于从某.xlsx文档中找出含有某关键字的所有行内容,由于程序包比较大,所以分拆成几个压缩包,请全部下载后,点击“获取目标基因信息及序列或关键字信息.zip.001”进行解压:
注意事项:
1. 解压的时候,请点击“获取目标基因信息及序列或关键字信息.zip.001”进行解压,点击其它的压缩包无法完成解压。
2. 适用于从.xlsx格式文档中查找含有某关键字的数据,并将该数据所在行复制出来,如果是.xls格式,请先转换成.xlsx格式。
3. 本程序中,只要输入关键字即可,无需全称,即只要匹配部分信息即可完成,如:“Forkhead box P 3 (foxp3)”基因信息, 只要输入“fork”即可将所有含有“fork”的行复制出来(不区分字母大小写),这其中不仅包含“foxp3”基因信息,还包含所有含有“fork”关键字的行。
4. 如果需要某基因的序列,请同时提供.fasta格式的序列文件,并且要求.xlsx文档的第一列为序列号。
5. .xlsx、.fasta和本程序需要放置在一个文件夹下,最好不要含有子文件夹。
6. 本程序还适合于从.xlsx格式文档中查找所有含有关键字所包含行的信息(可以不是转录组信息)。
7. 本程序仅适用于win10操作系统。
致谢:
1. python 社区(https://www.python.org/)
2. Eric Gazoni & Charlie Clark who created and maintaines openpyxl package (https://openpyxl.readthedocs.io/en/stable/).
3. Biopython Contributors (https://biopython.org/wiki/Participants)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-9-19 19:52
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社