zbzhang的个人博客分享 http://blog.sciencenet.cn/u/zbzhang

博文

小程序:从已注释的转录组数据中查找特定的基因并复制相关的信息

已有 3000 次阅读 2020-8-31 13:26 |个人分类:高通量|系统分类:科研笔记| 转录组, 基因注释, 基因查找, 序列查找, 信息查找

     为了批量从已注释的转录组数据中查找特定的基因并复制相关的信息,利用python语言,本人编写了1个小程序,只要输入关键字即可完成批量查找及复制,并且可以完成将基因的序列从测序的fasta文件中也copy出。

本小程序还适用于从某.xlsx文档中找出含有某关键字的所有行内容,由于程序包比较大,所以分拆成几个压缩包请全部下载后,点击“获取目标基因信息及序列或关键字信息.zip.001”进行解压

                                        获取目标基因信息及序列或关键字信息.zip.001

                                        获取目标基因信息及序列或关键字信息.zip.002

                                        获取目标基因信息及序列或关键字信息.zip.003

                                        获取目标基因信息及序列或关键字信息.zip.004

                                        获取目标基因信息及序列或关键字信息.zip.005

                                        获取目标基因信息及序列或关键字信息.zip.006

                                        获取目标基因信息及序列或关键字信息.zip.007


注意事项:

        1. 解压的时候,请点击“获取目标基因信息及序列或关键字信息.zip.001”进行解压,点击其它的压缩包无法完成解压

        2. 适用于从.xlsx格式文档中查找含有某关键字的数据,并将该数据所在行复制出来,如果是.xls格式,请先转换成.xlsx格式。

        3. 本程序中,只要输入关键字即可,无需全称,即只要匹配部分信息即可完成,如:“Forkhead box P 3 (foxp3)基因信息, 只要输入“fork”即可将所有含有“fork”的行复制出来(不区分字母大小写),这其中不仅包含“foxp3”基因信息,还包含所有含有“fork”关键字的行。

        4. 如果需要某基因的序列,请同时提供.fasta格式的序列文件,并且要求.xlsx文档的第一列为序列号。

        5. .xlsx、.fasta和本程序需要放置在一个文件夹下,最好不要含有子文件夹。

        6. 本程序还适合于从.xlsx格式文档中查找所有含有关键字所包含行的信息(可以不是转录组信息)

        7. 本程序仅适用于win10操作系统。


致谢:

        1. python 社区(https://www.python.org/

        2. Eric Gazoni & Charlie Clark who created and maintaines openpyxl package (https://openpyxl.readthedocs.io/en/stable/).

       3. Biopython Contributors (https://biopython.org/wiki/Participants)


               




  



https://blog.sciencenet.cn/blog-3446543-1248635.html

上一篇:批量从转录组数据FKPM文件中拷贝出已知序列的信息
下一篇:批量将xls格式文档转换成xlsx格式文档
收藏 IP: 115.24.1.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-22 00:08

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部