博文

小程序：从已注释的转录组数据中查找特定的基因并复制相关的信息

已有 3187 次阅读 2020-8-31 13:26 |个人分类:高通量|系统分类:科研笔记| 转录组, 基因注释, 基因查找, 序列查找, 信息查找

为了批量从已注释的转录组数据中查找特定的基因并复制相关的信息，利用python语言，本人编写了1个小程序，只要输入关键字即可完成批量查找及复制，并且可以完成将基因的序列从测序的fasta文件中也copy出。

本小程序还适用于从某.xlsx文档中找出含有某关键字的所有行内容，由于程序包比较大，所以分拆成几个压缩包，请全部下载后，点击“获取目标基因信息及序列或关键字信息.zip.001”进行解压：

注意事项：

1. 解压的时候，请点击“获取目标基因信息及序列或关键字信息.zip.001”进行解压，点击其它的压缩包无法完成解压。

2. 适用于从.xlsx格式文档中查找含有某关键字的数据，并将该数据所在行复制出来，如果是.xls格式，请先转换成.xlsx格式。

3. 本程序中，只要输入关键字即可，无需全称，即只要匹配部分信息即可完成，如：“Forkhead box P 3 （foxp3）”基因信息, 只要输入“fork”即可将所有含有“fork”的行复制出来（不区分字母大小写），这其中不仅包含“foxp3”基因信息，还包含所有含有“fork”关键字的行。

4. 如果需要某基因的序列，请同时提供.fasta格式的序列文件，并且要求.xlsx文档的第一列为序列号。

5. .xlsx、.fasta和本程序需要放置在一个文件夹下，最好不要含有子文件夹。

6. 本程序还适合于从.xlsx格式文档中查找所有含有关键字所包含行的信息（可以不是转录组信息）。

7. 本程序仅适用于win10操作系统。

致谢：

2. Eric Gazoni & Charlie Clark who created and maintaines openpyxl package (https://openpyxl.readthedocs.io/en/stable/).

转载本文请联系原作者获取授权，同时请注明本文来自张左兵科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3446543-1248635.html

上一篇：批量从转录组数据FKPM文件中拷贝出已知序列的信息
下一篇：批量将xls格式文档转换成xlsx格式文档

收藏 IP: 115.24.1.*| 热度|

数据加载中...

返回顶部

扫一扫，分享此博文