一、待解决问题

    科室里的一个小伙伴打算根据A文件中的ID列，提取B文件中所有包含相应ID的行。

A文件如下所示。tip:ID列指的是图中带红框的那列,A大小73.1MB、B大小约1GB
image.png
B文件是从网上下载的注释文件"GCF_000001405.38_GRCh38.p12_genomic.gff"

二、解决办法

    左思右想觉得这个处理过程还是用linux来做比较简单。

用excel手动删除A多余列只保留第二列中的ID值，保存为ref.txt

书写linux代码进行提取

#!/bin/bash

cat -A ref.txt | while read id;
do
    real_id=`echo $id| cut -d"^" -f1`
    grep $real_id GCF_000001405.38_GRCh38.p12_genomic.gff >>ref.gff
done

三、解析

cat用法就不赘述了，光是简书上就有很多，我直接挂简书几个链接：
1.everyday:linux cat
2.linux cat
3.情景linux—不曾了解的cat用法
while用法
1.Linux shell之while循环
 2.Linux while 循环中使用ssh问题
grep用法
1.linux grep命令
 2.Linux常用指令---grep(搜索过滤)(转)
3.Linux文件比较三剑客(awk/grep/sed)之grep

四、代码思路

cat提取整个文件内容;用|管道符号传给 while read读取，
由于window下的回车符号与Linux下的回车不一样：window下的回车到了linux下会多出^M,所以在代码中用cut -d"^"分割文件，并取第一部分作为ID。最后使用grep 搜索ID 然后>>输出到ref.gff文件去

转载本文请联系原作者获取授权，同时请注明本文来自王敬敬科学网博客。
链接地址：

https://blog.sciencenet.cn/blog-2675068-1244281.html

[转载]解决 Endnote 的 Word 插件不自动加载

2013--PVC超级门：细菌定义的例外？

NICOLSON的个人博客分享 http://blog.sciencenet.cn/u/NICOLSON

博文

[转载][linux]根据一串ID批量提取另外一个文件的指定行

👢[linux]根据一串ID批量提取另外一个文件的指定行

一、待解决问题

二、解决办法

三、解析

四、代码思路

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

王敬敬

全部作者的其他最新博文

全部精选博文导读

NICOLSON的个人博客分享 http://blog.sciencenet.cn/u/NICOLSON

博文

[转载][linux]根据一串ID批量提取另外一个文件的指定行

👢[linux]根据一串ID批量提取另外一个文件的指定行

一、待解决问题

二、解决办法

三、解析

四、代码思路

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

王敬敬

全部作者的其他最新博文

全部精选博文导读

该博文允许注册用户评论请点击登录评论 (0 个评论)