博文

基因突变命名规则，你了解的有哪些？

已有 15511 次阅读 2023-1-10 11:29 |系统分类:科研笔记

人类基因组变异协会（HGVS）的主要职责是发现和分类包括人群分布与表型相关联的人类基因组变异，并根据方法学与信息学的发展对数据及相关的临床变异进行更新。HGVS规则也成为目前学术界所公认的突变命名规则普遍应用，统一的命名规则方便了各种各样的交流和解读。

在HGVS命名规则下，所有变异命名从三个水平描述：DNA水平、RNA水平、氨基酸水平；并从两个方面进行反映：变异位点的位置和对编码蛋白造成的影响。

所以，变异描述的顺序为：参考序列、变异位置、变异类型。

1. 参考序列

所有突变位点必须基于一个参考序列进行描述，不用类型或版本的参考序列之间有或多或少差别，因此，在进行变异描述之前需务必标明参考序列信息。

1）格式

参考序列必须来自提供稳定和永久标识符的数据源，例如RefSeq（NCBI）和Ensembl（EBI）。必须同时包含accession和version信息，如NM_004006.3, NM_004006代表编号，3代表版本号。

目前，推荐的参考序列类型如下：

前缀为NC_、NT_、NW_、NG_、NM_、NR_或NP_的RefSeq序列

染色体-NC_000023.11

基因组重叠群或支架-NT_010718.17，NW_003315950.2

基因/基因组区域-NG_012232.1

编码转录本-NM_004006.2

非编码转录本-NR_00430.2

蛋白质-NP_003997.1

Ensembl转录物（ENST）和蛋白质（ENSP）未被Ensembl识别为不完整的，例如CDS 5'不完整（CDS_start_NF）、CDS 3'不完全（CDS_end_NF）

基因/基因组区域-ENSG00000198947.15

编码转录本-ENST00000357033.8

非编码转录本-ENST00000383925.1

蛋白质-ENSP00000354923.3

前缀为LRG_#、LRG_#t#、LRG_#p#的LRG序列（参见以下示例）

基因/基因组区-LRG_199

编码转录物（或非编码转录物）-LRG_199t1

蛋白质-LRG_199p1

如果突变位点在NCBI和EBI中没有合适的参考序列，最终的解决方案就是申请一个LRG编号（http://www.lrg-sequence.org/），在该数据库中对于HGNC定义的gene symbol也出给了对应的LRG编号。

使用字母前缀来指示所使用的引用序列的类型。

“c.”表示编码DNA参考序列

“g.”表示线性基因组参考序列

“m.”表示线粒体DNA参考序列

“n.”表示非编码DNA参考序列

“o”表示圆形基因组参考序列

“p.”表示蛋白质参考序列

“r.”表示RNA参考序列（转录本）

美捷登福利来啦！助力好友科研，推荐赢大奖～

2、变异位置

以编码DNA参考序列为例

1. 在编码DNA参考序列中，核苷酸编号从起始密码子ATG中的A（c.1）开始，编号一直进行到翻译终止密码子（TGA, TAA, 或 TAG）的最后一个核苷酸。

2. 起始密码子ATG的5’端的核苷酸编号为c.-1, c.-2, 以此类推，终止密码子3’端的核苷酸编号为c.*1, c.*2, 以此类推。

3. 内含子核苷酸的编号是根据最靠近侧翼的外显子核苷酸来编号，从5 '端进入内含子，比如c.187+1, c.187+2，以此类推，从3 '端进入内含子，比如c.188-1 ,c.188-2，以此类推。

4. 当内含子的核苷酸数目不均一时，中间核苷酸（N）连接到上游外显子进行描述，如c.187+N. 非编码DNA参考序列的核苷酸编号从序列的起始核苷酸开始直到结束。

非编码DNA参考序列内含子核苷酸的编号同编码DNA参考序列内含子核苷酸的编号。

3’规则(3’ rule)
所有变异的描述都应使用最靠近3’的编号位置：
示例：
1. ATGCTTTGCA 改变为 ATGCTTGCA
正确的描述：c.7del; 错误的描述：c.5del; c.6del
2. ATGCTCTGCA 改变为 ATGCTGCA
正确的描述：c.6_7del; 错误的描述：c.4_5del;
3. ATGCTTGCA 改变为 ATGCTTTGCA
正确的描述：c.6dup; 错误的描述：c.5dup;
4. ATGCTCTGCA 改变为 ATGCTCTCTGCA
正确的描述：c.6_7dup; 错误的描述：c.4_5dup;
3’规则不适用在外显子/外显子连接周围的缺失/重复。

转载请联系授权，并在显著位置标明来源美捷登科学网博客

3、变异类型

为了更清晰度和方便地对序列变异的计算分析和描述，必须更严格地定义变异的基本类型。当一个变异可描述为多种形式时，须按以下优先级进行描述（优先级从高至低）：
置换（>）：一个核苷酸被另一个核苷酸替代，使用“>”来表示；

例如g.1318G>T；

缺失（del）：一个或多个核苷酸被移除，使用“del”进行描述；

例如g.3661_3706del；

倒置（inv）：与原始序列反向互补的新的核苷酸序列（大于1个核苷酸）替换原始序列；

例如由CTCGA变为TCGAG，使用”inv“表示；

重复（dup）：一个或多个核苷酸拷贝直接插入原始序列的下游，使用“dup”表示；

插入（ins）：序列中插入一个或多个核苷酸，并且插入序列并非上游序列拷贝；

缺失-插入（delins/indel）：一个或多个核苷酸被其他核苷酸替代，但并不是发生替代、倒置和转置；

转换（con）：一种特殊类型的缺失-插入，其中替代原始序列的核苷酸序列是来自基因组中另一个位点的序列拷贝。

根据命名规则，一个典型的HGVS命名示例如下：

NC_000023.9:g.123456G>A

NC_000023.9是NCBI中人类的X染色体的编号，在参考序列之后紧跟着一个冒号，用于分隔参考序列和突变信息，g代表基因组序列，g.123456代表在基因组上的位置，G>A表示由G碱基突变成A碱基。

本文只是对基因变异命名规则做一个简单地介绍，希望可以为各位研究者带来一些帮助！

参考资料：

HGVS网站：//http://www.hgvs.org/

Den Dunnen J T, Dalgleish R, Maglott D, et al. HGVS Recommendations for the Description of Sequence Variants: 2016 Update[J]. Human Mutation, 2016, 37(6): 564-569.