doudouEunice的个人博客分享 http://blog.sciencenet.cn/u/doudouEunice

博文

利用二代测序进行基因组高同源区段序列分析的挑战及应对

已有 567 次阅读 2023-12-13 09:37 |系统分类:科研笔记

引子

在进行基因组研究中经常会遇到各类高同源区段,比如人基因组中P450基因家族,HLA基因座位,在植物、鱼类和两栖类中,同样存在大量的高同源序列。这些同源区段多来自于物种进化过程中的基因组复制事件或染色体加倍。在遗传学研究中,对这些高同源区段进行序列分析或基因分型难度很高,获得高质量数据仍然是一个非常具有挑战性的课题。

同源区段SNP分类

二倍体和同源多倍体物种中进行序列分析或者SNP分型,面临地主要挑战是排除旁系同源区段的干扰,例如通过提高测序深度来尽可能地发现所有的等位基因。但是在异源多倍体中这个问题就变得更加复杂。

同源SNP出现在同个亚基因组或不同祖先来源的亚基因组间成对染色体间。部分同源序列变异(Homoeologous sequence variants, HSVs)是指来自于不同亚基因组间的同源区域相应核苷酸位置的突变。旁系同源序列变异(Paralogous sequence variants, PSVs)是指二倍体基因组或多倍体亚基因组内同源区段的核苷酸变异,其又根据同源区段位置对应关系分为PSV1和PSV2。直系同源序列变异(Orthologous sequence variants, OSVs)存在于不同物种之间的同源区段,如多倍体物种与其二倍体祖先基因组间的同源区段上的序列变异。

序列分析或SNP基因分型是期望获得同个基因组位置在不同个体间的差异或基因型信息,显然想获得真正的SNP需要将其余HSV和PSV区分开,否则由于这些变异的存在会造成对区间内核苷酸变异的统计偏差。而剔除这些同源变异的成功率受到基因组内重复程度、繁殖方式和二倍体祖先间的亲缘关系远近的影响。

现有的方法及不足

现阶段针对高同源区间进行序列分析/SNP基因分型解决方案有两种途径,途径一是特异性扩增目标区间/SNP位点侧翼序列,获得特异性的PCR产物进行测序或片段分析。此类又可细分为两种,A) 跨过高同源区段在特异区设计引物,例如Sanger测序可以利用其读长优势完成跨越高同源区段获得特异性PCR产物。B) 等位基因特异性PCR的应用,例如三引物法等位基因特异TSP标记、竞争性等位基因特异性PCR(Kompetitive Allele Specific PCR, KASP)。途径一几种代表性方法适合分型规模较小的实验,而对高通量分型的实验,并不是非常适用。如对高通量分型实验,Sanger测序成本太高,TSP标记和KASP标记成本低,但是工作量会非常大,并且等位基因特异性PCR本身有可能发生“渗漏”,从而导致有些位点分型质量不高。(Kwok et al. 1990; Kaur et al. 2012; Jang et al. 2019)

TSP marker 3条引物的位置、扩增方向及产物示意图

解决方案途径二是生物信息学。在大规模建库测序后,生信方法第一步是尝试剔除这些同源区段的干扰,基因组内进化复制事件的水平及时间点对这个步骤有很大的影响。一种可行的方式是假设祖先基因分化早于目标去做和对应模式物种,利用相关模式物种信息,构建一个unigene集,用于BLAST比对时对同源序列进行分类。可作为对比的模式物种如禾本科(水稻、短柄草),十字花科(如拟南芥),蝶形花科(如蒺藜苜蓿、莲藕),蔷薇科(如桃、草莓)。生信鉴别并消除可能的旁系同源序列需要先采集同源序列和部分同源序列组合信息,后续序列比对参数设置对过滤效果也有很大影响,较宽松的参数设置有可能导致真正的SNP和同源SNP混淆,并且生信分析对完全一致的同源区段无法剔除。在模式物种信息不够充分的时候,也可以通过等位基因频率剔除同源干扰(同源区段干扰的位点其频率和杂合度综述高于真正的SNP)。虽然这种方法并不总是理想的,但也可以结合后续SNP验证计算每种类型中的序列变异。(reviewed by )

全基因组重测序WGS、简化基因组测序(GBS、RAD等)、转录组测序等高通量测序利用生信分析手段,可以获得海量的全基因组序列变异信息,借助各种手段剔除PSV、HSV的干扰,可将真正的SNP设计合成SNP探针阵列,使用芯片技术进行高质量的SNP基因分型。然而对于一些高同源区段的SNP分型时,芯片技术的杂交并不是非常严格的特异性,这就造成后续打分和聚类方法很难保证结果的准确性。(Akhunov et al. 2009; Durstewitz et al. 2010; Ganal et al. 2012).

面临挑战

对高同源区段进行序列分析和已知SNP分型仍然是一个充满挑战的工作:由于同源序列的干扰,无法利用简单的PCR技术或者探针杂交捕获技术,将目标区段特异性富集,进行后续高通量的序列分析或遗传位标分型。

翼和多重长片段巢式PCR技术

翼和开发了多重长PCR的技术方案,通过长PCR的特异引物将目标区段分选出来,单管最多可以分选10个特异性的长片段。以此多重长PCR为基础,结合巢式PCR及LDR和建库测序,推出两项特色技术服务,解决高同源区段高通量序列分析/SNP基因分型难题!

技术路线

多重长片段PCR体系优化及扩增效果

多重长片段巢式PCR-LDR分型原理

多重长片段巢式PCR-NGS分型原理


关于翼和

上海翼和应用生物技术有限公司是上海市遗传学会理事单位,上海市高新技术企业,至今已有十六年历史,专注于为国内科研工作者和生物医药企业提供各类分子遗传学技术服务和质控试剂盒。十六年来,翼和生物利用自身技术优势,开发了各类分子遗传学检测技术,现已服务了上千客户,在中高通量SNP分型、基因重测序和DNA甲基化分析等方面积累了大量的经验。


主要参考文献

Jang, H., Shin, S.E., Ko, K.S., Par, S.H. 2019. SNP typing using multiplex real-time PCR assay for species identification of forensically importan blowflies and fleshflies collected in south korea (Diptera: callipphoridae and sarcophagidae). Hindawi doi.org/10.1155/2019/67

Kwok, S., Kellogg, D.E., McKinney, N., Spasic, D., Goda, L., Levenson, C., Sninsky, J.J. 1990. Effects of primer-template mismatches on the polymerase chain reaction: human immunodeficiency virus type 1 model studies. Nucleic. Acids Res. 18(4): 999-1005.

Akhunov, E., Nicolet, C. Dvorak, J. 2009. Single nucleotide polymorphism genotyping in polyploid wheat with the Illumina Golden Gate assay. Theor. Appl. Genet. 119: 507-517.

Durstewitz, G., Polley, A., Plieske, J., Luerssen, H., Graner, E.M., Wieseke, R., Ganal, M.W. 2010. SNP discovery by amplicon sequencing and multiplex SNP genotyping in the allopolyploid species Brassica napus. Genome 53:948-956.

Ganal, M.W., Altmann, T., Röder, M.S. 2009. SNP identification in crop plants. Curr. Opin. Plant Biol. 12: 211-217. doi:10.1016/j.pbi.2008.12.009.

Kaur S, Francki MG, Forster JW. Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species. Plant Biotech J, 2012, 10:125-138.

Clevenger J, Chavarro C, Pearl SA, Ozias-Akins P, Pearl SA, Jackson SA. Single nucleotide polymorphism identification in polyploids: a revies, example, and recommendations. Mol Plant, 2015, 8:831-846.

McKinney GJ, Waples RK, Seeb LW, Seeb JE. Paralogs are revealed by proportion of heterozygotes and deviations in read ratios in genotyping by sequencing data from natural populations. Mol Eco Res, 2016, 17(4): 656-669.




https://blog.sciencenet.cn/blog-3140696-1413629.html

上一篇:端粒长度影响因素
下一篇:ApoE 基因相关科普
收藏 IP: 180.174.239.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-26 09:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部