doudouEunice的个人博客分享 http://blog.sciencenet.cn/u/doudouEunice

博文

利用二代测序进行基因组高同源区段序列分析的挑战及应对

已有 2514 次阅读 2021-10-27 09:36 |系统分类:博客资讯

基因组遗传学研究时,经常会遇到各类高同源区段。比如人基因组中P450基因家族,HLA基因座位;在植物、鱼类和两栖类中,同样存在大量的高同源序列。这些同源区段多来自于物种进化过程中的基因组复制事件或染色体加倍。对高同源区段进行序列分析或基因分型时,由于同源序列干扰,获得高质量数据仍然是一个非常具有挑战性的课题。

高1.jpg

同源区段单核苷酸变异(SNV)分类

二倍体和同源多倍体物种中进行序列分析或者SNP分型,面临的主要挑战是排除旁系同源区段的干扰,例如通过提高测序深度来尽可能地发现所有的等位基因。但是在异源多倍体中这个问题就变得更加复杂。

高2.jpg

(图片来自于:Kaur S, Francki MG, Forster JW. Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species. Plant Biotech J, 2012, 10:125-138.

同源区段出现在同个亚基因组或不同祖先来源的亚基因组的成对染色体间。部分同源序列变异(Homoeologous sequence variants, HSVs)是指来自于不同亚基因组间的同源区域相应核苷酸位置的突变。旁系同源序列变异(Paralogous sequence variants, PSVs)是指二倍体基因组或多倍体亚基因组内同源区段的核苷酸变异,根据同源区段位置对应关系又可以分为PSV1PSV2。直系同源序列变异(Orthologous sequence variants, OSVs)存在于不同物种之间的同源区段,如多倍体物种与其二倍体祖先基因组间的同源区段上的序列变异。

序列分析或SNP基因分型是期望获得同个基因组位置在不同个体间的差异或基因型信息,显然想获得真正的SNP需要将其余HSVPSV区分开,否则由于这些变异的存在会造成对区间内核苷酸变异的统计偏差。而剔除这些同源变异的成功率受到基因组内重复程度、繁殖方式和二倍体祖先间的亲缘关系远近的影响。

现有检测方法及不足

现阶段针对高同源区间进行序列分析/已知SNP位点基因分型解决方案有两种途径,途径一是特异性扩增目标区间/SNP位点侧翼序列,获得特异性的PCR产物进行测序或片段分析。此类又可细分为两种,A: 跨过高同源区段在特异区设计引物,例如Sanger测序可以利用其读长优势完成跨越高同源区段获得特异性PCR产物。B:等位基因特异性PCR的应用,例如三引物法等位基因特异TSP标记、竞争性等位基因特异性PCRKompetitive Allele Specific PCR, KASP)。途径一几种代表性方法适合分型规模较小的实验,而对高通量分型的实验,并不是非常适用。如对高通量分型实验,Sanger测序成本太高,TSP标记和KASP标记成本低,但是工作量会非常大,并且等位基因特异性PCR本身有可能发生一定概率的“渗漏”,从而导致有些位点分型质量不高。(Kwok et al. 1990; Kaur et al. 2012; Jang et al. 2019

高3.jpg

解决方案途径二是生物信息学手段。在大规模建库测序后,生信方法第一步是尝试剔除这些同源区段的干扰,基因组内进化复制事件的水平及时间点对这个步骤有很大的影响。一种可行的方式是,假设祖先基因分化早于目标区段和对应模式物种,利用相关模式物种信息,构建一个unigene集,用于BLAST比对时同源序列分类。可作为对比的模式物种如禾本科(水稻、短柄草),十字花科(如拟南芥),蝶形花科(如蒺藜苜蓿、莲藕),蔷薇科(如桃、草莓)。生信鉴别并消除可能的旁系同源序列需要先采集同源序列和部分同源序列组合信息,后续序列比对参数设置对过滤效果也有很大影响,较宽松的参数设置有可能导致真正的SNP和同源SNP混淆,并且生信分析对完全一致的同源区段无法剔除。在模式物种信息不够充分的时候,也可以通过等位基因频率剔除同源干扰(同源区段干扰的位点其频率和杂合度总数高于真正的SNP)。虽然这种方法并不总是理想的,但也可以结合后续SNP验证计算每种类型中的序列变异。(Reviewed by Kaur et al. 2012

高4.jpg

图片来自于:Kaur S, Francki MG, Forster JW. Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species. Plant Biotech J, 2012, 10:125-138.

全基因组重测序WGS、简化基因组测序(GBSRAD等)、转录组测序等利用生信分析手段,可发现海量的全基因组序列变异信息,包括已知和未知的变异。借助各种生信工具,剔除PSVHSV的干扰,获得的SNP可设计合成SNP探针阵列,使用芯片技术进行高质量的SNP基因分型或者利用其他技术进行已知SNP分型。然而对于一些高同源区段的已知SNP分型时,芯片探针杂交的特异并不是非常严格,这就造成后续打分和聚类方法很难保证结果的准确性。(Akhunov et al. 2009Durstewitz et al. 2010; Ganal et al. 2012).  

面临的挑战

对高同源区段进行序列分析和已知SNP分型仍然是一个充满挑战的工作:由于同源序列的干扰,无法利用简单的PCR技术或者探针杂交捕获技术,将目标区段特异性富集,进行后续高通量的序列分析或遗传位标分型。

翼和多重长片段巢式PCR

翼和生物开发了多重长PCR的技术方案,通过长PCR的特异引物将目标区段分选出来,单管最多可以分选10个特异性的长片段。以此多重长PCR为基础,结合巢式PCR及LDR和建库测序,推出两项特色技术服务,解决高同源区段高通量序列分析/SNP基因分型难题!

技术路线

高5.jpg


高6.jpg


主要参考文献

Jang, H., Shin, S.E., Ko, K.S., Par, S.H. 2019. SNP typing using multiplex real-time PCR assay for species identification of forensically important blowflies and fleshflies collected in south korea (Diptera: callipphoridae and sarcophagidae). Hindawi https://doi.org/10.1155/2019/6762517

Kwok, S., Kellogg, D.E., McKinney, N., Spasic, D., Goda, L., Levenson, C., Sninsky, J.J. 1990. Effects of primer-template mismatches on the polymerase chain reaction: human immunodeficiency virus type 1 model studies. Nucleic. Acids Res. 18(4): 999-1005.

Akhunov, E., Nicolet, C. Dvorak, J. 2009. Single nucleotide polymorphism genotyping in polyploid wheat with the Illumina Golden Gate assay. Theor. Appl. Genet. 119: 507-517.

Durstewitz, G., Polley, A., Plieske, J., Luerssen, H., Graner, E.M., Wieseke, R., Ganal, M.W. 2010. SNP discovery by amplicon sequencing and multiplex SNP genotyping in the allopolyploid species Brassica napus. Genome 53:948-956.

Ganal, M.W., Altmann, T., Röder, M.S. 2009. SNP identification in crop plants. Curr. Opin. Plant Biol. 12: 211-217. doi:10.1016/j.pbi.2008.12.009.

Kaur S, Francki M.G., Forster J.W. 2012. Identification, characterization and interpretation of single-nucleotide sequence variation in allopolyploid crop species. Plant Biotech. J., 10:125-138.

Clevenger J, Chavarro C, Pearl S.A., Ozias-Akins P, Pearl S.A., Jackson S.A.. 2015. Single nucleotide polymorphism identification in polyploids: a reviews, example, and recommendations. Mol. Plant, 8:831-846.

McKinney G.J., Waples R.K., Seeb L.W., Seeb J.E.. 2016. Paralogs are revealed by proportion of heterozygotes and deviations in read ratios in genotyping by sequencing data from natural populations. Mol. Eco. Res., 17(4): 656-669.



服务热线:021- 33559491    021- 33559492

电话或微信:18516561739

网址:http://www.biowing.com.cn/       邮箱:xiaoly@biowing.com.cn 

地址(总公司):上海市松江区龙腾路1015弄中星创意园2号楼502

实验基地:江苏省无锡市滨湖区生物医药研发服务产业园

微信公众号:上海翼和生物



https://blog.sciencenet.cn/blog-3140696-1309634.html

上一篇:SNP基因分型
下一篇:不治之症的曙光
收藏 IP: 180.161.119.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 07:17

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部