博文

pan-genome能干啥？

已有 7785 次阅读 2018-1-16 22:33 |个人分类:文献推荐|系统分类:科研笔记| 小麦, 基因组, 娶妻当娶女博士

pan-genome能干啥？

最近北大女博士的脱口秀《娶妻当娶女博士》都上热搜了，没想到社会上对此还挺好奇，而之于我却已经是司空见惯，博士忙忙碌碌的见多了，反倒是那些又会生活又会工作和学习的少见。我倒是觉得不必过于渲染，有的人读博也挺顺风顺水，有的女博士实验之外也能精心打理自己。不必过于渲染这种为了科研不管不顾的精神，我倒是推崇能把生活和工作打理的有条不紊的女博士。俗话说过犹不及，要考虑结婚以后，上有老下有小，局面大家自行想象吧。所以无论男博士还是女博士，甚至不是博士，都要学会打理好工作和生活的关系，争取家庭事业双丰收。我问胖丫怎么看？胖丫说，这都能火，我岂不是能火出天际，虽然我不是博士，但是如果以后我的另一半是博士，我希望他的工资能对得起他的付出，做人对得起良心。当然了每个人的追求不一样，有的人是舍小家为大家。我常常想，在现如今的和平年代，我现在做的东西，没了我行不行。正如没了任何人地球都会转，科研没了我也不会有任何波澜，这事想想就郁闷。

在开始之前，还要说一件高兴的事，那就是我们的王萌和翟胜男入选了青年人才托举工程。恭喜二位同时也希望我们小麦届以后越来越多。

下面进入我们今天的话题，说一说pan-genome能干啥。我们很早的时候也推送过关于小麦泛基因组的一些信息，视频报告:Towards a Pan-genome of wheat，包括我们半个月之前的年终总结里也有提到小麦泛基因组的发展，萌哥的综述里也有提到。17年的时候澳大利亚的小麦团队在the plant journal上也发表了小麦的泛基因组研究，题目是“The pangenome of hexaploid bread wheat”, 还有个在线的网站（http://www.wheatgenome.info/wheatgenomedatabases.php），虽然做的不怎么好，但是总比没有强啊。这篇文章我们就不表了，有兴趣的可以去看看，甚至下下来自己撸一遍。另外这个网址还有其他小麦品种的基因组序列（http://opendata.earlham.ac.uk/），有兴趣的可以下载使用。话又说回来了，以前我们推送的那个小麦常用网站集合实在是干货太多了，就看有没有一双发现的眼睛了。

今天要说的是刚刚发表在nature genetic上的文章，题目是“Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice”，作者当然还是国人，摘要和作者信息如下。

泛基因组说白了就是多个基因组的集合。为什么需要泛基因组呢？这不废话嘛，韩信点兵，多多益善呢。说说单基因组的缺点，就知道多基因组的优点了。单基因组情况下，我们只知道一种情况，想要知道其他情况，对不起，请根据参考序列自行解决，这多麻烦呢。将重测序的序列mapping至参考基因组也能解决部分问题，现在我们如果想知道群体里某个基因的变异情况，直接查询就好了，一点不用挨个去测序了，直接将变异信息拿来，设计实验验证即可。所以上边的18个小麦基因组的重测序数据以及很早之前的62个小麦的外显子测序数据还是有必要下下来撸一遍的。但是这也有缺陷呢，要是基因组里没有这个基因组我们就看不到了，比如PFT基因，中国春里就没有啊，如果我们想看下在18个小麦材料的变异情况，使用mapping的方法是看不到的，除非将PFT基因序列加到中国春序列里，但此时的参考基因组就不单单是中国春的序列了。此时就需要泛基因组了，泛基因组基本不会丢失信息，所以用起来那是相当给力啊。除了泛基因组，也希望以后有泛转录组，泛蛋白组等。

文章选择了66个代表性的水稻材料，每个测了115倍的覆盖度，然后分别进行从头组装，组装之后contig的N50在21kb-75kb之间。（画外音：现在如果再做的话，最好结合使用10Xgenomics技术。如果这些序列使用NRGene的组装技术，最后的效果是不是会好很多）这远远比水稻基因2.9kb的平均长度要长，所以言外之意就是虽然短但用起来效果还是不错的。这次日本晴重测序的数据与日本晴参考基因组相比，基因区和基因间隔区的错误率分别是0.0218% and 0.0352%，同时也发现大概有3%的区域更容易出错，大概有85%的日本晴重测序的数据能mapping至日本晴参考基因组，gap往往位于重复序列区域。将水稻两个材料的全长cDNAmapping至各自的基因组序列，在identity>=98%时，大概有96.77% and 90.25%的cDNA序列与各自的基因组序列匹配。以上结果说明，我们这个从头组装的基因组序列无论是从覆盖度还是精确度上来说，还是蛮不错的。

将这66个基因组序列mapping至参考基因组（画外音：此处使用的是MUMmer，不知道几Mb的序列能不能行），发现了很多序列变异和结构变异。发现那些对蛋白编码影响巨大的变异往往只存在于少数材料中，这里就带给我们一点启示啊，别总是将最小等位变异频率低变异给忽略掉，要具体问题具体分析。与直接将短reads mapping至参考基因组上相比，大概有2.1%的序列变异是低质量的。

前面有测过1,529个水稻材料，与这个大群体里发现的序列变异相比，此次有89.2%的序列可以在这66个材料中检测到，这言外之意不言自明了。进一步构建的系统发育树也与前边的较一致。分析受到选择的基因组区域也与前面的结果比较一致，当然了，还鉴定出6个新的区域。

下面来点具体的，下面这个5个基因在水稻里已经被克隆了，Hd3a， COLD1， GW6a，TAC1 ，Sd1。这5个基因的关键变异在这66个材料里都可以找到。具体的变异信息咱就不分析了，其实现在小麦里我们也可以这么做了。君不见有23个小麦基因组的重测序数据，君不见有62个小麦材料的外显子测序数据，君不见有90个小麦微核心种质的RNA_seq数据。

我们接着再看不同材料之间编码基因数量的变异。正如我们了解的PFT基因，苏麦3号有，中国春没有，那么两个材料之间到底有多少这样的基因呢。这时候有了从头组装的基因组序列，我们就可以做个基本的评价了。这里要特别提出来一点，那就是原来日本晴的基因组注释并不完整（前面我们也谈过这个话题，关于基因组注释那期），这里又新鉴定出一些基因也存在日本晴里，这些新鉴定出来的基因表达量一般较低，部分基因的功能研究表明，这些基因可能也具有重要的生物学功能。除掉冗余的基因，这66个水稻里共有42,580 个编码基因。进一步细分，大概有26372个基因至少存在于60份材料里，而16208个基因至多存在于60份材料里。还发285个组特异的编码基因，功能预测分析表明这些基因多数是一些环境响应基因，比如NBS-LRR、NB-ARC等。

讨论部分，这里只想说一点，就是关联分析群体的构建，也叫NAM群体，前面飞哥专门写过一期的群体介绍（扒一扒遗传分析中群体那些事儿），NAM群体其实就是不同的亲本材料分别与同一材料（CP, commonparent）做杂交，再在杂交后代内部分别进行连续自交（单粒传法）或同胞交配以创制不同的一系列重组自交系（RIL）。在小麦里构建这样的群体也是可以的，但是那个共同的亲本选择要注意，个人认为应该选择新合成的稳定的普通小麦，这样可以在一定程度上避免D基因组多态率不高的事实，同时也能提高A基因组和B基因组的多态率。

最后大家可以比一比我们开头提的小麦里的泛基因组的文章和本文泛基因组的文章在分析方面的异同，欢迎留言交流。

转载本文请联系原作者获取授权，同时请注明本文来自马省伟科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1094241-1095218.html

上一篇：“我要上PC”—小麦领域Plant Cell上论文合辑（七)
下一篇：中国小麦产业发展与科技进步——小麦里我见过的最豪华作者阵容

收藏 IP: 58.213.93.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

马省伟

扫一扫，分享此博文

mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

pan-genome能干啥？

pan-genome能干啥？

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

马省伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

mashengwei的个人博客分享 http://blog.sciencenet.cn/u/mashengwei

博文

​pan-genome能干啥？

pan-genome能干啥？

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

马省伟

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

pan-genome能干啥？

该博文允许注册用户评论请点击登录评论 (0 个评论)