||
2014年10月10日,根据群(283300826)讨论整理、纪录
系统发育研究在中国已经发展了多年。朱弘复等老前辈早期发表了支序系统学的论文。目前,其理念已经深入到大部分生物学工作者的工作之中。适当整理国人工作,洞察和国际研究前沿之间的差距,还需在概念、理论、方法、数据等各个层面深入探讨,并找出现有体系的弱点,才能做到有的放矢,做一些我们独立而前瞻性的工作。
芳銮提到现在有些工作为了分析而用软件。这应该是现在一个普遍现象。这是表层的应用而已,应该追求极致:1)了解工具的应用范围;2)用好工具,解决问题;3)发现工具的弱点,突破之;4)建立自己的工具。可能不少工作还是停留在1和2,而少有3、4。这里还是要鼓励研究生多多参加讨论,吃透工具,努力做到1、2,敢于“一知半解”,敢于初生牛犊不怕虎,敢于有所突破,提出自己的想法和思路。在发展了多年的系统发育历史上,我们都是年轻人,需要一些朝气和激情。参加完CCBSB2014的薛宇博主就写了一篇博文,谈如何成为顶级生物信息学家,也对生物信息学领域的工作分了层次。我深以为然。
更加深入一步,每个工具软件都有一定的理论支撑,也自有一定的应用范围。需要有领域内的一部分人,主动开展学科交叉。我组的罗阿蓉博士,针对分子系统学中的几个问题,充分运用她较好的生物统计学基础,并学习了一些编程技能,做了一些有意思的工作。Douglas Chester博士(助研),在英国理工学院读博士期间就结合系统发育,开发生物信息学工具,进而集中精力研究分子分类学。后来到我这做了几年博士后,并留所工作。有了生物信息学、生物统计学、计算科学的背景,系统发育研究工作自然进阶,如虎添翼。研究理论的问题,也要吸引其它专业,来合作解决我们难以解决的问题。唯有如此,方能独辟蹊径,建立新的理论、方法,而不是对现有体系修修补补。MP、ML、BI等发展历程,莫不是如此。它们的支持者,在发展的初期,极力竞争,寻找对方的缺点,维护自己的有点。历经数年,每个方向都得到长足的发展,并大有整合之势。
显照提到国内已经有很多学数学、物理方面的人进入生物信息学领域,在算法和工具开发方面已有不少成果。他说得很好。我们已经关注到其它学科深入生物信息学,并发表了一些成果。但是,这些成果很少得到大家的引用。应该鼓励在大家的工作中,在使用通用方法的同时,也引入这些新的算法和方法。
周欣提到大数据,特别是组学数据的重要性。伯坚认为,用大数据做系统发育固然是趋势,但他个人认为,更为重要的是,如何在众多的数据中挑选出那些真正有phylogetic signal的数据。现在一个基本的共识是,简单的增加数据量更有可能会得到支持率高但是错误的phylogeny。关于这一点,我在读文献的时候发现有些工作破费思量,如Genome Research上发表的Phylogenomic analysis reveals bees and wasps (Hymenoptera) at the base of the radiation of Holometabolous insects。周欣认为,从数据的角度来讲,上述工作中的数据现在已经不算大数据了。
大数据的确容易造成高支持度的错误node。在周欣团队的转录组数据基本上每个节点都是100,很容易造成迷惑性和盲目乐观。数据量大了以后,几乎所有的“常规”分析都无法操作,比如简单的序列比对。想想一下1500个基因 x 150个类群的比对是什么概念。在这之前还需要有靠谱的基因注释和同源性分析,以及重要的是对单系性的判断。如果是单拷贝通源基因还相对容易,难点在多拷贝的基因家族成员在不同物种间比较时需要比较强健的方法进行判断。有了数据集后,对于数据性质要进行细致的分析,排除能想到的人为因素。比如数据缺失是否非随机?比如序列比对是否造成系统性影响?然后需要选择合适的数据分区方法。所有的弄完了以后,需要合理和高效的建树工具。他们把数据弄到RaxML里以后立刻死机,没有任何软件能搞定这个规模的大数据。解决了这个问题后面还有dating等非常耗计算资源的分析。最后还需要有形态学等的解释等等。这种工作目前几乎没有任何一个单独的组可以从头到尾完成,需要合作。
大家提到的这些问题非常好,有必要好好梳理一下。我研究组从分子系统学的几个基础问题入手,也在思考上述部分问题。其中,有些问题,如supermatrix、supertree,组内能够解决就继续探索;涉及计算机科学的,就和网络中心的专家合作。慢慢也涉及了一些统计甚至数学问题,就和其它专业进行交叉。部分想法可以参考:计算基因组系统学(http://blog.sciencenet.cn/blog-536560-780045.html )。今年昆虫学会我也将在年会报告中提及部分问题。
我在系统发育群里先抛砖引玉,提些问题和设想,请大家讨论。也欢迎大家提出概念、理论、方法论和趋势方面的问题来畅所欲言。大家天南海北,聚在群里,都对话题感兴趣,今晚讨论也非常热烈。这样的虚拟平台,可长可短,随时可以发言,不拘泥于任何形式,非常自由。相信大家都有所思考,有所收获。后续相关话题的讨论,我将继续如实记录。
1、系统发育体系中有哪些重要的概念、理论和方法?
2、系统发育发源以来,影响并改变和创立了哪些学科?
3、系统发育理论体系发展过程中的经验和教训?
4、系统发育未来5-10年的发展趋势?
显照提出了一些想法如下 -
1)面对着大数据的来临,系统发育的算法将有革命性的突破;
2)对非编码RNA的进化将受到重视;
3)系统进化和功能研究将进一步紧密结合;
4)物种间co-evolution的研究将成为热点;
5)细胞内核-质共进化研究将推到一个高度;
6)功能适应性进化研究将越来越受到关注。
5、围绕系统发育,我们能够有没有可以赶超、引领的潜在突破点?
围绕上述问题,我们可以提供建议一些文献,和大家分享。如有PDF或者链接提供,则最佳。
文献格式:作者,发表年代,题目,期刊卷期。
(未完待续)
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 15:27
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社