DearAmyS的个人博客分享 http://blog.sciencenet.cn/u/DearAmyS

博文

我的毕业论文-软件篇

已有 19218 次阅读 2012-5-3 15:57 |个人分类:杂七杂八的东东|系统分类:科研笔记| 软件, 毕业论文

    高中的孩子们经常会做一个关于数学的噩梦。梦里X,Y伸着小胳膊小腿冲着你扭来扭去。而转眼十年过去,还在读书的孩子们,尤其是做种群遗传、系统进化的孩子们,噩梦的内容应该是很丰富吧,小蝴蝶(FStat),小鹿(cervus),小丑(Arlequin),小怪物(Beast),小波普条纹(Structure)等等。琳琅满目的各种软件让人应接不暇,百十页的help忙活下来经常会让人忘记这软件应该是用来做什么的,要么发狠赌咒,学不会该软件不上厕所不吃饭;要么望洋兴叹,感觉软件虽多能用的很少,或者干脆放弃,与该软件老死不相往来。而我,作为一个即将毕业还在不停的学习软件的人,这些小情绪,小苦楚,小悲哀,小得意什么的,绝对是规律周期性发作的。同时,作为一个即将过来的人,关于这些软件,颇有些心得可以跟分享。只是我用的是不求甚解的学习方法,结果往往是自学不成材,因此你们从这篇文章里得不到任何有用的知识。之所以继续看,应该是有些臭味相投的体会罢了,还请各位老师斧正。

    其实这些形色各异的软件有个共同的名字叫遗传统计软件(genetic statistics software)。当然,如果一个学生提交给导师的开题报告上写,先做试验,然后用遗传统计软件进行分析,应该是完整无误的,但却很少有老板会对此满意。老板们通常会要求自己的学生,最起码来说有照猫画虎的本事,看看人家用什么来做什么,你也用什么来做什么,准没大错儿。这类模仿足可以应付开题报告之类的,等真正用得着的时候,我们的软件来源和教学则通常来自于师兄师姐们,不必知其然和所以然,就可以得到结果,一棵树或者是一个network。而可怜的我偏偏属于生性腼腆的人,不好意思求助,只得自学。又属于偏笨的类型,所以一个月只能学一个软件,然后再海选其他软件,选秀出跟所学的软件最像的去学,反复几次,才算是会用了这一类型分析。

    闲话少叙,抛却我曲折前进的道路不提,下面的软件介绍将是按照由易到难顺序,仅供大家参考。

    先说说GenAlEx2009),这是个简单方便的教学软件,全称为Genetic Analysis in Excel,包括几个Tutorial,有数据和实例,很适合初学者自学,但很少能在文献中见到引用,因为其中的各个统计计算大部分被贝叶斯统计取代而又更可信的专门分析软件来完成。但不可否认GenAlEx可以让你更好地理解复杂软件中的各个参数的计算,例如Fst值(额,如果Fst的计算能算得上统计的话)。而且,GenAlEx的分析对于种群遗传学领域来说是覆盖极广的,从Scoring共显性的数据到可以用于花粉分析的TwoGener都有涉及。而且使用方便,因为这个软件顾名思义是用在Excel里面的,07或者10版的excel均可使用。其实就是一个扩展名为XLA的宏,被列在加载项里。学习时间也较短,花一周的时间就能掌握种群遗传学分析的基本思路了。同样类型用于excel的软件还有Poptools,与GenAlEx一样,也具有很多的功能并且在resamplingpermutation方面很出色。

    其实种群遗传学的分析过程无非就是两种方法:基于频率或者基于距离的分析。而对于频率的分析则是很多下游计算的基础,包括一系列的F统计值、Nei's遗传距离、Shannon多样性指数等数值和Population assignment,基因型概率的评估,身份验证,排除概率等pairwise的计算(这里主要指共显性数据),当然F统计值等也可以Pairwise得出。

    这些种群遗传学的基本参数Fst,杂合度等,除了pairwise的计算,还可以用Likelihood(来源于Fst)来评估。最常用的软件就是Cervus,本来是用于做亲缘关系的,但有很强的模拟的功能所以经常被用于检验genotyping error。顺便说下,可以做亲缘关系的软件还包括RelatednessMac)、KinshipMac)、PapaParentagePasosKingroup(类似Kinship on windows)和Colony,值得注意的是,亲缘关系的分析通常会分为关闭式和开放式,关闭式针对于你的样本,开放式则可以评估非样本个体。通常这类软件的统计方法是似然法,并且大多可用于genotyping errors存在的情况,或者对genotyping error进行评估。

     同时,可以对错误进行检测的软件还包括MicrocheckerPedantGenepop等,Microchecker是根据哈温平恒的测试来检测stuttering或者large allele dropout,并且还提供对基因型频率的修正。Pedant则采用最大似然的方法,可以直接告诉你哪些是有绝对的错误需要重复的。这类软件只能帮忙检测,却不能帮你得到实验结果,有时甚至连亡羊补牢的效果的都起不到,仅仅是聊胜于无。至于得到可靠结果的关键嘛,参考任何review都会得到以下结果:新鲜的样本,荧光定量,Qiagen Mix 和重复试验。如果只能选三种,我选前三种。如果只能要一样,亲,你知道的,我要第一个。

    言归正传,再来说说这些具有普示意义的遗传统计软件。Genepop是种群遗传学必备的软件之一,Manual也是必读的,其import的文件被称为Genepop files 适用于不少其他软件。通常被用于评估哈温平恒,连锁不平衡,种群分化等等。有网页版和单机版,我只用过网页版,界面简单明了一看就是大手笔。相比之下,同样是计算FstRst等等,FStat则显得比较复杂,新功能为评估和样本大小相关的等位基因的丰富度。此外,作为传统分析Genetix的表现也可圈可点,不美之处在于需要从法语过度到英语,着实蹩脚,Nice的地方是可以运行个体的基因型的PCA和对Fst进行permutation tests(说到permutation tests,我突然想起一个软件PopTools,可以再Excel上手动做一些permutation,甚是好玩~)。Genetix help上说是可以运行Genepop files,但很多时候总是screw up。对于软件之间的数据的转换也有软件可以做到ConvertCreate,我只用过第一个,蛮不错的,也是基于Excel。传说可以读取Genepop files 的软件还有Arlequin(其实也不大好用,会造成很多missing data,最好通过Excel来转换)。Arlequin算是较新的软件合集了,可以进行个各类分析,但没什么创新,感觉像是在炒冷饭的。此外,还有BottleneckNe Estimator ONeSAMP等小软件,分别是用于检测瓶颈效应,有效种群大小和有效种群大小,但是最近几年这些研究甚至这类说法都很不时髦了,有兴趣的同学也可以去试试,比较让人抓狂的是ONeSAMP,这是个网页软件,需要提交数据的那种,且数据中不允许含有missing data,真不知道做非损伤性取样的小盆友该怎么办呢。

    类似于这种做基础分析的软件举不胜举,他们或者接受共显性数据,或者是单倍型,或者是序列,或者三者通吃。其实用哪个都没错,但是得到的结果却存在差异,至于不一样的原因嘛,嘻嘻,你觉得呢?

    相对于频率分析较新的是基于遗传距离的分析。这些分析的出发点是讲遗传数据转化为个体和个体之间的遗传距离矩阵。距离矩阵可以由任何类型的遗传数据得到,包括单倍体、微卫星和DNA序列。而对这些距离矩阵的计算则是由来已久了(还记得大学时候的线性代数么?),可用于遗传分析的也是相当广泛,包括AMOVAPCAUPGMANJ树、Mantel Tests和空间相关性分析。就近十几年流行的来说,距离分析主要的用途就是构树和画网络图,随便找一期MPE看看便知。由此也引出一系列的软件,从数据的剪切编辑到构树构图,从基本的MegaPaupPHYLIP到武装了贝叶斯的BeastBayes

    而最近流行的Landscape Genetics其实是Mantel的一个应用。Mantel test主要评估两个矩阵之间的相关性。应用景观遗传学则是遗传矩阵与空间矩阵的相关分析。在现有很多的传统软件中也提供这类的测试,如Genepop会提供Mantel testsFStat则提供Partial Mantel testsSpagedi中可以检测IBD。但目前越来越多的Specific software来做这件事情如检测IBDIBDWS,探测扩散障碍的有BarrierSAMOVAspatial AMOVA,不需要预先划分)、GenelandBAPSAlleles in SpaceTessGrassMac)。其中GenelandGrass是基于R的,但是有着非常亲民的界面,也为后续构图提供方便。其中大致的原理都是将个体归属使其达到哈温平恒和连锁平衡的种群,方法上多采用贝叶斯聚类,多为嵌套模型或者马尔科夫链。

    其实在空间分析之前,要做的还有Population Assignment这类分析。可以做这个的软件太多了,共同的前提是哈温平恒和没有连锁不平衡,不同点则是它们所使用不同的模拟方法,也就带来了不同的额外假设,缺点在于所采样本很难覆盖某个种的所有种群,而又迁徙等行为存在;关键则在于样本量的大小(有文献建议样本量至少为50)。聚类分析目前来说,最著名的就是Structure了,其结果通常需要辅助的统计软件来判定和辅助的画图软件来表达。所以经常出现Structure+minitabStructure+GenelandStructure+BAPSStructure+Structurama这类的组合。值得一提的是StructuramaMac)这个软件,先验概率为Dirichlet过程所给出的一系列值来确保非参数贝叶斯检验的可信度,值得一试。

    说到这里我所知道的这些软件就讲完了。那么要写一篇相关的论文到底要学多少个软件呢?答案应该是不确定的。好比那日,射雕英雄传里七公要传授漫天花雨掷金针的手法给郭靖,郭靖却道:“七公,我不学啦。”洪七公奇道:“干嘛?”郭靖道:“您老人家教了我这许多功夫,我一时也练不了。我就一门心思练降龙十八掌,也就一门心思用降龙十八掌。”洪七公的头一下抬了起来:“你到底是聪明还是傻?”郭靖愣住:“怎么?”洪七公:“你二十岁上就明白这贪多嚼不烂的道理!老叫化年轻时候,看天下万物都藏着武功道理,便忍不住都练上一练,到如今才明白,什么逍遥拳快活脚都不如这么一掌一掌地对人劈了过去。”郭靖想了想,可还是不明白七公说的道理,只得说:“武功自然是会的越多越好,可我笨,只好学一样。”其中的道理何止于学武功呢,我想真正的学会了,则应该是一通百通了。




https://blog.sciencenet.cn/blog-628646-566517.html

上一篇:“档案”那些事儿
下一篇:歧视真真属于一个巴掌那种事儿
收藏 IP: 159.226.149.*| 热度|

12 许培扬 刘洋 骆洋 陈小斌 刘进平 边媛媛 刘阳 孙启良 周素琴 刘强 杜方 biodoudou

该博文允许注册用户评论 请点击登录 评论 (28 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-3-29 09:13

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部