||
距离上次《生信宝典》联合《宏基因组》组织的扩增子分析线下培训结束己经有三个多月了。为方便广大读者的学习,现在开始陆续分享上次培训的内部资料——理论课程课件。希望对想自学分析的朋友起到一定帮助作用。
举一个简单的例子,学过高中生物的人都知道,孟德尔发现遗传学基本规律是(基因分离定律、基因自由组合定律)以豌豆为材料,传统的数量可以数过来,也发容易发现规律。现代基因组时代,从万亿的数据中挖掘信息,借助当代计算机每秒上十亿次,以及上万亿次的超级计算机。
计算机是模拟人脑进行简单重复劳动的过程。数据存储于硬盘,读入内存用于CPU高速计算,结果再返回硬盘保存。服务器和台式机差不多,只是配置高一点,再就是多。
扩增子却是大数据时代中数据量最小的测序类型,一般配置高一点的笔记本和服务器可以搞定。价格从几千-几百万。研究所几百万,课题组10以内几十万,人少几万,个人初学几千就够用。
举个例子,你有一千份Excel表,主要工作是计算表格每行均值,再按结果降序排列,筛选出前3均值最高的候选。Excel中操作量与时间成正比的,编程批量操作分三个阶段:1. 手动操作几十份找规律;2. 停下工作编写程序并测试;3. 运行程序完成工作。(单位的文员最需要学编程,但他们会编程就叫数据工程师/科学家)
上文来自维基百科,我的翻译。建议阅读原文。下图是Nature protocols杂志十年专题文章,回顾了这个领域的发展,近似的时间线展示开展相关领域微生物组研究时间。200年开始极端环境、植物、白蚁后肠、人类肠道、海洋、永久冻土、土壤沉积物
每张图代表的是相同的群体,然而不同的方法可以定义此群体可提供的不同信息。- a. 微生物群:采用16S rRNA研究方法鉴定此环境中微生物的种类。- b. 宏基因组:微生物群的基因和基因组,包括质粒、强调群体的遗传学潜能。- c. 微生物组:微生物群的基因和基因组,以及微生物群的产物与宿主环境。
人——HMP,2008年,1.15亿美元,2016年二期5亿刀。Rob Knight领衔的。环境——EMP同时还有环境微生物种Jack Gilbert领衔的。动物;植物
基于二代测序,可以较容易获得大量数据;蛋白组、代谢组数据获取和分析更复杂,通量也不高;三代成本高。宏病毒组要测DNA+RNA
16S rDNA或16S rRNA基因,我们研究的绝对不是16S rRNA,我们扩增的是DNA
截止171218日,QIIME 9297次;Usearch 5981次;mothur 7869次,密西根大学(University of Michigan) 的Dr. Patrick Schloss领衔的团队开发的,其团队还开发有DOTUR(2005年定义OTUs和计算物种丰富度)和SONS(OTUs丰度比较)软件。
定量分析微生物生态;去复杂化、质控、OUT鉴定、物种分类、进化关系重建、多样性分析及可视化;它把这个领域打通了,整理了200多个软件和包,编写了150+脚本,几乎可以做本领域的任何分析。内容太多,学习成本太高,新用户无从选择。
2018年由QIIME2全面接档,由Python3编写。不是升级版,而是全新的分析流程,由1的作者继续开发。格式标准化,新手体验差,适合团队强制标准化分析。
商用版1485,5000多。
Usearch,有代表的核心算法。UCHIME和UPARSE,引用6500+,加上usearch 6500,有1.3万次。QIIME和Muthur都推荐使用UPARSE聚类。
一周前才只有2年前usearch8的水平,用着没有usearch10方便;3天前刚更新,功能与usearch10更接近
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外1700+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 18:00
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社