生物信息学习的正确姿势
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
文章解读微信链接ISME:南农沈其荣团队基于大数据准确预测土壤的枯萎病发生 (点击阅读原文跳转视频观看)
基于大数据整合预测土壤枯萎病的发生
介绍主讲人
袁军,博士,就职于南京农业大学资环学院沈其荣教授团队。研究方向:根系分泌物介导的植物-土壤反馈,土壤微生物群落调控,连作障碍修复,新型肥料研发。目前以第一作者在The ISME Journal
,Microbiome
,SBB
,Hortic Res
,AEM
等国际著名期刊上发表十余篇文章 (文章他引700余次)。
研究背景及意义
为什么会选枯萎病呢?枯萎病是土传病害里面一个代表性的病害,其发病区域广泛,宿主种类众多,孢子存活时间长,发病率高,危害大。
为什么要做整合分析
在世界上很多区域的很多物种都可以发病,但是很难找到发病的阈值,而个例的研究很难从整体的角度来说明问题,并且需要明确回答微生物群落是否存在特征这个问题,基于这些条件来做整合分析。
研究方法概览
首先是收集数据,一部分数据用来构建模型,另一部分用来模型的预测和训练;其后就是对数据进行整合和筛选;之后是建立模型,最后把群落特征提取出来并进行可视化。
数据收集
数据的一部分是直接从文献中获取数据来源,另一部分可以在公共数据库进行查找,因为公共数据库中还存在一些文章尚未发表但是已经公开了的数据,剩下的一部分来自自己或同行的测序数据。
机器学习方法
机器学习方法有很多,这里罗列了常见的5种。
随机森林:
微生物生态领域应用较多,精度高、能处理大量的变数
支持向量机:
其他领域常用,比如人脸识别
逻辑回归:
最传统
决策树:
结构简单、效率高
朴素贝叶斯算法:
被分类的每个特征都与任何其他特征的值无关
样本数据分布
数据要有代表性,不一定获取的每个项目都有很多样本,但是项目一定要多。
另外也要注意如果某个项目的样本量特别大,这样做PCA的时候可能这个项目的样本会单独聚为一类,而其他项目聚为另一类。
数据整合和过滤
这时候我们就需要对样本进行筛选。但筛选并没有固定的标准,比如去除样本量大的一部分样本后,PCA结果中样本按照疾病情况等分组聚类,说明这个筛选方法没问题。而真菌的项目的样本量分布比较平均就没有进行过滤,但对细菌的的项目的样本数量进行了过滤。
然后是对OTU的过滤,因为是对很多样本进行OTU的聚类,所以会聚类出很多OTU,比如我们通过对数据聚类出5万多个OTU,但是大多数的OTU丰度很低,对于研究想获取的群落特征意义不大,所以我们仅保留了存在于三分之一研究及以上的OTU。
OTU过滤的效果
对过滤OTU前与过滤OTU后的分析结果进行比较了,可以看到经过过滤后,alpha多样性在疾病组和健康组中存在显著差异了,而Beta多样性和物种组成则没什么明显的变化,这说明对样本过滤是合理的。
特征物种筛选
下面进行了机器学习算法的筛选,主要是比较随机森林、支持向量机和逻辑回归的这三种算法。发现随机森林结果最好,支持向量机次之。
机器学习算法中使用的物种分类水平的确定
机器学习算法确定好了后就是选择基于哪个物种分类水平来建立模型。通过对门、纲、目、科、属、OTU水平的建模结果比较,发现细菌只有OTU水平结果最好,所以细菌与真菌均选择了基于OTU来建模。
模型验证
验证这一步是很必要的。那么怎么去验证呢,就是自己去收集不同物种不同地点的数据来用于预测。
预测结果可以看到除了北京发病西瓜的真菌数据都预测错误,其他数据均基本预测正确。这里要单独提下百合这个物种,因为我们原始用于构建模型的数据并没有涉及百合,但是使用模型来预测百合的结果基本也是准确的,这也证明我们预测的模型是有代表性的,可以从枯萎病这个角度来看微生物组成的特征。
特征物种筛选
通过在OTU水平建模,可以得到45个细菌特征OTU和40个真菌特征OTU。可以看到细菌的大部分特征OTU在疾病组和健康组丰度还是存在差异的,真菌的热图结果虽然不是很明显,但是可以从堆积柱状图里看到丰度也是存在差异的。
后续研究还可以深入去挖掘这些微生物对疾病功能与作用。
特征OTU网络互作关系推断
细菌特征OTU网络分析表明,健康网络中包含的节点和连接数较多,并且网络平均度(average degree)和中心紧密度(centralization-closeness)较高。
真菌特征OTU网络分析表明,发病网络中包含的节点和连接数较多。
数据整合的意义
为什么做数据整合呢?首先是想发现微生物群落的特征,其次也可以为进一步验证特征OTU的功能打下基础,并且综合多人的结果得出的结论更有说服力,也可以进一步来佐证自己的观点。
扩增子数据整合过程的问题
现在整合很火,因为公共数据很多,并且没有经费也可以开展整合分析。但是我们要重视整合过程中存在的问题,比如最基础的就是DNA的提取,DNA提取结果质量不好的话就不能保证结果是否有代表性,发现的差异是否来自数据的真实差异。另外还有用不同的引物来扩增不同的区域,在整合分析时也会有问题。
而在实际分析也会遇到很多问题,例如最开始下载的数据远超于分析中使用的数据,但是一些数据可能因为没有提供引物或其他原因无法使用,还有就是比如数据是核糖体rDNA的不同的区域,这时候可以按照不同区域对数据分类,然后独立进行研究,最后看结论是否统一。
扩增子数据整合策略
主要是两个策略,一个是下载原始数据通过聚类获得OTU,从OTU水平进行整合,第二个策略不需要原始数据,基于OTU丰度表,在不同分类水平上进行整合,这个方式速度快,精度低 适合大生态。
扩增子数据整合进一步探索
比如深度评估不同数据差异,这时候可能考虑引物的影响、数据库的影响,方法的选择,这里建议大家先做,做了看结果再说,不要被想法局限。
另外也可以结合温度、降雨、土壤的碳、氮等环境因子进行更多层次的分析。
评估一个主题是否适合做扩增子数据整合?
可以从下面几条来评估是否适合扩增子数据整合?
是否有重大意义?
是否单个研究无法解决问题?
是否有大量的相关研究?
可否验证
开展一个数据整合项目的时间
PPT展示了每个部分花费的时间,但是要注意一个月并不是一个月内完成这部分内容,而是工时。不过最花费时间的就是数据的不断尝试、探索和应用机器学习等方法进行分析。
致谢
最后感谢团队带头人沈其荣教授和团队中特别努力的学生们。
刘永鑫老师总结亮点
虽然一千多个样本整合并不算多,但是能数据能包含多个地点多个物种,这一点就足够吸引审稿人。
提问
Q:一些公共数据并没有上传barcode序列怎么处理?Y:如果有分组信息的话,这个数据是可以用的。
Q:有没有用生态学的方法进行挖掘,比如从一些生态过程和互作模式入手?Y:最近正在做,但是还没得到比较好的结果。
Q:如果一些数据没有分组信息,就不能用这部分数据进行后续分析了吗?Y:是的
Q:差别大的样本是直接剔除还是抽平到和其他样本同样的水平?Y:随机去抽就可以了
Q:OTU表如何进行下载和整合?Y:有的文章会上传OTU表数据,但我们分析是用原始数据来生成OTU表
Q:多个研究由批次效应,批次效应如何消除?质控的标准?Y:除了批次效应、不同的平台、引物等都会对数据产生影响,我们是从发病与健康的角度来看是否存在差异,并且数据很多的时候,主要差异是来自于发病与健康。高通量数据中批次效应的鉴定和处理 - 系列总结和更新
Q:依据您上文提到的关键词在谷歌学术检索,有4000多个文献满足,如何对这些检索结果过滤?Y:没什么简便的方法,只能通读一遍看看是否满足需要
Q:收集的序列数据都是16S的一个区?或者有共同的区域然后切齐?Y:来自于不同的区域,将不同的区域片段去和全长的数据库比对
Q:发病土壤来自持续几年都发病的土壤还是偶然发病的土壤?Y:公共的数据有的并没有提到这个信息,但我们用于预测的样本来自常年发病的土壤
Q:qiime2怎么生成的unifrac距离?R怎么获得beta多样性的结果矩阵?L:我通常习惯用usearch的beta_div命令来获得unifrac距离,R可以通过vegan包来计算各种beta多样性距离矩阵
Q:您对深度评估不同引物造成的差异有什么建议吗?Y:刚才也提到过,可以通过分开分析来看结果是否一致。
Q:可以分享下载数据的脚本吗?Y:文章中提供的github链接中包含分组中用到的脚本
Q:扩增子整合用OTU还是ASV更合适?Y:这篇文章是用的OTU
Q:机器学习筛选特征OTU是否都得先用大量数据进行训练?以及训练的比例是多少?Y:2/3用于训练,剩下1/3用于验证,不过训练了很多次,每次都是随机选2/3用于训练,剩下1/3用于验证
Q:可以分析下文章解读链接吗?L:文章解读链接:ISME:南农沈其荣团队基于大数据准确预测土壤的枯萎病发生
Q:自己的数据是OTU表,但是文章没有提供OTU表,是不是就无法整合了?Y:只能从不同分类水平上进行整合了。
Q:rdp数据库和Greengene数据库哪个好?Y:各有所长。rdp包含的数据更多一点,Greengene数据库更准确,但是greengene数据很久没更新了 L:如果是从OTU层面上,很多文章都用的Greengene数据库更容易整合,并且qiime系列用的默认数据库就是Greengene数据库
Q:不同月份采的样,批次效应不去除和去除影响都很大,怎么处理?Y:这个差异也不一定是完全是批次效应带来的,也有可能来自温度、水分等环境因子,可以做环境因子的分析来看看
Q:怎么批量爬取文献?还是一篇篇文献去下载?Y:可以批量下载,但看文献还是一篇篇去看
Q:通过模型来进行预测的原理是什么?Y:建模后我们获得45个特征OTU,但除了OTU的分类信息外,我们还有其相对丰度信息,相当于指纹图谱,把样本和这个信息map一下,就能判断这个样本是发病样本还是健康样本。
Q:机器学习的意义是什么?Y:通过机器学习就可以获取特征OTU,这些特征OTU除了有样本中丰度差异信息,并且也能展示了其对群落组成的贡献度。
Q:45个特征OTU的P值的标准是什么呢?Y&W:45个特征OTU是通过机器学习的方法获取出来的,所以没有P值结果,其原理是构建好模型后,挑选出45个对分类有重要作用的OTU
Q:看到一些文献是选择差异OTU,然后用差异OTU建模,这个也是可以的吗?Y:是的,我们其他的文章就是用的这个方法
https://blog.sciencenet.cn/blog-118204-1256845.html
上一篇:
可视化之为什么要使用箱线图?下一篇:
重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)