lyao222lll的个人博客分享 http://blog.sciencenet.cn/u/lyao222lll

博文

2019.01-2020.1笔记整理总结

已有 6713 次阅读 2020-2-1 19:29 |个人分类:无分类|系统分类:科研笔记| _笔记总结

2019.01-2020.1笔记整理总结

 

作为听党指挥的好孩子,正在尽自己所能做好个人职责:自春节过后到现在,除了倒垃圾就没出过门……焦虑年后各种危机重重,算了不去想了想再多也没用,希望一切都往好发展吧。2020,加油!

趁现在大把的时间,整理了一下过去一年写的笔记。第一篇是19年年初写的,不知不觉竟真坚持了下来,慢慢地成了习惯,就当不想闲下来吧。日常写笔记也是很随意,这次把它们统一归归类,作个目录。

很多内容还有待补充,并且可能还存在错误理解的部分,早期写的一些太挫的也没放,将来继续完善。

扫一扫最下方二维码关注公众号“生信小白鱼”,感谢支持~


image.png


展示一些常见统计图的绘制方法,后续待更多补充。

 

柱形图类:堆叠柱形图    分组柱形图    双向柱形图    蝴蝶图

箱线图类:箱线图    提琴图    密度提琴图

面积图类:饼图扇形图    圆环图    星形图    堆叠面积图

散点图类:二维散点图    三维散点图    火山图    曼哈顿图

曲线图类折线图和拟合线

集合可视化:韦恩图    韦恩图    花瓣图    UpSet

圈图:关联弦图    简单弦图    基因组变异圈图

三元相图:三元图

树形图:聚类树    聚类树+堆叠柱形图    聚类树+排序散点图


image.png


该部分列举了一些生物学数据分析中常用的统计分析方法。

后续待更多补充。

 

数据预处理


数据转化

 

假设检验


两组间比较:

参数类:T检验

非参数类:Wilcoxon检验

 

多组间比较:

参数类,方差分析(ANOVA单因素方差分析(单因素ANOVA+多重比较

单因素协方差分析(ANCOVA

双因素方差分析(双因素ANOVA

多元方差分析(MANOVA)和稳健多元方差分析(稳健MANOVA

非参数类,ANOVA的替代方法Kruskal-Wallis检验和Friedman检验+Wilcoxon检验/或非参数多重比较

非参数单因素协方差分析

非参数双因素方差分析(Scheirer-Ray-Hare检验)

置换多元方差分析(PERMANOVA

 

显著性标记显著性标记

 

其它非参数检验方法:置换检验

自助法(bootstrap

 

基于距离的差异检验置换多元方差分析(PERMANOVA

相似性分析(ANOSIM

MRPP分析

AMOVA分析

 

多元数据的降维分析


非约束排序(描述性的探索性分析):

主成分分析(PCA主成分分析(PCA

同时含数值和分类变量的PCA

模糊主成分分析(FPCA

对应分析(CA对应分析(CA

去趋势对应分析(DCA

多重对应分析(MCA

模糊对应分析(FCA

主坐标分析(PCoA主坐标分析(PCoA

非度量多维标度分析(NMDS非度量多维标度分析(NMDS

非约束排序中被动添加解释变量被动添加解释变量

 

带解释变量的约束排序(加入回归方程的统计模型):

冗余分析(RDA冗余分析(RDA

距离的冗余分析(db-RDA

主响应曲线(PRC

典范对应分析(CCA典范对应分析(CCA

RDACCAR2校正及约束轴的显著性检验

RDACCA的解释变量选择

RDACCA的变差分解

 

排序图:二维排序图    三维排序图

 

对称分析(这类方法意在描述两个或多个矩阵之间的相关性):

典范相关分析(CCorA

协惯量分析(CoIA    多重协惯量分析(MCoIA

协对应分析(CoCA

RLQ和第四角分析

多元因子分析(MFA

 

因子分析和潜变量(潜变量也可用于分类):

探索性因子分析(EFA

潜类别分析(LCA

潜剖面分析(LPA

 

判别分析(即可用于降维也可用于分类):

线性判别分析(LDA

二次判别分析(QDA

混合判别分析(MDA

弹性判别分析(FDA

正则化判别分析(RDA

偏最小二乘判别分析(PLS-DA

正交偏最小二乘判别分析(OPLS-DA

 

聚类和分类


层次聚类(无监督,描述性的探索性分析):

层次聚合:层次聚合分类    层次聚类结果的比较和评估

层次分划:双向指示种分析(TWINSPAN

 

非层次聚类(无监督,描述性的探索性分析):

划分聚类:k均值划分(k-means

围绕中心点划分(PAM

模糊聚类:模糊c均值聚类(FCM

避免不存在的类


潜变量分类(无监督,潜变量也可视为降维的一种方式):

潜类别分析(LCA

潜剖面分析(LPA

 

监督分类(通过已知先验分组分类对象,构建的预测模型可进一步划分更多数据的类别):

随机森林分类

判别分析:线性判别分析(LDA

二次判别分析(QDA

混合判别分析(MDA

弹性判别分析(FDA

正则化判别分析(RDA

偏最小二乘判别分析(PLS-DA

正交偏最小二乘判别分析(OPLS-DA

 

相关性和网络分析


相关性:

变量相关:相关性系数计算    相关图

矩阵相关:Mantel tests

(其它用于描述矩阵相关的方法也可见上文“降维分析”中的“对称分析”部分)

 

网络分析:

网络基础    网络拓扑属性-节点和边特征    网络拓扑属性-网络特征

微生物互作(生态)网络简介

 

回归和建模


结构方程模型(SEM路径分析

验证性因子分析(CFA

潜变量结构模型

分段结构方程建模

 

约束排序(RDACCA中应用回归拟合解释变量和响应变量的关系):

冗余分析(RDA冗余分析(RDA

距离的冗余分析(db-RDA

典范对应分析(CCA典范对应分析(CCA

 

image.png


就写过一点点,后续待更多补充。

 

多线程压缩工具pigz(方便压缩fastq

测序数据中duplication的占比问题探讨

数据质控:Fastp过滤数据    FastQC质控评估

基因组比对:BAM文件可视化工具Tablet

 

image.png


读研期间学到的,微生物群落、16S/18S/ITS扩增子测序、宏基因组等分析的一些方法,渣渣水平。

后续待更多补充。

 

群落多样性


Alpha多样性Alpha多样性指数

稀释曲线和Alpha多样性指数曲线    Rank-abundance曲线    物种累积曲线

 

Beta多样性和群落相似性 相似性和距离测度

PCAPCoAUPGMA这些在Beta多样性分析中常用的方法,见上文“降维分析”或“聚类分析”。

 

差异分析及生物标志物鉴定


LEfSe分析    LEfSe分析(Koeken

该部分方法非常多,上文介绍统计分析中提到的很多方法都可以适用。

以及在RNA-seq中常用的基于负二项分布模型的差异分析方法等,也常在微生物组中鉴定显著的生物标志物。

 

群落功能分析


基于扩增子的功能预测Tax4Fun

 

image.png


也是皮毛水平,后续待更多补充。

 

序列查询


NCBI查询获取目的基因序列

 

基因组Survey和组装


K-mer分析KmerGenie    JELLYFISH    GCE

三代组装软件:MECAT2/NECAT    NextDenovo

框架图评估:QUAST评估组装质量    BUSCO评估基因组完整性    GC含量-测序reads深度分布图

基因组polishvariantCaller    Racon    Pilon    NextPolish

 

基因组元件分析及功能注释


重复序列鉴定:RepeatMasker    RepeatModeler

原核生物基因组CRISPRs序列预测:CRISPR finder    CRISPRCasFinder    PILER-CR    CRISPRdigger    CRISPR Recognition ToolCRT

细菌基因组亚结构:基因岛预测(IslandViewer    原噬菌体预测(PHASTER

微生物次级代谢物合成基因簇:BAGEL4    antiSMASH    PRISM    MiBiG    NaPDos    Bactibase    RiPPMiner    NP.searcher

基因、蛋白序列的功能注释:KEGG

 

叶绿体&线粒体


二代拼接:叶绿体基因组二代完成图    (动物)线粒体基因组二代完成图

叶绿体注释:GeSeq     PGA

线粒体注释:MITOS     GeSeq

 

image.png


转录组测序,推荐“生因生物”。

 

差异表达基因分析


limma    edgeR    DESeq2    EBSeq    DEGseq

差异火山图

 

功能富集分析


clusterProfiler的无参富集分析



更多精彩,可关注个人公众号“生信小白鱼”,感谢大家支持。



http://blog.sciencenet.cn/blog-3406804-1216461.html

上一篇:关于二代测序中duplication占比问题的探讨
下一篇:决策树的分类模型以及对重要变量的选择及R操作

4 罗文 刘诗海 吴小兰 谢懿楠

该博文允许注册用户评论 请点击登录 评论 (12 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-8-11 09:53

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部