微生信分享 http://blog.sciencenet.cn/u/chinapubmed 0代码在线绘制160+科研图

博文

使用mfuzz进行时间序列转录组数据聚类,划分相似表达模式基因群

已有 174 次阅读 2024-8-11 09:11 |系统分类:科研笔记

导读:

针对具有时间序列(例如0h、4h、8h、12h)或不同发育阶段(例如4cell、8cell、64cell)的转录组数据,mfuzz基于模糊聚类原理,识别出具有相似表达模式的基因群。使用折线图展示每群基因的表达变化,以帮助研究者推测感兴趣表达模式基因群的生物学功能。

fig1.png

这张图展示了9个cluster的结果,由9个子图和一个colorbar组成。

在每个子图中:

X轴表示不同的时间点(0h、4h、8h、12h)

Y轴表示基因表达变化

每张子图由若干条折线组成,一条折线表示一个基因,同一张子图上的基因具有相似表达模式。折线的颜色表示membership(与聚类中心的相似性程度)

右下角的colorbar显示了不同颜色代表的membership大小,范围0-1

Mfuzz简介

Mfuzz是一种用于时间序列基因表达数据的聚类算法,它基于模糊聚类原理,可以处理基因表达数据的噪声和复杂性,同时识别出具有相似表达模式的基因群。其核心是模糊C-均值聚类,它允许一个基因属于多个聚类中心,每个基因与聚类中心的隶属度由模糊集合理论来定义。Mfuzz通过优化目标函数来确定聚类中心和基因的隶属度,使得聚类结果更加符合数据的实际分布。

使用场景

1)时间序列数据:Mfuzz特别适合分析时间序列的基因表达数据,例如在不同时间点或不同发育阶段的样本。

2)动态过程分析:在研究细胞周期、疾病发展、药物反应等动态生物过程时,Mfuzz可以帮助识别基因表达的动态变化模式。

3)模式识别:通过聚类,可以识别出具有相似表达模式的基因,为进一步的生物学分析提供基础。

1,打开作图URL

https://www.bioinformatics.com.cn/plot_basic_mfuzz_soft_clustering_plot_101

 fig2.png

2,示例数据

点击图片上方的示例数据,下载,并使用excel打开。

fig3.png

示例数据是基因表达矩阵:

行是基因,列是样品(若有重复,可以组内取均值)

行列交叉处为标准化基因表达值,不能为空

3,输入检查

示例数据:

点击输入框下面的“示例”按钮,将载入示例数据。

也可以Ctrl+A选中excel中的示例数据,Ctrl+C拷贝,Ctrl+V粘贴到输入框

真实数据:

数据较少:推荐数据放在excel里边,然后拷贝、粘贴到输入框

数据较多:将excel存成制表符分割的txt文件,点击“选择文件”按钮,选中数据所在的txt文件(文件名用英文)

fig4.png

然后使用输入框下面的“输入检查”按钮先对输入数据进行检查。若检查不通过,请根据检查提示重复【修改-输入检查】步骤,直到检查通过(如下图所示),然后可以继续往下进行。

fig5.png

注:输入检查是新加功能,它会根据不同模块的输入要求,逐行逐列检查输入数据,并给出提示,确保数据符合模块要求。 

4,参数选择

fig6.png

图片大小:图片宽度,图片高度

Cluster数:预设的cluster数,根据基因数及样品数进行设置,一般设置为9,16等可以整除的整数

Cluster行数:绘图时,每行的子图数

Cluster列数:绘图时,每列的子图数

Membership阈值:小于该值的基因(即线)不在图上显示

X轴说明:X轴的说明,例如Time

Y轴说明:Y轴的说明,例如Expression change

title文字大小:每个子图上cluster N的字体大小

轴说明字体大小:X轴和Y轴说明的字体大小,即Time和Expression change的字体大小

轴刻度字体大小:轴上刻度的字体大小,即X轴的样品名和Y轴的表达值文字字体大小

注:colorbar的字体大小默认为大图字体的0.8倍

颜色选项:默认颜色,fancy颜色和自定义颜色

中心线:中心线的颜色,宽度

字体:Times New Roman和Arial字体

5,提交出图

检查通过,并且参数选好后,点击“提交”按钮,约10s后,会在页面上呈现时间序列聚类图。我们提供了pdf矢量图,png,tiff两种标量图供大家下载使用。可以使用acrobat illustrator等软件编辑pdf文件,进行组图,调整等,以满足文章需求。

fig7.png

同时提供了每个子图的pdf

 fig8.png

每个基因所在的cluster及membership值的excel结果。

fig9.png

Gene:输入的基因。结果中的基因可能会比输入的少,因为部分基因,例如标准差为0(所有表达值一样)的基因会被过滤掉

Cluster:基因所在的cluster

1-9:基因隶属于每个cluster的membership值,也就是一个基因隶属于哪个cluster的程度,例如基因ENSG00000198804隶属于cluster4的程度为0.52,所以第二列的cluster为4。一个基因的所有membership和为1

通过聚类分析,识别出具有相似表达模式的基因群,例如周期性表达,表达逐渐增加或表达逐渐减少的基因群,然后进一步探讨基因群的功能、调控网络,可以帮助研究者从复杂的基因表达数据中提取有价值的信息。

附:Mfuzz常见问题(参考http://193.136.227.155/sysbiolab/mfuzz/整理)

Q1:Muff可以用于其他组学吗?

A1:Mfuzz文章使用的是芯片数据,然而Mfuzz也可以用于RNA-seq(Differential Expression Profiling of Long Noncoding RNA and mRNA during Osteoblast Differentiation in Mouse),代谢组(Integrative Proteomics‑Metabolomics of In Vitro Degeneration of Cardiovascular Cell Lines),蛋白组(Proteomic landscape of epithelial ovarian cancer),宏基因组(Metagenomic analysis demonstrates distinct changes in the gut microbiome of Kawasaki diseases children)等其他组学。

Q2:可以使用原始(未标准化的)表达值吗?

A2:原则上可以,但是不建议这样做。Mfuzz假定给定的表达数据已经过预处理(包括标准化)。standardise函数将个别基因/蛋白质的表达转换为平均值为零,标准差为一,这并不代替标准化步骤。注意区别:标准化是为了使不同样本具有可比性,而Mfuzz中的标准化是为了使基因/转录本/蛋白质具有可比性。

Q3:Mfuzz会调整样品顺序吗?

A3:不会。请确保列的顺序按照时间序列(或者其他标准)排序。

Q4:可以给每个子图添加基因数吗?

A4:程序未提供该参数。请根据输出结果excel,统计每个cluster的个数,然后使用acrobat illustrator打开pdf文件添加。

微生信助力高分文章,用户200000,谷歌学术3700



https://blog.sciencenet.cn/blog-707141-1445984.html

上一篇:微生信 -- 20万+科研用户信赖的生信分析云平台
收藏 IP: 114.84.150.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-8-11 21:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部