shamolvzhou79的个人博客分享 http://blog.sciencenet.cn/u/shamolvzhou79

博文

寻找致癌基因: 基因表达数据的双聚类

已有 5420 次阅读 2011-11-15 19:28 |系统分类:论文交流| 双聚类, 基因数据, 二值矩阵分解模型

基于基因表达数据寻找致癌基因, 尝试癌症的早期诊断和基因治疗是系统生物学领域的一个经典问题. 实际上, 许多基因仅仅是在某些类型的肿瘤中异常表达 (高表达或者低表达), 而在其它类型的肿瘤疾病中不异常表达, 因此探测基因-肿瘤的高度相关结构对于癌症病理学的研究有重要意义. 数据挖掘领域中的双聚类问题就是据此抽象出来的([1]). 我们提出了一种新的双聚类模型---二值矩阵分解模型(binary matrix factorization, BMF).  我们将BMF应用于基因表达数据中来寻找在特定肿瘤中异常表达的基因, 取得了极好的结果: 我们的肿瘤诊断正确率提高了十五个百分点左右, 而寻找的特异表达基因占总数百分比下降了五十个百分点左右 (这意味着通过更少的基因我们就更好地诊断了肿瘤, 说明找到的基因更具特异性, 并且在未来应用中可以更经济).

简单来说, 我们有三个方面的工作值得一提: 1. 在理论方面,给出了界值性质,该性质揭示了两类最流行的矩阵分解模型:非负矩阵分解模型和主成分分析模型 (奇异值分解) 之间的区别。非负矩阵分解是聚类分析领域中的一项新技术,其与奇异值分解的一个最显著不同在于非负矩阵分解有非负性的约束,但是该约束的本质含义是什么,一直以来还缺乏理论上的研究,我们给出的界值性质在很大程度上解决了这一问题; 2. 在算法方面,为二值矩阵分解模型设计了两种算法,即罚函数方法和阈值方法,并对它们的数值表现进行了系统比较,阐明了它们各自适用的情况; 3. 在应用方面,我们二值矩阵分解模型成功地应用于基因表达数据的双聚类分析,结果表明,该模型与同类模型相比,提高计算精度十五个百分点以上 (作为参照,我们的结果还和聚类模型nsNMF, NMF/R进行了比较,结果也是我们的模型计算结果最好,而且nsNMFNMF/R不能给出精确的双聚类结构),提高了结果的稀疏化水平约二十到五十五个百分点 (依数据而定)统计学分析表明我们给出的计算结果具有生物显著性.

二值矩阵分解模型作为聚类分析领域中的新模型,其在文本挖掘、观点分析、股票市场走势分析等领域都有广阔的应用前景。

文章地址: http://www.springerlink.com/content/y62142r517762595/?p=63070935b51d4d4aaef31c7a3378841e&pi=4

[1] Cheng Y, Church G (2000) Biclustering of expression data. In: Proceedings of the 8th international conference on intelligent systems for molecular biology: 93103



https://blog.sciencenet.cn/blog-297051-508337.html

上一篇:非负矩阵分解模型的费用函数: 大繁至简
下一篇:欧洲物理快报 (EPL): 半监督的复杂网络社团结构探测框架
收藏 IP: 118.186.207.*| 热度|

发表评论 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2022-12-4 00:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部