传统的聚类是单维度的,称作单向聚类,即只对行(对象)或者列(属性)进行聚类,不能对行和列同时进行聚类。如对高频的词或者高被引的论文根据它们共现或同被引聚类,只是把词或者论文进行了聚类。
双向聚类(biclustering, 又称subspace clustering, coclustering, direct clustering)是对矩阵的行与列同时进行聚类,即可以对聚类对象和聚类的属性同时聚类。双向聚类这一概念是由Hartigan于1971年提出,也称之为块聚类。2000年由Yizong Cheng和George M.Church将其引入到基因表达谱的分析中。在基因表达数据中只有某些基因(行)参与待考察的生物学过程(列);且只有在某些条件下才会发生待考察的生物学过程,因此,其目标是找出在某些条件(列)下参与调控的基因(行)聚类,或者是与某些基因(行)相关联的条件(列)。一般而言,生物信息学研究中可以分为对基因的聚类和对样本的聚类。基于基因的聚类(gene-based clustering)以基因作为聚类的对象,将样本作为基因的特征。通过基因聚类,可以发现表达模式类似的基因,即共表达的基因(coexpressed gene)。由于在同一聚类的基因大都具有相同的功能,因此可以根据聚类中已知基因的功能推断某些未知基因的功能;与基于基因的聚类不同,基于样本的聚类(sample-based clustering)是以基因为特征,以样本作为聚类对象. 通过样本聚类,可以发现样本的显性结构(phenotype structure),自动地对病理特征或实验条件进行分类。更重要的是可以通过样本聚类找出与其相关的基因,从而发现不同病理特征或实验条件下基因调控机制。而双向聚类法可同时使用样本和基因来提取它们的联合信息,其目标是找出在某些条件下参与调控的基因聚类和与某些基因相关联的条件。 双向聚类可以看作一种“局部的”聚类,即由一部分基因确定样本集合或由一部分样本确定基因集合,通常采用贪婪迭代检索的方法来发现子矩阵或稳定的类。
双向聚类方法在文献计量学领域有广阔的运用前景。例如,对高被引论文和引用文献的双向聚类可以反映出被引文献和引用文献的对应关系,甚至是同时实现同被引聚类分析和基于高被引论文的引文耦合分析,作者合著(或单位合作)与相应文献的双向聚类分析可以反映出作者(单位)合作的具体论文和成果,等等。
https://blog.sciencenet.cn/blog-82196-461550.html
上一篇:
说三道四之道四下一篇:
多维度多层次的聚类是发现关系的重要手段(2)