CTB11的个人博客分享 http://blog.sciencenet.cn/u/CTB11

博文

生物中的逆向工程技术(二):参数模型

已有 4003 次阅读 2017-9-7 07:13 |系统分类:科研笔记

系列其他文章:

生物中的逆向工程技术(一): 线性方程

生物中的逆向工程技术(二):参数模型

生物中的逆向工程技术(三):布尔网络模型

生物中的逆向工程技术(四):贝叶斯网络

生物中的逆向工程技术(五):利用相关系数得到直接相互作用

生物中的逆向工程技术(六):CellNet与细胞工程

   

   参数模型是在进行逆向工程应用时比较简单的一类模型。它的精神主要是利用某些参数对网络中两个结点之间的相互关系来打分,如果分数足够高就认为这两个结点之间有关系。这种打分一般来讲计算代价不大,不过需要注意的是,这样得到的网络经常是无向图,即不能够判断结点之间调控关系的方向。

   最简单的参数就是相关系数了,比如大家都比较熟悉的线性相关系数(Pearson coefficient)。线性相关系数的绝对值越大,可以认为结点之间关联越大。不过这样学出来的,很多是共表达的关系。而且线性相关系数不能扑捉调控中的非线性关系,Spearman's coefficient 可以解决这个问题。它其实是一种排名相关系数,就是把要计算的两个变量先排序,然后把变量数值替换为排序的序号,那么序号的相关系数就可以反应两个变量之间是否存在确定的函数关系


   值得一提的是关于相关系数的共表达网络,现在发展出来一套算法用以筛选其中存在的直接调控关系。这样就可以提高网络的精度,避免引入一些非直接相互作用带来的误差。我们也掌握了相关技术。


   对于稳态数据来讲,另一个好的参数模型是互信息(mutual information)模型。互信息是一个信息论的概念,其定义为I(X,Y) = H(X) + H(Y) - H(X,Y),而H(x)=-sum p(x)logp(x),代表着变量x含有的信息量。对于多变量或是条件概率下的信息,只需要把p替换成多变量的联合概率或是条件概率就好了。互信息是一种比较难可视化的参数,直接的解释是表示了两变量所含公共信息的多少,越大则表示二者关系越密切。这种观念在理解很多定量观测数据很有帮助,在逆向工程领域,一个经典的工作是[3],主要是用互信息的办法处理哺乳动物B细胞中的转录调控网络。最近有人把这种办法扩展到时序数据,提出了基于时序数据的互信息模型,同时考虑了时间上的延迟,在一些网络上用的不错[4]。


   [1] Maucher, M., B. Kracher, et al. (2011). "Inferring Boolean network structure via correlation." Bioinformatics27(11): 1529-1536.
   [2] Munsky, B., G. Neuert, et al. (2012). "Using Gene Expression Noise to Understand Gene Regulation."Science 336(6078): 183-187.
   [3] Basso, K., A. A. Margolin, et al. (2005). "Reverse engineering of regulatory networks in human B cells." Nat Genet 37(4): 382-390.
   [4] Zoppoli, P., S. Morganella, et al. (2010). "TimeDelay-ARACNE: Reverse engineering of gene networks from time-course data by an information theoretic approach." BMC Bioinformatics 11: 154.



https://blog.sciencenet.cn/blog-927304-1074654.html

上一篇:生物中的逆向工程技术(四):贝叶斯网络
下一篇:如何配置深度学习环境:Ubuntu+TensorFlow+keras
收藏 IP: 18.189.48.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-24 05:36

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部