彭勇的个人博客分享 http://blog.sciencenet.cn/u/bigdataage Only Focus on Complex Systems Science & Data Science in Life Science.

博文

BLAST中的E值(E-value)是什么意思?

已有 87056 次阅读 2013-4-2 22:05 |系统分类:科研笔记

BLAST中的E值(E-value)是什么意思?


BLAST是指Basic Local Alignment Search Tool,是生物信息学中的一种序列比对算法,用于寻找蛋白质或核酸的相似序列。


下面是一个BLAST结果,

Sequences producing significant alignments:Score (S)E
gi|83574104|Moth_2374|sporulation – prote…2022e-53
gi|83573446|Moth_1696|Sporulation – prote…1121e-26
gi|83571874|Moth_0087|sporulation – prote…953e-21
gi|83573435|Moth_1685|Substrate-binding -…271.0

后面有两个值,一个是S值,一个E值。可以发现,结果是依据S值的高低来显示的。


S值表示两序列的同源性,分值越高表明它们之间相似的程度越大。

E值就是S值可靠性的评价。它表明在随机的情况下,其它序列与目标序列相似度要大于S值的可能性。所以它的分值越低越好。


E值的计算:

E=K*m*n*(e-lambda*S)

其中,K和lambda与数据库和算法有关,是个常量;m代表目标序列的长度,n代表数据库的大小,S就是前面提到的S值。
通常来讲,我们认为E值小于10
-5就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会比现在这个S值要高的话,那么把E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。


但是E值也不是万能的。它在以下几个情况下有局限性:

1. 当目标序列过小时,E值会偏大,因为无法得到较高的S值。
2. 当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。
3. 有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。


E值总结:

E值适合于有一定长度,而且复杂度不能太低的序列。
当E值小于10
-5时,表明两序列有较高的同源性,而不是因为计算错误。
当E值小于10
-6时,表两序列的同源性非常高,几乎没有必要再做确认。







https://blog.sciencenet.cn/blog-830496-676326.html

上一篇:乔布斯(Steve Jobs)在中国的10种可能
下一篇:数据挖据 机器学习 十大算法
收藏 IP: 124.205.77.*| 热度|

1 杨乾

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-24 05:45

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部