wanliangtian的个人博客分享 http://blog.sciencenet.cn/u/wanliangtian

博文

建模结束

已有 4194 次阅读 2012-9-25 22:54 |个人分类:个人见解|系统分类:科研笔记|关键词:建模,生物信息学| 生物信息学, 建模

今年的题好难啊,我们选的是一道生物信息学的题
现将题记录如下,请各位生物信息学的牛人给点意见,看看这些问题都解决了多少?我们只有四天半的时间去研究人家研究几年甚至十几年所做的研究,我觉得这些问题如果能够解决,我们估计可以直接毕业了,管他是什么学科呢?

1. 功率谱与信噪比的快速算法

对于很长的DNA序列,在计算其功率谱或信噪比时,离散Fourier变换(DFT)的总体计算量仍然很大,会影响到所设计的基因识别算法的效率。大家能否对Voss映射,探求功率谱与信噪比的某种快速计算方法?

在基因识别研究中,为了通过引入更好的数值映射而获取DNA序列更多的信息,除了上面介绍的Voss映射外,实际上人们还研究过许多不同的数值映射方法。例如,著名的Z-curve映射(参见[5]或者附件1)。试探讨Z-curve映射的频谱与信噪比和Voss映射下的频谱与信噪比之间的关系;

此外,能否对实数映射,如: ,也给出功率谱与信噪比的快速计算公式?

2.对不同物种类型基因的阈值确定

对特定的基因类型的DNA序列,将其信噪比 的判别阈值取为 ,带有一定的主观性、经验性。对不同的基因类型,所选取的判别阈值也许应该是不同的。附件中给出了来自于著名的生物数据网站:http://www.ncbi.nlm.nih.gov/guide/ 的几个基因序列数据,另外也给出了带有编码外显子信息的100个人和鼠类的,以及200个哺乳动物类的基因序列的样本数据集合。大家还可以从生物数据库下载更多的数据,找你们认为具有代表性的基因序列,并对每类基因研究其阈值确定方法和阈值结果。此外,对按照频谱或信噪比特征将编码与非编码区间分类的有效性,以及分类识别时所产生的分类错误作适当分析。

3. 基因识别算法的实现

我们的目的是要探测、预报尚未被注释的、完整的DNA序列的所有基因编码序列(外显子)。目前基因识别方面的多数算法结果还不是很充分。例如前面所列举的某些基因识别算法,由于DNA序列随机噪声的影响等原因,还很难“精确地”确定基因外显子区间的两个端点。

对此,你的建模团队有没有更好的解决方法?请对你们所设计的基因识别算法的准确率做出适当评估,并将算法用于对附件中给出的6被注释的DNA序列(gene6)的编码区域的预测。

 

4. 延展性研究

在基因识别研究中,还有很多问题有待深入探讨。比如

1)采用频谱或信噪比这样单一的判别特征,也许是影响、限制基因识别正确率的一个重要原因。人们发现,对某些DNA序列而言,其部分编码序列(外显子),尤其是短的(长度小于100bp)的编码序列,就可能不具有频谱或者信噪比显著性。你们团队能否总结,甚至独自提出一些识别基因编码序列的其它特征指数,并对此做相关的分析?

2)“基因突变是生物医学等方面的一个关注热点。基因突变包括DNA序列中单个核苷酸的替换,删除或插入等。那么,能否利用频谱或信噪比方法去发现基因编码序列可能存在的突变呢?

上面提出的基于频谱3-周期性的基因预测四个方面问题中,“快速算法”与“阈值确定”是为设计基因预测算法做准备的。此外,在最后的延展性研究中,各队也可以对你们自己认为有价值的其它相关问题展开探讨。

我们对第一问的快速算法无能为力,比FFT算的还快的,我这个搞工程类的真是不知道了,还有阈值设定,我们想用迭代的方法,但是木有时间了,我们只对基因识别做的比较细致,但是怎么可能利用统计特性检测到每一位碱基,还有统计的方法可以检验碱基的删除和插入,但是对替换真是无能为力,这些问题,对一个不了解这个领域的实在是难为人啊,我要能检测到基因突变,我都可以发NATURE。

最重要的是通过这四天半让我对一个相对陌生的领域有了基本的了解,也许可以再学科交叉的地方有所收获!



http://blog.sciencenet.cn/blog-747016-616751.html

上一篇:又是一年建模时
下一篇:不平凡的2013

0

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-10-21 01:04

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部