|||
Journal of Bionanoscience 7 (2013) 66-71
An Hidden Markov Model-Based Transcription Factor Mining Method
基于隐马尔科夫模型的转录因子识别法
Chunguo Wu(吴春国), Gaoyang Li, Xiaozhou Wu, Xiaosong Han,
Binghong Wang (汪秉宏), Jesualdo Tomás Fernández Breis,
Fei Wang, and Yanchun Liang
随着分子生物学、基因组学和蛋白质组学的发展,出版的生物医学文献呈指数级增长,从海量的文献中利用计算机算法获取信息成了必然的发展趋势。生物信息学领域中对于转录因子、蛋白质等实体没有统一的命名标准,因此从文献中识别实体名称是获取信息的首要步骤。机器学习方法在解决生物实体识别问题中表现出较高的精度,因此被越来越多的研究者采用并不断改进。本文利用隐马尔可夫模型(Hidden Markov Models,HMM)对英文文献进行词性标注,而后识别转录因子的实体名称。在算法设计过程中,结合英文构词特征和语法知识,引入了前缀、后缀和单词固定搭配对词性的影响,以句子为单位对英文单词进行词性标注。英文单词中,介词、代词等单词通过前缀、后缀无法判断词性,统计其在训练样本中的词频,将高频单词按照词性分为不同的高频词集合,在词性标注时通过字符串匹配的方法标记词性。在识别转录因子实体名称过程中,本文首先在训练样本中统计各种实体名称中出现频率较高的单词,作为特征单词集。之后根据词性标注的结果,通过前后文单词词性确定词组边界,在名词词组中使用字符串匹配的方法查找是否出现表示实体名称的特征单词,以此判断此词组是否为实体名称。根据实验结果可以看出,本文使用的基于词缀的生物实体名称识别方法能够有效地识别转录因子的名称,其准确率、召回率分别为74.2% and 77.9%。
论文下载
Journal of Bionanoscience 7(2013)66-71 WuCG LiGY WuXZ HanXS WangBH 基于隐马å°.pdf
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-3-29 01:55
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社