科学出版社分享 http://blog.sciencenet.cn/u/sciencepress 中国最大的综合性科技出版机构之一,科学家的出版社!

博文

癌症报警器丨识别致病基因的革新技术——基因表达数据识别 精选

已有 3153 次阅读 2017-6-14 09:38 |个人分类:科学书摘|系统分类:科研笔记|关键词:基因表达数据的特征选择及其识别算法研究 陆慧娟 严珂 科学出版社 抗癌

癌症是对人类生命构成严重威胁的主要疾病之一,是由各种致癌因素导致的某些局部组织的细胞克隆性异常,在基因水平上失去对其生长的正常调控从而增生而成的新生物。癌症的早诊断是提高癌症患者成活率的关键。


肿瘤组织无论在细胞形态上还是组织结构上,都与其发源的正常组织有不同程度的差异。肿瘤在本质上是基因病。各种环境的和遗传的致癌因素以协同或序贯的方式引起DNA 损害,从而激活原癌基因和灭活肿瘤抑制基因,加上凋亡调节基因和DNA 修复基因的改变,继而引起表达水平的异常,使靶细胞发生转化。被转化的细胞先多呈克隆性的增生,经过一个漫长的多阶段的演进过程,其中一个克隆相对无限制的扩增,通过附加突变,选择性地形成具有不同特点的亚克隆(异质化),从而获得浸润和转移的能力(恶性转化),形成恶性肿瘤。肿瘤在所占据的组织中形成肿块,其大小、外形、界限、硬度、表面情况、与邻近组织关系等可作为检查与诊断肿瘤的依据。


目前的癌症诊断方法,主要是通过观察显微镜下细胞的大小、颜色和形状来确定肿瘤的类型。这种诊疗方法建立在形态学之上,存在很大的缺陷,同一类型的肿瘤可能会出现临床上的差异,对治疗的敏感性不够。


肿瘤是由各种致癌因素导致的某些局部组织的细胞克隆性异常,在基因水平上失去对其生长的正常调控从而增生而成的新生物。肿瘤一般可分为良性和恶性两大类。恶性肿瘤又称为癌症。在2012年,全球约有1410万新发癌症病例,820万患者死于癌症。其中57%的癌症患者以及65%的癌症死亡患者来自于发展中国家。作为人类健康的第一杀手,恶性肿瘤已经成为我国主要的公共卫生问题之一。所以,对肿瘤的预防和治疗是全世界关注的焦点。


按现在的医疗水平,对早期癌症患者的治疗有80%以上的治愈率;但是,晚期的癌症患者在治疗后很少能生存5年以上。因此,早发现、早预防、早治疗是挽救患者的重要手段。目前的肿瘤诊断方法,主要是通过观察显微镜下细胞的大小、颜色和形状来确定肿瘤的类型。这种诊疗方法建立在形态学之上,存在很大的缺陷,如同一类型的肿瘤可能会出现临床上的差异,对治疗的敏感性不够。癌症的发生是一个多阶段逐步演变的过程,在这一过程中,常伴随着多种基因的改变。从分子生物学水平发现、识别与癌症相关的重要基因是生物信息学研究的一个重要课题,对癌症患者早期诊断和进行个性化治疗具有重要意义。它不仅能提高患者的生存率,而且能提高患者的生存质量。


目前,民众迫切追求高质量医疗服务,但是医疗成本处于单调递增状态,因此提高质量和降低成本已成为医疗服务业关注的焦点。一方面,我国医院长期以来将重点放在质量管理方面,并取得了较大进步;另一方面,医院还需要加强对疾病诊断和治疗过程的科学管理,尽量避免治疗的随意性、用药的盲目性、过度检查等现象。如今,许多医院已经意识到该问题,并不断寻找解决之道。许多严重的遗传病、绝症等无法用药物进行有效的治疗,唯有探索人类基因的秘密,从基因入口进行研究,才可能从根本上进行解决。



由于人类基因组(测序)计划的稳步实施以及分子生物学等相关学科的迅速发展,基因序列数据快速增长,更多的微生物与动植物的基因组序列能够得到测定。所以,如何研究不同基因在生命过程中所担负的各种功能就成了全球生命科学工作者共同关注的课题。


基因芯片的出现使同时检测成千上万个基因在生物体内活性的梦想成为现实。目前,DNA微阵列技术已广泛应用于医学、生物学和信息学研究的各个领域,成为生命科学研究的基本工具,如基因序列分析、癌症诊断及新药研发等。1999年,Golub等在Science上发表了关于采用基因芯片技术研究癌症分类问题的文章之后,该研究方向逐渐成为生物信息学领域的研究热点之一,医学、计算机科学、控制科学、生物医学等领域的很多研究人员都在该方向做了大量研究,并根据各自的领域知识提出了大量有效的技术与方法。




基因芯片技术为解决肿瘤分类问题拓展了新的思路。通过基因芯片获取肿瘤相关基因表达数据,对肿瘤进行分类,是肿瘤诊断的一个全新手段,也是计算机科学、生物信息学、生物医学等的一个重要交叉研究领域,其可以正确分类组织形态相似的肿瘤亚型,不仅能发现肿瘤的致病基因,还能够挖掘肿瘤发生的本质。


基因表达数据具有高维、小样本、分布不平衡和高噪声等特点。如何对此类数据进行模式学习和数据挖掘,是当前模式识别和机器学习领域内的一个研究热点和亟待解决的问题。


基因表达数据的模式识别过程为:首先进行原始数据预处理,然后进行特征选择-提取,最后基于特征进行分类。然而在实际环境下,训练样本集的分布通常是不平衡的,即在含有若干个类别的训练样本集中每个类别的样本数量不相等,甚至相差很多。这种不平衡会使分类器训练、预测偏向于大类样本的类别,从而对决策产生不良影响。因此,在实际应用中必须考虑样本集分布对分类器训练、预测产生的偏向性。


为了有效处理基因表达数据,主要采用神经网络(Neural Networks,NN)、支持向量机(Support Vector Machine,SVM)、超限学习机(Extreme Learning Machine, ELM)以及决策树(Decision Tree,DT)来设计分类器。为了提高分类系统的稳定性,拟利用分类器集成技术,来改进相关算法。分类器集成可以显著地提高分类器系统的泛化能力和输出稳定性,且已经成功地应用到了很多领域,如地震波分类、光学字符识别、人脸识别等。该技术在计算机辅助医疗诊断方面也具有很好的应用前景。


具体研究内容从数据集和分类器两个方面入手。在数据集方面,利用适当的方法进行特征选择,选择与分类目标密切相关的基因提高分类器模型的泛化性能;创造性地结合两种不同的特征选择算法对基因数据集进行特征选择,能够有效地克服传统特征选择算法的弊端。在分类器方面,构建训练集,利用集成方法提高旋转森林(Rotation Forest,RoF)算法的分类精度和稳定性;利用改进后的粒子群算法优化核超限学习机的内权参数,提高分类器的分类精度;根据输出不一致测度,进行相异性集成,提高分类模型的分类精度和稳定性;通过在超限学习机模型中嵌入误分代价因素, 实现对肿瘤的代价敏感分类(Cost-Sensitive Classification,CSC)等。



图1 研究内容框架图


上述研究内容,构建了一种适用于基因表达数据分类问题的算法框架,如 图1 所示,提高了肿瘤基因表达数据的分类精度,一定程度上解决了该研究领域的难点问题,对推进高维、不平衡数据的研究具有重要理论意义和实用价值。另外,可将研究成果应用于临床肿瘤分类诊断,深入研究肿瘤的发生发展机理及相关致癌基因的表达与调控,促进肿瘤的预测和预防工作,提高人类健康水平。更进一步,可以将不平衡数据挖掘技术推广到信用卡欺诈检测、网络入侵检测、故障诊断等众多应用领域,这将对社会经济的发展产生重要的推动作用。






基因表达数据的特征选择及其识别算法研究

作者:陆慧娟 严珂

责编:陈静 赵微微

北京:科学出版社,2017.5

ISBN:978-7-03-051961-0



长按二维码可购买本书


为了有效处理基因表达数据,《基因表达数据的特征选择及其识别算法研究》从数据集和分类器两个方向入手进行讨论。在数据集方面,采用不同算法进行特征选择,选择与分类目标密切相关的基因提高分类器模型的泛化性能。在分类器方面构建训练集,利用集成方法提高旋转森林的分类精度和稳定性:利用改进后的粒子群算法优化核超限学习机的内权参数,提高分类器的分类精度:根据输出不一致测度,进行相异性集成,提高分类模型的分类精度和稳定性:通过在超限学习机模型中嵌入误分代价因素,实现对肿瘤的代价敏感分类。本书从机器学习的视角,提出了若干前沿的特征选择与分类算法,为后续基因表达数据识别的相关研究奠定了基础。


(本期责编:李文超)



一起阅读科学!

科学出版社│微信ID:sciencepress-cspm

专业品质  学术价值

原创好读  科学品味

点击文中书名、作者、封面可购买本书。



http://blog.sciencenet.cn/blog-528739-1060672.html

上一篇:研究前沿丨数学、计算机科学与工程热点前沿及重点热点前沿解读
下一篇:单碱基编辑技术成功创制非转基因抗除草剂种质

4 沈律 黄永义 xlsd gaoshannankai

该博文允许注册用户评论 请点击登录 评论 (2 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|科学网 ( 京ICP备14006957 )

GMT+8, 2017-8-20 12:08

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社