|||
基于网格的中医药数据挖掘的研究
《时珍国医国药》2010年4期(http://journal.shouxi.net/html/qikan/zgyx/szgygy/20104214/q%20t/20100621101920436_531610.html)
孙艳秋,史 锐,刘建平 (辽宁中医药大学信息工程学院,辽宁 沈阳 110032)
【摘要】 建立在网格基础上的数据挖掘结合了网格技术的优点,能够对Internet上广域分布的海量信息进行高效的处理、分析和挖掘。文章分析了网格与数据挖掘的特点,并将基于网格的数据挖掘技术引入到中医药领域,为中医药的发展开辟了一条新途径。
【关键词】 网格; 数据挖掘; 中医药信息化
随着lnternet的普及和计算机软、硬件技术的发展,以及国家对中医药产业的重视,中医药信息化建设取得初步成效,相继建成了中医药文献数据库、临床医学数据库、中药方剂数据库等一批中医药数据库。随着中医药数据库的建立和发展,数据急剧增加,可是目前用于对这些数据进行分析处理的工具却不是很多。为了获取隐藏在这些数据之后的更重要的信息采用了数据挖掘。通过数据挖掘可以从大量的、不完全的、有噪声的、模糊的随机数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识。但是随着科技和中医药产业的发展,将会产生越来越多的数据,并且和各个领域产生融合,成为了广域产业。那么要分析和挖掘这些广域分布的海量数据,以获取新的科学知识、规律和决策支持,传统的数据挖掘模式和技术已经无法胜任。而网格计算技术是解决复杂海量科学数据的访问存储组织和管理的一种有效技术,是广域分布的异构虚拟组织间实现协同资源共享、多领域的科学和工程的问题求解。建立在网格基础上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布的海量数据进行高效的处理、分析和挖掘,将给中医药领域带来新的发展和机遇。
1 数据挖掘和网格
广义上来说,网格是一个集成的资源环境,或者说是一个资源池,它能够充分吸纳各种资源,并将它们转化成一种随处可得的、可靠的、标准的、经济的能力。这些资源包括计算资源、网络通信资源、数据资料、仪器设备、知识等各种各样的资源。网格计算就是基于网格的问题求解[1]。数据挖掘指从数据库或数据仓库中发现隐藏的、预先未知的、有趣的信息的过程,该过程可以看作是知识发现中的一个核心的步骤。数据挖掘就是从大量的数据中发现或"挖掘"知识,而网格上含有丰富的数据,是数据挖掘的理想目标。网格的数据挖掘建立在数据网格的基础设施和相关技术的基础上,在广域分布的海量数据和计算资源的环境中发现数据模式,获取新的科学知识和规律[2]。
2 基于网格的数据挖掘
2.1 网格数据挖掘过程
2.1.1 数据的处理 数据的处理阶段主要完成从数据网格环境中收集广域分布的数据和计算资源,并对原始数据进行归档处理,更正校对,过滤清理和数据的转换、合并,最后再对经过处理后的数据进行归档。
2.1.2 数据的分析与挖掘该阶段主要完成对处理后的数据进行分析、概括和挖掘,生成关联的规则,发现新的数据关系等,并归档概括出来的数据。
2.1.3 模式的评价该阶段对处理后的数据和归纳后的数据再次进行分析,得出一些数据模式,并评价数据挖掘结果的有效性和可靠性,提交得出的结论或新的关系、趋势。
2.2 网格数据挖掘特点 网格数据挖掘是在已有数据挖掘技术的基础上结合了网格的特点,具有更强的功能。
2.2.1 超强的计算能力网格计算能够为科学计算领域和社会经济生活领域提供超级的计算能力。网格的数据挖掘系统建立在网格计算的技术基础上,数据的传输具有高效的并行性特点,而且数据处理能力超强。
2.2.2 具有分布性和动态性数据分布范围广,在网格计算环境中,广域分布的各种资源都是动态创建和删除的,因此,网格的数据挖掘系统具备分布性和动态性,并以分布计算的方式,同时考虑数据流通负载来分析数据。
2.2.3 具有高性能的I/O负载平衡能力在对广域分布的海量数据处理的过程中,无论是数据的远程传输还是挖掘过程中的数据处理、分析挖掘模式评价等过程,数据的工作流都是很大的,这需要网格提供网络负载调度、管理和高性能的1/ 0负载平衡能力。
2.2.4 高效的数据存储服务、传输服务和复制管理在数据挖掘过程中要进行大数据集存储复制的时候,网格能够提供高效的广域网数据高速缓存服务以解决网络带宽管理的问题;数据传输策略能够支持多种存储系统,并行数据传输,部分文件传输和数据重传、容错能力;数据复制策略能在不同站点之间高速移动和复制数据,保持远程数据拷贝的一致性。
2.2.5 网络安全性要求更高数据挖掘涉及广域分布的属于不同虚拟组织的数据源,数据的安全性和访问权限问题至关重要。在数据存储、转输、复制管理和网络通信过程中,网格操作系统必须具有抗拒各种非法攻击和入侵的能力,保证系统正常高效运行和各种信息的安全(袁 明.基于网格的数据挖掘应用研究[D]. 硕士论文,2007)。
3 基于网格服务的中医药数据挖掘
中医药学具有系统性、整体性、复杂性、不确定性等特点,中医药临床积累的信息很多,数据类型及相互关系错综复杂,不适宜运用传统的还原论的方法研究。将数据挖掘和知识发现应用于中医学领域的研究,是中医学现代化研究的重要组成部分。随着中医药的信息化发展,将会有大量的数据广域分布在网络上,所以要处理这些数据,采用基于网格的数据挖掘无疑是非常好的方法。
3.1 基于网格服务的中医药数据挖掘流程数据挖掘服务是负责接收用户的挖掘请求,并根据用户的请求调配网格资源完成挖掘任务的一个平台。在挖掘过程中,把网格提供的资源分为挖掘算法资源、计算资源和数据资源。由于每次挖掘所使用的网格资源通常是不同的,所以使用的是不同的数据资源,另外由于网格资源是动态存在的,因此不能保证第一次挖掘时使用的资源(主要是计算资源),在执行第二次挖掘任务时仍然存在,或者仍然符合选用的标准。图1描述了数据挖掘服务的工作流程(袁 明.基于网格的数据挖掘应用研究[D]. 硕士论文,2007)。
3.2 基于网格服务的中医药数据挖掘
3.2.1 中医证候关联分析的广域挖掘中医的“证候”又称“证”,是疾病在某一阶段病变的本质反映,是由一组能反映疾病本质的症状组成的,能揭示病因、病位、病性、病势,为论治提供依据[3]。证候是中医诊断的核心概念和理论精髓,具有整体性、抽象性、时间性和相对稳定性的特点。传统的中医治疗是在辨证论治思维模式的指导下确立的。先辨证,再论治。形成证一法一方一药的治疗体系。近年来,随着中医、西医、中西医结合在国内并存的局面出现,中医临床遣方用药模式出现多元化,辨病论治与辨证论治相结合,微观辨证与宏观辨证相结合成为主要模式。采用数据挖掘技术分析病、证、方、药之间的关系规律,从药方证病的关系中分析其制方的思维模式,发现潜在、隐藏的规律,辅助医生对病人进行疾病诊断的判定,具有重要的意义。但由于该过程中数据属性有离散型的,也有连续型和混合型的,对此数据的噪声处理等预处理相当复杂,挖掘过程还需要人机交互、多次反复,其任何一个环节都不能缺少专业人员。无论是前期大量的数据采集,还是在挖掘过程中,都要有专业人员的参与,既要有中医方面的人员,也需要数据挖掘方面的人员。最重要的是传统意义上的数据挖掘,是采用比较固定的挖掘方法,对一个静态的数据库进行数据的挖掘。虽然随着挖掘技术的出现,分布式挖掘开始应用,但是应用在证候关联分析的却非常少。众所周知,随着社会的进步和生活环境的改变,病人的证候之间的关联是瞬息间发生变化的,所以基于网格的数据挖掘接收用户的挖掘请求后,根据用户的请求调配网格资源完成挖掘任务的一个平台。在挖掘过程中,把网格提供的病、证、方、药数据资源分为挖掘算法资源、计算资源和数据资源。然后寻址到相应的数据资源、算法资源和计算资源,创建资源实例。获取算法参数后再返回到用户,这样用户不但获取了网格分布在各个寻址空间的数据,而且能准确计算,能真正意义上实现证候关联分析的广域挖掘,将使得数据挖掘成为了实时的,而且实时计算出用户所要的数据,并可以根据挖掘结果,采用不同的挖掘方法,将产生不同的,计算出不同的计算结果,使得证候关联分析更具有科学性和实时性。
图1 网格数据挖掘流程
3.2.2 名老中医专家经验传承的动态挖掘中国名老中医的诊疗经验,是他们在临床实践中与中医学理论结合、突破、创新的结果,包含了中医基础理论的原则和名老中医的独创心得或见解,是发展中医药学的宝贵财富。应用数据挖掘技术对这些名老中医的诊疗经验进行科学解析,特别是进行信息化、数字化和知识化的研究,不仅能丰富中医药学的理论体系,还能对整个医学科学的发展产生巨大的推动作用。名老中医在从医过程中记录了大量的医案,它体现了专家在把握疾病规律方面的特殊才能。从信息学的角度观察,其实质就是信息的收集。通过采用数据挖掘技术,可以对这些信息进行科学的加工,全面解析其中的规律,分析名老中医个体化诊疗信息特征,提炼出临证经验中蕴藏的新理论、新方法、新知识,实现名医经验的有效总结与传承。但是在以往的数据挖掘中,挖掘的数据源往往是比较少的。随着挖掘技术的成熟和网格计算技术的发展,可以实现动态挖掘。 也就是通过网格技术,采用合适的挖掘技术,既可以实现横向挖掘(就是同一病症,不同专家的的诊疗方案),也可以实现纵向挖掘(就是指每个专家对病症的持续治疗)。对名老中医的病案进行挖掘研究,分析名医的个性化诊疗经验中蕴含的辨证规律、症候学规律、用药规律等信息,从而使得名老中医经验的精髓能够不断传承下来,并将形成的比较成熟的成果用于指导中医药的临床实践。最重要的是可以根据网络的状况,动态的添加或减少参与挖掘的计算资源,使得每次数据挖掘和计算结果都能科学有效。在遇到疑难杂症时,可充分利用网格的优势,将分布在各地专家经验汇总,并行处理数据,那么能在最快的时间和尽可能大的范围内解决问题。
3.2.3 精确中药指纹图谱的挖掘计算中药指纹图谱形象地反映了药用植物物种具有遗传特性的次生代谢“共有特征”,又由于次生代谢中地域、生长环境、采收等多种不定因素影响,具有统计学中多元随机分布的“模糊性”,利用模糊数学、统计学、计算机技术等建立一种同时反映这两种特征的方法是可行的。数据挖掘就是发现和解析中药指纹图谱潜在信息的有力工具,指从中药指纹图谱信息库中提取隐含的潜在应用价值、最终可理解的模式的过程。数据挖掘的最终目的是评价和控制中药质量及研究中药定量组效关系。其中比较典型的解析方法有模式识别、人工神经网络等,每一种数据挖掘技术都有其适用范围,主要取决于所要解决的问题类型以及数据类型和规模。由于基于网格的数据挖掘技术具有超强的计算能力,数据的传输具有高效的并行性特点,数据处理能力超强,所以对于解析中药指纹图谱具有一定深度和广度,可以充分解决在计算过程中遇到的复杂运算。数据的宽容度增强,保证可以同时接受大容量的中医药图谱,数据的精确度高,保证了计算的误差小,实现数据挖掘结果的精确。
3.2.4 拓宽中药方剂配伍规律的研究范围方剂配伍理论是中药方剂理论的核心,也是研究方剂的关键问题[4]。采用数据挖掘技术进行基于中医药理论的方剂配伍规律研究,既能为中医新药的临床和实验研究提供目标和思路,减少盲目性,缩短研究周期,同时又为大量古今验方研究探索出一条有价值的研究途径和方法。现在的方剂配伍规律的研究中使用的方法比较简单,频繁模式、关联规则为其主要方法。方剂配伍不仅是各药味之间的组合,还包含着各药剂量比例的搭配,这也是临床组方的关键,但现在对其进行数据挖掘的研究还很少。如果能充分利用网格的广域分布的海量信息和超强的计算能力,那么对于传统挖掘中难以解决的药剂量比例复杂运算,无疑是一个非常好的解决途径。同时利用网格的数据挖掘的高效数据存储服务,在数据挖掘过程中要进行大量数据集存储复制的时候,网格能够提供高效的广域网数据高速缓存服务,以解决网络带宽管理的问题,数据传输策略能够支持多种存储系统,并行数据传输。因此可以随着新药特药的开发,现有药物的使用情况以及不良反应,从数据库中添加或删除,使得挖掘的数据库实现动态库,拓宽了中药方剂配伍规律研究的范围,也实现了数据的再次利用。
数据挖掘作为在海量数据中获取知识的有力工具,正越来越多的应用于中医药领域的各个方面,其对多维、非线性特征数据的良好处理能力也为中医药的现代化进程提供了新的技术保障。建立在网格基础上的数据挖掘结合网格计算的思想及其技术的优点,能够对广域分布的海量数据进行高效的处理、分析和挖掘,给中医药领域带来新的发现和巨大的价值。本文通过研究现有数据挖掘、网格的理论及其技术的基础上,针对网格环境的特点,设置了一个网格环境下的数据挖掘流程,为网格下的中医药数据挖掘提供一种解决思路,将给中医药领域的科研带来一次新的革命。但同时必须看到,中医药领域的数据挖掘和网格技术还没有真正发挥它的作用,还面临许多问题和挑战,比如需要医药专家和数据挖掘专家的密切协作,需要网格技术环境的支持等。但是基于网格的数据挖掘对于中医药的研究是有必要的,是中医药走向现代化的必由之路,是中医药知识创新和发展的新途径。
【参考文献】
[1] H. Stockinger, A. Samar, B. Allcock. File and Object Replication in Data Grids, Proceedings of the 10th International Symposium on High Performance Distributed Computing.IEEE Press.August 2001.
[2] 李 治,马光志. 温暖蜾蠃数据挖掘中关联规则挖掘方案的研究[J].电脑与信息技术2006,14(10):63.
[3] 吴 荣,王 阶.数据挖掘在中医药领域中的应用进展 辽宁中医杂志[J]. 2009,36(32):148.
[4] 丁 维,蒋永光,宋姚屏,等.数据挖掘及其在中医领域的应用研究[J].数理医药学杂志 2007,20(3):404.
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-23 10:13
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社