国内外先进的信息检索分析系统或信息平台,设计原则应该是简便实用第一。
总的原则和技术要求是;资源整合、信息集成、技术融合、知识服务。
最好的信息检索分析平台,应该将文献数据、引证数据进行有效的整合,具有信息搜索检索、分析评价、全文获取、信息导航、资源链接的综合功能。
pubmed分面检索与聚类分析系统 ,设计很好,界面清晰,检索方便,过滤多样、聚类分析。
http://blog.sciencenet.cn/blog-280034-702581.html
http://210.14.143.126:8097/
分面是指事物的多维度属性。例如一本书包含主题、作者、年代等分面。而分面搜索是指通过事物的这些属性不断筛选、过滤搜索结果的方法。可以将分面搜索看成搜索和浏览的结合。分面搜索作为一种有效的搜索方式,已经被用在电子商务、音乐、旅游等多个方面。
传统的信息检索研究重点是基于精确查询的检索技术,每次搜索会返回大量的结果,这些结果可能相关也可能相关度不高,成功的搜索结果排序算法通常会返回前K个最相关的搜索结果来满足绝大部分查询。然而大多数的搜索任务在本质上是探索性的、不精确的,用户需要探索信息库,发现概念之间的关系,以引导方式缩小选择范围。
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
聚类分析(cluster analysis)是一组将研究对象分为
相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)
变量类型:定类变量、定量(离散和连续)变量
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将
数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过
数据建模简化数据的一种方法。传统的统计聚类分析方法包括
系统聚类法、
分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-
均值、k-中心点等
算法的聚类分析工具已被加入到许多著名的统计分析
软件包中,如
SPSS、
SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的
无监督学习过程。与分类不同,
无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或
数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他
算法(如分类和定性归纳算法)的预处理
步骤。
http://baike.baidu.com/view/903740.htm
https://blog.sciencenet.cn/blog-280034-706271.html
上一篇:
韩亚失事客机飞行员系实习生 一遇难女生疑遭救援车碾压下一篇:
最新医学研究动态 7月8日