许培扬博客分享 http://blog.sciencenet.cn/u/xupeiyang 跟踪国际前沿 服务国内科研

博文

分面搜索(Faceted Search)与聚类分析(cluster analysis)

已有 5533 次阅读 2013-7-8 10:19 |个人分类:信息检索|系统分类:科研笔记

 

国内外先进的信息检索分析系统或信息平台,设计原则应该是简便实用第一。

总的原则和技术要求是;资源整合、信息集成、技术融合、知识服务。

最好的信息检索分析平台,应该将文献数据、引证数据进行有效的整合,具有信息搜索检索、分析评价、全文获取、信息导航、资源链接的综合功能。

pubmed分面检索与聚类分析系统 ,设计很好,界面清晰,检索方便,过滤多样、聚类分析。

http://blog.sciencenet.cn/blog-280034-702581.html

http://210.14.143.126:8097/

 

     分面是指事物的多维度属性。例如一本书包含主题、作者、年代等分面。而分面搜索是指通过事物的这些属性不断筛选、过滤搜索结果的方法。可以将分面搜索看成搜索和浏览的结合。分面搜索作为一种有效的搜索方式,已经被用在电子商务、音乐、旅游等多个方面。

       传统的信息检索研究重点是基于精确查询的检索技术,每次搜索会返回大量的结果,这些结果可能相关也可能相关度不高,成功的搜索结果排序算法通常会返回前K个最相关的搜索结果来满足绝大部分查询。然而大多数的搜索任务在本质上是探索性的、不精确的,用户需要探索信息库,发现概念之间的关系,以引导方式缩小选择范围。

依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
       聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)
变量类型:定类变量、定量(离散和连续)变量

       聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSSSAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤

http://baike.baidu.com/view/903740.htm



https://blog.sciencenet.cn/blog-280034-706271.html

上一篇:韩亚失事客机飞行员系实习生 一遇难女生疑遭救援车碾压
下一篇:最新医学研究动态 7月8日
收藏 IP: 222.35.21.*| 热度|

1 刘桂锋

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-19 17:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部