inforworld分享 http://blog.sciencenet.cn/u/rbwxy197301 教学和科研过程中的心得。

博文

走近微软学术搜索(Microsoft Academic Search)

已有 16777 次阅读 2011-8-2 15:12 |个人分类:信息检索|系统分类:科研笔记| 微软, 学术搜索

    7月29日至31日,在北京参加了CCFADL学科前沿讲习班(第18期信息检索前沿)的学习。除了有机会聆听Ricard Bacza_Yates、杨颐明、Stephen Robertson、翟成祥、Susan Dumais等顶尖科学家的精彩之外,还有机会体验了微软亚洲研究院员工演示的一些新产品:Engkoo(http://dict.bing.com.cn/#%3Ahome)、Microsoft Academic Search(http://academic.research.microsoft.com/)、Q_Domension、Glyphy、Taptell、Sempute Needleseek、Travel Guide(http://travel.msra.cn/)、Probase、Mindfinder、Trend search、T_driver、English Search。这些产品有的已经上线,有的还有实验阶段。
    下面与大家分享一下Microsoft Academic Search。
下面这幅图是检索结果。从中我们可以直观地看到信息检索模型领域1975-2011年每个发文或累积发文的相关信息。另外,左边提供了作者、学术会议、发文期刊和关键词等信息。这对于我们从发文量角度了解这些信息很有帮助。
下面是对检索结果中某位学者信息的展示。其中 co-author graph 可以让大家很直观地了解他的合作者、合作路径和引用信息。
下面是按被引次数的排序,另外还可以按被引来了解作者、学术会议、学术期刊、关键词信息。这对于了解某个研究主题的权威学者、重要学术会议、重要学术期刊、重要的研究内容很有帮助。
下面是从一个学科的角度来检索相关信息。如这个学科领域内的学者、发文、学术期刊等信息,其中发文机构和发文主题两个做得挺好。如下面三幅“学术地图”显示了某学科重要研究机构的地理分布情况。图中节点对应的颜色和大小代表了某机构发文地情况。如第三幅图中的红色圈圆圈代表中国科学院,另两个大一点的绿色分别代表北京大学和清华大学。这种图对于展示研究领域研究机构的地理分布情况非常直观。
下面这幅图是学科研究主题的发文趋势图。从中可以了解同一时间点不同研究内容和不同内容在不同时间点的发文信息;不同研究主题在不同时间段研究人员的信息;研究主题的发展状况等都非常有帮助。

下面内容摘自:http://www.cnblogs.com/ustc_msra_ase/archive/2010/11/28/1890410.html
    微软学术搜索 Microsoft Academic Search 是微软亚洲研究院开发的在线免费使用的学术搜索引擎。它为研究员、学生、图书馆馆员和其他用户查找学术论文、国际会议、权威期刊、作者和研究领域等提供了更加智能、新颖的搜索平台。与传统搜索引擎相比,微软学术搜索采用的是基于对象的垂直搜索技术,当你使用这种搜索引擎时,它列出的结果将是最终对象的集合,而不是杂乱的网页列表。微软学术搜索可以帮助用户快速而准确地了解到某个学术研究领域内的顶尖学者、学术会议和期刊;获得一个学术领域的兴起与发展的详细信息;找到自己感兴趣的学者或学术论文及其在该学术领域的地位和影响力;发现某个研究领域经典、热点的学术论文和正在升起的学术新星。目前,微软学术搜索专注于计算机科学和信息科学范围内的搜索,未来还会将搜索范围扩展至其他学科领域。(摘自百度百科)
目前在学术搜索方面的网站中,Google Scholar 是最为常用的,因而本文主要就Microsoft Academic Search(以下简称MSAS)与Google Scholar(以下简称GS)进行比较。我们认为Microsoft Academic Search的主要优缺点如下:
(1)优点:
1.对于特定的会议、杂志, MSAS能快速准确地找到相应文章,并且能提供这些顶级的会议、杂志详细的资料,同时还提供了一些重要学术名会议的日历来提醒用户。 
2.允许用户对相关信息进行编辑和补充,这在自动编辑可行性不强的情况下显得尤为重要,这样可以保证信息的真实性和有效性。
3.引入了Co-Author选项,使用户检索某位学者信息时可以了解该领域其他学者的相关信息,便于用户把握该领域的最新动向。
4.用户界面相对比较美观。
(2)缺点: 
1.数据库小。这就导致即使输入了全名,也有可能查询不到相应的论文,比如:输入 representing BRDFs using SOMs and MANs( 这是 ACM SIGGRAPH Computer Graphics  2008的文章),没有得到任何结果。同时不能提供相关文章给用户提供参考。非英语国家的教授和论文资料不是很全。搜索算法不理想,搜索得到的结果不符合用户的期望。 
2.没有提供多语言界面和检索的支持,GS则提供了这些服务。对于数量庞大的初涉研究领域的研究生来说,非英文检索是十分重要的。这一功能的缺失直接导致大量潜在用户的流失。 
3.人机交互不方便,也就是操作不够简易。主要体现在 两方面:一是对子目录等没有提供相应的检索功能,比如 对organization等的检索功能;二是advanced搜索在首页上提供简易操作界面,这样 用户不能 一个页面上进行一些综合的搜索,比如用同一个关键字分别搜索会议和期刊上的文章。
与GS相比:
     MSAS在层次上的分类更加明确,比如可以针对某个会议、某个年份、某个机构等进行搜索,也方便用户了解某个机构的学术发展情况、某位学者的学术进展、某个领域的前沿发展及活跃分子等,这对于学者的学术交流,研究方向的确定和研究进程的把握都是十分有用的,这一点是 GS没有的。同时MSAS 给了用户反馈的机会,这样可以更好地补全信息。从用户定位来看, GS更加大众化,而 MSAS显得更加“高雅”,并不关心非顶级期刊会议的论文搜索,给我的感觉是只有对学术领域有一定深度的了解,才能将 MSAS用得舒畅。
技术难点:
1.让用户找到想要的,也就是搜索的准确性问题。设计更加合理的排名算法和并对文章给出一般的摘要。
2.学者重名的问题,会造成搜索混乱与低效。要解决这个问题现在的搜索技术可能还不能完全自动化,需要人工编辑,这就会产生很大的劳动量,凭借一个团队的人不可能完成,借助大众的力量是个很好的办法,但是前提是现阶段的搜索结果要有能受用户欢迎的方面,才能吸引用户参与补全信息。
如果让我们来管理MSAS的开发小组,成员会重点分配到以下方面来解决目前MSAS的一些不足之处:
1.完善数据库,增加网页量。 
2. 在各个机构 (学校、研究院等 )寻找相应的负责人,譬如遍布各大高校的MSClub,来核对各个机构的用户信息,对负责人及用户的贡献可以给予相应的奖励,以提高他们的责任感和积极性(可以考虑模仿百度百科及贴吧的管理策略再加以奖励制度 )。
3.为主页瘦身,在美观的前提下,更加实在和方便地提供服务。 
4. 增加纠错功能;增加对 organization等的检索功能;设计更加合理的排名算法;设计和实现鲁棒快速的网页爬虫。
5. 增加对多语言界面和检索的支持。



https://blog.sciencenet.cn/blog-113146-471065.html

上一篇:图示《情报学报》2000-2010发文主题
下一篇:indigenous and exogenous knowledge
收藏 IP: 220.178.150.*| 热度|

5 武夷山 章成志 许培扬 周春雷 刘宇

该博文允许注册用户评论 请点击登录 评论 (5 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-4 06:29

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部