||
6月24日到28日每天上午8:30-12:00,美国匹兹堡大学何大庆副教授给我们讲授了《现代信息检索研究进展》课程。课程共五天,每天一个研究话题,依次为信息检索中用户建模和推荐系统、交互检索系统、协同检索行为、社会检索 、公民科学,每一个话题都是信息检索领域的最新最前沿的话题,现将每天课程进行总结。
第一天话题为用户建模和推荐系统。何老师给我们讲解了信息检索相关的基础知识。信息检索即为根据用户的需要从按一定方式组织起来的信息中找出有关信息的过程和技术。随着大数据时代的到来以及非结构化数据量急剧增大,给信息检索的研究提出了更大的挑战,如何从大量的信息中准确的找到用户需要的信息,是信息检索研究的核心内容。接着何老师给我们具体讲解了信息检索中用户建模和推荐系统的相关内容。用户建模就是明确、理解和定义用户的信息需要的过程。用户建模具体包括3个方面,第一个为用户信息需求,即为通过用户提交的查询式明确具体的用户信息需求;第二个是用户的基本信息,包括用户的教育背景、工作、年龄、技能等;第三个是用户对现有资源和系统的评价。对于用户信息的收集可以通过两者方式,一种是利用显性方式,直接让用户填写相关信息,一种是利用隐性方式,通过用户的浏览、点击、保存等行为推测用户的相关信息。接下来一个重要的问题就是在信息检索的过程中何时使用构建的用户模型,何老师给我们讲解了三者方式:第一种是应用于用户的查询式,第二种是应用于搜索引擎,第三种是应用于查询结果。每一种方式都有其优缺点,没有形成统一的认识,值得深入讨论。推荐系统根据用户的兴趣特点和行为,向用户推荐用户感兴趣的信息和商品。推荐算法有很多种,但是基础的是三种,第一种是基于内容的推荐系统,根据用户的购买历史、用户的好恶进行推荐;第二种是协同推荐系统,根据其他相似用户的购买行为进行推荐;第三种是上述两种方法的结合。最后何老师就用户建模和推荐系统相关研究中可以提升的部分进行了讲解,包括如何使推荐系统透明化,让用户明确推荐系统的用途;如何鼓励用户多进行资源评价;以及跨领域推荐和用户信息安全与保密工作。
第二节课讲授了交互检索系统相关内容。现有的检索系统缺乏与用户动态的交互,仅仅只是查询式与文档的匹配过程。信息检索本身就是一个用户和系统进行交互的过程,首先是用户提交查询式的过程,用户在此过程中需要用查询式明确的表达自己的信息需求,系统可以通过与用户交互,使用户提供更多的信息,例如系统可以通过提供搜索提示,来丰富用户的查询内容。接着就是查询结果表达的过程,在此过程中系统需要高效的识别用户需要的信息,并以用户可以理解的方式展示出来。例如google使用的KWIC资源表示方式,是一种一维的展现方式,同样的也可以使用二维、三维的展现方式。由于资源的类型多种多样,也可以将不同的资料类型分类检索出来,也可以将检索结果按照已有的分类体系进行分类展示,也可以对检索出的结果进行聚类处理,以便用户可以选择自己需要的类别。查询出的结果如果用户不是很满意,下一步的想法就是更改查询式,此时系统可以在上次查询出的界面中显示相关查询式以便用户更改查询式。接着何老师给我们简单的讲解了手机的检索交互问题,用户在手机端进行检索时有着特殊的特点,注重时效性、位置信息、没有很多的时间来浏览网页等,这件要求界面的设计简单明了,要提供更多的查询结果信息而不是链接,提供更多的查询途径,例如通过语音的方式等,此领域还有很大的提升途径,值得深入研究。最后何老师就交互检索系统相关研究中可以提升的部分进行了讲解,包括提供全球信息检索服务、将国外检索信息翻译成本国语言进行检索等。
第三节课讲授了协同检索行为相关内容。现有的检索系统只是针对一个用户的查询目标,现实情况中存在一些人同时完成一个查询目标的情况,可能是同时进行,也可能是异步进行。根据协同检索行为参与者的分工不同可以将协同检索系统分为对称协同检索和非对称协同检索,对称协同检索中参与者的分工相同,一般为两人,而非对称协同检索中参与者分工不同,一般为多人。协同检索的参与者可能处于同一地点,也可能位于不同的地点。何老师讲到现有的研究主要集中在两个人协同检索的行为上,对于多个人由于分工的不同情况复杂,值得深入研究。接着何老师讲解了已有的协同检索系统,包括参与者交流部分、检索历史、推荐查询式、查询结果关键词表示、当前的检索页面及其相关评论和排序。最后何老师就协同检索行为相关研究中可以提升的部分进行了讲解,包括不同年龄、地位、知识水平参与者的协同系统设计、使用不同设备的协同检索系统设计等。
第四节课讲授了社会信息检索相关内容。何老师提出随着互联网的发展,产生了大量的用户生成内容(UGC),其可以分为两类,一类是显性的UGC包括社会化标签、评论、排序,一类是隐性的UGC包括用户查询式、点击浏览情况,这些信息就给我们提供了大量可供我们研究用户的数据,通过研究这些数据可以帮助用户更好的获取社会信息。首先讲解了社会化标签和信息检索的关系。社会化标签已经普遍利用在图片、图书、视频、URL上,已有对delicious上URL的标签与用户查询式重合度进行研究、将标签与主题词进行比对研究。接着讲解了社会检索的相关问题,最有代表性的就是Google++检索,Google++是一个SNS社交网站,在这个社交网站上你可以和不同兴趣的好友分享好玩的东西。其中一个功能就是用户提交了一个问题,系统可以在你的好友中寻找可以回答此问题的人,然后将回答结果第一时间返回给用户。下来讲解了社会问答系统,如中国的百度知道、soso问问等,国外的yahoo answers,都是社会问答系统,何老师讲解了现有对问答系统的研究集中在对问答系统中用户的研究、问题领域研究、回答速度研究、回答质量研究以及将社会问答系统与图书馆参考咨询服务的比较研究。最后何老师就社会信息检索相关研究中可以提升的部分进行了讲解,包括社会信息获取方式会越来越广泛、如何鼓励用户参与网络社交活动、如何保护用户的隐私、如果组织社会信息等方面。
第五节课讲授了公民科学相关内容。何老师首先给我们介绍了公民科学的基本概念。大量没受过专业训练的业余科学爱好者,通过网络组织的号召,去参与科研任务,这种科研组织模式被称为公民科学。例如最早的圣诞节数鸟工程,就是由公民自发参与的科研活动,参与者通过网络传输数据;将古籍上的文字取出,由不同地域的参与者共同翻译;从航海日志中分析过去的天气信息。公民科学项目可以分为四类,分别是Community-based field work、Observation Network、Virtual Data Processing、Participatory Sensing。最后何老师就公民科学相关研究中可以提升的部分进行了讲解,包括参与者的动机、地域的问题、数据的使用维护和更新问题等。
通过这一周的学习,我们受益很多,了解了信息检索领域的前沿热点问题,对我们以后的科研有很多的启示,值得我们好好学习回顾。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-27 12:56
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社