mashutian的个人博客分享 http://blog.sciencenet.cn/u/mashutian

博文

2017 TREC 会议回顾

已有 5077 次阅读 2017-11-24 10:29 |系统分类:科研笔记

上周在美国马里兰的美国国家技术标准局参加了TREC 2017,即第二十六届Text REtrieval Conference (TREC),该会议是文本检索领域人气最旺、最权威的评测会议,由美国国防部和美国国家技术标准局(NIST)联合主办。自从1991年举办第一届会议起,每年的参与者都是当今IT界一流学府和企业科研机构,并且在不断增加。今年一共有来自17个不同国家的67支队伍参加测评任务,其中,国内参与测评的学校有北大,中科院,复旦,大连理工,华东师范,上海师范等学校。不过,实际来到会场,参加会议的人应该是挺少的,大厅里的参会人大概五十个左右?毕竟,大会方自己在介绍会议概况的时候都用了shrink这个词。幸运的是,我们在会场上遇到了北大计算机研究所一个老师和他的学生,以及几个在美国读书或工作的中国小伙伴。

该会议细分为几大主要方向:问题回答(QA)、特定领域检索(Legal、Genomics、Enterprise、Blog)、传统Web检索等。今年的测评任务一共有八个,分别是:Common Core track/ Complex Answer Retrieval track/ Dynamic Domain track/ Live QA/ Precision Medicine/OpenSearch/ Real-time Summarization track/Tasks track。会议负责组织收集并向与会者提供标准的语料库(Corpus)、检索条件和问题集(Query Set)、以及评测办法(Evaluation),与会者则被要求在规定的时间内构造检索系统并提交检索结果(Runs),由会议负责评测各个检索结果的优劣,最终依据评测结果召开大会进行学术交流,发表会议论文。

在这里简单介绍一下Real-time Summarization和Precision Medicine两个任务,详细工作以及其他任务可以参考今年的会议论文集,已经上传到百度网盘链接:https://pan.baidu.com/s/1o89Rqrg

Real-time Summarization是2016年才有的新任务,该任务结合了往年的Microblog and Temporal Summarization tracks,旨在设计开发新技术及系统以用于自动monitor社交媒体流,比如Twitter这样的平台,帮助其用户能够实时关注到他们感兴趣的内容。该任务主要分为两个场景,Scenario A:移动推送;Scenario B:邮件消化。首先,用户的interest profile描述了该用户感兴趣的主题,因此系统的工作就是实时得为用户发送感兴趣以及新奇的内容。对于Scenario A,用户的移动终端会实时接收到Updates,即某个事件刚刚发生的话,这个新事件就需要推送给用户(如果是他感兴趣的内容)。对于Scenario B,用户会定期收到关于Updates的邮件,根据邮件的cycle,需要决定推荐什么样的内容给用户。在这两个情况下,作者都不希望被推荐重复冗余的内容。因此,与以往的任务不同的是,系统目标并不是检索出所有的相关的信息,而是实时检索出非冗余的内容。由于推送信息的质量在摘要任务中扮演的重要角色,参赛小组的策略大致如下从tweet下手进行了tweets filtering,根据相似度等特征找到高质量相关非冗余的信息后再进行摘要生成,因此,tweet内容和user profile之间的相似度计算则是该任务中的基础,由于短文本的限制,参赛者会尝试利用语义资源进行文本的扩展,然后再计算。另外,还有小组从推送机制下手,识别silent day来避免冗余推送。

Precision Medicine是2017年的新任务,前身是Clinical Decision Support track。The focus of the Precision Medicine track is thus to develop systemsthat can provide medical evidence for patient care in the field of oncology with the specific use case ofgenetic mutations of cancer。在该任务同样分为了两块内容,即利用MEDLINE医学科研文献的摘要部分或者医院的诊断说明,根据患者的档案(topic)来进行检索。在会议上汇报的参赛小组,有两三个都是来自医疗公司,其中有Mayo Clinic以及Philips Research North America。和上一个任务类似,主要策略就是对query进行扩展,然后检索。不过这个任务中,多是利用医学资源,比如Mesh词表等,或者是根据规则,以及根据rank靠前文章的特征词语来进行排查。

今年是以浏览者的身份参加的会议,接下来希望可以准备一下2018年的测评任务,争取下回来汇报。














https://blog.sciencenet.cn/blog-1497049-1086605.html

上一篇:优秀的科研人员
收藏 IP: 149.159.2.*| 热度|

1 章成志

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 17:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部