|||
6月18号在南京大学仙林校区听取了美国印地安纳大学刘晓钟博士报告——知识抽取及其应用。首先讲了信息检索相关内容,提出了信息检索面临的3个Task,Task1:用户提供的查询式并不能很好的表达用户的信息需要;Task2:系统可以在最短时间内找到用户需要的相关文档;task3:怎样把用户最需要的相关文档列到查询结果前列。因此用户的信息需要、查询式、查询结果三者之间就形成了一个三角关系,现在主要的研究集中在用系统的方法解决用户问题。从用户的角度进行研究主要集中在如何更好的理解用户的信息需要,从文档的角度研究主要集中在如何选择出的检索结果更具有代表性。刘博士又讲到在前几年研究者认为NLP将是未来解决信息检索问题的有效途径。NLP从最基础的Morphological(词根)到lexical(词法)、syntactic(句法)、semantic(语义)、discourse(语篇)、pragmatic(语用),从最底层向上检索需要的时间长,算法的复杂度高并且准确性也不高,所以现在的搜索引擎都还是集中在底层上,自然语言处理并没有很好的应用到信息检索中。
接着刘博士讲了最近的研究,在对论文检索中,提出了在用户信息需求之上建立一个知识层,在文档之上也建立一个知识层,将两个知识层进行匹配,选择医药领域进行研究,因为此领域已经有了很完善的知识关系网可以直接使用。首先给每篇论文建立类似维基百科的一个全自动的词条系统,将每篇文章涉及到的内容、方法、结论等列出,但其中肯定有不准确的地方,然后可以请一些用户来进行修正,利用机器学习的方法根据用户修正的少部分然后改变其余的论文词条,这就是一种human intelligence与computer之间的交互。接着刘博士还讲了另外两个研究内容,一个为用户给出摘要,系统可以给用户推荐相关论文;一个为帮助用户理解论文的系统,系统可以给出与此篇论文相关的资源,包括有关的文档、PPT、视频等。刘博士的研究工作实用性很强,值得我们好好学习。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-26 23:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社