||
Speaker:周明,微软亚洲研究院首席科学家。
该presentation介绍了三种类型数据智能(data-Intel)的区别和联系,以及将三种智慧结合起来实现QA,MT,和自动对对联的系统。
Knowledge intelligence(KB-Intel) 指专家知识,一些领域内的rules。优点是质量高,一旦问题(query)在该知识库范畴内搜索到解,往往比较准确。‚因为是固定存储的知识库,所以搜索成本小,速度快,在有适当索引和算法时能较快生成答案,而无需从网上爬取答案和获得用户log进行计算。缺点是这些专家知识比较难以获取,代价较大。 ‚专家知识相对静态,不易更新,时效性不高。
Data intelligence 数据智能,主要指从web 上data挖掘得到的知识。 这类inte 时效性较高,相对容易获得;‚领域宽泛,海量(large scale,general domain) 但质量较低,网上的数据存在噪音干扰,准确率较低 ‚速度慢, 因为要从online获得数据,进行挖掘
Social Intelligence 社会智能,主要指与人(用户)的互动得到的数据(众包)。如用户的feedback和log.
主要介绍了微软 Online的三种系统及其构建,也提到NLP2.0的概念以及Nlp for Search Engine
1. Light-QA 问答系统
① 定义提问的类型 如Person,Location, Works, Time Events. Number, Others。
② 数据获取,知识库构建
已有的专家知识库(KB-QA)
从网上爬去数据,构建知识库(WEB-QA)
从一些问答社区如百度知道,yahoo Answers获得数据(Social-QA)。
2. Chinese Couplets 自动对对联系统,并扩展到诗词生成 (NLP2.0 )
Chinese Couplets(http://duilian.msra.cn).
Demo (http://video.sina.com.cn/v/b/10937201-1452530713.html)
用户输入上联,系统利用已有的文学知识库中,通过一些算法(如HMM,N-gram)等生成候选下联的列表,利用一些平仄规则,加以过滤。最终生成ranked candidate couplet list。供用户选择。再利用用户操作行为的logs对模型进行强化(Encode User's Wisdom into the System)。
3. EngKoo 词典http://dict.bing.com.cn和个性化同声翻译系统。(MT)
同声翻译比较牛逼,综合了语音识别 (将奥巴马演讲时的声音信号识别成text),机器翻译(将英文翻译成对应的中文),最后合成转化成演讲者本身的声音特质,播放出来。速度很快,几乎实时。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-1 07:05
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社