《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【Bots 的愿景】

已有 3641 次阅读 2016-6-30 00:05 |个人分类:立委科普|系统分类:科普集锦| 人机接口, bots

其实 所谓 bots 只是一个用户端的入口,不久未来的世界中的人机接口。

从长远来看,它不仅仅是连接音响或其他apps的启动装置,也不满足于做一个聊天的玩具。加入知识图谱以后,它就变成了知识问答。IBM沃森的问答超越人类,作为AI的里程碑,其背后的原理也不过如此。沃森系统更多是工程的成就,而不是研究的突破,是大数据 大架构 大运算的成果。从系统本身看,并没有超出我们当年做问答系统的基本原理和算法。在第一届 TREC-8 问答系统大赛中,我在Cymofny做的QA系统赢得第一名,66 分,比 IBM 系统(沃森系统的前身)超出了 20 多分。他们后来的成就是因为 IBM 有实力把这个工作进行到底,而整个业界在 NASDAQ 2001 年坍台以后,全部抛弃了 QA 的应用开发,投资人撤资或冻结这方面的任何尝试。我们当年是转向去专做企业情报挖掘了。

广义的图谱包括 parse trees 可以对付无法预见的语义搜索的长尾问题。本义的图谱专指针对领域和应用的 predefined 的知识挖掘,可以精准回答可以预见的问题。由于大数据的信息冗余,使得 imperfect NLP 技术也一样在问答应用上闪闪发光,打败人类。IBM 系统底层的 NLP 和 IE 内核,据了解并非一流的水平,但这不妨碍它在大数据大运算大存贮大架构的工程运作下,一鸣惊人。

图谱是动态的,这一点有几个应用方面的视角:

首先,图谱的知识来源是动态的,因此图谱需要定时和不断地更新
我们做社会媒体挖掘,挖出来的 sentiment 图谱大约是一个季度更新一次,有特别需要的时候更新更快。在并行云计算的架构里,每次更新前后需要约三周时间 近200台servers。

其次,图谱里面的关系和事件是动态连接的
它有无数种进一步组合的可能性,也有进一步挖掘其隐含关系或 trends 的潜力。这些潜力需要一个触发机制去调动它 根据应用的需要和接口。

浅谈一下使用动态图谱的几个场景:

1 semantic search:包括 SVO search

这是对关键词搜索的直接延伸,保留了关键词搜索的应对长尾的能力,可以应对无法事先预见的问题和信息索求,同时大幅度提高搜索的精准度 借助(广义)图谱或 parse tree 的结构 leverage。

2 问答系统

这是对可以事先预见的问题,或一个领域的 FAQ 等设计的 是知识图谱的拿手好戏。根据需要回答的问题,制定图谱抽取挖掘的目标,针对性强,有备而来,焉得不成?

3. 智能浏览

这也是图谱的拿手好戏,因为图谱本身就是互相连接的实体的关系与事件的巨大的网络。只要有一个起点,顺藤摸瓜似的动态智能浏览可以设计得随心所欲,让信息随着人的关注点动态 real time 转移,满足人类没有特定目标或只有模糊目标时的信息需求 对于研究者是特别有力的工具。

【相关】

【立委科普:实体关系到知识图谱,从“同学”谈起】

【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】

《朝华午拾:信息抽取笔记》

泥沙龙笔记:搜索和知识图谱的话题

置顶:立委NLP博文一览(定期更新版)】

《朝华午拾》总目录

立委NLP频道




https://blog.sciencenet.cn/blog-362400-987600.html

上一篇:【立委科普:实体关系到知识图谱,从“同学”谈起】
下一篇:【关于信息抽取】
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-22 03:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部