|||
其实 所谓 bots 只是一个用户端的入口,不久未来的世界中的人机接口。
从长远来看,它不仅仅是连接音响或其他apps的启动装置,也不满足于做一个聊天的玩具。加入知识图谱以后,它就变成了知识问答。IBM沃森的问答超越人类,作为AI的里程碑,其背后的原理也不过如此。沃森系统更多是工程的成就,而不是研究的突破,是大数据 大架构 大运算的成果。从系统本身看,并没有超出我们当年做问答系统的基本原理和算法。在第一届 TREC-8 问答系统大赛中,我在Cymofny做的QA系统赢得第一名,66 分,比 IBM 系统(沃森系统的前身)超出了 20 多分。他们后来的成就是因为 IBM 有实力把这个工作进行到底,而整个业界在 NASDAQ 2001 年坍台以后,全部抛弃了 QA 的应用开发,投资人撤资或冻结这方面的任何尝试。我们当年是转向去专做企业情报挖掘了。
广义的图谱包括 parse trees 可以对付无法预见的语义搜索的长尾问题。本义的图谱专指针对领域和应用的 predefined 的知识挖掘,可以精准回答可以预见的问题。由于大数据的信息冗余,使得 imperfect NLP 技术也一样在问答应用上闪闪发光,打败人类。IBM 系统底层的 NLP 和 IE 内核,据了解并非一流的水平,但这不妨碍它在大数据大运算大存贮大架构的工程运作下,一鸣惊人。
图谱是动态的,这一点有几个应用方面的视角:
首先,图谱的知识来源是动态的,因此图谱需要定时和不断地更新
我们做社会媒体挖掘,挖出来的 sentiment 图谱大约是一个季度更新一次,有特别需要的时候更新更快。在并行云计算的架构里,每次更新前后需要约三周时间 近200台servers。
其次,图谱里面的关系和事件是动态连接的
它有无数种进一步组合的可能性,也有进一步挖掘其隐含关系或 trends 的潜力。这些潜力需要一个触发机制去调动它 根据应用的需要和接口。
浅谈一下使用动态图谱的几个场景:
1 semantic search:包括 SVO search
这是对关键词搜索的直接延伸,保留了关键词搜索的应对长尾的能力,可以应对无法事先预见的问题和信息索求,同时大幅度提高搜索的精准度 借助(广义)图谱或 parse tree 的结构 leverage。
2 问答系统
这是对可以事先预见的问题,或一个领域的 FAQ 等设计的 是知识图谱的拿手好戏。根据需要回答的问题,制定图谱抽取挖掘的目标,针对性强,有备而来,焉得不成?
3. 智能浏览
这也是图谱的拿手好戏,因为图谱本身就是互相连接的实体的关系与事件的巨大的网络。只要有一个起点,顺藤摸瓜似的动态智能浏览可以设计得随心所欲,让信息随着人的关注点动态 real time 转移,满足人类没有特定目标或只有模糊目标时的信息需求 对于研究者是特别有力的工具。
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 06:18
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社