我:其实 我可以专讲一场《知识图谱和问答系统:从回答 how questions 讲起》,如果有足够兴趣的话。这个因为比较深入地做过。以前也说过要写出来,后来问的人多了,反而至今没写。这算热门话题吧,主要看时机。现在讲,互动够不够。白老师对知识图谱情有独钟的样子,也希望白老师挑刺。其他对知识图谱感兴趣的老师同学也可以周知一下。我一般五六点醒来,北京就是晚上九十点。这时候家里人还在酣睡,周围静悄悄,适合不受干扰地大话西游。
龚: 好的,今晚九点到十点,由李维老师分享《知识图谱和问答系统:从回答 how questions 讲起》,请大家安排好时间交流。
Jixhu: 期待今晚思想盛宴
奋:今晚来
龚: 李老师分享,我来主持并整理,大家可以使劲交流,我也附和两句微博当时的大梦想
wang: 积极参加!
朱: 期待ing
洪:
今晚硅谷静悄悄,微群设摊待维老。
知识图谱说根苗,预计讲到雄鸡叫。
马:
雄鸡叫,不睡觉,定把智普都学到。
手拿板凳准备好,静等师傅来布道。
白: HOW型问题还是颇有难度的
洪:
颇有难度起阶HOW,盖因听众水平高。
讲师竹筒蚕豆倒,听者瓜子嗑不少。
张: 不少布道
朱: 下午买瓜子去,
我: 洪爷好诗兴。这个铺垫,顿感压力不小。好在也做了多年了。
龚: @洪 @马 两位好雅兴
我: 马老师也学会打油了。过一年这群里一半人都得被熏陶成诗人不可。
洪: 老了,必须在开场时率先捧捧场,否则到了讲真正问题时只能鼾声如雷,那就太尴尬了
马: @wei 都是被洪诗人给带的
洪: @马 咱们是向座山雕学习给自己留条后路。后生们携着新一代ai利器一路掩杀过来,正经事儿估计若干年内都会被机器人 take over。或许只有这油诗鸡肋,或许眼高手低的机器人真滴看不上而放过。咱们借机方能保存点人性智慧。
我: 我那个说法不是从整个行业现状说的。只是从自己做的产业开发说的。整个行业现状是慢了半拍,由于各种缘由。而我们自己做的产品虽然也大数据了,云端了,也有全球用户了,但实际上平台还是不够大。后者可以看作是前者的一个探路或证明。譬如,我们的 HOW QA 系统实际 deploy 了五六年,可行性和有效性应该说没有什么怀疑了。
Jixhu: 是,过去五年相对过去十年是较大的一步。未来五年肯定更是。
我:从道理上说,任何一个搜索巨头都可以用上这个技术,因为它是 open domain 的,而且很容易对接上搜索引擎。怎么对接?只要 query 中含有 how,就去调用这个系统。调用以后的结果一定比搜索引擎现有的结果漂亮很多。但是,各大巨头做了知识图谱,用到了 what question (所谓“定义问题”类型,回答 what和who 这类 entity 问题),还没有任何一家用到了 how question。是因为 how question 不常见么?用处不大么?不是。基本上就是,巨头并不总是看得见小公司的创新。
再发张照片,里面的那位公司创始人麦克就是我的搭档,当年一起把 how 商业化的,市场需求是他先提出来的。
还有两个相关的帖子,是在隔壁的泥沙龙讨论搜索与NLP关系时整理的,一并放在这里作为这一讲的背景和references。《泥沙龙笔记:搜索和知识图谱的话题》里面相关的 quotes有: 问答系统有两类。一类是针对可以预料的问题,事先做信息抽取,然后index到库里去支持问答。这类 recall 好,精度也高,但是没有 real time search 的灵活性和以不变应万变。
Click to edit publication titleSrihari, R., Li, W., Li, X. 2006. Question Answering Supported by Multiple Levels of Information Extraction. a book chapter in T. Strzalkowski & S. Harabagiu (eds.), Advances in Open- Domain Question Answering. Springer, 2006.Click to edit publication or publisher name