《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《泥沙龙笔记:再谈 cyc》

已有 4140 次阅读 2015-12-22 16:37 |个人分类:立委科普|系统分类:科研笔记| 人工智能, 规则, 常识, cyc

Nick: cyc算人工吗?
我: 当然,是一点一点手工抠出来的。靠的是积累和架构的保障,否则那么大量的规则在里面就乱套了。
严格地说,在相互关联和作用的规则集为资源的模块里,百这个量级是坎儿。
一个系统架构可以有很多模块,很多规则集,cyc 算是一种,偏重于把规则词典化。
Nick: cyc规模可比几百大好多
我: 但其中有架构去分割的(而且 cyc 差不多是一个极端的案例了)。它所 encode 的常识多数可以词典化、概念化,这样一来,在那个概念词条的辖区 内部的规则是有限的,可以人力掌控的,类似 expert lexicons
雷: @wei 为什么cyc还在开发?
我: 有资助就开发呗。好久没听到他们的动静了。cyc 一度得到很多资助,10 年前到处宣传他们到了应用的前夕。
雷: 为什么一直会有?军方的吗?
我: 具体没追踪,以前说也有私人大款资助。
雷: 这个项目有二十多年了吧?
我: 良心说,他们的雄心还是令人肃然起敬的。这可算是唯一的 "真正的" AI 了,其他所有的 AI 在 cyc 面前都显得有点名不副实。一般而言,只有真正模拟常识逻辑,才是智能人工的基础。可惜是这条道路,在可以预见的将来,没戏。谁知道呢,也许一两百年后,它的价值会被发现。那时候量子计算也许普及了,overhead 不再是瓶颈,cyc 的常识在模糊推理的协助下,也许大放异彩。cyc 每一点的常识单单去看都是有道理的,是人类知识和智能的碎片化积累。但是这些东西与形式逻辑的推理结合,就难玩得转。
白: 我觉得,cyc建设完成只是起点,后续怎么用还没想好。而IE抽取出来就是终点,基本就是用户要的。所以二者不完全可比,也不能以条数论英雄。
我: 是啊,cyc 有钱就这么建下去,保不定是给未来造福呢。据说已经建造到媲美10岁儿童的智力知识水平了。
雷: @wei 我觉得是
我: 就这么愚公移山造下去,反正这些知识很少过时的
雷: lenat可是聪明人
我: 不过他们也是耐不住寂寞,或者迫于投资者压力,才会在10年前大造舆论
雷: 积累到一定的时候就可以滚动了
我: 说眼看就要实用了,cyc 人工智能要全面开花结果了,痴人说梦呢。滚动不了。太沉重,overhead 太大,当年他们设想的是用类似云计算,把计算压力分散了来担。
雷: 可以的。对人可能太大,对机器,小事一桩
我: 牛刀宰鸡并不好使,很多时候是这样的。
白: 这个是路线错误
我: 他们试图找到一个非常识不可的任务,结果发现,现实世界中 这样的任务很少很少。
我: 多数时候是,别的手段做剩下的,需要一点常识。为了那一点剩下的任务,调用这么大一家伙,不成比例,难以运作。
雷: @wei 应该不少,就是还没有用起来。理论和应用的时间差
我: 也可能有某种非用常识不可而且不计成本的场景,不过还真不容易想出来。
白: @雷晓军 或许很多体现在大数据里了,根本不需要形式化。
我: 至少对语言的应用场景,常识只是最后的那么一点。
白: 我认为常识是有用的,常识形式化是无用的。
我: 大数据里隐含的常识与形式化的浓缩版常识。我倾向于同意 @白硕
白: 常识有很多更直接、更方便计算的表现形式。
雷: 智能的另一种定义是通讯的畅通。畅通的通讯,收发方要同构。
白: 常识就是对抬杠免疫的设定。
我:常识就是为思想偷懒,否则人要累死了
白: 目的是对抬杠免疫。抓住老鼠都是好猫。
我: 对于 NLP 中常识到底有多大用场做过一些思考,结论是不值
雷: 是所有的参数的default
我: 在这篇博客里 NLU自然是文法为主常识为辅 http://blog.sciencenet.cn/blog-362400-734340.html
白: 以前曾经有根据自然语言生成图像的论文,我当答辩委员。当时的结论就是,没说有的,就不要进入画面,说没有的,除非标配,是废话。
我: 画了一个图,大体量化了一下,发现只有常识才能解决的语言任务,比例很小。
白: 比如一个人,鼻子是标配,说没有鼻子,才需要在画面中体现。但是说一条河上没有桥,等于没说,因为桥不是河的标配。
雷: @白硕 是!
我: 多年前跟 cyc 的人聊过,他们苦于找不到非此不可的应用场景,虽然理论上几乎可以用于一切场合。但非此不可的,真费思量。
雷: @wei 酱紫啊!
我: 最先想到的应用是NLU,但恰恰在 NLU 上,我的思考结果是不值。
白: 但是标配是可以通过大数据获得的
我: 原因是自然语言很复杂,但也很有规律。有一种叫文法的“domain knowledge”远远地优于常识。。
雷: @白硕 可能还有default list吧
白: 一个意思@雷晓军 
雷: @白硕 我指的是一个参数的list
我: 而前者只是后者的一个零头,论个头。
白: 考研究生,意思是考成功的话,就会“成为”研究生。操作上研究生不是考的坑没关系,只要“考”和“研究生”能联合激活“成为”,事情就结了。“考驾照”也是一样,意思是考通过的话会“拥有”驾照。只要考和驾照能联合激活“拥有”,也就结了。联合激活可以通过统计,不需要predefine。
我: 以前 wilks 说的优先语义,说的就是一个坑里面的缺省概念。这个肯定可以从大数据中反映。里面蕴涵的也是常识。所以 eat 后面没有啥的时候,优选语义就是 FOOD
白: 老乔说,该有的没有,本质上是个代词。说不定在哪儿找到共指。比如c-command位置上

雷: @白硕 刚才你的例子,考研究生,研究生是考的结果格。不是必须的,是选项

白: 我就是说predefine格的做法可以换另一种做法。

雷: 冗余



【相关】

围脖:一个人对抗一个世界,理性主义大师 Lenat 教授

《泥沙龙李白对话录:关于纯语义系统》

 《语义三巨人》

【置顶:立委科学网博客NLP博文一览(定期更新版)】 






https://blog.sciencenet.cn/blog-362400-945122.html

上一篇:《泥沙龙笔记:知识习得对本体知识,信息抽取对知识图谱》
下一篇:《新智元:有了deep parsing,信息抽取就是个玩儿》
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 06:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部