《新智元:通用的机器人都是闹着玩的,有用的都是 domain 的》
已有 4541 次阅读
2016-2-2 08:11
|个人分类:立委科普|系统分类:科研笔记|
机器人, 应用, 语义, 语用, 落地
湖: 让机器抓狂:
1.“他看到两个人”,到底是张三和李四还是李四和王五?
2.“金星”、“晨星”、“启明星”、“长庚星”竟是同指
3.“植物是靠它的根从土壤中吸收水分”、“他说的话里有很大的水分”,同是水分,机器怎么分呢?
这些最基础的命名就具有不确定性
从这可以推测出语言靠经验主义,没有经验,难以判断
白: 对影还可以成三人呢。缺省排除自己,例外包含自己同指还有个在不在知识库里的问题,不在的话,可以默认不同指。两个水分,在词典里可以处理成两个义项……当然急智的比喻总该给留下空间。
湖: 白老师说的知识库就是经验了,词典也是。
我: 机器抓狂,是指在语义“落地" 的时候抓狂。在此前有什么抓狂的?多数情况,语义和知识的介入都是有限的,对于结构的 parsing 这些 WSD 的问题绝大多数都是可以绕过去的,没啥抓狂的。(【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】)一旦到了落地的时候,那就是应用现场了。对于应用现场,很难说抓狂不抓狂,因为每个现场的要求是不同的,有的现场根本就不需要每个歧义都区分。当年批判 WSD 是 NLP 的基础的时候,就是秉持这个道理的。WSD 最好尽可能推后到语用层面做,此前 keep ambiguity untouched(也就是休眠多义)最佳。 湖: 当我们想让机器像人一样时,就不能休眠了。对某些工程应用,可以粗粒度处理。
我: 机器不会像人一样。“机器人”概念上是个骗人的东西。就如 AI 是 misnomer 一样。所谓机器人,其意义和价值都是在应用现场和domain,通用的机器人是不存在的。
湖: 同意您的观点,很多要留给语境,留给世界自身。
我: 很多通用的问题到了现场就不是挑战了:有的问题自动消弭,有的问题大大减弱,因为有了domain、有了局限的 world。很多时候 wsd 从人的理解看可以无比复杂,到底是张三还是李四啊?但是对于机器 就是一个 classification,胡乱猜的概率是 50%,如果是两个词义的话。然后到了现场,不管加上怎样的约束,包括频度的统计,一下子精度就改进了。总之是,能留到最后的就留到最后,能语用做的,不要语法去做。
湖: 两个人,怎么与张三李四关联,统计纯粹猜了。就如同在案发现场,证人说看见了两人,这两是谁,就连福尔摩斯也不一定能断出。语言天生就给了这种不确定性。
白: 所有的自然语言,都是“主述”。无定。就内部申请俩ID就得了。
我: 既然福尔摩斯都不知道,这个问题就不是问题了,还提它做甚。所谓语用现场的语义落地,指的是可以落地和应该落地的东西。本来就不能落地的或不必落地的,没有讨论的意义。
湖: 我观点是语言天生不确定,不确定变确定是世界给予的,不是语言符号系统自身。
白: 不确定,也是相对的。一只老虎......这只老虎 ...... 这只,就比一只,少了些不确定性。或者说,除了坐标原点有不确定性,其他还是确定的。星期二,也是一样。给定了周日,就可以通过偏移量算出来。
我: 举个例说明语用现场的语义落地:当 Siri 针对某个应用开发的时候,那就是。如果针对的是 Clock 这个 app,那就把世界缩小成询问时间的世界。 一切 input 都要落地到 Clock 这个 app 中可以执行的某个操作上,如果落地时候不能越过某个 thresholds 就认为越界了。
湖: 领域严格限定,自然好处理,就类同于编程语言了。
我: 说的就是这个。通用的机器人不存在。不要做无用功。通用的都是闹着玩的(如微软小冰,貌似通用,就是一个为了娱乐,娱乐也可看作广义的 domain),有用的都是 domain 的。
【相关】
【立委科普:歧义parsing的休眠唤醒机制再探】
《泥沙龙笔记:parsing 的休眠反悔机制》
【NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈】
【置顶:立委科学网博客NLP博文一览(定期更新版)】
https://blog.sciencenet.cn/blog-362400-954000.html
上一篇:
【立委科普:歧义parsing的休眠唤醒机制再探】下一篇:
【新智元笔记:汉语分离词的自动分析】