博文

【李白86：这是最后的斗争？】

已有 2580 次阅读 2018-1-15 09:49 |个人分类:立委科普|系统分类:科普集锦| NLP

宋:
“严正指出”中，“严正”有歧义；“严正说”中，“严正”无歧义，一定是人名。

李:
宋老师观察真切。这里面有什么说法怎样实现？

“说” 挖了个【human】的坑，人名就跳进去。“指出”也挖了个【human】的坑，所以，“严正”作为可能的人名也可以跳进去，是为歧义。

但作为副词的 “严正” 为什么可以修饰 “指出” 不可以修饰 “说”呢，虽然二者是同一个动词子类。通常的说法是，搭配使然。搭配说的是比类别（包括子类）颗粒度还要细微的词汇之间的语义相谐。“严正” 就是喜欢修饰 “指出”， “指出” 就是喜欢被 “严正” 修饰，对上眼了，之间有化学。这个倒也不罕见也有词驱动的实现方式。难点（或痛点）在为什么 “严正” 不可以修饰 “说”？

相谐的事儿一般认为是软约束，能谐自然好，不能特别谐的话，也可将就着，凑合一辈子的夫妻有的是。难道我们不仅仅要记住搭配，还要记住不搭配？实现的话，就是有无必要，既有搭配的白名单，也要有不搭配的黑名单（谁谁与谁谁就是互相看不上不共戴天）？开了这个黑名单的口子无疑给电脑处理也给人脑记忆增加了负担到底必要性如何？

当然还是大数据好说。如果大数据玩得转容易无缝连接的话，大数据中 “严正指出” 就是个 4 gram 出现频次很高，而 “严正说” 频次很低。但怎么知道前者是歧义后者不歧义？

“严正指出” 频次高因为副动组合出现多，外加少量的主谓组合。“严正说” 频次低是因为副动组合在这里遭遇不搭配陷阱，只剩下少量的主谓组合了。这些东西不是没有统计根据但要理清这些感觉好难。

白:
这里的搭配是词对词的，而不是特征对特征的。比如“老实讲”就没有办法为“严正说”的可接受性做任何贡献。虽然前者在大数据中频次不低。

李:
是搭配说词对词。
词与词搭配背后的关系怎么解？无监督大数据看得见搭配，看不见关系，除非变成有监督让人标注。如果 a 与 b 搭配只有一种可能的关系，当然就无需标注。有两种单看统计就难。

白:
有词典就可以看得见subcat，用不用subcat，（词对subcat或者subcat对subcat）由什么决定。

弹钢琴、弹琵琶、弹三弦、弹吉他、弹曼陀林

李:
打-酱油，吃-亏，…… 这些都是搭配，不用讲道理。

白:
这又离合词了。离合词不需要subcat。但是系统性的词对标签或者标签对标签，不一样。你词典里都有了，就是个拿来用的问题，也不用讲道理。

李:
所有词对词搭配离合不论都是词典绑架，要不要一个不搭配词典？里面全是例外是黑名单。好比两人结婚前请八卦先生算命，看相克不克如果克夫或克妻，坚决不能成婚。

标签对标签就是抽象语法条例。我们都知道那种东西就跟筛子一样到处是眼，但没有它也不行。要鲁棒要召回就要靠它。

白:
不要人来写

李:
于是可以把颗粒度变细，在抽象条例周围，前堵后补。也可以在条例里面做黑名单约束用逻辑与加逻辑非，难看一点但管用。词对标签同理，如果引入黑名单，也可以。这样来看似乎没有必要单单来个词对词的黑名单（不搭配词典）？

白：
否定的统计判断，是排除歧义用的。当没有歧义可以排除，这种东东还应不应该起作用，值得怀疑。

李:
我也怀疑。回到原问题：问题1，是要不要考虑加一个不搭配词典。问题2是，无监督情况下统计上相谐的词如果有歧义统计本身如何消歧？理论上后者也不是非监督就束手无策了。理论上，通过对类似的但不歧义的词与词的统计数据作为参照，可以计算出歧义词的歧义程度和歧义偏向，甚至不排除可以通过某种 propagation 来无监督地消歧。

白：
就算没标记，还可以根据embedding干点啥，还可以协同推荐。

李:
哈正是我想说的。
现如今 embedding 就好像上帝之手，啥事儿都可能，什么戏法都难保变不出来。

今天路上与郭老师还在说这些神奇事儿，翻译如今也不需要平行语料了，就在两个独立的语言语料里面训练，然后把句子一 embedding，二者就相互翻译了。（据说，一个双语的儿童就是这么学会两种语言，并自然切换或翻译两种语言的，儿童并不需要有翻译样板才学会翻译。）

更神奇的是翻译两端也不一定是自然语言， source 可以是语言，target 可以是图片，反之亦然。根据啥？ embedding。这么神奇的媒介语表达难怪人看不懂，人脑只能看懂 symbolic 的东西。

embedding 到底是不是真的这么神奇美妙先放一边，问题是其不可解释性看不懂怎么办怎么掌控怎么纠错。郭说谁让你看懂了？看懂了的东西怎么可能神奇？蚂蚁看得懂人类语言吗？人类读得懂上帝旨意吗？

也许我们天天鼓捣这些看得懂的符号逻辑，算计来算计去，全部是瞎操心，最多也就是过家家儿戏一样。

想想怪悲凉的。

白:
咋改抒情诗了？

李:
30年前入行的时候我们语言所有三拨搞 AI 相关的，每一拨都是中国AI的开山人物（现如今的中国AI史似乎抹去了这一页，其实这些老教授都是让人景仰的大师）：

第一拨是我的导师两位刘先生搞规则mt的，第二拨是范继淹先生的自然语言理解，是传统 AI 那套常识推理的符号逻辑，第三拨是语音合成，吴老先生和杨顺安。当年听马老师同学杨国文学姐介绍范先生小组的那套AI符号逻辑，心里很不以为然，觉得常识和推理很不协调，推理链条又显得太小儿科了，太脆弱（fragile）。无法与我们同属符号逻辑派的mt规则路线比，我们这边不用常识用语言学，接地气多了，而且分析语言也深入多了。那种 AI 果然没成气候几乎绝迹（很长时间 AI 成了一个笑话），规则派苟延残喘算是活下来了，但退一步想我们当年诟病试图利用常识推理的AI符号逻辑，也许就是（或者还不如）50步笑百步呢。符号也许根本就不是必要的手段，更不必谈什么两派大团结大融合。国际歌很悲壮说这是最后的斗争，等价的说法就是这是垂死的挣扎—— 如果世界的本质根本就不是符号的话。

白:
世界本质是波粒二象性

【相关】

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-1094907.html

上一篇：谷歌SyntaxNet是“世界上最精确的解析器”吗？
下一篇：【NLP答问：关于parsing 和自然语言理解】

收藏 IP: 192.168.0.*| 热度|

当前推荐数：1 推荐人：尤明庆

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

李维

扫一扫，分享此博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

【李白86：这是最后的斗争？】

当前推荐数：1 推荐人：尤明庆

该博文允许注册用户评论请点击登录评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

【李白86：这是最后的斗争？】

当前推荐数：1 推荐人： 尤明庆

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

当前推荐数：1 推荐人：尤明庆

该博文允许注册用户评论请点击登录评论 (0 个评论)