|||
对于产生性语言现象,规则部分(无论是人编写的规则,还是机器学出来的规则,无论是人能够看懂的显性规则 symbolic rules 还是一个黑箱子一样语言概率模型)也应该是 hierarchical 的,里面有个性的规则和共性的规则,以及二者之间的协调。这些都是对人的语言“创造性”的模拟。
语言的NLP层级模型大体是这样的:(1)最底层也是最优先的模块是词典,ngram这样的成语可以看成是n条腿走路,最牢靠,也最不讲道理(成语不需要讲道理,是词典强加的语义);(2)第二类现象是搭配关系,譬如某个特定的动词需要搭配某个特定的名词宾语才具有某种确定的意义(打...酱油, 打...电话),这可以称作两条腿走路: 这个搭配关系需要词典与句法的互动才能实现,因为所搭配的两条腿并不总是挨着的:打酱油,打了酱油,酱油打了么,没有酱油可打;(3)第三类是词驱动的现象,需要个性规则来对付(所谓“专家词典”的机制),我把它叫作一条腿走路,譬如个性的动宾规则:开...【人】, e.g. 我真想开了他,太操蛋了;开了张三,可以给李四腾出位子。注意,其中驱动的腿(电脑术语叫直接量,语言学里的显性形式)在这里是动词“开”,而【人】只是一个 feature,而不是特定的词(直接量)。这样的规则比两条腿或多条腿现象具有概括性,已经可以精细地捕捉相当一批产生式的语言现象,但是毕竟不是作为缺省的共性规则那么具有概括性和抽象度;(4)最后是完全建立在隐性形式 features 基础上的共性规则,可以叫做不用腿走路,譬如,及物动词 Vt +名词短语 NP 构成动宾 VP 的规则。有了这样的层级体系,就可以对付语言中个性与共性交错的种种现象。
拿“意思”来说,并不因为我们在词典收入了 8 个 ngrams (什么意思,没什么意思,意思意思,不够意思,小意思,真有意思,没有别的意思 和 不好意思),并且把他们当成了黑箱子,绑架了我们想要给的指定语义表达(无论这种表达是什么,那是系统内部的规定,譬如在 Siri 一类的应用中,这种表达就是表现为等价的替代表达法,在其他的系统中,可以有其他的语义表达及语义表达结构的 encoding),我们就不对 “意思” 本身做合适的处理。这种处理表现在给“意思”这个词条encode 相应的词典信息,然后由系统在规则中调用它来对付产生式的现象。而那8个条目及其微妙不过是作为产生式现象的例外而已,根据词典查询的 longest principle,这些例外条目与“意思”自然切割,因此摆脱了人类的“联想过度”的恶习。一句话,NLP 系统可以轻易克服人类的过度联想,同时可以模拟人类的有效联想。前者可以做到完美,后者是逼近的。
【相关】
泥沙龙笔记:在知识处理中,很多时候,人不如机 2015-11-05
贴身小蜜的面纱和人工智能的奥秘 2015-11-04
《立委科普:机器可以揭开双关语神秘的面纱》 2015-11-03
微博相关评论留存:
对,规律性的拆包不能靠穷举和单列。譬如,洗澡,吃饭,打车,等,就是 V+N的规律性可分离合成动词(separable compound verb with V+N morphology structure),就可以统一处理而不是个案处理,诀窍就在词典与句法的接口上。 从 “洗澡、吃饭” 的处理机制到成语 “借尸还魂” 的拆包,只有一步之遥。 //@白硕SH:拆包一定是有普遍规则或原则的,不可能用穷举的方式。
‘ “在句法结构的分析上,这种逼近几乎可以达到人的水平。” 可能也就计算机学界人士敢这么说,语言学界和认知学界人士可不敢这么说。’ 语言学家不敢说这话,事实上计算机家包括深度学习大牛目前也不敢说这话的。可是经历过的、见证了的计算语言学杂家可以这么说。智叟不行,愚公可以。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 22:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社