|||
查:短信、微信推陈出新的表达,很多未必符合语法,也流行起来了
独:那就都是例外
北:例外太多了,规则就意义不大了
查:例外多了,就没必要语法了
雷:不符合语法的,原来是有的。这个就像幻肢,phantom。例外太多,我们记忆受不了
立委:例外是文法的有机成分。可枚举的例外是文法中词典化了的部分,不可枚举的例外形成的是小规则,自然更是文法的一部分(不能规则化的,不可能是不可枚举的,否则人脑也记不住)。文法就是一个大规则加小规则加个性例外的层级体系,这样看文法、组织和运用文法可以避免很多不毛之争。
毛:要是没有语法,整个理科工科就没法玩了。
雷: 再比如,洋泾浜,还是有语法的,语法是最大可能的覆盖。大多数人不知道语法是什么,但可以告诉你一句话说的对不对
立委:我女儿在初中是学文法的。她最得意就是,她是全班文法最好的学生。画树,这边叫 diagramming,被认为是一个需要学生学习的技术,她画得特熟。直到有一天,我给她看我的parser,她试了很多句子,稀奇古怪的,网上摘来的,自己瞎编的,有意为难它,可鲁棒性是我设计研发parser的主要目标之一,兵来将挡,水来土屯,不怕。测试了一通以后,对老爸佩服得五体投地,说,我画不了那么好,有些句子画不了。
雷:这个是english课上教的,目的是使学生写的东西规范
立委:其实你一点点教文法给机器,后来就会发现,它很多时候,超过了创造者对文句的文法分析能力,给你一些 nice surprises。因为,你教的东西,你可能忘记,但机器不会忘记。
独:中文自然语言处理往往以自己的特殊性来自表,并发展出了分层理论,但是严格来说,都是语言,只有复杂性的区别,没有特殊性的区别。
立委:同意。我对过分强调中文特殊性,不认同,而且也无益。中文并没有想象的那么特殊,中文的现象,大多数在西方语言也有表现。当然表现的比例可能不一样。譬如,常为人乐道的汉语的动宾复合词“吃饭”、“游泳”等,可以分离:饭我吃过了,游了半个小时泳,等等。其实分离复合动词英语也有,不过不是动宾结构,但实质同样是在词典与句法的接口上,处理机制是一样的。英语短语动词就常常分离:take the coat off = take off the coat,从语言处理工具的角度,基本需要的是同样的武器库。
白: 我关于语法的想法:1、有而且在起作用,但不是书上那种;2、用于理解的语法和用于生成的语法不同,前者宽后者严;3、语法的限制是柔性的,局部突破不会把人憋死。
立委:点2是显然的,无需争论。1也基本是 common sense,当然有文法在起作用,无论你是下意识与否,无论文法如何有弹性和模糊性。如果没文法,人说的话,怎么与随机单词发生器区分?【自注:这个说法有点极端,见博文《儿童语言没有文法的问题》】。书上的文法就是一个模型,任何模型都想逼近真实文法(语言共同体共同的那个核),但总不能完全达到。
第三点说的是,文法不是死规定,极端的例子就是,诗人的破格poetic license,不能因为局部的犯规就认为没有文法。其实破格之所以被解释为破了文法规矩,反证了文法的存在,
白:关于语法无用,可以这么理解:无论是自动机串烧还是自动机加计数器,都可以用等价的RNN从语料训练出来,中间不经过一个显性的语法表示环节。从语料直接到RNN,RNN的背后,“实质上”存在一个语法。但是人和机器都不用关心。只有RNN的设计者略微关心一下就可以
独: 对,是隐含语法的
立委:debug 如何,发现有错,如何 debug?retraining?人不关心怎么行?如何维护提升系统的性能?
白: 两件事,一个是通用机制实现的错误,这可以让不懂语法的人debug;另一个是训练结果错误,这要人为增补训练数据,这一块要懂点语法的人来做。
立委:说的是第二种。这类问题是incremental 的提高问题,而增加语料 retraining来应对,基本是隔靴搔痒
retraining 要做好,谈何容易,这是开发统计parser的致命缺点之一
symbolic 系统,如果多层而模块化,debug 是直截了当的,fine tuning,与修汽车师傅类似。
白:把规则直接编译为RNN,路径是存在的,可以作为RNN的初始参数。之后再上语料,去覆盖规则照顾不到的部分。目前为止我还没看到自然语言需要超出有限自动机加计数器的范围,当然这个范围中有些是CFG处理不了的,回退到浅层。
立委:有限状态可以对付自然语言,没有疑问。规则擅长精度,也无疑义。精度可以接近人的水平,可以超过平庸的人。
至于覆盖面,那是时间的函数,但有一个长尾问题,diminishing return,因此,最后让统计兜底,还是有益的,弥补一下覆盖面。如果面对的是大数据,不要统计也无问题,漏了就漏,反正有大数据的冗余。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 16:48
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社