《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:搭配面面观】 精选

已有 2652 次阅读 2016-2-4 17:59 |个人分类:立委科普|系统分类:观点评述| NLP, 搭配

我: 外国人学汉语,常常闹搭配错误的笑话,但是并不影响语义的交流,譬如:你会弹小提琴么?我拉钢琴拉得不好。我女儿算假洋鬼子,最常闹的笑话是:我不要穿这个帽子!

如果乔姆斯基用 green ideas 例示显示 (从 colorless green ideas sleep furiously 说开去),关系语义(即逻辑语义)的传达可以违背常识语义,关系语义决定于句法形式,我们同样可以用上面的这些例子显示,普遍句法中的概念组合的关系,可以违背特定语言的搭配习惯,而不影响关系语义的传达。这种违反语言习惯而不影响语义的例子,还有更深一层的启示,就是,搭配关系这类东西可以放到语言的词典里面,而不要放到句法里面。当然词典与句法需要一个友好的接口。

词典就是垃圾箱,搭配对语言听上去地道不地道虽然很重要,但语义上也就是垃圾级别的东西,没有啥信息,是人类强加给自己的负担,增加的是信息冗余度。当然,任何冗余都可能有好处,因为有了这类词一级的搭配,即便距离很远,也容易靠。这就增加了大脑或系统的容错性或鲁棒性。这一特点也是可以善加利用的,使得远距离的工作自动处理起来可以相对轻松一些。

最后,形态语言中的所谓一致关系 agreement 实际上就是语言的词搭配的抽象化结果。一个动词或介词 在其 subcat 中对于某个 argument 强行地要求某个格(case),这就是搭配的morphology化。因此有格标记的语言显然是可以更加词序自由和远距离联络,因为agreement产生的信息在起作用。如果语言从形式角度一定要分高下的话,理性的答案是,很显然的,抽象地利用 morphology 范畴的 agreement 比起孤立语中大量使用具体的词之间的搭配关系,要高明很多。它们起到的是相同或类似的作用,利用冗余信息帮助确定关系语义,但前者更加经济合理。

白:@wei 用合成词的方式解决相对松耦合的搭配问题,略显笨拙,应该有更好的方案。
它首先应该具有语料相关性,没得说。其次它应该具有能产性,不局限于语料,可以泛化。再者它应该具有衰减性,对离开语料太远的泛化,应该有一种“不安全”的预判。最关键的是,句法应该有办法把远距离相关的搭配成分拉近,让它们有机会纳入搭配判别机制。而根据上述要求,搭配判别机制最理想的实现机制,是统计机器学习。
你总不能把管乐器、弦乐器、键盘乐器、弹拨乐器、打击乐器这些标签都塞词典里吧?但是适当粒度的聚类可以解决这个问题。如果语料里没有出现过“拉大提琴”,但“大提琴”和“小提琴”聚在一类,和“竖琴”没有聚在一类,就可以推测“拉大提琴”的搭配安全些,“拉竖琴”的搭配不太安全。当然,聚类使用的特征是综合性的,除了“拉”这样的动词,还有别的。
我经常讲规则和统计“波粒二象性”,这个就是一例。靠规则把远距离的拉近,靠统计把有模糊标准弹性边界的搭配筛选出来,靠规则把远距离的候选拉近。
张: 很对!
白: 如果是以生成为目的,对搭配的约束应再严一些。
张: 规则谋大局格物致知,统计算细节见微知著。
白:以分析为目的,对搭配的尺度可以放宽。有些外国人的不当搭配我们也能理解,就是这个道理。小孩子偶尔会说“吹小提琴”,就是自己的聚类粒度没有调整到合适的水平,纠正了就好了。词典还是要避免成垃圾筐。语料成垃圾筐没关系,统计会把其中的精华提出来。
我:乐器标签的事儿 也无不可。hownet 不就是做这个的吗?用统计学聚类 应该是靠谱的。宽松尺度无论人控机学都是挑战,因为稀疏数据的限制。
白: 我有一个搭配就拿不准:玩橄榄球,可以说“踢橄榄球”吗?
我: 不稀疏的地方 大家都能切一刀,稀疏了都见不到。人拍脑袋,常走偏,机器连脑袋都没得拍,很难说高下。到目前为止 我最服统计的是千头万绪的问题,那类问题 不得不承认 即便专家 也敌不过机器。文本分类就是。mt中的ngram记忆也是机器远比人强 但结构转换smt就抓瞎为多了。ngram记忆对付那些个成语翻译,人要是一点点去抠,无论如何赶不上趟,这个不得不服。
搭配是共同体的约定,这个标准可以有统计的实证,然后给人一个假象 要想逻辑地表达语言 你就被人取笑为不地道
白: 比如“大”在上海话里什么时候读“da”什么时候读“du”,用规则就很难穷尽。北京话里什么词语儿化什么不儿化,也是一样。
宋:立委讲到“穿帽子”闹笑话,但是中国人明白是“戴帽子”。对于V+N的错误搭配,总认为是V错而不是N错。我想这是因为N在环境中,有具体形象,不大容易错,V比较抽象。不管什么原因,这就减少了人的误解,但机器未必,除非你告诉它N一般不错。
我: 这些规则难以穷尽的地方大多是“上帝人为”的东西,意在让人类忙于做无用功。
白: 不同语言也有差异性。演奏乐器,英语就一个play拉倒。
我: 说明就够了,一个上位概念就把核心信息传达了。
白: 搭配是文化的体现。搭配错了,说你没文化。不好混圈子。
我: 是,最典型的是黑话。不懂黑话,没法混江湖。这些都是拔高门槛的办法,虽然本身没有逻辑或语义价值。
白: 圈子讲潜规则,潜规则就是统计。
我: 潜规则明明就是规则,不上台面而已,除非白马非马。
白: 封闭搭配词典搞定。开放搭配规则搞定。半开放搭配统计搞定。其实统计也不叫搞定,应该叫对付。谁也搞不定,因为边界本身就不确定。
我: 谁也搞不定 就是我说的遇到稀疏数据的时候。
白: “踢橄榄球”好像就在稀疏区域。不知道橄榄球在中国有一天普及了会是什么情况,现在只有少数人玩,行与不行,都无碍汉语的大局。我记得有一位长者,名字不说了,在上世纪九十年代把发邮件说成“打email”。明显地从“打电话、打电报”泛化而来。但那个时候数据稀疏,使用email的主力人群不在国内。国内主力人群起来了,大家动态交流中选择了“发”,搭配就确定下来。NLP应该像输入法追踪流行词库那样追踪流行搭配,把静态问题变成动态问题。昨天稀疏,今天就不稀疏了。从稀疏到不稀疏,中间会经历一段乱象,没关系。输入法还有个性化词库呢,NLP有个性化搭配库,也是可以接受的。说不定这么一协同推荐,你今天的个性搭配就成了大家明天的标配。基于统计的协同推荐比较成熟,基于规则、规则套例外例外套规则的协同推荐就不然了。至少是个新课题。采样/推荐在云端,泛化/个性化在本地。

我: 记得我导师就说“打个email”。

梁: 其实“穿帽子”,“踢橄榄球”没什么不可,这边小朋友学中文要是这样说,不算错。讲的人多了,流行起来就好了。

白: “一片心意”的搭配很好玩。“一片”两个意思,一是“很薄的物体”,跟名词搭配,北京这边还要儿化;一是“弥漫着”,跟形容词搭配,不儿化。但是“一片心意”一组合,既不儿化,又不搭形容词,效果是既微薄,又弥漫。
梁: 是啊,这个“片”字怪怪的。可将“心意”想象成薄薄一层莎。
白: 搭配有延伸性,不仅踢足球,还可以踢加时赛、踢两个赛季。不仅弹钢琴,而且可以弹李斯特、弹肖邦、弹拉二。甚至弹左手、弹八度。
我: 这些个搭配对于分析用处不大,其具体含义大多休眠,直到语用要用的时候。
白: 但它们照样会远距离相关。句法识别不出来,后面就可能掉链子。那两个小节,他怎么也弹不好。或者把逗号去掉。“小节”是有歧义的,“弹”的呼应,可以消岐。“弹”凭什么呼应?当然就是搭配。“小节”是“曲子”的标配部件。弹曲子,延伸到其部件。好几个越位他都没吹。“吹”和“越位”的搭配,也很奇葩。越位是比赛中的犯规现象,吹是裁判在比赛中的执法动作。两个词都是延伸的产物。
总而言之,不识别搭配,句法分析难以完整。对分析而言,波粒二象性都要管。两手都要硬。
我: 搭配、虚词和语序是汉语句子重要特征,做汉语分析离不开搭配。
白: 我的观点:1、搭配,词典、规则各解决一部分,还有一部分需要统计解决。2、考虑到语言中的远距离相关现象,需要借助句法规则把远距离相关的疑似搭配候选拉近,统计才有用武之地。3、搭配是个动态现象,要不断统计、不断跟踪、持续推送。4、搭配具有延伸性,没有类似知识图谱这样的语义资源,仅依靠字面统计,难以胜任。
荀: 搭配是语言发展的产物,搭配强度是连续的,就像色谱一样,在用的时候存在怎样对待问题,一是刀不好切,另外,不像ngram,有比较好一致性的数学度量手段,白老师的给出了思路,是几手处理的方案,词表,规则,统计。三者如果统一到一个统计度量框架下就更好了,现在的困难是处理远程搭配和数据中未见的符合逻辑的搭配感觉,目前的深度学习框架可以试一试,比如利用rnn
白: 远程必须借助句法,泛化必须借助多特征,包括语义特征和沿知识图谱爬行出来的特征。RNN不能简单算统计了。有一定的远程捕捉能力,词向量化后,具有一定的语意蕴含,当然这种计算一定有其上限,规则也可以编译到RNN,语料也可以学习成CFG。目标知识表示和获取知识的手段,是两个独立的问题。刚才一个群里说:我把指数卖了。这个就是沿知识图谱的延伸。其实说的是,把自己拥有的某指数的成分股卖了。知识图谱上的近邻,对于搭配都是有贡献度的。这在一定程度上,可以抵消数据稀疏带来的影响。无需本人亲自出场,亲戚也算,打点折扣。
我:结构分析拉近距离问题不大。黑箱搭配,譬如“洗澡”,距离再远,都好办。沿着parsing节点几级跳就跳到了。非黑箱搭配跳远的距离有一些限制,但是,不远的,句法就搞定。远一点的,扔掉就扔掉了,直到语用现场发现有这种必要。这时候语用的领域限制自然地可以有助,帮助把扔掉或曰休眠的搭配重新接上。
总之,除了黑箱搭配,其它搭配不是句法的必要条件。相反句法是做搭配的基础,如果想做的话。说搭配是句法分析的前提或必需,有相当的误导。这是把本来大部可以摘除出来的语义硬揉进了句法,其结果是吓到了胆小的,成全了冒险家。我们永远可以找到搭配帮助句法的例子,正如我们可以找到常识或专业知识帮助句法的例子。但这都不足以让系统本末倒置。
白:这会引出另一个话题:通用parser存在的意义。如果%90的应用都在向语义语用要潜力,为了10%的应用而拒绝一个举手之劳,图什么?更何况,这个举手之劳本身并不在语义语用层面,只是做了会对后续处理更有帮助而已。
我: 问题是远非举手之劳。据说可以先行offline统计习得,然后以适当形式词典化,然后才去与句法对接。对接的时候还要动态调整聚类宽松度。不是不可以做,而是,第一,绝非举手之劳。第二,也大部可以作为句法后语用前的中间件,而不是先于句法或必须与句法同步。
白: 对于poor句法,没有也可以。看追求了。反正工作量此消彼长。背着抱着,从一个局部看是一样的,从一个产业看不一样。
我: 不单是poor一个角度,还有一个轻装的角度,作为通用件。
白: 通用件是一个商业概念,不单纯是技术概念。一个http server是可以追求轻装,但含中间件的套件更卖钱。轻装的卖不出价钱。而且大家为了实现在搭配基础上的语义语用,还要自己重复发明轮子。站在一个产业角度想问题,这个举手之劳是值得的。况且,吃浅层老本和规模红利的年代正在过去,新型的NLP产业,没有深层的应用怎么好意思。搭配这件事,应该像输入法一样做成全网在线基础设施。谁都可以通过标准化方式调用,也可以个性化定制。
谭: 这应是一个产业,大家可公用。
我: Hownet 没成为产业,何以见得统计搭配资源可以成为产业?如果是国家资助,大学研究所参与,作为公益项目,还差不多。或者就是大企业开源,赚的就是个名声。facebook、谷歌能够开源ml和ai工具,也可以开源这些资源项目。
白: 不需要那么大的个头。它自身也不能成为产业,只是支持NLP相关产业而已。广义看和词典一样黑盒子,不过这黑盒子一头在外,就像输入法的外部词库一样。由外面的语料来决定和更新内容。



【相关】

【新智元笔记:搭配二论】 

【新智元笔记:汉语分离词的自动分析】

从 colorless green ideas sleep furiously 说开去

【置顶:立委科学网博客NLP博文一览(定期更新版)】  







http://blog.sciencenet.cn/blog-362400-954489.html

上一篇:有朋友的孩子要学天文、宇宙,镜某也是很矛盾
下一篇:【新智元笔记:搭配二论】

2 yzqts yunmu

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-4-16 01:59

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部