|||
笔记要点:很大程度上,汉语是一种 “裸奔” 的语言,思维到言语是直通道,连内衣都懒得穿。
RW: 如果人工智能要在汉语语境中开花,需要全新的语言学理论体系。
很多人说需要理论突破 才能搞定汉语,这个听起来似乎很有道理。但是实际上是不现实不作为的。我专门写过博文,评论和批评这个观点:《迷思之三:中文处理的长足进步有待于汉语语法的理论突破》。
我想说的是,理论突破自然好,但是不能指望。在没有这种突破之前,我们能不能搞定中文的大部?回答是肯定的。
”集近30年NLP经验,可以负责任地回答这个问题:西文处理的机制和手段对于中文处理大多是适用的、可行的,也许有不够用的时候,需要机制的拓展(not necessarily 理论的突破),但总体而言是用得不够,是不会用、不善用的问题。语法虽然因语言不同而不同,但NLP武器库里的轻重火器大多是独立于具体语言之上的(language independent)。俗话是语糙理不糙的:拉不出矢,不能怪茅坑。“
RW: 中文的信息量并不全然依赖上下文,方块字本身原来是非常有系统的,只是由于简化,慢慢削弱。
其实已经证实了,因为我的中文 parser 的质量几乎可以媲美英文 parser。而后者是研究多年,很深很透了,也有很多现成的资源。
RW: 需要有数学概率证明。什么叫"大部"?
就是85%或以上准确率,已经达到英语类似的可用程度。后去就是 incremental enhancement。 框架上并不需要理论的突破。
RW: 英语的benchmark 是多少?over 85%? 你的sample size 是多大?
英语近 90。一万句左右,对于 parsing 是足够了,因为 parsing 是密集型,不是 sparse data。
RW: 因为,中文的常用语出现的频率可能完全不同于英文,所以统计口径会误导?
如果是抽取,可能有 sparse data 的问题,而 parsing 不同,每个句子都有 SVO 等。
Parsing 的 benchmark 其实有 900 句就差不多了。当年 VOA 之所以出了一个 《English 900》,就是因为研究者认为 有这个数量的级别基本语言现象和句型就大体一网打尽了。再增加 size 也不过就是增加冗余句例而已。然而,为保险计,我们还是用了比 900 多了一个数量级的 size。
RW: 如果真的是达到如伟哥所说的水平,能否说中文对于handle modernity 的能力,不弱于西文?当然,however, as Chinese, we are different.
什么 modernity?
RW: 指所有现代社会的技术,挑战等等。
Parsing 是 NLP 的纲,纲举目张。没有 parsing,就谈不上结构分析,谈不上自然语言理解和人工智能。没有 parsing,一切在表层进行,就难以抽象概括,找不到句型模式,抽取挖掘很难高效精准,也欠缺领域的移植性。Parsing 这个问题是革命的根本问题。幸运的是,parsing 在实践中可以认为是已经解决了的。这一点是可以拍胸脯的,有实据的。
RW: 那伟哥认为中文要优化哪几点,可以真正走出国门,成为现代通行语言之一?
我说的是NLP和parsing,你说的是语言推广,乃至文化侵略。两码事儿。我对中文走向世界不感兴趣,也不看好。
RW: 不要叫文化侵略嘛
为什么要推广 ?我们已经深受英语推广之苦了。为了那个破英语,不知道耗费了我们一辈子多少精力和时间。就是因为它财大气粗,我们不得不学。
RW: 我能体会的是,西方语言学起来,效率超高。为什么?因为逻辑。中文在国外举步维艰。
如今中国也暴发户了,因此中文也越来越吃香,遍地孔子学院。很多高鼻子也来中国学,说的一口汉语,《非诚勿扰》电视真人秀中常见。
RW: 孔子学院没什么戏
这是好事么?我不以为。
RW: 没什么不好。但他们能不能写中文?另一码事
我们屈服于财大气粗和功利的考量,不得不牺牲大好青春的美好时光去学那劳什子英语。同理,如今有些大鼻子们不得不学更加繁难的汉语。心底是同情他们的。他们比我们付出的辛苦更甚。有这个时间学什么不好,enjoy life or reading 多好。总之,我不赞成中文走向世界。
RW: 这是我们的命,因为英文主导了世界。但不是一件坏事。两百年前,你可能要学法语。五百年前,拉丁语。一千五百年前,伟哥要学古希腊语。
不希望中文变成全世界的下一个必修课,真心不希望,太残酷了。
RW: 这也不是我的aspiration, 只是问一下。因为,这里小孩学中文,太痛苦了
汉语太灵活 ,文法太宽松,靠的是上下文和逻辑在管,而不是靠严格的文法规则。在汉语,不用显性形式的裸奔式话语太常见了,以至于有人声称汉语无文法。我以前的博客这一段与今天谈的话题密切相关,放在这里:
回到功能词上看,譬如介词连词,虽然英语有的,汉语基本都有,但是汉语省略功能词的时候远远多于英语,这是有统计根据的,也符合我们日常的感觉:往坏里说,中国人比较偷懒,说话不严谨;往好里说是,中国人很懂低炭,能省则省,汉语很灵活。举一个例子,可见汉语的省略是普遍的:(1)对于这件事,依我的看法,我们应该听其自然。(2)这件事我的看法应该听其自然。上述句子(2)词对词译成英语不合文法,省去功能词是难以想象的,可汉语对使用小词却没有严格的文法要求。这种缺少形式化手段的所谓汉语的“意合”式表达方式确实使得中文的电脑处理比英语处理困难。
这只是问题的一个方面,是从量上考察,即汉语的表达比英语往往更省略,更不严谨,更需要上下文。问题的另一面是从难点的性质上来看,中文处理遇到的问题究竟有多少是英文处理中没有遇到过的?我的答案是:很少很少。很多歧义问题省略问题,英语同样存在,只是不如汉语那么普遍而已。既然问题的性质基本相同,处理问题的机制和手段就同样适用。逻辑的结论就是:英语处理领域积累的经验和手段在中文处理中大有可为。如果有核武器攻下了英语这个堡垒,就没有道理攻不下汉语。
白: 西方小孩在中国长大学汉语就没有问题。所以不在于逻辑上强还是弱,而在于逻辑是否与语言强绑定。中国人学推理并不差。
RW: 语言界有人认为,正是因为中文的模糊性,所以才得以保存下来了。那些小孩说都行,一写就完蛋。
儿童的语言能力可以适用任何语言,这个是明确的结论,有丰富的证据了。跨族世界语者结婚,坚持家庭使用世界语,父母说的结结巴巴,可是孩子的第一语言是世界语的时候,却是流利的。
RW: 中文是容易听和说的语言?
问题是,作为第二语言, 特别是过了语言学习最佳年龄的时候,语言之间的难易还是显然的。中文肯定是难过多数印欧语言,因为文法不清晰,规定太灵活。世界语肯定是最容易的,没有之一。
RW: 所以,我们国内有时候用ABC, 客户看他们写的报告,都很晕
白: 西安人学普通话比东北人容易。从听觉上,东北话更接近。所以学习的容易与否,不在听觉上距离多远,而在于有多少东西是一一对应的。多就容易,少就难。
RW: 另外,我的观察是,语言对小孩逻辑能力的培养,起很大的作用
白: 东北话不需要区分的,普通话需要区分,这就破坏了一一对应。
RW: 是不是西安人的语文成绩要好于东北人?有没有大数据验证一下?
白: 像我刚才说的“看”,“看书”的看,“看电影”的看,“看球赛”的看到了英语里,甚至到了大多数印欧语里,都不相同。
RW: 方言和标准汉语的契合度?及与小学生语文成绩的关联度?
白: 学语言都难在这些长尾上了。不用看成绩,看语音体系就知道了。
佳: 我覺得困難在於不對應的地方唉
白: 东北人分辨平舌翘舌,要一个一个记。
RW: 嗯,但中文里为什么有不同的量词?而西文里却不多?
佳: 荷蘭人學英語容易,英語母語學荷蘭語卻很難
白: 量词提供附加信息,比如“张”是两个维度大一个维度小,“根”是两个维度小一个维度大,“块”是三个维度差不多大。
佳: 因為中文很少有量的變化,所以需要量詞吧?
RW: @wei 你在parse 中文时,用不用involve 繁体字的中文词根?我的假设是可以帮你在不依赖上下文时,解决很多中文歧义的难题 我的外行话了
白: 也有的量词看起来完全是习惯性的,比如“匹”。繁体字字根也不都会意
RW: exactly, 所以要搞明白我们中文的信息量的分布,是不同于西文的。
繁体字不是语言的问题,是文字encoding的纯技术问题,一般而言。台湾国语与大陆普通话基本是一致的,
就是词汇的部分有所不同。如果繁体字指的是文言,那当然需要更多的工作。
白: 也有根语音有关的。当语音、文字都发生变化了的时候,反而会困惑。
RW: 但是繁体字的系统性远远超过了简体字
白: 比如繁体字的“條”让我困惑很长时间。
RW: 但我的感觉是无论台湾大陆,大家都用西语的nlp来处理中文
作为formalism,nlp 没有啥西语中文的,NLP 就是一个方法而已。Chinese NLP 就是 NLP 用于 Chinese 处理。NLP 平台和工具是超越具体语言的。
RW: 白爷的繁体 条 可能已经被简化过
白: 后来才知道,从木(义)从攸(声)。一开始是攸在上木在下,发音类似攸。后来单人旁站了上风,发音也类似摇了。再后来简化为条。
RW: 伟哥,所以我那天问你 语言形式之于文言和白话,到底有和本质区别?所以,空穴不来风。中文到今天这个样子,不是偶然的。如果理解了它的来龙,可能对处理中文会有很大帮助。 一己之见
语言形式在文言中几乎都是隐性的(依靠分类),除了少量的文言虚字(显性形式)外。文言是最典型的孤立语,就是缺乏显性形式的语言,文言虚字也数量极有限。
RW: 中文的演进,看来很复杂,途径有形,声,意 。。。不像西语,相对简单。但是,如果抽象来看,应该有可比性
现代汉语,小词比文言虚字更加丰富,加上词汇的多音化,减少了词汇歧义。因此现代汉语变得更加 tractable,更加严谨。 显性形式(小词)用得也更多。
RW: 显性是一个很关键的key word, 从 UI 的角度看,它大大提高了可操作性 usability
懂文言的好处是可以加深现代汉语中合成词构词的开放度和随意性的理解。这种开放性的构词法,需要规则去应对,因为很难枚举。当然,统计上频次高的总可以扔到词典里去,可是还是需要一些规则去兜底,以应对国人的 ”生造词“。
白: 其实,无论汉语英语,在语言谱系里都是毛毛虫。没有本质区别,但是,把装卸部件完整卸下来,需要理论指导。
RW: 没错。但是他们是趋势
特别认同白老师的毛毛虫说,也认同英语汉语本质差别不大。
虽然语文老师不提倡,但是生造词是国人的天性,而且生造出来,大家基本都懂。换句话说,现代汉语的生造语词实际上是在当代重复了汉语词汇演化的历史。二者是相通的过程:合成词。
RW: 对的,所以后台需要强的操作系统,因为 front end 简单易行了
白: 比如,离合词远距离相关,就需要隔着距离逆着顺序还能把它们看成一体的形式化机制, Ngram是看不出来的, 简单的CFG也是看不出来的。
RW: 中文合成词,取决于中文的模糊性,或者兼容性
离合词的机制与英语的短语动词的离合性的处理基本是同一个需要,同一个机制可以妥善解决二者,说到底是建立一个句法与词典有机交互的接口。
倒是汉语的重叠词机制,AABB,ABAB 之类需要的支持是英语基本不需要的。传统的有限状态不能应对,因为重叠需要在匹配阶段有某种 variable unification 的功能。这是 FSA 教科书上没有的机制。
白: “明白明白”和“明明白白”不一回事
可是上次我说了,聪明的工程师除了死人不能变活以外,啥都能满足你。所以在 FSA formalism 加上 unification 匹配,也是小菜一碟。
RW: 明白明白是日本鬼子的话
白: 谁说的,“今天让你明白明白”,地道的本土表述
RW: 你的 明白明白?
有了机制的拓展,那就可以捕捉“明白明白”和“明明白白”的区别,这是语言学家的工作。要怎么区别就怎么区别,就是匹配了以后的结论不同而已。
RW: 所以说中文是 context aware,
最严谨的语言是不依仗上下文的,把本来反映上下文关系的信息浓缩为语缀,做到词里面去。这样就把句法的问题简化成词法的问题,句法的宾语关系简化为宾格语缀的问题。这样一来,语言就冗余了,也严谨了,因为从思想到语言的路上不是裸奔,而是穿了很多语言学的衣服。当然,上下文还仍然在那里。但那是辅助的、冗余的。
RW: 问题是象形文字,这样整合语法为词法,是不是效率太低了?不是不可行,是效率低。
但汉语不同。思想到语言太过直接,怎么想就怎么说,几乎就是裸奔,光着脚丫,连语缀的袜子都不穿。小词也尽量省略,语序也在大限度内尽量自由,几乎是随心所欲。结果是,对于上下文的依赖就严重,信息冗余度太小。遇到歧义就不好办,因为没有冗余度帮助消歧。
白: 这里面一定有不裸奔的窍门,比如虚拟语态,“换了我”可以清晰地表达“if I were you”,正是因为不可能换了我。汉语就取巧了。
这种取巧从统计上是可以找到痕迹的。
Were I you 也是可以的。问题是,“换了我”是歧义的,一方面他几乎是固定表达法,表示虚拟,同时它也是正常的非虚拟的动宾结构: ......换了我以后也没啥改变。这就是汉语的毛病,歧义性大: “他以为让我下岗就万事大吉了,哼,换了我以后也没啥改变”。但是本质上的歧义还在 overloaded expression。
而加了小词 if(or ruguo),歧义就没有了: If I were you 和 如果换了我
国人投机取巧惯了,有点积重难返。一个语言本身就没有多少显性形式,还喜欢投机取巧,能捷径就捷径,能省略就省略,能语序自由就尽量自由。简直就是把概念不加包装就倒出来,然后指望听者可以从上下文中领悟。说话者倒是痛快了,简洁经济;听话的人不免受苦。这就是国人说汉语。德国人绝不会这样,他们会穿上西装革履才出场。
RW: 所以,英文多了一个if, 但它并不是必须的。中文少了一个if, 但却会导致歧义。”如果“这个词,是在逻辑学里很重要的!如果不用,分析能力会打折扣。德文一般会比英文更"严谨"。但是太累赘!语义表达的效率不高。
譬如,形容词挨着名词,当然与名词有关系,可是德国人还是不厌其烦地确保名词和形容词的性数格一致。这种繁文缛节的确不简洁,但是它保证了在上下文不够清晰的时候,关系还是不错的。所谓严谨就是体现在少数的场景。表达的清晰性凸显了,打不了马虎眼。写使用手册、写逻辑的人都有这个体会。用汉语不如用德语严谨是公认的,道理就在这裸奔与穿衣之别上。严谨的语言,显性形式特别是语缀丰富的语言,是把错误和歧义的空间缩小了。
RW: 所以,英文是个很好的平衡。
佳: 英語的純虛擬好多受教育不好的貧民是不用的。邏輯思維還是體驗在思維層次上。
RW: 同意。我有时候的确惊讶于德文表述的准确性!这方面,它的 冗余反而提升了语言的表达效率!
白硕: 这就是“轴”
佳: 但是中文似乎相反唉. 官僚文本盡量模棱兩可,彷彿是故意的。
RW: 但是,如果使用汉语时不裸奔,我可以达到同样的准确度。一样严谨。
是,不裸奔的办法,就是鼓励不要省略,尽量多用小词,介词特别重要,书面语一直这么提倡。哪怕省略了意思似乎不变,也不要裸奔,还是加上介词的外套, 显得体面多了,绅士多了。可口语就没办法了。
RW: 省略只是表面现象,问题是出在潜意识思维上。习惯裸奔的人,逻辑思维的系统化和结构化一定差。
不过 一般而言,作为显性形式,介词还是不如语缀。介词有点类似前缀,功能相当于表示”格“的词尾后缀,可词尾(inflection)除了格外,还表示性和数,动词词尾能表示时、体、态等,丰富多了。介词是单个的,一般不叠加,而语尾却可以叠加一系列句法范畴的表示。因此还是 morphology 丰富的语言更加严谨,信息更加冗余。而偏重小词的语言则没法在这点上相比。
RW: 所以,在沟通上,短期取巧,有efficiency gain. 中长期,一定落败。
佳: 裸奔是啥意思?
裸奔就是概念语词直接喷出来, 不穿显性语言形式的外衣,譬如不加语缀,不加小词,也不怎么管语序。好像一种意识流(作为文学语言的实践,王蒙当年有意把意识流推向极致)。国人心直口快,擅长裸奔,来不及穿衣服。本来是要这么说的:”对于这件事,依我的看法,我们应该听其自然。“ 不穿衣服,裸奔就成了这样: ”这件事我的看法应该听其自然。“ 听起来也很地道,简洁自然。但是增加了理解的难度。
RW: 文言文是否可以稍微减轻裸奔的冲动?
文言文的本质就是裸奔。它除了极少量的文言虚字外,没有显性的形式可以利用。衣橱里面空空如也,你叫它不裸奔 还能怎样?缺乏显性的形式是文言文的致命弱点。因此需要训诂,需要注解,十个人有十个人的解读。太多歧义,当然欣赏朦胧美的人 不觉得是缺点,要的就是模糊。浑水好摸鱼。圣人的话,想怎么扭曲就怎么扭曲。
佳: 哈哈,剛想說文言文就是浴袍一樣的東西
RW: 中文之于今日,可能主要是因为草根的驱动,所以,我们没有 管理好从文言文到白话文的转型?
RW: 伟哥翻译过 道德经 吗?有哪些歧义的可能性?
道德经太高深模糊, 我不懂。
佳: 父在母先亡
這個例子最好,算命先生專用,不敗之地
如果穿衣了,就没这个问题。譬如 加上一些小词:”父还在母就先亡了“。
这些都是外套, 穿上了就不用裸奔了,不需要印象派解读了。
佳: 主要是“在”的多義,多用, 英文也有唉。
”父在母之前亡“
小词是: 在。。。之前,这是前置词和后置词的框式结构,非常漂亮的显性语言形式,可惜该用时并不总用,常省前省后,甚至全省略了不用。国人爱裸奔,几乎无可救药。
佳: He hit the man with a stick,Attachment ambiguity都有
结构歧义各个语言都有, 但是程度大不同。
又神侃了不少,今天的语言裸奔论就到此,谢谢参与和互动。
RW: 充实了我很多想法 谢谢伟哥!
白爷提到的那个 轴,可以类比我们的 "道"。
【相关博文】
泥沙龙笔记:漫谈语言形式 2015-10-03
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 22:04
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社