heruspex的个人博客分享 http://blog.sciencenet.cn/u/heruspex

博文

爱犯错的智能体 --- 语言篇:可塑与多义 精选

已有 12389 次阅读 2018-11-7 07:46 |系统分类:科普集锦| 人工智能, 机器学习, 自然语言处理, 认知心理, 图像处理

       人之初,性本善;性相近,习相远。苟不教,性乃迁;教之道,贵以专。昔孟母,择邻处;子不学,断机杼。窦燕山,有义方;教五子,名俱扬。养不教,父之过;教不严,师之惰。 子不学,非所宜;幼不学,老何为? 玉不琢,不成器;人不学,不知义。为人子,方少时;亲师友,习礼仪。---  《三字经》

        作为国学启蒙书籍之一,《三字经》在知识的简洁表达上做到了极致。聊聊数笔,人的性格养成、子女教育、礼义廉耻就言简意赅的表达了。在让人知道学区房重要性的同时,也反映了另一层事实,后天的学习可以帮助近乎“白纸”、最初相近的人类形成了多样性的“远”。

         从人工智能的角度来看,这种表述方式很符合1978Jorma Rissanen提出的最小描述长度原则(Minimum Description Length,常简称为MDL)。直观来说,就是在给定表达集合的前提下,产生最大压缩效果而又不丢失信息或知识的表达是最好的。虽然背后的原因可能是毛笔字太难写,能少写就尽量少写。反观现在流行的说唱,似乎可以称为最少时间描述,因为需要在最少的时间完成最大的信息量传递。

   虽然《三字经》强调学习的重要性,但关于语言是如何习得的,却没有涉及。

 一、语言学习的次序与可塑性

    对于新儿生来说,获得语言能力的时间比获得视听觉能力的时间要晚不少。在最初的2-3个月期间,新生儿最多会说些简单的象声词,会哭会笑。到七坐八爬的时间段,开始能理解大人的简单对话,尤其是当内容与新生儿可以接触到的物体相关时。但要学会说话,还得耐心地等到1岁半左右。2岁以后,才能发音或清晰或含糊的跟成人交流了。

   由此可见,在人类的智能发育中,尽管从出生开始就沉浸在相对单纯的语言环境中,儿童的语言习得却具有很明显的滞后性。这种滞后性一方面与声带练习需要时间有关,而这种练习可能是为了配合人类由粗到细学习模式、演化的结果;另一方面也可能与人脑在建构具体到抽象概念的认知结构的次序有关,即更抽象的语言学习需要建立在,能通过感官感觉到的概念的基础之上,如通过视觉、听觉、触觉获得的概念。

    在交流变为通畅后,儿童的语言学习就开始快步前进了,最后会进入稳定期,一如成人一样。不过并非年龄越大,学习语言的能力就越强。比如,在外语学习方面,有一个比较有趣的拐点错觉,即12岁以前学习外语往往被认为是黄金时期。夸张地讲,儿童在全英文环境下获得的英文提升能力的效率,大概是成年人在相同环境下的六倍左右。

   这似乎与直觉有些相悖,因为成人的学习能力、学习方法、注意力都能做得更有效。但是,儿童学习外语的优势恰恰又在于这个弱势,即他仍处在一个没有完全把母语的语言结构固化的阶段。由于没有固化,就不容易受到母语的影响,就有可能形成两个相对更独立的语言认知模型。反观成年人的外语学习,多数人在阅读英文文献时,可能都会下意识地先在大脑里翻译成中文再去找对应的英文意思。结果,成年人要完全脱离母语去思考英文就需要更长的调整时间。这说明成年人的多语言结构中母语具有更强的优先级,且对新语言的学习会形成明显的干扰。而儿童的母语结构的优先级则不明显,因而在语言学习时有更强的可塑性。很有意思的一点是,这种可塑性是在构造由粗到细的学习模式的中段而非终段发生的。

   如果比较下当今人工智能对新模式的学习策略,就能发现,多数是在模拟终段的学习。不管是零样本学习(zero-shot)、少量样本学习(few-shot)、迁移学习(transfer learning)还是领域自适应(domain adaptation),它们都假定了有某一已知的、(接近)固化的结构在其中,或是分布、或是几何结构、或是其它某种假设。如果能研究下人类智能中段的学习模式,说不定能让目前极容易固化的机器智能得到更强的可塑性。 

二、语言学习中的整体与局部认知

语言学习有其基本的规律,首先要学会的是识字。儿童识字的过程是从看图说话开始的,读书是从图画书逐渐过渡到少图甚至无图的书籍。这说明了具体与抽象的匹配在人的前期认知建构非常重要。那人在识字时是如何记忆每个字符的呢?

一种可能是基于由粗到细、由整体到局部的记忆模式,因为这与人的视觉发育机理吻合。可以用来佐证整体记忆的例子是如下的乱码阅读:

The nghit bferoe lsat,jsut berofe dnienr, wihle my ftaehr was lkooing trhugoh the envenig pepar,he sdduelny let out a cry of srpusrie. Letar he epxinaeld: 'I had tohhugt taht he had deid at laset tewtny yares ago. But can you bleeive taht my fisrt tcheear, Mr. Crossett, is sitll liivng? '

这段文字选自曾经的某中学英语高中第二册第一课。打乱字母次序后,看上去很混乱,但稍微懂点英文的,应该能不太费力的将每个拼错的单词自动纠正,并把全文正确读出来。它表明人在记忆英文单词或句子时,会优先进行整体认知。只要单词中的第一和最后一个字母次序保持不变,人就可以准确识别。整体认知的情况在汉语中同样存在。不妨阅读下面这个句子:

研表究明,汉字的序顺并不定一能影阅响读,比如当你完看这句话后,还没发这现里的字全是乱的。

显然,只要没改变每个短句的第一和最后一个汉字,相邻字的次序交换也不会影响阅读和对句子意思的理解。整体认知也能解释惯用简体字的国人为什么能比较轻松地识别多数繁体字。因为多数情况下,繁体字与简体字的字型是相近的。甚至当汉字产生字体变化时,如楷体、宋体、行书,基本也不影响人对汉字的理解。当然,“医生体”除外。

另外,整体认知也方便人识别和记忆未知的汉字。当识别结构相似、发音也相同的汉字时, 如“喽”和“楼”,“景”和“憬”,“援”和“媛”时,就能够快速地获得正确的发音。如果观察儿童早期的文字识别,可以发现,当他们遇到不认识的字时,会在大脑中寻找相似字型的字来匹配,并推测未知字的发音。但当遇到结构相似、发音不同的汉字时,如“锦”和“绵”、“流”和“毓”、“途”和“徐”,则可能形成错误推广。这些错误和正确的推测,表明儿童在建构语言记忆模型时,可能会将字型结构类似的字放在相近的记忆模型中,以提高学习的效率。 

三、语言断句和释义的歧义性

认知心理学的分支之一、格式塔心理学强调了整体认知的重要性。然而,这一理论目前还没有形成太好的量化机制或程序化方法来,它使得机器对需要整体认知的问题还一筹莫展。除此以外,语言的歧义性也使得人类在语言理解上,较机器更灵活和智能,甚至多了些茶余饭后的文字游戏。如以下示例:

1、自然语言处理领域常用来示例的歧义句:

        南京市长江大桥   南京市/长江大桥还是南京市长/江大桥

 2、最近网络中流传的两个段子:

      1) 改编自金庸的《神雕侠侣》:

来到杨过曾经生活过的地方,小龙女动情地说:“我也想过过过过儿过过的生活。”

 2)  “行”字句:

人要是行,干一行行一行,一行行行行行;

要是不行,干一行不行一行, 一行不行行行不行

3、古诗新解:唐代诗人杜牧的千古名作之一、七绝诗《清明》:

            清明时节雨纷纷,路上行人欲断魂;

            借问酒家何处有,牧童遥指杏花村。

       如果不按古诗的格式、而是按散词的形式来断句,就会多一层俏皮的感觉:

            清明时节雨,纷纷路上行人,欲断魂。

            借问酒家何处?有牧童,遥指杏花村。

      不仅如此,我们还可以将此诗改写成微型独幕剧:

            时间:清明时节

           天气:雨纷纷

           主要人物:路上行人

           精神状态:欲断魂

           台词:借问酒家何处有?

           另一主要人物:牧童

           动作:遥指

           台词:杏花村

        可见汉语在语意表达上是相当丰富的。汉语的多义性让这类例子已不胜枚举,再看两例同义/反义和多义的例子:

         1、同义/反义:

         当中国女排获得世锦赛冠军时,媒体既有“中国女排大胜美国女排”,也有“中国女排大败美国女排” 报道,那到底是大胜还是大败呢?

         2、多义性:

         上司:“你这是什么意思?”小明:“没什么意思。意思意思。”上司:“你这就不够意思了。”小明:“小意思,小意思。”上司:“你这人真有意思。”小明:“其实也没有别的意思。”上司:“那我就不好意思了。”小明:“是我不好意思。”

         请问以上“意思”分别是什么意思?

         这些都是机器理解中文自然语言的难点,而国人因为有背景知识的支持,理解起来就相对容易些。 除了语言自身的特点,视听觉系统也会对语言的理解有着重要的作用。 

四、视听觉对语言的影响

         俗话说“千言不如一画”,对于视觉优先的人类而言,图画能提供更丰富和具体的信息。可是,如果语言搭上图画的包装,将字面的意思用图画的形式表述出来,那即使是人,也得思考半天才能理解语言的意思。比如根据苏轼的一首诗《晚眺》来书写的图1。原文是:

         长亭短景无人画,老大横拖瘦竹筇

         回首断云斜日暮,曲江倒蘸侧山峰

1则将诗中的形容词“长、短、大、横、瘦、断、斜、曲、倒、侧”等通过视觉的方式融入到诗里的名词中,让原本已经很美的诗更加添了一丝画面感。

Picture54.png

1 苏轼的《晚眺》

         要让机器来理解这种有画面感的诗,需要分析字体的大小关系、方向性、断字情况、反向书写、局部字体变化与诗词的关系。这些无形中加大了机器处理语言的难度,更不用说理解字画的意境了。

    不仅视觉能影响人对语言的理解,听觉也能影响。同样的语句,重音不同,想强调了的内容就差不少 。比如:

         明天别忘了带笔记本电脑去单位!

         如果重音在“明天”,则是强调时间;如果在“别忘了”,则是强调记性;如果在“笔记本电脑”,则是强调带的物品,如果在“单位”,则是强调要去的场所。

    可见视听觉的融入会不同程度地影响对语言的理解,导致机器分析的难度上升。

五、语言与音乐的循环游戏

    除此以外,对语言的巧妙设计还能衍生出不少有趣的结构,如回文诗。汉语回文诗有很多形式,如从诗的末尾一字读至开头一字可成新诗的通体回文、下一句为上一句回读的双句回文、每句前关句与后半句互为回文的就句回文、诗的后半篇为前半篇回复的本篇回文、先连续至尾再从尾连续至开头的环复回文等等。

    虽然什么时候开始有已无从考究,但从古诗词中可以找到不少回文诗。举例来说,传说北宋时期,苏小妹与长兄苏东坡六月荡舟西湖时,收到她丈夫秦小游捎来的、如图2的叠字回文诗书信,“静思伊久阻归期忆别离时闻漏转静思伊”。

Picture55.png

2 秦少游的连环诗《相思》

苏小妹冰雪聪明,很快便悟出其中奥妙,将诗解读出来:

        静思伊久阻归期,久阻归期忆别离。

        忆别离时闻漏转,时闻漏转静思伊。

并回诗一首“采莲人在绿杨津一阕新歌声濑玉采莲人”。苏东坡见状,不甘寂寞,也即兴提笔赋诗一首“赏花归去马如飞酒力微醒时已暮赏花归”。

   比较类似的回文诗是明末浙江才女吴绛雪写的四首《四时山水诗》,均是由十字组成的辘轳回文诗。其中,春景诗由“莺啼岸柳弄春晴夜月明”解读为:

   春景诗:

     莺啼岸柳弄春晴,

    柳弄春晴夜月明。

    明月夜晴春弄柳,

   晴春弄柳岸啼莺

而夏景诗“香莲碧水动风凉夏日长”、秋景诗“秋江楚雁宿沙洲浅水流”、冬景诗“红炉透炭炙寒风御隆冬”均可通过上述方式解读成诗。

    宋代李禺写的夫妻互忆回文诗《两相思》也很有意思,正着读是《思妻诗 :

   枯眼望遥山隔水,往来曾见几心知?

   壶空怕酌一杯酒,笔下难成和韵诗。

   途路阻人离别久,讯音无雁寄回迟。

   孤灯夜守长寥寂,夫忆妻兮父忆儿。

   倒过来读就变成《思夫诗 》了:

   儿忆父兮妻忆夫,寂寥长守夜灯孤。

   迟回寄雁无音讯,久别离人阻路途。

   诗韵和成难下笔,酒杯一酌怕空壶。

   知心几见曾往来,水隔山遥望眼枯。

   清代诗人李旸写的诗《春闺》则是一首通体回文诗:

   垂帘画阁画帘垂,

   谁系怀思怀系谁?

   影弄花枝花弄影,

   丝牵柳线柳牵丝。

   脸波横泪横波脸,

   眉黛浓愁浓黛眉。

   在英文中,也有很多回文,称为Palindrome。如用来纪念美国前总统西奥多.罗斯福在任内取得巴拿马运河开凿权的句子”A man, a plan, a canal-Panama!” 就是典型的回文,正反都是一个意思。

    我们甚至在音乐作品中,也能见到回文的影子。如巴洛克时期著名的德国作曲家、管风琴演奏家巴赫(Johann Sebastian Bach1685321日-1750728日)的作品《音乐的奉献》(英语:The Musical Offering; 德语:Musikalisches Opfer,  BWV 1079)中的“Thema Regium”(“国王的主题”) [1]。首曲子源自于巴赫与腓特烈二世在174757日波茨坦国王住处的一次会面。因为巴赫的作曲很有名,国王席间便为巴赫提供了一段长而复杂的音乐主题,命他作首三声部赋格。完成后,国王又让其作首六声部的。巴赫回家两个月后,便完成了国王的任务,称为《音乐的奉献》组曲。其中“国王的主题”很特别,它的旋律即可以正着演奏,也可以逆着演奏,且可以将正的和逆的作成两个声部同演奏,因而叫“像卡”。因为这样的旋律走向很像螃蟹走路,也将其称为螃蟹卡农, 而非回文的命名。还有人把这种旋律看成是一种莫比乌斯带上的循环。据说巴赫业余时间喜欢读他同时期的、但已声名大震的数学家莱布尼兹的著作,说不定他这种数学味很浓的组曲的灵感来自于莱布尼兹,因为后者曾说过“音乐是数学在灵魂中无意识的运算”。

 Picture56.png

Picture57.png

3 《国王的奉献》乐曲片断和二声部乐曲 

螃蟹卡农链接:https://v.qq.com/x/page/l0616bmt8hk.html 

         所以,研究语言在儿童期的学习过程以及与视觉、听觉相关目标的学习次序,可能对于我们构建真正的智能体是有启示性作用的。我们是否应该一开始就从高层语义的语言着手来设计智能体,还是应该按金字塔式的结构,对视听觉及其他感官系统的构建给予更高的优先级呢?而能否将文字游戏中隐藏的各种奥妙解开,也许是真正理解语言的途径之一。

         如果不看、不听、不摸、不说,智能体还能学习吗?请听下回!      

 

参考文献:

侯世达著,郭维德等译. 哥德尔、艾舍尔、巴赫:集异壁之大成.  商务出版社,1996.

 

张军平

2018116


延伸阅读:

17.  爱犯错的智能体 – 体感篇:我思故我在?

16.  爱犯错的智能体 --- 听觉篇(二):视听错觉与无限音阶的拓扑

15.  爱犯错的智能体 -- 听觉篇(一):听觉错觉与语音、歌唱的智能分析

14. 爱犯错的智能体 – 视觉篇(十一):主观时间与运动错觉

13.爱犯错的智能体 -- 视觉篇(十):自举的视觉与心智

12. 爱犯错的智能体 -- 视觉篇(九): 抽象的颜色

11.  爱犯错的智能体--视觉篇(八):由粗到细、大范围优先的视觉

10. 爱犯错的智能体 -- 视觉篇(七):眼中的黎曼流形

9. 爱犯错的智能体--视觉篇(六):外国的月亮比较圆?

8、爱犯错的智能体 - 视觉篇(五):火星人脸的阴影

7、爱犯错的智能体 - 视觉篇(四):看得见的斑点狗

6、爱犯错的智能体 - 视觉篇 (三):看不见的萨摩耶

5、爱犯错的智能体 - 视觉篇 (二):颠倒的视界

4、爱犯错的智能体 - 视觉篇(一): 视觉倒像

3、AI版“双手互搏”有多牛? 浅谈对抗性神经网络

2、童话(同化)世界的人工智能

1、深度学习,你就是那位116岁的长寿老奶奶!

zjp.jpg

张军平,复旦大学计算机科学技术学院,教授、博士生导师,中国自动化学会混合智能专委会副主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证及智能交通。至今发表论文近100篇,其中IEEE Transactions系列18篇,包括IEEE TPAMI, TNNLS, ToC, TITS, TAC等。学术谷歌引用2800余次,ESI高被引一篇,H指数27. 



https://blog.sciencenet.cn/blog-3389532-1144952.html

上一篇:爱犯错的智能体 – 体感篇:我思故我在?
下一篇:爱犯错的智能体 (十六):庄周梦蝶与梦境学习
收藏 IP: 202.120.234.*| 热度|

4 章忠志 黄永义 张鹰 陈德旺

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-28 17:12

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部