《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 精选

已有 8431 次阅读 2016-2-14 23:09 |个人分类:立委科普|系统分类:科普集锦| NLP, parsing, 多语言, 句法树, 解构分析

【立委按】腥风血雨的中外股市震荡,并不能遮盖科技革命对人类生活的震撼效应和光芒。最近科学和技术领域分别出了两个大事件:一是科学界用LIGO探测仪探测到了很多亿年前的黑洞引力波,为人类揭示宇宙奥秘开启了新的一扇大门(“我思故我在”:人类智力的有限不因宇宙的无穷而停步)。第二件是所谓VR(虚拟现实)技术的逐渐成熟,把人类从改变世界的幻想破灭中,拉回到虚拟世界的创造,其应用前景无可限量,风投界趋之若鹜(此乃“我感故我在”:庄周梦蝶,人生如波,虚拟现实,现实虚拟,终不过是体验的积淀而已)。还有一项不亚于上述两项科技突破的技术进步,自然语言的结构分析器(parser), 可能给人类带来同样的震撼与实惠。Parser为语言奥秘的揭示与语言理解的应用开辟了道路,这方面的技术不再是科学幻想,而是已存的现实。我们身在其中,有责任为大数据时代的parsing技术的来临和潜力多做科普宣传。

快餐文化的信息时代,没有重复和冗余,就没有信息传播,哪怕是冒着审美疲劳的风险。从五年前发的关于英语汉语Parsers研发及其体验的小品文如 科普小品:文法里的父子原则【立委科普:语法结构树之美】【立委科普:语法结构树之美(之二)】至今,林林总总已有百多篇,有些重要的论点和有趣的illustrations似乎在即兴的随意文风里湮没了,已经回答过的问题不断被重新发现和以不同角度解答。如今,英语分析器大功告成汉语parser也到了登顶的最后冲刺,我自己钟爱的世界语也已到位,指挥上马的其他欧亚主要语言(德法意荷俄、西班牙、葡萄牙、土耳其、阿拉伯,日韩越泰、菲律宾)也在路上。专此科普,是为分享解构语言奥秘的喜乐:汗水多于创造,欣慰多于豪迈,前景一片光明。


一、开场词


引用
如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。


摘自:立委科普:语法结构树之美



二、语言的奥秘:解构

话说这语言学里面有一门学问叫文法。学文法简单来说就是学画树。各种各样形态各异的树,表达了语言的多姿多彩,却万变不离其宗。奇妙啊。当年上帝怕人类同语同心去造通天之塔,乱了天地纲常,遂下旨搅乱了人类语言。印欧汉藏,枝枝蔓蔓,从此语言的奥秘就深藏不露。于是催生了一代一代文法学家,试图见人所不能见,用树形图来解剖语言的内部结构。
本来我们说话写文章都是一个词一个词往外蹦,这样出来的句子数学上叫线性一维。可这线性的东西到了文法家眼里就变了,一维变两维,线性变平面,于是产生了树形结构。


天机不可泄漏,泄漏者非神即仙。历史上有两位功力非凡的文法神仙专门与上帝作对,各自为语言画树,一位是依存文法大师,叫Tesnière(特氏),另一位就是大名鼎鼎的乔姆斯基(乔氏)。本文的树形结构表示法(representations)取长补短,乃是以特氏依存关系为框架,适当辅以乔氏的短语结构而成。本文所有图示均是我们研发的多语分析器对语句全自动分析而成。

       

乔神仙(Noam Chomsky)                        特神仙(Lucien Tesnière)

语言的奥秘在于,语句的呈现是线性的,而语句背后的结构却是二维的。我们之所以能够理解语句的意思,是因为我们的大脑语言处理中枢能够把线性语句解构(decode)成二维的结构:语法学家常常用上下颠倒的树形图来表达解构的结果。树形图分析法(sentence diagramming)也一直是语言教学的一个手段计算语言学家的任务就是模拟这个语言解构的过程,创制parser,使解构自动化。这个任务一直处于自然语言处理(natual language processing, NLP)领域的核心,但长期以来大多是科学家的玩具系统(toy systems),或局限于实验室的原型系统(prototypes),其速度(speed)、精准度(precision)、覆盖面(recall)和鲁棒性(robustness)都不足以在真实语料的大数据场景应用。而这一切已经不再是梦想,符合处理线速要求的高精准度和高覆盖面的鲁棒parsers已经是现实。这是大数据时代的技术福音。笔者设计并带领团队研发的多语parsers就已经大规模投入(scale up)社会媒体大数据的应用,帮助自动挖掘针对任何话题或品牌的舆情与客户情报。

三、分析器(parser)是语言技术的核武器

     自然语言理解(natural language understanding,NLU)的关键就是模拟人的理解机制,这套机制的核心是 parser,其输入是语句,输出是语法结构树。在结构树的基础上,很多语言应用的奇迹可以出现,如舆情挖掘,机器翻译,情报抽取,自动文摘,智能搜索,智能秘书,聊天机器人,心理疏导机,等等。

     对于看了树形图觉得眼晕的读者,不必明白细节,只要知道线性转成了平面就可以了,非结构转成结构乃是语言理解应用之根本以下图为例,我们具体分析一下语言结构分析的结果表达。 

     上图叫作依从关系树形图。直观地说,所谓理解了一句话,其实就是明白了两种意义:(1)节点的意义(词汇意义);(2)节点之间的关系意义(逻辑语义)。譬如上面这个例子,在我们的自动语句分析中有大小六个节点:【Tonight】 【I】 【am going to enjoy】 【the 【song】 Hero】 【again】,分解为爷爷到孙儿三个层次,其中的逻辑语义是:有一个将来时态的行为【am going to enjoy】,结构上是老爷爷,他有两个亲生儿子,两个远房侄子。长子是其逻辑主语 S(Actor) 【I】,此子是其逻辑宾语 O(Undergoer)【the song Hero】,父子三人是语句的主干(主谓宾 SVO),构成语句意义的核心。 两个远房侄子,一个是表达时间的状语(adverbial)【Tonight】,另一个表达频次的状语(adverbial)【again】。最后,还有一个孙子辈的节点【song】,他是次子的修饰语(modifier,是同位语修饰语),说明【Hero】的类别。

     语言为什么要结构化?盖因语言是无限的,但结构是有限的。本文所示的的全自动解构树形图,用于语言大数据,就为各种数据挖掘(包括舆情挖掘)提供了结构化的情报宝库。对于信息使用者,这就是不尽的宝藏。

     对于信息产品,语用语义是要的,但是语义可以临时抱佛脚,结构则不同。用工程的话说,就是,语言处理的时候面对的是海量文本,要做的是 offline indexing, 不适宜纠缠过细的语义语用,而是应该先结构化了再说,存到数据库去。在应用的层面,需要的是语用角度的语义(所谓信息抽取和文本挖掘)。这时候,做语义的条件已经成熟了。因为应用层面的语义一般是在一个特定的领域,或者为了一个特定的用场(产品),所以抽象层的语义纠缠因聚焦而简化,甚至自然化解了。结构化数据基础是满足语用需求做情报挖掘是质量保证。对于不可预测的情报需求,也可以直接对数据库的结构树进行在线即时检索,检索的时候加入适量的语义限制即可,这是下一代智能语义搜索引擎的并不遥远的愿景。这样的句法和语义分工,在工程上是合理的。可以说,结构化是语言理解应用之本,而parser是自动结构化的核武器


四、婀娜多姿,风情万种,上得厅堂,下得厨房

  本文所演示的各种树形图就是我们研发出来的文法机器人(parsers)自动生成的,虽然并非完美无缺,倒也风姿绰约。多语结构树没什么奥妙,大家的表达大同小异,都是秉承特神仙或乔神仙的体系。可是怎样达到这个结构,才是硬功夫。

       下面以乔姆斯基上世纪五十年代末引发语言学革命的名句 “Colorless green ideas sleep furiously” 为例,请读者与我们一同欣赏多语 parsers是如何透过千差万别的具体语言的词汇词法的排列,解构出类似的句法结构:



      我们每天面对的就是这些树木构成的语言丛林。在我的眼中,它们形态各异,婀娜多姿,变化多端而不离其宗(“语法”)。最关键的是,风情万种的结构丛林,已经不再是象牙塔里供人观赏的艺术模型,她上得厅堂,下得厨房,甚至对于随处可见错别字、不规范用法的社交媒体大数据,也一样适用。这是怎样一个语言奥秘的探测仪,她的作用和巨大潜力才刚刚开始!

       如今,英语分析器大功告成汉语parser也到了登顶的最后冲刺。登顶指的是分析器已经基本达到了人工分析的水平,好于多数人,略逊于语言学家。其工程定义是系统的提高已经不再具有统计学意义,进一步开发带来的是在预定阈值之内的 diminishing returns。多语方面,我自己钟爱的世界语业已到位,指挥上马的其他欧亚主要语言(德法意荷俄、西班牙、葡萄牙、土耳其、阿拉伯,日韩越泰、菲律宾)也在路上。专此科普,是为分享解构语言奥妙的喜乐:汗水多于创造,欣慰多于豪迈,前景一片光明。



【相关博文】


《泥沙龙笔记:漫谈自动句法分析和树形图表达》

科普小品:文法里的父子原则

【立委科普:语法结构树之美】 

【立委科普:语法结构树之美(之二)】

《新智元:有了deep parsing,信息抽取就是个玩儿》

泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 

 乔氏 X 杠杠理论 以及各式树形图表达法

立委随笔:创造着是美丽的

科研笔记:开天辟地的感觉真好

【立委科普:美梦成真的通俗版解说】

【征文参赛:美梦成真】

 Parsing nonsense with a sense of humor

 

【置顶:立委科学网博客NLP博文一览(定期更新版)】


weibo 留言:


杨静Lillian://@西瓜大丸子汤: “不适宜纠缠过细的语义语用,而是应该先结构化了再说,存到数据库去。” 所言极是!

王伟DL:谈谈我的看法:1.句法分析如能摆脱语义方面的信息走得很准很远的化,尽管走,系统也可不庞杂;而且准确的结构信息能帮助语义消歧,后续跟着用就是了。是否有些情况在没有语义信息参与,结构也确定不好,这时就不能拒绝语义,或者轻微语义。2.句法和语义是割裂分开走,还是双兔旁低走?取决于语言实际。
2月16日 10:02
王伟DL
王伟DL:文章写得非常好,通俗易懂,介绍全面,早点如此科普可省不少的重复解释。“速度(speed)、精准度(precision)、覆盖面(recall)和鲁棒性(robustness)”的确是考量parser的综合指标。多语种方面有这般的进度,还真是没想象到,一般来说基于规则的系统,移植性不是太给力,看来语言的共性是被抓到了
//@白硕SH:这个问题,从层次角度看和从操作顺序角度看是不一样的。从层次角度看,纯句法先于纯语义。从操作顺序角度看,部分语义信息可以写入词典,做到句法制导、语义筛选同步。另一部份语义信息须待整个句法分析基本完成,筛选范围才能浮现,只有这时语义筛选才能进行。“局部同步做、全局先后做”
立委_米拉
立委_米拉白老师所言极是!





人类首次探测到引力波
https://blog.sciencenet.cn/blog-362400-956184.html

上一篇:《新智元笔记:汉语使动结构与定中结构的纠缠》
下一篇:【泥沙龙笔记:从民科扯到五代机及其AI历史与现状】
收藏 IP: 192.168.0.*| 热度|

5 黄永义 章成志 陈辉 zjzhaokeqin yangb919

该博文允许注册用户评论 请点击登录 评论 (3 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-4 00:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部