《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

自然语言后学都应该看看白硕老师的“自然语言处理与人工智能”

已有 5882 次阅读 2015-4-2 23:35 |个人分类:立委科普|系统分类:科普集锦|关键词:白硕,自然语言处理,人工智能| 人工智能, 自然语言处理, 白硕

【立委按】白硕老师很酷,真地很酷,他的这个讲演娓娓道来,如数家珍,深入浅出,语言生动,特此转载推荐。中国的自然语言领域,白老师是让人仰望的一面旗帜。老马识途,他的很多看法我也深有同感,特别是下列语录,可以说金玉良言,字字珠玑。于我心有戚戚焉。

浅层的这种语言模型见效很快,门槛很低,基本上可以摆脱语言学家,工程师自己可以玩,有数据就可以玩,或者是标注,找一些中专生就可以玩。然而深层的语言学知识,有一些地方可能说不清楚,可能众说纷纭,但是浅层解决不了的问题,最终要通过深层来解决。

............

一般来说,我们对母语的认识分成三个阶段:第一阶段,碰见这些例子,都认为这是习惯用法,根本没有规律的,我们也不关心这个,我们的指标很好看。这就完了吗?可是实际的问题并没有解决。第二个阶段,规律是有的,但我们的母语就是特殊,我们只能使用特殊的东西把这些问题解决了。是有这么一个见招拆招的阶段,但是作用很有限。真正的能够进到最后一个阶段的人很少很少。这种人既熟悉了母语的特殊性,同时又知道这个世界上关于语言共性普适的进展,而且还能把二者融会贯通结合起来。这种人太少了,而且这种人跟我们的交流太少了,所以我们不知道他们的存在,更不知道去挖掘他们的宝藏。

经常有一种说法,说基于规则的系统是傻子,基于统计的系统是疯子。基于规则的系统,在规则不能覆盖的地方表现极其糟糕。基于统计的系统,因为很多模型现在只能做到浅层,深层的不知道怎么做,所以实现也只能做到浅层,有局限,又不知道自己的局限在哪,就出现了明明不知道的,没有自知之明了,大家一看就知道是笑话,但是他敢拿出来说。还有两个组合,一个是基于规则处理浅层语言模型的,比如做英语的词法的,词根的变换,还原等,是可以做一点但有限,油水不多了。

在自然语言处理领域,我感觉到一个不好的现象:厚此薄彼。我们看到,理工农医各类专业的领域专家是很受尊敬的,唯独语言学家不受尊重。不仅很多和自然语言相关的大型的项目里面语言学家的参与度很不够,就连谷歌的诺维格和语言学家乔姆斯基之间的争论也是很不友好的,语言学里面有很多宝贝,但是外面的人不认识,认识不到。那为什么自然语言处理还能这么火呢,我认为这里面一个原因是他们还在吃我所说的“规模红利”。当我的语料规模非常大、应用面非常广的时候,即使是浅层,也能做出很好的效果来,为一些处理到浅层就够了的应用提供了很好的支持,所以会有这样的现象。但是另一方面,深层的玩法并没有大的突破,要想抄底,别人不做,你来做,总要有一些瓷器活,但是这个瓷器活目前还不行。

............

我们做自然语言处理的,不指望人工智能的天上掉下语言处理的馅饼,还是靠自己认识语言,真正地在这个语言上做文章,而不要在其他的地方做文章,其他的地方没有出路。

总结一下我的主要观点:自然语言处理的核心关键问题还没有解决,但应用方面取得一些进展不是偶然的,有其走得对的地方。突破的钥匙掌握在语言学家或者是通晓语言学成果的人手里。最要害的试金石是两个:递归嵌套,远距相关,如能做到,说明对语言的深层处理能力有标志性的进步。我们认为后面有很多机会,不仅大脑计划有机会,游侠模式也有机会,统计走不下去的地方,规则抄底的机会也是存在的。最后说与人工智能的关联。虽然我是这样的题目,结论是自然语言处理和人工智能并没有强关联,而自然语言处理可以为人工智能的进步做一点点贡献,但是是比较微弱的。

他中间特别提到两个深层分析的具体任务,所谓两大拦路虎:

对语言学领域的这个知识到底长什么样,如果不知道长什么样就想学习,或者说随便攒一个长什么样,然后就学习,这个效果会差得很远,很少有人真的去关注语言学知识真往深了走到底长什么样。深层的知识躲在后面,似乎没有什么硬标准能够把它们拎出来,或者说你可以画一样,他可以画另一样,大家的画法不一样。但是,大家要解决、要共同面对的问题难点是明确的:一个是递归嵌套的深度,一个是语言成分远距离相关的宽度。相关成分相距越远、递归嵌套层数越深,浅层模型越难处理。只要这两个难点有所突破,我相信不管是把语言模型画成了一个什么样子,这个样子肯定在某种程度上反映了深层的语言学知识。


对此,我跟同行网友王伟DL讨论的时候是这样回应的: 这两个玩浅层玩统计的人要往深里走共同面对的拦路虎其实是已经解决了的问题。隔行如隔山,其实本行也隔山呢,人类通讯工具的革命有时并未改变交流的通畅。


立委_米拉:白老师说的自然语言 parsing 中的 long distance 和 recursion 这两个拦路虎,其实在多层 parsing 中是基本解决了的问题。这把多层钥匙已经在成熟的语言学家手中,并被反复验证,不过主流界不认识,有意无意忽视了。最后的开花结果还是在应用上。而神经网络搞了个多层,瞬间深层网络神器一般传遍世界

王伟DL:回复@立委_米拉:恩!完全相信李老师的研究视野。希望您有更多的贡献在自然语言处理领域。自然语言虽然问题还是多多,但是只要能提纲挈领,问题就在解决时。以后还请李老师多指教!
4月1日 18:11
立委_米拉
立委_米拉:回复@王伟DL:还有更主观一点的根据(或体验)之二,跟你说说也无妨:就是,这两个问题从山下或浅层看是个庞然大物,但是站在山上或深层往下看,不过是小丘,过路风景而已。
王伟DL
王伟DL:回复@立委_米拉:我也认同“递归和远距离”关联问题,以及其它一些特例问题,实际文本可能占的比例不是很多,但在一些关键的句子,的确会闹出笑话,给人感觉是有点“靠不住”。这个问题的解决,应用上可能会看不到明显效果,因为提高的那一点点也被太多的太一般数据所淹没。尽管如此,NLPer还是要去面对
4月1日 17:39
王伟DL
王伟DL:回复@立委_米拉:谢谢李老师回答。的确,目前非规范社会媒体80+%算是不错了,而且都已经在应用中了,这同一些parser在标准测试集下的结果还真不好放在一起比较。不过,我认为80+%的水准也还可以有很大的上升空间,也许文本抽取中问题不是太突出,但是有些应用可能更高精度会有更好的结果。李老师加油!
4月1日 17:23
立委_米拉
立委_米拉:这两个是 solved problems,没有什么疑问。在非规范的社会媒体,测试结果达到80+%。能够声称解决了两个问题的根据之一在于,在文本抽取挖掘等应用中,由于递归和远距离关系的而阻碍抽取的事例少而又少,parsing 不是瓶颈。



白老师PPT图文详解版在此:

http://www.weibo.com/p/1001603826485151586735


【白硕】自然语言处理与人工智能(13页PPT图文详解版)
2015年3月31日 15:56 阅读9465

【静点评】中国中文信息学会常务理事白硕先生是我非常尊敬的一位老师,他对静.沙龙的智慧贡献体现在三个方面:第一,他乐于分享知识、乐于展开线上线下的讨论。他不仅积极参与各种人工智能和算法等议题的探讨,还把社区的氛围和讨论水平提升到一个相当高的境界。去年6月21日,《算法帝国》沙龙在财讯传媒集团举办,白硕老师是当天乘飞机从上海赶来,分享《算法交易的技术生态变革》,讲完课又匆忙回上海。这次的《新智能时代论坛》,白硕老师同样是论坛结束就赶回上海,连晚饭也来不及吃。他为了多参与Panel讨论,还差点误机。第二,他不仅是计算机理论、自然语言与中文信息处理方面的权威,还在哲学、音乐等领域颇为见长。去年静.沙龙在线分享的第二期,就是白硕老师担纲主讲《解构集异璧》。我想对于《集异璧》这部人工智能的圣经,在诸多国内人工智能领域专家里,没有比他更适合的说书人选了。

   因此,白硕老师也深受静.沙龙群友的爱戴与崇敬,以高票当选2014年度静.沙龙最佳讲者荣誉。3月22号,他给大家带来了《自然语言处理与人工智能》的分享。事实上,近年来谷歌和百度等公司,在机器翻译技术上取得长足进步,主要是由于统计方法、算法和大数据的改进。网络实时数据、海量的语言数据库让谷歌认为算法和大数据比语言学研究靠谱。

   但白硕老师在这次报告中也提出了独特的观点,他试图寻求自然语言背后的奥秘,是否在中文和英文之间有通用的路径。在他看来自然语言是人类智能的一种展现,既然是智能的展现,那么通过研究自然语言,就可以挖掘出智能的一些本质。而一旦语言被机器认知理解,那么真正的人工智能就有更多实现的可能。

   因此,白硕老师的研究也正是讯飞研究院胡郁院长提到的新认知革命的一部分,虽然比较抽象,但这正是人类智能高于其他生物之处,值得我们进一步去探索和挖掘。


【白硕】说起实现各种各样的智能系统,大家都认为“善解人意”应该是一个最起码的条件,一个绕不过去的条件。实现它的一个重要的桥梁就是语言。


拿语言说事,这个我们见得很多了。刚才讲的图灵测试,实际上就是要通过这个对话,通过语言来判断隐藏在那个不可见的位置跟你对话的到底是人还是机器。

还有中文屋子,大家如果关心智能问题的话也都会比较熟悉,一个屋子里的人不懂中文,只懂英文,但可以执行特定的规则,把符号搬来搬去,最后效果是把英文翻译成中文,问题是,到底谁懂中文?


另外,从亚里士多德到布尔,从莱布尼兹到维特根斯坦,实际上哲学在20世纪初有一次重要的“语言学转向”,就是从拍脑袋的思辨到针对文本,看我们的理解,我们的定义,什么时候出现了问题。

语言学里面也有人思考,表现在外部语言和脑子里面的概念的关系,到底是不是一一对应的。今天看到杨义先老师讲这个字的英文到现在没有对应的贴切翻译。有人举例子说,蒙古人关于马的词汇好几十种,爱斯基摩人对雪的词汇也有好几十种,我们不生活在马和雪的世界的人就很少。是语言造就了概念,还是概念造就了语言?是全人类有共同的概念,还是有一种语言就塑造一套概念?看来这确实是个问题。


从干活的角度,我们看到了各种“大脑”计划,各种助手和机器人推出来,有各种搜索和数据库在精准化,拿语言去搜,也有各种的过去就有推理机,智能机,一直在延续着七八十年代的梦想,虽然进展不大。

但是所有拿语言说事儿的、用语言干事儿的,这中间都绕不开一个问题,即语言到底是怎么回事?这是我们真正搞自然语言理解,搞自然语言处理的人必须面对的问题。我们说要善解人意,人意在哪?它藏在符号怪阵的背后。我们来看这张图:



上面最表层的,可能是通过文字的方式表现的,可能是通过语音的方式表现的,也可能是通过电子输入的方式表现的。再向下有词法、句法和语义,乃至语用。这是语言学界标准的层次的划分,我们现在看中间的虚线,上方涉及到一点点的句法,句法的大部分在下方。以虚线为界,虚线之上的通常认为是浅层,虚线之下的认为是深层。请注意这里讲的是语言学知识的浅层和深层。浅层的这种语言模型见效很快,门槛很低,基本上可以摆脱语言学家,工程师自己可以玩,有数据就可以玩,或者是标注,找一些中专生就可以玩。然而深层的语言学知识,有一些地方可能说不清楚,可能众说纷纭,但是浅层解决不了的问题,最终要通过深层来解决。上海电台里有一档节目叫“音乐会说话”,不论是按照什么分词标准,很多的分词系统都会把它切成“音乐会/说话”,就是说“音乐会”当做一个词的切法是应该占优势的,但是恰恰这档节目说的是“音乐//说话”,它用到了深层的句法和语义,甚至到语用才确定是一个隐喻,只有到了这个层次反作用回去才发现正确的分词方案是什么。

我们也看到了大家对深度学习充满了期待。但是必须说明,学习的度深和浅,跟学习对象在语言层次上的浅和深是两个概念。如果是在模型停留在浅层,就是把深度学习用到极致也有局限。

但是深层这个东西就复杂了,因为咱们讲证据,浅层的东西大家都看得见,深层有很多是看不见的,看不见就各说各的话,就没有一个统一的标准,所以这个东西就比较难搞,这是我们看到的一个现状。

善解人意的“人意”好不好解,是不是跟语种有关系呢?在这张图上,我们看到很多中文难以处理的例子。很多评论的第一反应是中文博大精深,中文不一样,英语很好的方法到中文就不行。有的人就说我们比别人更懂中文。即使是知识图谱也出了个“中文知识图谱”,好象这个知识图谱到底是知识层面的还是语言层面的这件事情,都有了商量了。这说明了什么?说明我们还停留在我们对母语的认识的初级阶段。我们对母语的认识,和对人类共同的语言机制的认识,还没有统一起来,中间还有巨大的鸿沟。

一般来说,我们对母语的认识分成三个阶段:第一阶段,碰见这些例子,都认为这是习惯用法,根本没有规律的,我们也不关心这个,我们的指标很好看。这就完了吗?可是实际的问题并没有解决。第二个阶段,规律是有的,但我们的母语就是特殊,我们只能使用特殊的东西把这些问题解决了。是有这么一个见招拆招的阶段,但是作用很有限。真正的能够进到最后一个阶段的人很少很少。这种人既熟悉了母语的特殊性,同时又知道这个世界上关于语言共性普适的进展,而且还能把二者融会贯通结合起来。这种人太少了,而且这种人跟我们的交流太少了,所以我们不知道他们的存在,更不知道去挖掘他们的宝藏。

经常有一种说法,说基于规则的系统是傻子,基于统计的系统是疯子。基于规则的系统,在规则不能覆盖的地方表现极其糟糕。基于统计的系统,因为很多模型现在只能做到浅层,深层的不知道怎么做,所以实现也只能做到浅层,有局限,又不知道自己的局限在哪,就出现了明明不知道的,没有自知之明了,大家一看就知道是笑话,但是他敢拿出来说。还有两个组合,一个是基于规则处理浅层语言模型的,比如做英语的词法的,词根的变换,还原等,是可以做一点但有限,油水不多了。基于统计处理深层语言模型,是有的,但由于深层模型的本身是有一个资源建设这样一个积累在里面的。如果没有资源建设,深层是无从谈起的。你做统计,又要有语料的积累。语料和资源建设的双重积累是瓶颈,能够用打通瓶颈往前走的人不多,但我认为这是正确的路。


在自然语言处理领域,我感觉到一个不好的现象:厚此薄彼。我们看到,理工农医各类专业的领域专家是很受尊敬的,唯独语言学家不受尊重。不仅很多和自然语言相关的大型的项目里面语言学家的参与度很不够,就连谷歌的诺维格和语言学家乔姆斯基之间的争论也是很不友好的,语言学里面有很多宝贝,但是外面的人不认识,认识不到。那为什么自然语言处理还能这么火呢,我认为这里面一个原因是他们还在吃我所说的“规模红利”。当我的语料规模非常大、应用面非常广的时候,即使是浅层,也能做出很好的效果来,为一些处理到浅层就够了的应用提供了很好的支持,所以会有这样的现象。但是另一方面,深层的玩法并没有大的突破,要想抄底,别人不做,你来做,总要有一些瓷器活,但是这个瓷器活目前还不行。


对目前这个主流的基于统计的浅层自然语言处理,有两点我认为是需要高度肯定的:

第一是使用正确的手段解决了语言边界这样一个典型的非良定义的人工智能的问题。所谓非良定义,就是说人知道这个边界在哪,但是没有数学公式把这个边界写出来,而且这个边界是上下文相关的,在不同的环境下是浮动的。对这样的东西,使用统计学习的方式来获取领域知识,这是正面的,我认为这个方向是对的。

第二,是把符号的根基,也就是语言中不可再分的符号代表了什么这件事情,映射到,或者说植根于网络空间之上。说几个简单的例子:关于你在哪的问题,跟你手机里的地图联系起来了;关于你跟哪个人什么关系的问题,跟你的通讯录联系起来了,跟你的社交网络的帐号联系起来了;天气的问题,甚至是车次的问题,跟相应的这样一些服务联系起来了。这个是一个最重要的、值得高度肯定的一点。


但是底下我们还是要讲,这是不够的。对语言学领域的这个知识到底长什么样,如果不知道长什么样就想学习,或者说随便攒一个长什么样,然后就学习,这个效果会差得很远,很少有人真的去关注语言学知识真往深了走到底长什么样。深层的知识躲在后面,似乎没有什么硬标准能够把它们拎出来,或者说你可以画一样,他可以画另一样,大家的画法不一样。但是,大家要解决、要共同面对的问题难点是明确的:一个是递归嵌套的深度,一个是语言成分远距离相关的宽度。相关成分相距越远、递归嵌套层数越深,浅层模型越难处理。只要这两个难点有所突破,我相信不管是把语言模型画成了一个什么样子,这个样子肯定在某种程度上反映了深层的语言学知识。


我个人在自然语言处理领域的研究兴趣,一是关注语言学知识长什么样,就是刚才所描述的问题;二是利用RNN(递归神经网络)做语言知识的自动获取,这个有很多的花样,比如可以加栈、加计数器,可以把规则编译成RNN等等,和自动机的机理非常接近,这个领域是值得特别关注的;三是用自然语言作为知识表示直接进行模式推理和检索,是我带着学生做的方向。个人在纯语言学方向也有一些研究兴趣。


说到语言与人工智能的关系,我认为语言从三个角度对人工智能是有贡献的:第一,语言是一个自然的交互界面,善解人意绕不开这个界面;第二,语言背后是一套知识,对它怎么学习,怎么表示,和对一般的知识怎么学习和怎么表示,是有共性的;第三,语言是一个窗口,通过对人类语言的观察,我们可以侧面了解人类大脑内部发生的推理和表示。


但我还是要提两个“不指望”。第一是我们做自然语言处理的,不指望人工智能的天上掉下语言处理的馅饼,还是靠自己认识语言,真正地在这个语言上做文章,而不要在其他的地方做文章,其他的地方没有出路。第二是不指望语言处理的这个方向,如果突破了的话,会导致人工智能领域出现什么样的飞跃或者奇迹,这也是不现实的,因为语言这个东西就是刚才说的许多类别的知识领域之一,就是一个边角的东西,虽然很重要,虽然躲不开,但是对人工智能那边没有太大的影响,那边该怎么研究就怎么研究。

看到各种大脑计划,大脑计划的外显能力都离不开自然语言的处理,但是我们还是可以根据语言处理所用到的技术的不同,把它们分几个类型,如下图所示:


其中刚才说的高考是属于第三个层面的,最后一个类型(分析理解型)最难,其典型就是应用题。谁能解决了我觉得很令人佩服,如果真做好了说明是对语言深一层的东西掌握了。上图所举的应用题,是我们期权培训教材里面一个考题,自然语言理解怎么样处理这样一个题,通过什么方式入手来处理,很有讲究。我们看到这里面有计算和分析,还有价值取向:要赚钱。在这道题里面隐含了一个答题目标,就是如何做才是赚钱的。这是典型的投资逻辑。

搞大脑计划,一般都是一个非常庞大的团队,会进行大规模的标注和训练,对非限定领域的大数据大语料进行训练和开发,对各种智能化技术进行综合集成,这个做出来会很震撼,很酷。但小团队也有优势,可以比较轻灵,在特定领域,限定领域作出出色的应用,比如出门问问。还有另一种方式,就是游侠,他们不太可能大规模地推开业务,只会做一些核心技术,特别是顶层的建模。我一直主张,在一个自然语言处理系统里,语言学知识到底长什么样,决定了把后续的学习手段加上之后到底能够走多远,这个东西我想一个项目立项之时,这个思路就已经定了,后面再做也超不过先天局限。而恰恰是这个游侠方式,可以在这个地方走得更远。


总结一下我的主要观点:自然语言处理的核心关键问题还没有解决,但应用方面取得一些进展不是偶然的,有其走得对的地方。突破的钥匙掌握在语言学家或者是通晓语言学成果的人手里。最要害的试金石是两个:递归嵌套,远距相关,如能做到,说明对语言的深层处理能力有标志性的进步。我们认为后面有很多机会,不仅大脑计划有机会,游侠模式也有机会,统计走不下去的地方,规则抄底的机会也是存在的。最后说与人工智能的关联。虽然我是这样的题目,结论是自然语言处理和人工智能并没有强关联,而自然语言处理可以为人工智能的进步做一点点贡献,但是是比较微弱的。谢谢。


附:讲者简历

【白硕】博士,研究员,中国中文信息学会常务理事,信息检索与内容安全专业委员会主任委员,中国科学院计算所、信工所和中国科学院大学兼职博士生导师,上海证券通信有限责任公司董事长。曾长期从事自然语言处理、信息检索相关领域研究工作。目前主持轻便高效证券交易系统和证券行业云服务等证券领域信息技术应用研究。

转载自:http://www.weibo.com/p/1001603826485151586735 



【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-879416.html

上一篇:城里自行车的事儿
下一篇:有槽就吐:要有信息公开的“习惯”

1 陆泽橼

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-1-20 02:31

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部