wzlyulbs的个人博客分享 http://blog.sciencenet.cn/u/wzlyulbs

博文

机器学习理解语言到底有多深---一点感悟

已有 449 次阅读 2017-8-2 11:14 |个人分类:科研笔记|系统分类:科研笔记

机器学习在很多NLP领域:分类,实体识别,机器翻译等都达到很高的准确率,但机器对这些语料理解到底有多深?

一般而言,针对某个具体的自然语言任务,机器学习的模型文件会比规则系统大得多,那是不是说,机器学习的模型比规则系统对语言理解得要深很多呢?(由此想到了一个有意思的想法,如果某个测评要求无论规则或是统计或是NN,要求其系统的大小不能超过100M,如此会不会规则系统占上风!

深或浅,至少有两个维度可以评测,一是泛化能力,二是中间结果如:词性,语义,概念,知识图谱等等的理解正确性。当然此处说的中间结果是指人理解语言过程中的中间结果!

下面就中间结果展开讨论。设想两个完美系统,一个是完美的机器学习系统,一个是人脑(规则居多),虽然他们理解事物的维度不一致,但是他们对语言的理解都是100%正确的,那么相比较这两个系统,无非两种情况:

第一种情况,语言的特征集合是高度冗余的,以致于两个系统不需要理解特征的全部,而只是盲人摸象一般,只看到局部就能准确地理解全局,如此人脑对语言理解的很多中间结果可能在机器众多参数找不到对应,请看下面的例子;

“我带三岁的儿子在公园玩,突然捡到一饮料瓶盖,跑过来高兴的对我说,爸爸,再来一瓶哦。我说,你都不识字,咋知道是再来一瓶?儿子说,前面两字一样的就是谢谢品尝,不是的话就是再来一瓶”

例子中,“儿子”要理解的语言对象规模很小,只有四个字“谢谢品尝”,“儿子”不用理解这四个字的词义而抓到了一个近乎噪声的特征也能理解对,当然在语言对象规模很大的时候,应该是很难通过噪声100%理解正确的。

第二种情况,语言的特征基本是没有冗余的,那么两个系统需要理解特征的全部,才能对语言达到100%的理解正确,那么除非人理解的中间结果是噪声,否则机器系统的参数就一定能推导出人理解的中间结果!

知识图谱、语法、纠错在理解语言当中的作用,我想没有人会否认,而词性等等的作用就见仁见智了!

词向量的经典例子,king-queen = man-woman很好地说明了机器学习系统抓住了人理解的中间结果:词义,知识图谱。但知识图谱的全局,语法结构或词性能通过RNN,CNN参数及其词向量计算出来么?应该是很难的,不然也不会说机器学习是个黑匣子了!

且不论如何对应,然后跳出刚刚的设想,回到真实场景,如果一个机器学习系统能很好地输出中间结果,那么机器学习系统通过噪声来达到学习结果的可能性就会降低,系统过拟合的可能性会非常小,泛化能力会比较强!

既然对应很困难,是不是可以让中间结果也成为学习目的之一?针对一个分类任务,学习目的不光是分类标签,也包含有句法结构,知识图谱等等。这种做法和单一目标学习相比,准确率会下降,但泛化能力肯定会大大提升!

万事皆可encode,可以试一试!




http://blog.sciencenet.cn/blog-3141079-1069149.html

上一篇:语言能表达的东西是有限的吗?
下一篇:杭州(浙江)人精明的几个例子
收藏 分享 举报

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2017-9-25 05:02

Powered by ScienceNet.cn

Copyright © 2007-2017 中国科学报社

返回顶部