《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

泥沙龙笔记微博议摘要

已有 3686 次阅读 2015-10-28 08:18 |个人分类:立委科普|系统分类:观点评述| NLP, 微博

微博微信都不如博客的沉淀性,还是在博客留一点痕迹吧。


《泥沙龙笔记:deep,情到深处仍孤独》  - deep learning, deep parsing


科学网—《泥沙龙铿锵三人行:句法语义纠缠论》 唠不玩的NLP,李白外加雷司令。 O网页链接

王伟DL题目非常好!我认为句法和语义不是硬性的比例调和问题。而是自然组合的问题,它们有时可以独立作战,有时需要合伙作战。有时合伙也力单,需要援军才能拿下,比如背景知识,语用信息等这样不同兵种的援军。


科学网—史海钩沉:Early arguments for a hybrid model for NLP and IE @算文解字 @王伟DL @西瓜大丸子汤 @白硕SH @团成片的尼克 @孙茂松 @zhazhaba O网页链接

其实拿来一个 formalism 做实用开发,会有相当多的对基本形式的拓展,这也就是为什么我说 off-shelf 的NLP工具不好使,不仅仅是效率优化问题,formalism 本身的扩展和很多变通都决定了要内部开发。

特别是汉语,POS 很多时候不如更细的分类。不要以为 POS 是必需的,也不要以为 POS 是句法显性形式,POS 不过是词的大类别,在形态缺乏的汉语,这种大类别往往捉襟见肘。我写过博文:POS 的迷思,说的就是可以基本跳过 POS 做 parsing。

@白: 把句法部分从CFG限定到一个可以线性时间parse的范围,有各种尝试。有单层自动机、多层自动机、预读机制(LR(k),或本人提出的角色反演算法)、计数自动机,甚至包括RNN等等。大家表达能力各异,但工程实现从来不拒绝掺入有效而不纯粹的杂质。所以伟哥说,工程不会被模型的表达力憋死。

/@白: 可以看看我和伟哥关于这个问题的讨论。泥沙龙笔记里记载了,关于“我是县长派来的”在“县长”后面凭什么会等待而不是马上归约的讨论。伟哥有两大利器:一是较深的词例化水平避开POS带来的伪歧义过多局限,一是表达灵活的前条件后条件避开有限状态自动机局限。虽有挂羊头卖狗肉之嫌,但狗肉好吃


王伟DL:回复@立委_米拉:关于错误放大问题,很多人认识到,所以才有不少在纠错这个方向的研究。而且我也在这个方向路上走(因看好这个),不过采用的是“居高临下”策略,当然训练的语料规模也会制约因素。同意数据制导思路,其主体是基于语料库的。不排除还有多种解决方案。承认有些地方企业界超越学术界。
10月27日 20:03
王伟DL
王伟DL:回复@立委_米拉:同感!POS太粗类度了,不足以支撑parsing这样随时可能需要更细粒度进行消歧的场合。这个以前提过,我也是跨过POS做parsing.嫌POS粒度太粗,而词汇粒度又太细,稀疏问题很严重,而且系统的规模也过庞大,中间程度的语义表示是必然。
10月27日 19:44
立委_米拉
立委_米拉:回复@王伟DL: 是的,以本文为蓝本的深耕细作 works,在不迷失大方向的前提下。历史上有过 迷失方向的overdone 的系统(譬如那家超级公司的研究组),最终是不堪使用。
10月27日 04:33
立委_米拉
立委_米拉:特别是汉语,POS 很多时候不如更细的分类。不要以为 POS 是必需的,也不要以为 POS 是句法显性形式,POS 不过是词的大类别,在形态缺乏的汉语,这种大类别往往捉襟见肘。我写过博文:POS 的迷思,说的就是可以基本跳过 POS 做 parsing。
10月27日 00:10
立委_米拉
立委_米拉:回复@王伟DL: 错误放大(error propagation)和负负得正(adaptive development)是管式系统的矛盾两方面。只要是工程思路,数据制导,后者就会压倒前者。软件界开发模块化复杂系统的经验积累这么多年了,除了躲在象牙塔的研究人,怎么能被错误放大憋死呢?
10月26日 22:41
王伟DL
王伟DL:层叠FST的句法分析--逐层组块方法,具有线性时间的特性,或说是确定性的一种分析方法,对于full parsing会存在错误放大的问题,现在大都是处在纠错的方向。相关研究还是有,但感觉不是很多。李老师现在性能优良的parser是否是以本文为蓝本的深耕细作?我看好逐层组块方法,但目前缺少“居高临下”机制
10月26日 22:15
王伟DL
王伟DL:这篇文章涵盖信息量还是蛮大,很多是现在还时常讨论的问题,却成文在15年前,可见NLP成长还是比较缓慢。本文虽不是完全针对句法分析,但对搞句法分析的人还是有意义,可以问问parser是否都彻底解决了文章中指出的一些问题。采用规则+统计 混合模型,虽然每个模块比例灵活可调,但也许有个固有最优界。
10月26日 21:49



科学网—Pre-Knowledge-Graph Profile Extraction Research via SBIR (1) - 史海钩沉:前知识图谱时代的“知识图谱”研究。 O网页链接

王伟DL
王伟DL:佩服李老师15年前就有这般眼界。不是每一个idea都能到产品,不是每一个产品都能到风靡。其实如今的知识图谱也不能算是完全的产品,只能是走在产品的道路上,但很风靡。只是叹息李老师当时没有google这样 强力推手。不过李老师大可以此自豪。
10月26日 22:29
立委_米拉
立委_米拉:15 年前关于知识图谱的开创性研究的报告如今还有参考价值么?对于笔者,更多的是自豪和怀旧。天下大势,当时就没有看错,知识图谱的历史上有在下不可磨灭的足迹

科学网—《知识图谱的先行:从 Julian Hill 说起 》 O网页链接

立委_米拉:终于找到了以前的 screenshot,补全了当年的设计。知识图谱如今开花结果,印证了当年科研的思路的靠谱。其实我一直就没有怀疑过它的应用价值。


科学网—《泥沙龙笔记:漫谈自动句法分析和树形图表达》 O网页链接

这里有两件事儿,一个是,作为 parsing 的目标表达,可以说DG和PSG二者基本等价。既然等价,就没啥好谈,各花入各眼,我们不必具有相同的审美观。第二个角度是,PSG 和 DG 作为 parsing 的手段和过程,这方面,我没有看到PSG的优越之处,除了一条,作为基本短语的表达,它较好地反映了基本句素的概念。

王伟DL:我同意雷先生“两者是可以互相转换的,没有本质的区别”。至少我对短语结构语法感觉还没那么糟,缺啥加啥(是有机地加,而不是堆砌),我现在属于短语结构语法的改良派,或说短语树结构支持者。不好意思,这次我不站在李老师这边。我试试目前短语结构改良路子是否走通再做确定。或说文中所论说服不了我
10月24日 18:11
王伟DL
王伟DL:李老师这篇博文看完。总体感觉:李老师对短语结构语法横竖看不上眼,浑身哪都是问题,呵呵!关于CTB或许存在一些语言学错误,但不至于影响句法分析器大部分性能。换句话说,训练时即便学习了错误标注,那么测试了若能完全重现那些错误,也算学习成功。但现在CTB跑的性能也就90多一点,说明还有其它问题
10月24日 17:59
立委_米拉
立委_米拉:这两天净整理NLP笔记了。


科学网—《泥沙龙李白对话录:关于纯语义系统》 @白硕SH @算文解字 @王伟DL @西瓜大丸子汤 @zhazhaba @团成片的尼克 O网页链接

王伟DL:回复@白硕SH:白老师说的句子又是来难为NLP系统了。多少是多,多少是少啊,呵呵!我认为二者自然结合,绝不凑合,彼此协同发展。句法和语义虽不是兄弟关系,或许是姊妹关系,断不是顺序关系
10月24日 15:11
立委_米拉
立委_米拉:回复@白硕SH: 对啊,句法尽量做,语义尽少参合(不到不得以不做)。如果倒过来理解,就是,句法尽少参合(除非不得已),语义尽量去做。这在实践中感觉不大 make sense 可以尝试的是:语义模板(即意合)为主,句法为辅,只用句法手段中的显性形式(词序,小词,词尾)。
10月24日 10:04
白硕SH
白硕SH:回复@王伟DL:句法是能做多少做多少,语义是能做多少做多少。
10月24日 09:23
王伟DL
王伟DL:纯语义系统只是追求理论上完美而已,并不实用。半导体真要是绝对至纯也失去了意义,只有少掺杂一些有意义的杂质,半导体才真正有用。我不是很看好end to end纯语义系统。还是走句法 和语义结合道路为本。除了李老师之外的很多人是因为句法路走得不是很好,不得不绕道走而已。语义符号没有位置信息不行
10月23日 22:45
白硕SH
白硕SH:李白……好吧
10月23日 12:04


立委_米拉:左右各扫一遍去寻找只在做一个独立于语言的模型的时候有道理,因为词序这种显性形式约束总是与语言联系在一起的。如果语言事先不定,那只能是两边都去查一下。
10月24日 10:07
立委_米拉
立委_米拉:相信 @白硕 老师就是这么做,不大相信因为意合了,连显性形式这个顺手的东西也舍弃不用了,除非是做纯理论的模型。譬如,在某个 subcat 坑里,某个角色(在特定语言,譬如汉语)应该是在右边的(有词序约束),不大会为了追求纯语义的系统,就舍弃这个词序约束,而是左右各扫一次去寻找对象。


科学网—《泥沙龙笔记:再聊关键词和SVO》 @算文解字 @王伟DL @西瓜大丸子汤 @白硕SH @团成片的尼克 @好东西传送门 O网页链接

白硕SH:很有意思的一场讨论。
10月22日 07:26
算文解字
算文解字:SOV能做到比关键字精准,这点应该不用怀疑。也许这个新模式的瓶颈和关键在于技术提供者和使用者间的接口UI,直接用sov认知成本太高,可能需要@白硕SH 老师强调的某种代理机制。这点解决了也许就能抓住先机,引领发展。

科学网—泥沙龙笔记:铿锵三人行 - 立委按:谈笑有鸿儒,泥沙龙写照也。毛白立三剑客,隔洋神交,日颠夜倒,天马行空,人生快事也。语言理解,人工智慧,软体硬件,万言不离其宗也。 O网页链接

科学网—泥沙龙笔记:漫谈语言形式 - 李维的博文 如果有兴趣的话,准备在群里讲一次语言的形式手段的话题,这是语言学的基础。是hard-core语言学,不是电脑学。 O网页链接

立委_米拉:回复@田瑞国: 这个比喻很别致。变量类型直接声明就是语言中曲折所反映的 morphology 范畴,性数格,时体态,等。
鱼少盐
鱼少盐@之立青 仔细读
10月3日 10:40
田瑞国
田瑞国:还是感觉不到汉语多差。汉语类似于脚本语言,变量类型通过上下文推断,英语类似于编译语言,直接声明变量类型。汉语更简洁,写出来比英语书更省纸,但不像脚本语言之于编译语言那么好学。 //@西瓜大丸子汤://@算文解字:赞!一篇博文体量的谈话就生动地把语言学基本问题,特别是形态和句法的关系,都交
10月3日 08:59
算文解字
算文解字:赞!一篇博文体量的谈话就生动地把语言学基本问题,特别是形态和句法的关系,都交代清楚了。期待后续对句法和语意等更深入的探讨,最好再加点吐槽[嘻嘻]


科学网—泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同,POS 靠边 O网页链接

立委_米拉:你说的这个路的问题是这一路的问题,还是其他的问题?如果加了POS模块,并且及假设这个模块是准确的,多义词可以在POS的粗线条上减少一些歧义,但是第一这个假设不很成立,第二多义词问题不仅仅是POS级的。因此,不能笼统说这是POS缺失的问题。当然,部分的POS先行有模块化的合理之处,我不反对。
10月5日 22:11
王伟DL
王伟DL:完全同意李老师文尾的诀窍:”跳过词性,以词典信息直接进入句法分析“。当然这会引起一些争论,这无异于把很多家过河桥拆了。本人是这思想的实践者,因为一直是这个路子做过来的。其封闭测试可以达到95%的水平,虽开放测试不很理想,但发展潜力很大。同时,这个路也有固有问题,如多义词义项辨析


科学网—泥沙龙笔记:骨灰级砖家一席谈,真伪结构歧义的对策(2/2) - 第二章:为什么多层系统,尤其是多层FSA,不受伪歧义的困扰? O网页链接

王伟DL:文章透露着落地的经验(经历)的光泽,不同的人对此文吸收和反射的谱线也会不同。我贪婪地一连看完,很多地方只觉得在理,的确是是是,有些地方也想表己见,却欲辨已忘言。“...指与大语料库对应的 grammar trees 自动形成的 forest,比 PennTree 大好几个量级。",好羡慕这个大块头!大块头有大智慧!
9月22日 22:19
立委_米拉
立委_米拉:(1) 分层是正道。最起码要两层,基本短语层和句法关系层。(2)顺便一提,作为生成结果,短语结构的表达远不如依存关系的表达。短语结构叠床架屋,不好用,也不够逻辑和普世(不适合词序自由的语言)。当然,这后一点是另外的话题了,不是 CFG vs FSG 之争了。
9月22日 16:25
算文解字
算文解字:也对,镜老师批评的是用同一层次的规则处理不同层次的现象的"原教旨"CFG生成方法,提出的对策为FST分层处理。而在CFG下用coarse2fine的(分层)策略,也算是殊途同归了。//@沈李斌AI: 没必要排斥CFG。CFG树是生成结果,不是生成步骤。设计好coarse to fine的生成策略,控制每一步的perplexity和recall
9月22日 15:54
算文解字
算文解字:这篇顶级高手对话,充满思想,可以当武林秘籍参悟的文章,竟然没人转。。。强烈推荐啊!
9月22日 07:15


白老师,这一篇并不是与您辩论,借题发挥而已,基本是老调重弹,换了一个角度。当然,这些老调也是多年思考和经验的结果,是负责任的立论。不过有一点,我对句法结构对语用层面的语义抽取的作用,比白老师要强调得多,而且觉得二者的接口是清晰自然的。
科学网—泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器 @西瓜大丸子汤 @算文解字 @好东西传送门 @白硕SH @王伟DL @zhazhaba O网页链接


实际情况可能正好相反,自然语言的结构基本是不变的(就主谓宾定状补几个关系),变的是语用层面的“语义网”。因此说parsing提供了不变应万变的基础。

回复@UB_吴斌: 只有不变应万变的东西才有做核武器的资质和潜力,主谓宾可以打天下,因为它把没有结构线性表达结构化了。为语用而语用,那最多是火箭筒,主流的IE,用有监督的机器学习来实现,就是这样的火箭筒,他们不用SVO。可是攻下一个堡垒,换一个目标以后,一切必须重来,重新标注,重新训练。

回复@白硕SH: 买头等舱的结构可以认为是基本的,就是动宾。至于这个句法的“宾”如何做深层语义解构,其实parsing最好 keep it as is,等到IE的时候再去碰它。这是经济原则,因为IE是语用的,只涉及语言的一个很小的子集。如果硬要在 parsing 层面做深语义,一个可能做不好,另一个做了多半是无用功。

回复@白硕SH: 记得范继淹先生当年写过一篇论文专门谈汉语动宾的语义,分类列举了很多语言事实,惊叹他的语言观察能力。不过,这些东西做不胜做,还是留到语用的时候再做为妥。

科学网—泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 @白硕SH @算文解字 @西瓜大丸子汤 @王伟DL @zhazhaba O网页链接
故事自然重要,但不好形式化。故事属于篇章语言学(discourse analysis),而篇章比起(本质上局限于句子范围的)文法,难太多了。文法包括组字成词(词法),组词成句(句法),都有成熟的算法和模型,组句成段、组段成文,从CL方面现在基本还是黑暗中摸索。谈何容易。
科学网—泥沙龙笔记: parsing vs. classification and IE @白硕SH @算文解字 @西瓜大丸子汤 @王伟DL @杨静Lillian @zhazhaba O网页链接


科学网—泥沙龙笔记:没有文法就不好玩了 @西瓜大丸子汤 @算文解字 @好东西传送门@王伟DL @白硕SH @杨静Lillian @zhazhaba O网页链接

王伟DL:回复@西瓜大丸子汤:千万别拜读!真不敢当,非常感谢你能耐着性子看完,确实写得太匆匆了,问题一堆。
王伟DL
王伟DL:回复@立委_米拉:关于自学习问题,我也就是提出这个问题,自己也没有什么思路,只是问题提出者而已,希望这样的问题未来能解决,也希望李老师这方面能多出出力,呵呵!
西瓜大丸子汤
西瓜大丸子汤:回复@王伟DL: 早上已經拜讀過了
立委_米拉
立委_米拉:回复@王伟DL: 看了王老师的回复,入情入理,基本都同意。当然,现在是形而上地谈,有点儿虚。落到实处的话,有很多 open questions,譬如 增量地学习问题,再如自学习问题。后者是一个很大的研究课题(做过一些“文法自学习”方面的探究,有机会再论,fascinating,但的确不是容易的事体)。
算文解字
算文解字:感谢李老师分享,现在每天都追【泥沙龙】[嘻嘻]
7月5日 23:29


科学网—泥沙龙笔记:parsing 是引擎的核武器,再论NLP与搜索 @白硕SH @算文解字@西瓜大丸子汤 @王伟DL @zhazhaba O网页链接

UB_吴斌:我的意思也就是我认为没有统一确定的语义网结构,可以满足自然语言的动态性,歧(多)义性,这两者本质上是矛盾的。(比如SQL,Python,JSON这些是有固定规则的语言结构,适用于某些领域的解析器,才是真正可以实用的。Parsing的情况也类似。)//@西瓜大丸子汤: 语义网需要结构,但不是自然语言的结构
7月7日 10:04
UB_吴斌
UB_吴斌:文中很多不切实际的盲目乐观,这也是sementic web做不成的主要原因。我认为语义网只能在局部,专业领域用,不可能做到通用性,涵盖所有领域。因为自然语言和WEB本来是自由的变化的世界,不可能使用统一的标准和规则涵盖一切,这种想法是盲目乐观,也是与客观事实矛盾的。
7月6日 11:01
UB_吴斌
UB_吴斌:我很尊敬作者,但是文中观点我不认同。关键词搜索流行,而语法树难以实现广泛应用,我认为根本原因不是成本问题,根本原因是语法树的实用性(收益大于产出吗?),和规则统一性(能够制定确定的统一规则吗?)远低于关键词。商业社会,做事一定要收益大于产出。计算机的世界,规则一定要统一明确。
7月6日 10:57


科学网—泥沙龙笔记:再聊乔老爷的递归陷阱 @白硕SH @zhazhaba @西瓜大丸子汤 @算文解字 @王伟DL @杨静Lillian O网页链接

立委_米拉:回复@动词分隔符:雷司令,也是老革命家了
动词分隔符
动词分隔符:请问雷是哪一位?
7月2日 23:10
算文解字
算文解字:树库里的多层中心 递归应该也不多,那搞一个FST的parser出来在树库上做到或接近state-of-the-art倒也是个很有意思的工作。不过由于application里利用 短语结构比用依存关系的本来就少的多,而后者linear/greedy parser就能做很好,所以就造出这个FST轮子(工业界已经有了吧)的实用意义可能并也不大?

1 工业界早已有,一直在用。2 造这个轮子的意义重大。3 要跳出那个“树库”,螺蛳壳里做不了道场;4 短语结构基本就是个害人的东东,引导人做无用功。

奇点老黄:短语结构无用,也就是做做二元组,三元组有点现实意义了 ?
7月2日 22:30


科学网—应该立法禁止切词研究 :=) @西瓜大丸子汤 @王伟DL @杨静Lillian @算文解字@白硕SH @zhazhaba O网页链接

二宝真好记:90分的切词是可以轻易达到的。但90分到98分的路,研究界却越来越艰难。然后应用到生产中,却发现重点是词典整理,90分以上的引擎几乎无区别。//@白硕SH: @白硕SH: 按常理,如果应用能容忍最终结果的统计误差
7月2日 12:19
sxhfut
sxhfut:有道理!虽然我是做分词入行的,但感觉的确应该以实际问题为驱动,在整个系统中,以工程思维去考虑分词问题,不应该单纯把分词或者词性标注孤立研究。//@白硕SH: 按常理,如果应用能容忍最终结果的统计误差,那么就能容忍分词的统计误差;如果应用不能容忍最终结果的统计误差,那这种应用一定涉及深层
7月2日 11:29
白硕SH
白硕SH@白硕SH: 按常理,如果应用能容忍最终结果的统计误差,那么就能容忍分词的统计误差;如果应用不能容忍最终结果的统计误差,那这种应用一定涉及深层,光分词自身是难以孤军前进的。
7月2日 11:22
立委_米拉
立委_米拉:马老师,这类现象是已知的,也有解决办法(ngram就可以解决上例的歧义),虽然任何一个系统在一个特定的点可能没有解决它。在实际使用现场,如果这类歧义的某个特定表示,有足够频繁的表现,无论是机器学习的系统,还是人工系统,都不会忽略它。如果是低频,系统大多按照最长heuristic 走
7月1日 01:52
筋斗云windover
筋斗云windover:没有切词,那么词频率就是错的,怎么分析啊?
6月30日 17:36
自动化网官方微博
自动化网官方微博[汗]//@马少平THU: 这个分分看:“把手放在把手旁边” //@算文解字:主要难度还是在新词低频词//@梁斌penny: 分词确实做得足够好了,但依然有很多核心问题,1)实体词提取,很多实体词都是低频词,难度不小。2)分词速度要快,符合社会发展需要。3)新词发现 4)跨语言(多语言)分词
6月30日 16:43

立委_米拉:如果马老师是想说 ngram ”把/手/放“ 也 不见得对,譬如,”把手放在把手的地方,不要把把手乱放“,那就有点钻牛角尖了,因为任何一种高精度的消歧,总可以创造一个语境让其失效。但这在实际现场,是没有意义的牛角尖。

方圆七里:其实切词很大程度上就是在走英文处理的套路
6月30日 23:01
算文解字
算文解字:应该取消[嘻嘻]


科学网—泥沙龙笔记:把酒话桑麻,聊聊 NLP 工业研发的掌故 @白硕SH @zhazhaba @西瓜大丸子汤 @杨静Lillian O网页链接

立委_米拉:回复@王伟DL: 王老师,那是一半的戏言,不当真的。想说的是,以自然语言的复杂性,NLP 是经验性的,需要多年的磨练才好拿捏火候,庖丁解牛一样解析它。这里说的是笨鸟,说的是解析(parsing)。笨鸟靠的是经验,聪明鸟靠的是算法。笨鸟靠的是模拟(人脑),聪明鸟靠的是机器学习(黑箱子)。
王伟DL
王伟DL:我想说的是,N万小时定律有点过于残酷,几十载的年华埋进去了还不见得被NLP养老。虽然Parsing的Path难Pass,挂科者若干。但是我更希望这篇林子有更多的新奇新创力量充入其中,能有多种解决方案提供,以应对不同的需求,而不是望N万小时而生畏。
6月29日 22:34
王伟DL
王伟DL:李老师经过N万小时的洗刷,可谓技术上得到先机,说话有底气,这里也表示祝福!“将技术落到产品上,不同产品要求不同,哪种组合能在市场上站住,到目前为止基本是盲人摸象的过程。”,李老师落言还比较谨慎,真实呈现了NLP应用市场上的众相图。
6月29日 22:12
王伟DL
王伟DL:从李老师的文中提取几句,“这玩意儿要做好(精准达到接近人的分析能力,鲁棒达到可以对付社会媒体这样的monster,高效达到线性实现,real time 应用)”,对应句法分析的精度(接近人的水平),鲁棒性(不单跨领域,还要善对非规范文本),解析速度(在可接受的时间)。.最后还要在工程应用为真正验证
6月29日 21:59
UB_吴斌
UB_吴斌:看起来像是一把辛酸泪啊。不管怎样,都要赞一个。 NLP光搞字面信息应该是不够的,要么human computation,要么结合图像,地理位置等环境信息。最近还有一个新东西量子语言模型,不知道有没有前景。总之,单独玩文字可能是玩不下去的。
6月29日 17:00
立委_米拉
立委_米拉:回复@动词分隔符: 中文水是深一些,n万小时定律,坚持到底,就是晴天 :)
动词分隔符
动词分隔符:构词法、句法、语义都揉一块,多样性是可以应付,程序复杂性就难说了,困在这好久了。
6月28日 08:02
王伟DL
王伟DL:回复@动词分隔符:个人认为中文走严格句法的路子是走不通的,句法、语义甚至词法更多是在一锅里出来的。
布尔乔亚之犬
布尔乔亚之犬:业外问个问题, 怎样看待 lojban ? O网页链接 O网页链接
6月28日 01:22
动词分隔符
动词分隔符:中文,句法结构不严格,主语可省,宾语也可省。复句里可以共用主语,也可以后一个句子主语是前面句子宾语。英语中的限定性、非限定性从句都有标志性词汇,中文则全没有。
6月28日 00:57
动词分隔符
动词分隔符:我句法分析器也研究了好久了,后来想到用类似GLR的分析算法,句法规则确是头疼,在灵活性和精确性之间犯难。尤其是中文,形式不明确又总有例外。让我感觉中文是不是该放弃严格句法,直接从语义(格)和本体上来考虑。
6月28日 00:42
算文解字
算文解字:Powerset貌似卖了一亿刀,算是结局不错的NLP创业公司了。据说他们当年很自豪地在T-shirt上写着"We parse the web."
6月27日 23:39


【Related】 王伟DL 

回复关于文法的沙龙  O网页链接
2015年7月6日 23:09 阅读 29
本来回复李老师科学网,科学网用的少,登陆密码忘了。微博又短,只好这里长微博了。
这期李老师关于文法的沙龙内容很好。这是一组宏观抽象层次的讨论,因为不具体讨论哪种类型的文法,也不讨论哪种语言的文法(虽有英汉差别小讨论,但毕竟少量)。站在这样的基础上讨论文法,就不会被某一种具体特定内容的圈圈套住,反倒可以从更广阔的视野来看人类的自然语言。一是,无论你使用哪种类型文法,也都是来解决自然语言问题的,当然计算机语言(机器语言)不在NLP讨论之内,因为它属于特区自治;二是,无论哪种人类语言,都逃不离语法分析的。只要认同这如上两点,那么讨论文法吧!
1.文法的特例问题。
人们总是对常用的东西总熟视却无睹,其实这占极大的比例;而对一些反常、另类的“违规”,排异性极为敏感,或者觉着不适应,或者觉着好玩,或者觉着有趣,甚至当语言学家指出犯规时,内心还会纵容(这么有趣,我们希望让它多待会儿,这一待,有些非法就会转为习惯了),当然也不排除进化出了一些好词,这类是语言在大面积的高频交流中的进步发展。对这些“新贵”们,因而留下了深刻印象,自然有种感觉“你看看语言,可以这么玩,还可以那么玩,谁还管它什么文法啊,说是语言特例,哪来这么多特例啊,这还谈什么语法,管语法的法官是学科中最不称职的”。的确,数学定律,物理定律,你违违规试试,银行少给你钱了,你会宽容?其实,这些新增语言文法的特例,相对语言文法总存量来说,毕竟占的比例还是少,只是人们感觉极为强烈的一种错觉而已。一个时期内的新增词,占语言词汇总量来说,毕竟还是少,不会每一年,就翻一番的情况。何况多义词是什么?多义词的前身是单义词,只是后来有了新的词义要描述,寄居在某个单义词上感觉不碍事,就这么寄居着了,若原词承载能力强,寄居的多义词就多,当现有的哪个词也无法承载新义了,新词这时才不得已出现,当然偶尔捏合出的新词也存在。只要有多义词在,大大阻止了新词数量的增加。新词增加情况如是,新文法的增长率比新词增长率还要低,人们还是习惯于既经济又适用的房子,有时换房可以,但不能频频总换。换句话说,文法不就是用来讲个话说个事嘛,至于这么频频折腾吗?文法特例增长率肯定在人们的容忍的程度下缓慢前行,因为人不会为难自己,自然不会捣了已有既存文法的老窝。可以这么讲,既有文法是“经典力学”,能解决绝大数问题,而在既有文法基础上再加新增文法是“量子力学”,确实可以解决经典力学不准的问题,但一般情况下不用时,仅靠经典力学也能覆盖个差不多。当然,词汇家族和文法世家也会有个别分子被淘汰的情况,这也是正常,用进废退嘛。
李老师在前一部分,很好的化解了关于文法特例的争端。人脑怎会装的都是特例?没有一个是重样的,没有一个是规则可描述的?这多累,还能高效率理解吗?千万别小看人类,人脑进化到现在,有它自有的一套,不是人们强加的。自然语言作为意识的外壳,也是长期进化的产物。原则上面对自然界的事物,尽可能分组分类,这样节约了大量不必要的记忆。同意李老师“规则+特例”说,只是其中比例很难具体量化。
2、文法的覆盖问题
言文法,就及规则,这规则也有太多解读,比如怎么来的,什么形式,属于哪一类的等等,反正大家都知道现在规则是个复杂概念,不用多说,这里只用就是。前面已经谈到,新文法虽然增长率是低的,但毕竟是在增长,Parsing系统的收集速度总有跟不上的时候,一个就是要求系统鲁棒性,如何应对新文法现象的问题。还有一个,就是这些新文法是如何路子收录到系统中的问题。
李老师认为,由统计来收底。白老师认为走RNN路线,增补语料,特别情况回退到浅层。最终结果就是没有最好,也给出个差中最好的,供参考。对此,我没有什么好主意,至少现在。机器真不懂,因为没学嘛,出错也正常。机器要是能知道人类对这未知但可启发推理来的思路,有些许了解的话,那么沿着人处理的思路可能有好的结果,这也得在不包括太远的上下文,太多背景,太多常识知识的前提下可进行,否则,结果难说,因为是由“无知”推出的结果。
第二个问题,的确是incremental 问题,白老师提出新增训练语料的方法,我认为是现今可行的方法。但不是retraining,这个成本太大。既然是的确是incremental 问题,自然采用incremental就是了,增量式学习,或在线学习,而不必重新全部学习,每次只为增加的那5%语料,而将95%的原语料重复学习,太不值了!每次机器学习的周期长,这是障碍。当然,现在很多机器学习在增量式学习做得不好,在文法学习更是涉足不多。机器学习要想自然语言处理走远,这个问题必须要解决好。
3.机器怎么学的问题
这个问题是我自己提出来的。李老师不喜欢封闭的树库,我喜欢树库,但是也不喜欢封闭的。这树库怎么标注,谁来标注?既有的不算,是指将来会不断更新的后续树库,要语言学家都成标注专家?都知道标注是体力活。若没有了树库,机器学习就断了粮草。而非监督学习这样的援军的水平,即使到了城下,现阶段也不会有什么出色的战果。对于规则,李老师自然能拿捏规则于掌中,独家秘术,这是很多人望而不及。可遇到新文法现象,规则的掌柜自然也不能闲着,必然要进货,加工后送进系统,亲自操刀或者一旁点拨。以上这些情况,都是要人不断虽语言发展改进系统,或说就是要做运维。我觉得,机器应该试学习,在应用中“碰壁”,凡是用户都能对它打脸,系统有自己的教训,慢慢能自主应对语言学发展的新东西,一句话,在用户中学习,是最终的解决王牌。一个系统不能总指着老师一直不离身,当老师不教时,而老师的弟子还在教,那这什么时候能独立成事啊!
本来写几句的,这一看这晚了!就不检查文中语言通顺什么了,只要能看出意思就感谢了,对不住了,各位看官将就着看!晚安!

from http://weibo.com/p/1001603861745516040787?from=page_100505_profile&wvr=6&mod=wenzhangmod

 







【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-931562.html

上一篇:衙门的文化
下一篇:有感于美国高中生当下的 college 申请 season
收藏 IP: 192.168.0.*| 热度|

1 陆泽橼

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 11:28

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部