《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【李白102: 标题的另一个痛点在谓词结构的安放】

已有 2831 次阅读 2018-4-17 01:46 |个人分类:立委科普|系统分类:论文交流| NLP

 

白:
“中国证监会编造、传播虚假信息行政处罚案例综述”

李:

解析起来有几个 catches:

1. “案例” 和 “综述” 以及二者的组合“案例综述”,都是那个“另类”名词,它们不是前面的动词的宾语,而是要求一个动词性的前修饰语,逻辑语义是【内容】或【同位】。上面的 parse 不幸中了套。

2. “编造”/“传播” 与 “信息” 的动宾搭配:成为 VP

3. 所谓【修饰语的组合爆炸挑战】:这是一个很长的标题类NP,麻烦的是里面还有两个动词性的结构(“编造、传播……“,”行政处罚”)。

4. 两个动词结构的关系:VP(负面)【原因状语 ?】+ “行政处罚”

白:
“行政处罚”和与之固定搭配的行政处罚主体,有统计显著性。

李:
5. 居首的”中国证监会“到底是整个 NP 的修饰语,还是 VP 的主语?换句话说,这个动词性结构在做修饰语之前,左边界是不清的,到底是 VP 还是 CL(子句)做修饰语?

白:
这个跟“这本书出版日期”一样。

李:
最大的问题是: VP(负面)+ “行政处罚”,这种个性关系的总结,实现起来感觉心里不踏实。

白:
但是:NP(有权主体)+VP(负面)+“行政处罚”又不相同。

李:
如果再考虑前面的 NP,那就更稀疏了。

即便一切都处理妥当,预备各就各位了,这种案例的诡异在于头重脚轻:“VP+行政处罚” 这个头 应该是 “案例综述” 这个脚的同位修饰语。头重脚轻在汉语的修饰语通常都是用“的”来平衡的,不用“的”修饰语又超长就很游离来(outlier),模型起来极易弄巧成拙。

得,动宾搭配又跑了。弄巧成拙和按下葫芦起了瓢这种事儿 主要说的就是这种 outlier 案例的过度迁就(类似于学习系统的overfitting)。

打住,到此为止。要抑制钻牛角的好奇心。

白:
此标题的文章作者已经撤回。被我指出歧义觉得不妥了。

 

【Parsing 标签】

1 词类:V = Verb; N = Noun; A = Adjective; RB = Adverb;
DT = Determiner; UH = Interjection; punc = punctuation;

2 短语:VP = Verb Phrase; AP = Adjective Phrase; NP = Noun Phrase;
VG = Verb Group; NG = Noun Group; NE = Named Entity; DE = Data Entity;
Pred = Predicate; CL = Clause;

3 句法:H = Head; O = Object; S = Subject;M = Modifier; R = Adverbial;
(veryR = Intensifier-Adverbial); NX = Next; CN = Conjoin;
sCL = Subject Clause;oCL = Object Clause; mCL = Modifier/Relative Clause;
Z = Functional; X = Optional Function

 

 

【相关】

《一日一析系列》

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录




https://blog.sciencenet.cn/blog-362400-1109368.html

上一篇:【李白101: 话题在逻辑上是个什么东东?】
下一篇:【一日一析:“对叙军事打击是一次性行为”】
收藏 IP: 69.174.14.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-26 09:34

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部