《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【deep parsing:“对医闹和对大夫使用暴力者,应该依法严惩"】

已有 4109 次阅读 2016-5-10 00:38 |个人分类:立委科普|系统分类:科普集锦| parsing, deep, 中文zidongfenx

我: 这个细究的话,还有不少工作


但现在的样子,总体上是对了:

1. 句法形式上,可以说,“对。。。” 是状语 Adv

2. 深层句法上,“对。。。” 是“依法严惩”的predicate complement,接近宾语了,因为不是“把”引导,而是“对”引导,因此就叫它补足语,总之是 internal arg,逻辑语义表示【对象】(而不是【受事】)

3. 其中,“对大夫” 应该是 “使用暴力”的 arg,但目前没有做那么细,这第二个“对”没有分析,一笔带过,但不影响总体的结构分析。

“医闹” 与 “VP+者” 的并列也是对的

白:

联合结构的辖域

我:

辖域没错

一个是“医闹”,另一个是 “---者”

白:

为什么不是另一种

我:

为什么?为什么呢?

宋:

@wei 这句话的分析是要看社会文化背景的。在某种社会文化背景下,对医闹不能直接使用暴力。如果对医闹使用了暴力,也要依法严惩。两个“对”是否并列,超出了语言学范围。

我:

现下的分析 没有让并列。第二个 “对” 吃进VP去了。

宋: 为什么这样分析?

我: 我也在问。

我可以修改,可是在战略目标不明确的时候,对于这种不离谱的分析,一般是按兵不动。因为改的结果很可能是顾这头丢那头。社会文化背景已经超出常识了,常识迄今也只能零星带入,更甭说文化背景知识了。不要难为机器。

宋:

从语言学上看,有几个倾向性的规则。一是并列结构优先,于是“对医闹”和“对大夫”并列看待。二是一个介词可以有多个宾语,此时该介词不必重复,于是“医闹”和“对大夫使用暴力者”并列。三是“使用暴力”往往需要介词“对”引出对象,“依法严惩"也需要”对“引出对象,二者要竞争”对“。

我: 所以战略上 还是走 nondeterministic 的路似乎较好。宋老师的三条 heuristics 很好,但实现起来常有冲突。

宋:

麻烦在于这3条都不是绝对的,于是需要外部知识的支持,可是这就难了。语言学处理最好是给出两种结果,留待知识处理阶段判断。

(对(医闹  和 (((对 医生)使用 暴力)者))要 (依法 严惩))

((((对 医闹)和(对 医生)使用 暴力)者) 要 (依法 严惩))

((对 医闹)和(对 (医生(使用 暴力)者))要(依法 严惩))

三个结果。医生不能使用暴力。

我: 所言极是,完全同意。

白:

“对领导干部和对专业人士采取一刀切管理办法者要提出批评。”

我:


“一刀切”是成语没有问题。但是“一刀切”是一种管理办法,这个知识目前没有 encode 进去。那么把后者连接成宾语(而不是同位语)也就不奇怪了。

白: 成语没问题,关键是标什么POS

我: 动词啊。

对了,虽然源于动词,这个成语做动词用法的机会小于5%

白:

形容词就没问题了

我:

改成adj以后:

动词用法不怕,因为肯定上下文明显:


宋:

这种表述不好。应该

[对医闹

 和

 对医生]

这种表述不好,应尽量在语言学层次上避免歧义:对领导干部和专业人士采取一刀切管理办法者要提出批评。

白:

我的例子似乎少了一个“对”

宋:

汉语可以不加”对“。

如果加全了就成了"对于对领导干部和专业人士采取一刀切管理办法者要提出批评。"


白:

是,但是有了“对”,又断定此“对”非彼“对”,就累了。

宋:

对于医闹和对医生使用暴力者要依法严惩。

医闹要依法严惩。公检法部门要依法严惩。依靠常识判断施事受事。

白:

依据大数据是依据常识的一种近似落地方式

宋:

如果在文本库中,出现过AVB形式,那么对于AV和BV来说,A就是主体,B就是客体。

ABV和BAV也能分开了。

如果没出现过AVB,但出现过aVb,A~a,B~b,也可以。但这个相似关系需要定义,此时应该发挥HowNet的作用。如果Hownet没有,就要应词向量了。

白:

这就是我昨天建议的方法

宋:

手边有工具的可以测试一下。有时猜测和现实还会有差距。

白:

测试也是相对于数据的,数据多大才好用是个关键

宋:

对。还有数据的覆盖面。


【相关】

【立委科普:美梦成真的通俗版解说】

【立委科普:语法结构树之美(之二)】

【新智元笔记:中文自动分析杂谈】

【置顶:立委科学网博客NLP博文一览(定期更新版)】  






https://blog.sciencenet.cn/blog-362400-976139.html

上一篇:【泥沙龙笔记:知识图谱是烧钱但靠谱的战略项目】
下一篇:【新智元笔记:巨头谷歌昨天称句法分析极难,但他们最强】
收藏 IP: 192.168.0.*| 热度|

1 蔡小宁

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-18 12:35

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部