《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【李白之32:从“没 de Vt” 聊开去】

已有 2790 次阅读 2017-2-21 01:30 |个人分类:立委科普|系统分类:教学心得| 语义计算, 情感分析, 自动分析, 舆情挖掘

Me:
问一下各位老师 “没的吃”、“没的喝” ,算是个什么结构?与 “没吃的”、“没喝的” 有何异同?“没的害臊”、“没的不要脸” 这类大概是口语习惯表达法 不在此列。
没的 vt == have nothing to Vt
VP 动宾结构 否定式宾语前置
“没 vt 的” 或者 “没的 vt 的”,也是 动宾结构的 VP,但否定式落在 v 不落在宾语身上,而且是 的字结构 做后置宾语。

梁:
“没的” 应该是方言吧?wei老师,闽南话。

Me:
不仅是闽南 好像各地都有 至少是都能听懂的句式 .
“没的吃” = “没有可吃的” = do not have anything to eat.
没吃的 意思有差别吗
do not have what to eat ?
没的 vt == 没的 可vt ?
问:“过得怎么样?” 答:“不怎样,这些年没的折腾。”
“没的折腾” 怎么回事?跟 “没的害臊” 类似 也是成语用法 而不是有产生性的用法吗??

白:
没的折腾,不懂啥意思

Me:
觉得就是 “净瞎折腾” 的意思。
字面是 “没什么可折腾”
没的害臊 是 真害臊
没的不要脸 是 真不要脸
嗨 别提了 没的生气呢
是 生气生不过来 的意思
太多气生了
咋回事 本来是说 nothing
没的生气 = 净生气了

白:
没的any more
先说这个“没”是副词还是动词。副词不好接名物化的“的”,所以是动词。如果“的”是“得”之讹误,更不具备结合条件

Me:
“没” 是状态v,没有动作性,通常不带 【得字补语】

白:
这俩人有的一拼,这俩人有得一拼

Me:
“没的 vt” 中 “没 比 vt” 谁主谁副?
“没“” 主,那就是 v:have nothing to eat;Vt 为主的话,可以看作否定式 “的字结构”做前置宾语:nothing to eat,eat nothing

白:
没的,更像是存在量词的否定
对比:有人来了
有和来,谁主?

Me:
我处理成 “来” 为主。“有” 虚晃一枪:
有人来 = somebidy 来

白:
我是把他俩合并,共享坑(不需要那么多萝卜),其他事情落地时再说。

Me:
形式上看,自然是“有”为句法的主要谓词。带 【宾+宾补】的 subcat pattern 结构。但实际中,把宾补当做主要谓语,把句首的 “有” 当做小词,处理起来有诸多便利,也更靠近语义实质。

白:
当小词,处理变式需要当心

Me:
有前条件的:必须位于句首。严格说是,跳过副词类小词,“有” 居于句首。有这么个约束。

白:
“酱油有买的吗?”
有时又及物,有时又折腾出一个主语状语两可的萝卜

Me:
“有” 是个很讨厌的词。台湾国语可以表达完成体,倒是与英语平行了。这个台湾国语的用法如今已经推广到整个华人世界了,算是丰富汉语时体系统的一个小贡献。

白:
闽南话

Me:
“我有学琴过,就是一直没上路。”
“你有看《长城》吗?据说巨烂,老谋子的好莱坞滑铁卢。”

还好紧随着动词,这种用法不太难识别。

白:
当助动词好了

Me:
查了一下,“我们没得吃,没得喝”,还真是用 “得” 的,比用 “的”的多。想不出来,这 “得” 怎么冒出来的。

白:
没得到吃,没得到喝。
没东西得以吃,没东西得以喝

Me:

我们没的(or 得)吃,没的(or 得)喝,已经好几天了。
这地儿没的(or 得)吃,没的(or 得)喝,我们来干啥?

从上例看,没 de Vt 作为谓语,可以要求一个 【human】 的主语,也可以要求一个 【location】 或 【org】 的主语。【human】或【location】常做主语。

【human】 have nothing to eat vs. 【@location】 there is nothing to eat

“没的 Vt” 相对于 “有的 Vt”:

入伙吧,保你从此有的吃、有的喝。

可是除了 吃喝玩乐,这个 Vt 也不好延伸er而无歧义(歧义表现在“有的”做逻辑宾语还是作为不定代词【human】做逻辑主语,其实这种做逻辑主语歧义在上述吃喝玩乐的用法中也休眠隐藏在内,不过可能性较低而已):

有的喜欢,有的不喜欢:
1. there's some to like and some to dislike;
2. some (people) like it, some (people) dislike it

没的学习???
nothing to learn?

白:
没的项目做,散伙算了。

Me:
想得脑仁疼。就为对付这么个简单的破说法。

有一个简单的办法就是,对于这些个模模糊糊的结构,产生性不强,介于习惯用法的成语与非成语之间,见一个扔一个,统统进词典。“没的Vt” 也就不用琢磨这个 Vt 集合到底有多大了,哪些该词典化,哪些该规则化,各自的标配分析和休眠的种子又是怎样。譬如,大数据挖一把,trigram 频率就搞定大部该词典化的现象及其合适处置。而鸡零狗碎里面琢磨规律性,真心难,不值得也没时间花那个力气了。

嗨,奏酱紫了,好歹它了。

白:
“酱油有买的吗?”这里有坑:

第一,“酱油”和“有”没有先结合,而是选择了Sh。第二,“有”和“买”没有立即结合,而是选择了Sh。

Me:
买的 = 买的人?
如果换成“卖”:卖的 == 卖的东西,回指 “酱油”。

“酱油有卖的吗?”
“没有卖的,有赠的。”

白:
哈,卖的、送的,买的、偷的、拿的,

Me:
酱油有买的吗 == 酱油有买的人吗?== 酱油有人要买吗?
这是最常见的理解。但不排除:
酱油有买的吗? == 酱油有买来的么?(还是全部是赠送的?or 全部是抢来的)。
这里,“买的” 回指 “酱油”。

有意思的是,如果是“买”,指人的概率大(hence 标配理解),回指的概率小。
如果是“卖”,则反过来,回指是标配理解,指人概率小。

白:
在我的处理里,都模糊掉了。

Me:
hidden 歧义,句法模糊掉,是对的。

白:
在“卖”的场景下,不完全是回指,存在“整体-部分”关系。也许还有留一部分自用的、送人的。先行词是整体,含省略的搭配词+的是部分:

礼我只收脑白金。

也是同样。

Me:
我所谓 “回指” 包括 整体部分的关系。是我用词不确。以前说过类似的: hit sb on the head:hit 的是人 还是 人的头?其实都对:hit 了头 就 hit 了人。头”回指到人。

白:
白马非马

Me:
i love iPhone for its screen
I love the screen of iPhone

喜欢的是手机还是屏幕?我们做 sentiment 的认为 都算。喜欢部分就是喜欢整体。

白:
Among the horses you gave me, I love the white one.

讲点逻辑的话,不算。爱屋及乌是有的,只爱屋不及乌也是有的。

说某些议员是狗婊子养的是骂人,说某些议员不是狗婊子养的也是骂人。

Me:
逻辑是这样的:

I like the screen of iPhone and hate its battery life

so this person has 2 votes for iPhone:1 positive and 1 negative。只有这样 sentiment 的统计才真正具有舆情的意义。世界上没有完美(脑残粉的视角不算)。喜欢一个 object 永远是喜欢它的(让人喜欢的)部分。有时候这个部分(Aspect)被明确表达出来作为理由。有时候不表达出来。从舆情的角度,就是投票。喜欢一个部分,就是对整体的正面的一票。喜欢整体,没有明确表达喜欢的部分,也算是一票,因为他心里其实是有部分的,理论上不可能是百分百从头到脚到细胞到令人讨厌的部分都喜欢。前者除了计入褒贬情绪(即舆情)的统计票数外,还提供了 actionable insight,具有具体的情报价值,后者只是舆情的发泄而已。

白:
往往,喜欢一部分而不提另一部分,就是委婉表示不喜欢另外部分

Me:
那么想,就没法做舆情统计了。你那是言外之意,正话反说;不是没有,总体是少量。

有一次应邀到一家公司给个 sentiment 的 talk,听众有问,讽刺如何识别,我说,讽刺的确是挑战,不仅对我们是挑战,对大家都是挑战。讽刺中的形式痕迹,也有可以识别的,但更多是缺乏形式痕迹的,或者形式表现在语气和表情这些 text 以外的方面。

可以识别的形式有:

1.  thank you for 【BAD behaviour】
2. 【BAD behaviour】,great!

【BAD behaviour】是各种具体的负面表述或吐槽,而句首或句尾的正面情绪 thank you 或 great,形成反差,因此构成了形式上可捕捉的讽刺。通常的逻辑总是拿具体的正面(反面)证据来支持正面(反面)的情绪或评价。如果这个范式被打乱,就可以传达讽刺。

接着我说,但是很多讽刺是没有显式的文本痕迹。对于人的理解有时也构成困难,比较木的人或情商较低或经验不足的人,往往也无法 decode,对于机器自然也就难了。譬如 刚谈恋爱的愣头青 往往听不懂对象的话。但对象说 no 的时候,他不知道其实不一定是 no,很可能是 yes。

达令,给你买个你一直超喜欢的名包吧?
No,这包太贵。

这个傻瓜居然就真地不买了。三个月后,对象跟隔壁阿二跑le。阿二不仅仅有钱,也有心,懂得察言观色 body language,善于 read between lines,尤其擅长 decode 女性的话语。

马:
看得懂这标题吗? "曝国王将考神交易至鹈鹕 联手浓眉组双塔" 也许有背景知识的能秒懂,我是没懂,看了正文才懂

白:
这个例子好
“联手”的逻辑主语怎么确定很有看点。

Me:
我完全看不懂。不知道我的 parser “看懂了”没有:

从模拟domain专家理解的角度,几乎肯定错得离谱,因为根本没有domain的知识训练和词汇外挂。我们 domain-independent parser 的是语言学分析的“合理”。在 domain 化(domain porting 90% 涉及的是词汇表术语及其本体的引入,其次才是边缘规则的微调)之前,上面的这个parse,看上去应该说是合理的。

白:
需要知道,“国王、鹈鹕”是org,“考神、浓眉”是individual,联手individual的只能是individual,等等。“a联手b组c”,有兼语的味道。组,是动词,组成的缩写。

Me:
“浓眉组和细眉组,分头出击。”
“浓眉组双塔顶不过细眉组单塔,真是不可思议。”

白:
语义场在起作用
球队、球员、转会交易、阵型,暗中互相支持。这些命名实体很可能不用定义什么,就可以自动获得这些标签。大数据太丰富了。还需要知道,在NBA场景下,“浓眉组”是超低频的。


【相关】

【李白对话录系列】

中文处理

Parsing

【置顶:立委NLP博文一览】

《朝华午拾》总目录




https://blog.sciencenet.cn/blog-362400-1034937.html

上一篇:科普一下条纹码二维码的历史
下一篇:【李白之33:从语言的毛毛虫特性聊到语文纠错的工具】
收藏 IP: 99.151.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-28 09:42

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部