《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【一日一parsing:修饰语的组合爆炸挑战】

已有 4208 次阅读 2018-4-1 13:31 |个人分类:立委科普|系统分类:科普集锦| NLP, parsing, 解析

 

中文合成词、术语命名可以很长很长,如果顾及内部的修饰关系的边界,是一种典型的结构歧义的组合爆炸。排列组合算一算,N个修饰语有多少种结构歧义?

怎么整?其实,人对于这种超长短语的理解,也基本上是糊里糊涂听,对于里面潜在的歧义无感居多。那机器去做呢,两个办法,一个是凑合大局,不拘小节,出个 deterministic 的结果。另一个办法就是穷举其中的潜在歧义,也不难,问题是穷举了以后如何是好,还是糊涂。

量子区块链AI韭菜盒子店

what is 量子区块链?

马氏体区块链智能韭菜盒子

马氏体?or 体区块链?马氏-style?

AI牌马氏体大数据区块链智能云韭菜盒子

智能云 or 云韭菜盒子?

AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子

AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子声控密钥无人店

这已经超过10个修饰语了:AI牌 / 马氏体 / 大数据 / 区块链 / 智能云 / 全自动 / 去中心 / 韭菜盒子 / 声控 / 密钥 / 无人店

“声控密钥” 感觉是直接修饰 “无人店“ 也许更合理。可现在这种结构也凑合了。好在 XP 内部的纠结,对于句子中 XPs 之间的关系基本没有影响。不过,这种超长NE或NP其实也很少出现在句子里面,通常都是做标题用。

(注:以上例句是尼沙龙人工智能群老友故意拿 buzz words 调侃“生造”出来的。但这些例子反映现代汉语的语言事实,并不离谱。)

 

【相关】

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 




https://blog.sciencenet.cn/blog-362400-1106774.html

上一篇:【立委兄:小城记忆】
下一篇:《一日一析系列》
收藏 IP: 99.151.9.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-29 02:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部