|||
中文合成词、术语命名可以很长很长,如果顾及内部的修饰关系的边界,是一种典型的结构歧义的组合爆炸。排列组合算一算,N个修饰语有多少种结构歧义?
怎么整?其实,人对于这种超长短语的理解,也基本上是糊里糊涂听,对于里面潜在的歧义无感居多。那机器去做呢,两个办法,一个是凑合大局,不拘小节,出个 deterministic 的结果。另一个办法就是穷举其中的潜在歧义,也不难,问题是穷举了以后如何是好,还是糊涂。
量子区块链AI韭菜盒子店
what is 量子区块链?
马氏体区块链智能韭菜盒子
马氏体?or 体区块链?马氏-style?
AI牌马氏体大数据区块链智能云韭菜盒子
智能云 or 云韭菜盒子?
AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子
AI牌马氏体大数据区块链智能云全自动去中心韭菜盒子声控密钥无人店
这已经超过10个修饰语了:AI牌 / 马氏体 / 大数据 / 区块链 / 智能云 / 全自动 / 去中心 / 韭菜盒子 / 声控 / 密钥 / 无人店
“声控密钥” 感觉是直接修饰 “无人店“ 也许更合理。可现在这种结构也凑合了。好在 XP 内部的纠结,对于句子中 XPs 之间的关系基本没有影响。不过,这种超长NE或NP其实也很少出现在句子里面,通常都是做标题用。
(注:以上例句是尼沙龙人工智能群老友故意拿 buzz words 调侃“生造”出来的。但这些例子反映现代汉语的语言事实,并不离谱。)
【相关】
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-29 02:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社