偶数多字词汇的消歧问题
已有 2855 次阅读
2011-5-10 21:27
|系统分类:科研笔记|
力学, 计算机, 研究所, 应用数学, 上海市
如果不采用奇数多字词汇,只采用偶数字数的多字词汇,这有助于准确地进行词汇的分割。
但是这并不能够完全消除整个句子可能产生的歧义问题。
比如将“上海市应用数学和力学研究所”更改为:“上海应用数学和力学研究机构”,则还是可以有两种理解,分别是:“上海应用数学和力学研究的机构”
和 “上海应用数学和力学的研究机构”。虽然可以通过计算机对大量句子进行统计的方法找出其中概率最大的词汇组合,但是人的思维则不具备这样的精确性,特别是那些非专业人士更容易出现不同的理解。
要在自然语言中也能够严格消歧,必须做出适当的限制。目前来看,最好的方法还是增加虚词。比如该名称准确的含义为:“上海应用数学和力学的研究机构”。
这看起来同三字词汇的用法差不多,但二者还是有区分的。相同之处在于两个句子都可以很好地消歧,但是使用四字词汇还可以有效地进行句子的词汇分割。
当然这样来进行规范,并不是要消灭三字词汇,而是期望能够尽可能地减少三字词汇的滥用问题。比如
“共和国”就是三字词汇,而“中华人民共和国”则是奇数多字词汇。这种词汇是不可能更改的。不滥用三字词汇或奇数多字词汇,意味着这类词汇只能够在特定场合中使用。比如只能够作为单位或机构的名称。如果在句子中出现,则应通过虚词来进行分割。
当然,我觉得“科学网”这个三字词汇还是可以更改的。比如可以更改为“科学网络”,或简称为“科网”
https://blog.sciencenet.cn/blog-361477-442722.html
上一篇:
三字词汇探源下一篇:
《科技汉语语法纲要》——3 虚词