||
针对中文术语的语义相似度计算问题,文献[1][2]首先用数学语言对其进行了描述,然后仔细分析了求解该问题的传统计算方法,结果发现传统计算方法大都做了一个隐式假设:组成两个术语的原子术语的顺序必须大体一致。换句话说,传统计算方法并没有考虑原子术语顺序的差异对构建两个术语的原子术语间对应关系质量的影响。为克服这个问题,通过类比分析,文献[1][2]认为可将该问题看作一个全局双序列比对问题,因而引入生物信息学领域中著名的全局双序列比对算法(NW算法)。理论及实验研究均表明,在绝大多数情况下,该方法优于传统方法,或至少与传统方法的效果相当。
为了进一步促进情报分析的发展,现将我们开发的中文术语相似度计算工具箱公布于此(PSASimilarity.rar),该工具包括相应的源代码、原理描述文档以及使用的资源——同义词词词林扩展版(词林电子版来源于网上,应该是哈工大信息检索研究室将其开源的,在此感谢哈工大信息检索研究室所做的工作)
如果大家使用了这个工具箱,也请大家引用以下文献:
[1] 徐硕, 朱礼军, 乔晓东, 薛春香, 2010. 基于双序列比对的中文术语语义相似度计算的新方法. 情报学报, Vol. 29, No. 4, pp. 701-708.
[2] Shuo Xu, Lijun Zhu, Xiaodong Qiao, and Chunxiang Xue, 2009. A Novel Approach for Measuring Chinese Terms Semantic Similarity based on Pairwise Sequence Alignment. Proceedings of the 5th International Conference on Semantics, Knowledge and Grid (SKG), pp. 92-98
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-23 02:36
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社