xiaohai2008的个人博客分享 http://blog.sciencenet.cn/u/xiaohai2008

博文

基于双序列比对的中文术语语义相似度计算的新方法

已有 3685 次阅读 2011-10-18 14:45 |个人分类:相似度计算|系统分类:论文交流| 相似度计算, 双序列比对, 同义词词林

针对中文术语的语义相似度计算问题,本文首先用数学语言对其进行了描述,然后仔细分析了求解该问题的传统计算方法,结果发现传统计算方法大都做了一个隐式假设:组成两个术语的原子术语的顺序必须大体一致。换句话说,传统计算方法并没有考虑原子术语顺序的差异对构建两个术语的原子术语间对应关系质量的影响。为克服这个问题,通过类比分析,本文认为可将该问题看作一个全局双序列比对问题,因而引入生物信息学领域中著名的全局双序列比对算法(NW算法)。理论及实验研究均表明,在绝大多数情况下,该方法优于传统方法,或至少与传统方法的效果相当。

本文详见:
similarity.pdf


https://blog.sciencenet.cn/blog-611051-498129.html

上一篇:Mining Frequent & Maximal Reference Sequences with GST
下一篇:两类创新:无中生有、有中生无
收藏 IP: 168.160.25.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-12-27 01:01

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部