博文

BICOMB中对CBM记录的处理

已有 6809 次阅读 2011-11-16 11:00 |个人分类:生物医学文本挖掘|系统分类:科研笔记| div, quot

BICOMB软件里没有对中国生物医学文献数据库（CBM）的处理，这个数据库却又是查找中国医学文献的工具中唯一有主题词的数据库，很多人利用这个数据库进行信息分析。

最近，看到一篇用CBM数据进行共现分析的稿件，据说能用EndnoteX4统计高频词，甚至做共现矩阵，甚为惊奇。但是，请教了几个高手，没有找到这个功能，有点儿失望。

还是用我自己的吧，把BICOMB中原来的CNKI格式进行修改，相应的字段都换成CBM的字段名称和标识。CBM下载的格式是详细记录，但是发现抽取出来的主题词中，同一个主题词带星号“*”和不带星号的分别统计，还有中间带有逗号“，”主题词被分成了两个来统计，这些都造成了统计不准确。

为此，采取了比较拙劣寻找-替换对下载的文件进行了一番修理：

1.替换掉所有的“, ”（半角的逗号后面加上一个空格）为“-”，这是哄骗程序，让程序不把一个倒置的主题词当做两个词来处理。

2.把“*”替换为“”（啥也没有）。这样就没有主要和次要主题词之分了，它们统一在一起计算频数了。窃以为，中文的主题词标引主要、次要主题词之间差别不大，一些不重要的词（如动物、人类、老年等）很多作为特征词不在主题字段内了。

这样处理过的数据，输入BICOMB就很舒服了。

把在对CBM记录进行主题词共现分析的过程记录下来，主要是怕自己以后忘了，当然也可以和同道交流，如果可能的话。

转载本文请联系原作者获取授权，同时请注明本文来自崔雷科学网博客。
链接地址：https://blog.sciencenet.cn/blog-82196-508520.html

上一篇：最近已买和要买的书
下一篇：陪你一起走过的人

收藏 IP: 202.118.47.*| 热度|

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

扫一扫，分享此博文