崔雷的窗口分享 http://blog.sciencenet.cn/u/zilu85 我在专业领域里的感受

博文

bicomb2.0 beta

已有 11390 次阅读 2013-8-15 11:33 |个人分类:生物医学文本挖掘|系统分类:科研笔记| bicomb

我的半生不熟的bicomb,算是bicomb2.0的beta版吧:http://dmi.cmu.edu.cn/dmi/research/bicomb.php,

最终版要在9月初完成,届时会有完整的update说明文件。

1.    数据转换更加灵活

通过“管理员-格式定义-增加”,用户更加自由地新增或者修改来自不同数据库和下载格式的各种文本记录的抽取模板。

a)     对于常用的CNKI和万方数据库,目前格式模板中推荐使用XML格式的文献记录,这两种格式在两个数据库中均以NoteFirst格式下载。下图为CNKINoteFirst格式下载的一篇文献记录。对于xml超文本格式则只默认“多值,以分隔符区分”形式。

b)     对于WOS等以txt文本格式下载的记录,根据字段和关键字的各种表现方式对字段的性质进行了分类,方便用户自定义抽取文献的格式模板。以WOS为例说明:

(1)    多值单行,指该字段内关键字有取多个值,均位于同一行,各个值之间以分隔符区分。如WOS中的DEID字段中的关键词:

(2)    多值多行,指该字段的关键字有多个值,但是每个值占一行,无分隔符。如:WOS格式文档中的作者(AU)、引文(CR)等:

(3)    单值单行,指该字段仅有一个值,这个值也仅占一行。如WOS格式文档中的发表年(PY)等:

(4)    单值多行,该字段只有一个值,但是其内容较多,长度超过一行,如:WOS格式文档中的标题(TI)等。

2.    对转换后的数据进行清洗

a)      批量修改、删除某些记录:对相同值的数据做批量修改或删除。用于处理匿名作者、错误的引文著录、或者中文关键词的整理等,如将所有作者名为“anonymous”的记录删除掉,或者对于关键词中的所有“高等教育,医学”用“高等医学教育”替换。操作方法:在提取之后,可选择欲删除或者修改的某类关键字的某个值,点击右侧“修改”或“删除”按钮,输入正确的值(有批量修改的备选),确定即可。

b)     对记录进行排序。对提取后各字段进行降序、升序排列,方便检查或删除抽取结果。操作方法:选择某类关键字后,可通过点击数据列表栏目“值”,其前面出现“△”,单击该按钮可以逐次按降序、升序和原始顺序显示记录。

c)      对数据列表中的数据进行“复制”。用于替换错误数据,如选中关键词中的“高等教育,医学”。具体操作:用鼠标双击某行值,使其显示状态变化为编辑状态,通过鼠标可进行“选蓝”,然后点击鼠标右键,通过弹出菜单选择“复制”项。

d)     显示部分数据。提取后,可以显示全部记录,亦可以显示某个字段中部分数据,如期刊为JAMA的全部记录。具体操作:结果显示栏上方有“全部;仅同值”选择功能,可以通过“仅同值”功能使数据列表只显示等于某个值的数据。

3.    导出记录更加灵活,提供中间结果的导出的途径

a)      对提取之后的记录,通过记录的号码可以导出所选文章的标题、第一作者、期刊等信息。操作方法:双击数据列表中相应行或者在“文章号定位”处直接录入某文章号,选择成功的文章号将显示在“导出”按钮下方的列表中。要取消某个文章号,可在列表中双击相应文章号即可。选择完成后,点击“导出”按钮即可。

b)     在统计和共现矩阵的结果显示中,也可以导出计算结果,如含有某作者名字的全部记录,包括文章号、标题、第一作者、期刊等。操作方法:用鼠标选择相应的统计数据,再点击鼠标右键,即可弹出导出菜单。


目前问题很多,大家不要抱怨,尽管把发现的错误和希望的功能提出来,还有修改的机会。

下一步想加入中间结果的导出功能,和用户自己处理过的中间结果的导入功能(方便生成共现矩阵)。

设立各种文献数据库记录格式的模板文件,大家可以自己制作并导入软件内,也许有个群或者论坛,用户可以上传自己针对各种数据库的文献记录格式的处理模板。

我目前信奉的理念是:

OA:不是开源,但是提倡科学软件的免费使用,所以会一直免费下去。

DIY:不求完整的系列的封装的高端武器,只是提供一个环节,生成一个矩阵就可以了,拿着矩阵你可以用其他软件进行分析。

还有一个遗憾,暑期办了一个免费的学习班,比较匆忙,忘了在这里发布一下消息了。对不起。大家对这样的学习是否有兴趣呢?

http://dmi.cmu.edu.cn/dmi/events/news.php?id=e00007












http://blog.sciencenet.cn/blog-82196-716997.html

上一篇:2012:得失之间
下一篇:生物医学文本挖掘相关概念辨析

4 武夷山 赵星 刘宇 许海云

该博文允许注册用户评论 请点击登录 评论 (6 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2020-10-27 17:50

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部