PengChen2016的个人博客分享 http://blog.sciencenet.cn/u/PengChen2016

博文

大量英文论文PDF录入到JabRef

已有 10336 次阅读 2017-9-26 20:41 |系统分类:科研笔记

     前段时间做了一个任务,用到一些冷门技巧。适用于有大量英文pdf论文,需要导入到参考文献软件JabRef的情况(因为不同软件的数据库记录格式不一样,在此不探讨对其他软件适用性,Mendeley除外)。这只是众多解决方法中的一种,不保证是最有效的,但减少了一定的人工工作量。

情况:三百篇以文件夹方式保存的论文pdf,现在要录入到JabRef,要求题录具备基本信息,并能链接附件。  

思路:

1、逐条记录搜索,导出Bib文件,然后导入到Jabref,再手动添加附件-放弃。可能熟能生巧后工作量也不大,但感觉太没有技术含量。

2、编程或借助软件实现:读取论文名称,自动联网查询以补全题录信息生成bib,并写入附件链接(或文件以bibtex键可识别的方式重命名)。这个有技术含量-放弃。奈何我水平有限。

3JabRefPDF文件的识别能力不够强,而且自动补充题录信息需要doi号等;因此考虑用Mendeley作为中转-采用。因为懒得再想其他办法了。

过程:

1、将pdf分文件夹拉入到mendeleymendeley会尽可能地提取pdf的信息。考虑到部分论文是图片内核的pdf,可以预先做批量的文本识别。

2、使用mendeley的自动更新功能,可见部分文献已经补全信息。然后做人工核对,找某个基本信息项排下序就知道哪些文献缺信息,有doi则查找一下看能否补全;大致看下题录信息和pdf文件名。

第一步无法识别的文件,以及某些错误题录,把文献名称填到mendeley,并在谷歌学术搜索,保存到“我的图书馆”,然后批量导出bibmendeley。然后查找重复题录,以谷歌学术导出信息(即没有附件的那一个)为准做merge documentmerge document会提示,没打勾的框就是存在冲突的框,而显示的值是在重复文件中勾选的内容,所以可以不用再打勾,确认即可。

诸如相近甚至相同名称的论文,中文文献(Mendeley不识别中文),非论文的文献,非PDF的文件等等……终归需要人工处理。

3、如果需要将文件夹信息导入到JabRef,则应该把文件夹名写到Mendeley的题录中,随便写一项即可。mendeley对批量选中文献的统一处理很便捷,比JabRef中选中后再选择域重设值要方便。

4、如果希望在JabRef中使用BibTex键链接附件的方式,则应该设置Mendeley的文件重命名。如果是根据路径来链接附件,则只是建议把文件重命名成统一的自己能识别的样式。

      5Mendeley导出bib文件,用记事本等打开后,ctrl+HMendeley格式的路径,替换成JabRef格式的路径(如相对路径)。一次替换解决。

      6、在JabRef导入bib,并将文件拷贝过去。在JabRef中设置允许相对路径。完成。

P.S. JabRef中打不开附件的可能

1caj、视频等非默认支持格式,需要先在选项-首选项-外部程序-管理外部文件类型中,添加CAJ格式,打开方式选择默认;然后jabref才会识别。

2、可能由于软件和系统差异,对特殊字符如_、法语字符等识别障碍。ctrl+H能解决多数问题;Mendeley中文件名重命名的设置能解决更多问题。

      P.S.已有文献列表,如何下载并录入文献?

      目前想的一种是Matlab做文本处理,写入到Bib文件,然后用能批量下载附件、自动更新题录的文献管理软件来下载。

对了,JabRef是开源软件,mendeley是免费软件,非常感谢。




https://blog.sciencenet.cn/blog-3241864-1077872.html

上一篇:Wolfram资源推荐
下一篇:ion source & plasma
收藏 IP: 59.172.234.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 17:39

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部