博文

如何对PDF文献做可视化分析？精选

已有 17440 次阅读 2017-10-20 07:03 |系统分类:科研笔记| pdf, Zotero, 文献可视化

看了大量文献后，你的硬盘上想必存下不少PDF文件。能否充分利用它们，挖掘出你独特的领域知识地图呢？本文为你提供一种简便易行的办法。

疑问

在网上写文章最大的好处，是经常可以收到读者的反馈。不少读者会提出一些好问题，时常给我以启发。

前些日子，我写了《如何快速梳理领域文献》一文，为大家讲解了如何使用VosViewer这一文献可视化分析工具，快速梳理领域文献。

有读者来信，提出一个疑问：

是否有软件支持导入PDF文件，直接做文献可视化分析呢？

我看到这个问题，开始一愣，继而会心一笑。

愣的原因是，我之前没有想过会有这样的需求。因为做文献可视化分析的时机，往往是我们刚刚接触某一个领域，不确定哪些文献应该重点阅读。

这时候，信息的来源是文献数据库（Web of Science, Scopus等）的检索结果。这些导出的检索结果里面包含了足够的可供分析的元数据信息（作者、机构、时间、国别、期刊等）。

然而PDF文件可就不一样了。虽然它包含了文献的全文，但是却并不更适合提炼元数据信息，做文献可视化分析。尤其是比起元数据导出格式（例如RIS等），它的体积又大得多。

因此，很难想象一个文献可视化工具会选用PDF作为数据源。

于是，我打算如实回答，在我接触过的若干种主流文献可视化工具里，没有哪一款支持这样的功能。

但是，我旋即想起了哈佛大学营销学教授莱维特（Theodore Levitt）的那句经典名言：

人们其实不想买一个1/4英寸的钻头。他们只想要一个1/4英寸的洞。

如果透过表象，洞察用户的实际需求，我就立刻能理解这位读者的痛点在哪里了。

痛点

对科研工作者来说，已阅读文献（大多是PDF格式）的管理，确实是个非常实际的难题。

我们经常会从各种文献数据库里下载阅读文献，也因此会在硬盘里积攒下大量的PDF文件。这些文献往往是在相对较长的一段时间内积累起来的，许多都经过了研究者的扫读(skimming)甚至是精读，确认和研究主题密切相关，才被一直保留下来。

当然，如果你阅读后发现文献不相关，都懒得整理……算我没说。(幸好做可视化分析的时候，这部分文献可以相对容易地被识别出来。)

跟文献数据库里检索结果全集比起来，这些PDF数量虽多，一般也只是一个子集，并不够全面和完备。但是我们对其更熟悉，而且这些文献也更能准确刻画我们对某个领域的掌握程度。

有的学科发展很快，研究热点文献喷涌而出。例如双中子星合并被人类首次观测当夜，就有若干篇相关文章发了出来。研究者硬盘里PDF文件积累成百上千篇，毫不稀奇。

一旦文献数量超越了邓巴数，你再想要“如数家珍”，难度就会大幅上升。大部分人甚至都会忘记，自己曾经下载、存储并浏览过某个PDF文件。

如果能够利用文献可视化工具，对这些文献做梳理，会有助于我们理清自己掌握文献的脉络，做到心中有数。

更进一步，如果我们把手头PDF文件的可视化结果，与全局检索结果的分析图形进行对比，还可以明显看出自己对领域扫描是否全面。这将有助于我们找准大方向，避免在文献丛林中迷失。

这样看来，读者的问题就透露出非常有意义的需求。

这种需求，未必需要通过一个全功能的，可以直接从PDF做出分析的文献可视化工具一站式完成。

我们可以把它拆解为两个环节：

从PDF文件提炼文献元数据信息；
将元数据信息输入到文献可视化工具做分析。

第二个环节，我在《如何快速梳理领域文献》一文中，已经做了详细的介绍。需要补充的是，后来我的学生还做了一个全中文的视频教程，从头到尾展示了一次文献采集和分析过程。欢迎访问这个链接来观看。

我今天向你展示，如何从PDF文件提炼文献元数据信息。

当然，你完全可以打开PDF文件，把其中各种元数据信息手工提炼出来，然后照葫芦画瓢，存储成Web of Science等文献数据库的导出格式，输入到VosViewer中。

但是，这显然效率很低，而且非常容易出错误。

工欲善其事，必先利其器。我们会采用一款非常优秀的文献管理工具，完成这一过程。

工具

这款工具，叫做Zotero。

安仁心智的董事长阳志平先生，曾经撰写了系列文章，详细介绍了Zotero的特色、功用和操作方法。建议你读完本文后，认真通读该系列文章。

本文只涉及到Zotero的几个非常简单实用的功能。因此如果你没有听说过Zotero，对它不熟悉，也不要紧。一步步按照下文的步骤操作就可以了。

请到这个网址下载最新版本的Zotero。

我使用的是macOS版本。下载后的格式为dmg。双击打开该文件后，拖拽Zotero应用图标到Application目录的快捷方式里，即可完成安装。

从Application目录下，找到Zotero应用，打开。

你就可以看到Zotero的主界面了。我很想给你展示一个空白的Zotero界面，可惜我已经在其中存储了许多文献内容了。

下文中，我新建了一个空白类别目录，为你演示。

工具准备好了，下面我们来逐步展示操作流程。

操作

Zotero导入PDF文件，是非常方便的，只需要拖拽即可。下面这个GIF动图为你演示了使用方法。

这时，你点击某个PDF文件，右侧的状态栏会有文件描述。但是你可以看到，目前描述内容很少。只有文件名、页码和修改日期等。

不过我们可以很方便地利用Zotero的“重新抓取PDF元数据”功能，获得完整的文献描述信息。

例如下面这个动图，演示了如何右键菜单选择“重新抓取PDF元数据”，将PDF文件变成元数据完备的文献记录。

此时，右侧的状态栏里，文献信息可就清晰多了。

可以看到，标题、作者、期刊……甚至是页码都采集完整了。

下面我们需要把文献集合的信息导出。为了和后续的文献可视化工具配合，请注意一定要选择RIS格式。

我们打开导出后的RIS文件，预览内容：

RIS文件里包含了许多做文献分析需要用到的元数据。但是眼尖的你一定会发现，这里缺少参考文献列表信息。因此，你无法做用它做文献网络分析。但是它依然可以帮助我们挖掘很多有用的信息。

我们在VosViewer下新建一个项目。

从选项中，可以看到第二项(Create a map based on bibliographic data)或者第三项(Create a map based on text data)功能的数据读入方式，都支持RIS格式。

我们用第二项试试看。默认选项下，它可以抽取合著者(co-authorship)信息。

因为样例中文献数量较少，所以我们降低了默认阈值，以获得更为丰富的结果。

分析结果的密度图如下：

可以看到，你收集的文献中有哪些作者相对高产，以及他们之间的联系。

我们再试试第三项。分析主题信息。

由于过程与第二项类似，我们就不再赘述了。分析结果如下图所示。

VosViewer正确识别出了我们查找的文献主题是大数据和竞争情报的关联，而且揭示了许多文献采用的方法是Web信息抽取。

必须说明，此处我们只是为了展示操作方法，采用了非常简单的文献集。参数设置也没有经过合理的调整。从数量这么小的文献集合里，能获得的知识和洞见是非常有限的。如果你积攒的PDF文件数量足够多，那效果就会大不一样了。

小结

读过本文后，希望你已了解以下内容：

如何用Zotero导入和管理PDF文献；
如何用Zotero抓取PDF文献的元数据；
如何将Zotero中的文献集合信息输出给VosViewer等可视化分析工具；
如何挖掘和准确定义用户的需求；
如何结合不同的工具来综合解决问题，尝试满足用户需求。

与Zotero类似的文献管理工具还有很多。Mendeley, Papers, ReadCube等工具都很优秀，也具备PDF元信息获取功能。我个人偏好Zotero，因为它小巧、强大，还免费。

讨论

你平时阅读的PDF文件多吗？你是如何有效管理它们的？你使用过哪些优秀管理工具？它们的特色是什么？欢迎留言，把你的经验和心得分享给大家，我们一起交流讨论。

如果你对我的文章感兴趣，欢迎点赞，并且关注我的专栏，以便收到后续作品更新通知。

如果本文可能对你身边的亲友有帮助，也欢迎你把本文通过微博或朋友圈分享给他们。让他们一起参与到我们的讨论中来。

转载本文请联系原作者获取授权，同时请注明本文来自王树义科学网博客。
链接地址：https://blog.sciencenet.cn/blog-377709-1081637.html

上一篇：如何用R和API免费获取Web数据？
下一篇：如何用Python和深度神经网络发现即将流失的客户？

收藏 IP: 117.10.154.*| 热度|

当前推荐数：5 推荐人：周健 强涛 周春雷 高建国 赵宇

该博文允许注册用户评论请点击登录评论 (4 个评论)

数据加载中...

返回顶部

王树义

扫一扫，分享此博文

wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何对PDF文献做可视化分析？精选

疑问

痛点

工具

操作

小结

讨论

当前推荐数：5 推荐人：周健 强涛 周春雷 高建国 赵宇

该博文允许注册用户评论请点击登录评论 (4 个评论)

王树义

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

wshuyi的个人博客分享 http://blog.sciencenet.cn/u/wshuyi

博文

如何对PDF文献做可视化分析？ 精选

疑问

痛点

工具

操作

小结

讨论

当前推荐数：5 推荐人： 周健 强涛 周春雷 高建国 赵宇

该博文允许注册用户评论 请点击登录 评论 (4 个评论)

王树义

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

相关博文

如何对PDF文献做可视化分析？精选

当前推荐数：5 推荐人：周健强涛周春雷高建国赵宇

该博文允许注册用户评论请点击登录评论 (4 个评论)