MhLan的个人博客分享 http://blog.sciencenet.cn/u/MhLan

博文

用爬虫技术在谷歌学术上追踪研究热点

已有 1278 次阅读 2018-5-24 22:12 |个人分类:兴趣拓展|系统分类:科研笔记

        近况良好!本科毕业答辩在即,自编码器的研究也还令人满意。之前一直琢磨不透的地方得到了解决,对非相干通信与自编码器的理解也更深一层。因为自己还是想发技术性的期刊而不是科普的Magazine,所以继续沉下心来做好理论分析。偶有间隙可以自己支配,写一个爬虫小程序缓解一下紧张的科研生活。

        我们经常用谷歌学术进行关键词搜索,然后对生成的结果一条一条地匹配。其实我们一般只看标题就能过滤掉很多信息,不断的滑轮往下滚就显得很麻烦。同时我们只能用脑子去记住出现的关键词,才能对这个领域有一点基本的认识,知道大家都在做哪个方面。但其实,这些都是可以用爬虫来做的,而且还能生成美观的词云图。如果我的搜索关键词为”Sparse autoencoder“的话,就会生成下面这幅图。

keyword.jpg

        当然我不是从底层一点点写上来的,都是以来于之前各位大神的lib和package啦!因此秉着开源的思想,我也会把源代码完全地贡献出来。

        下面我简要说一下使用方法。其实在压缩包里都有的,不过我不说清楚的话大家也不去下载的哈哈哈。顺便吐槽一下博客的编辑,我用markdown写的不能直接复制粘贴上来,希望科学网以后能改进一下。

基本功能

  • 抓取谷歌学术镜像网站搜索结果中的论文标题

  • 可自己设置关键词与年份

  • 对标题中关键词进行词频分析

  • 绘制词云图

使用前提

  • Python 3.+

  • 包:requests,re,collections,BeautifulSoup,wordcloud

    pip install .* 即可安装

  • 网速还行 : )

使用方法

  • 设置参数

    Max_page = 2
    key = 'sparse+autoencoder'
    start = '2000'
    final = '2018'
    text_title = 'GStitle.txt'
    text_keyword = 'GSkw.txt'
    • 抓取的论文数量 Max_page*10

    • 搜索关键词 key,中间空格用+隔开

    • 起始年份start

    • 终止年份final

    • 保存抓取的目录GStitle.txt

    • 保存提取的关键词GSkw.txt

  • 点击运行

效果

  • 抓取标题Sparse autoencoder-based feature transfer learning for speech emotion recognition
    Stacked sparse autoencoder (SSAE) for nuclei detection on breast cancer histopathology images
    Building high-level features using large scale unsupervised learning
    K-sparse autoencoders
    Stacked Sparse Autoencoder (SSAE) based framework for nuclei patch classification on breast cancer histopathology
    On latent fingerprint minutiae extraction using stacked denoising sparse autoencoders
    Fusing heterogeneous features from stacked sparse autoencoder for histopathological image analysis
    Facial expression recognition and generation using sparse autoencoder

    这一条一条的就是抓下来的标题,浏览这个是不是方便多了?

  • 关键词词频分析

    Counter({'sparse': 11, 'autoencoder': 8, 'learning': 6, 'classification': 5, 'recognition': 4, 'autoencoders': 4, 'stacked': 4, 'deep': 4, 'Sparse': 3, 'feature': 3, 'Stacked': 3, 'cancer': 3, 'features': 3, '(SSAE)': 2, 'nuclei': 2, 'breast': 2, 'histopathology': 2, 'unsupervised': 2,...

    其中的数字就代表在所有抓取的标题中,这些单词出现了多少。其实这有个可以改进的地方,目前的关键词分析都是单个词汇,但是更多的是词组才有意义。这也是以后的一个改进方向。

  • 生成云图

    字体大小对应频率高低,就是之前放的图啦

        具体的代码在上传的压缩包里,大家随意下载,还可以留言提问哟~

autograb.zip



http://blog.sciencenet.cn/blog-3380529-1115593.html

上一篇:山穷水尽,何时才能柳暗花明?

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2018-9-24 18:15

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部