wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

基于R语言的自动数据收集---案例分析研究

已有 5987 次阅读 2018-7-2 10:35 |个人分类:研究生课程论文|系统分类:论文交流| 数据收集方法, 自动化数据抓取, 文本挖掘

IMG_5524.JPG      

       2018.03-2018.07曲阜师范大学统计学院王文武博士主持讨论《基于R语言的自动数据收集》(Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining)。参加讨论的硕士研究生有11名,他们分别是:曹胜男、崔倩倩、郭瑞、郭婷婷、李海洋、刘晓晓、刘艳欣、孙畅、王爱娥、王亚男、徐晟杰。

    本课程教材是由德国社会科学家Simon Munzert、Christian Rubba、Peter MeißnerDominic Nyhuis所著(吴今朝译),其核心内容是自动化数据抓取和分析的方法。在大数据时代,自动化数据抓取和文本挖掘等技术为各专业领域的研究者提供了强大的工具;由于编程变得越来越简单,任何人都可以像自然科学家一样通过建模、采集数据和统计分析得到定量的结果,从而支持他们的结论。

    但是,由于网络发展比较快,课程给出的案例不能直接使用。针对这些案例,我们分组讨论研究,以课程论文的形式给出主要结果。具体研究课题如下:

    1.王亚男,刘晓晓---美国参议院里的合作网络

王亚男、刘晓晓---美国参议院里的合作网络.pdf

    2.王爱娥,刘艳欣---从半结构化文档解析信息

王爱娥、刘艳欣---从半结构化文档解析信息.pdf

       3.徐晟杰,李海洋,孙畅---绘制姓氏地理分布图

徐晟杰、李海洋、孙畅---绘制姓氏地理分布图报告 (2).pdf

      4.郭婷婷,曹胜男---手机信息采集

郭婷婷,曹胜男---手机信息采集.pdf

      5.崔倩倩,郭瑞---濒危世界遗产地案例分析

崔倩倩,郭瑞---濒危世界遗产地案例分析.pdf


       每个研究生还有各自感兴趣的课题研究;研究结果完成后,将继续分享。


    这些成果仅用于学习交流,版权属于讨论小组成员。对任何侵权行为,必究法律责任。

 



https://blog.sciencenet.cn/blog-3316039-1121860.html


下一篇:新生寄语
收藏 IP: 61.179.124.*| 热度|

1 檀成龙

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 09:32

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部