wengewsh的个人博客分享 http://blog.sciencenet.cn/u/wengewsh

博文

全国股票交易数据提取及分析———基于 R

已有 3301 次阅读 2019-5-15 14:45 |个人分类:研究生课程论文|系统分类:人文社科| 自动数据采集

数据采集小作业-(17)全国股票交易数据提取及分析———基于 R

作者:赵文慧

指导教师:王文武

单位:曲阜师范大学  统计学院


本文主要讲解如何爬取常见网页中的数据,主要利用的是R软件中的RCurl包进行的爬虫,通过输入一段代码的方式能收集到大多数网页中的资源,将数据进行整合,便于之后对数据进行分析和利用。R语言爬取数据原理十分简单易懂,利用R软件爬虫,离不开RCurl包和XML包,通过这两个包就基本可以爬去大多数网页中的数据,其中包含很多非常实用且便利的函数。利用此方法时熟悉R语言的基本操作是基础,其次了解HTML相关信息也是不可或缺的。

在利用R软件爬虫中,RCurl包是R语言中最常用的爬虫工具,广泛用于在互联网上抓取各种数据源,例如金融数据,行情数据,价格数据,体育数据等。爬取完数据还可以进行后续的分析和建模,对于熟悉R的同学来说是一项简单操作且十分便利的软件。信息时代,互联网已经毫无置疑地渗透到我们生活工作的各个细节,因此它本身亦成为日益重要的大数据来源。凡是做过数据分析师的人都知道,在整个数据分析的生命周期,最耗费时间的不是建立和测试模型,而是找数据和整理数据!因此本文结合实际数据抓取案例,深入讲解RCurl的各种用法和技巧细节,帮助大家迅速掌握RCurl,爬去基础的数据。

本文选取的是东方财富网关于全国股票交易统计的一些信息,该数据仅有一页,数据构造比较简单,为表格数据,因此提取也较为方便。具体的提取步骤主要是先分析要提取的网页源代码、之后通过RCurl中的getURL()函数,建立网页与R的连接,再利用XML包中的htmlParse( )函数解析出网页代码中的数据信息,然后利用XML包中的xpathSApply( )函数,精准定位节点提取出你想要的数据信息,最后进行数据整合构建数据框,在数据整合时还可以利用stringr包中的函数准确提取出你想要的字符串,去除多余信息。至此数据提取部分就结束了。提取完数据之后是进行的一系列数据分析部分,本文主要选取了2008年1月到2019年3月的上海和深圳的交易总额进行的详细分析,先通过对比折线图的方式分析它们的发展趋势,之后分别运用时间序列建立ARIMA模型的方式进行趋势预测,预测出接下来一年的发展趋势。通过学习了此次案例后,相信大家对R软件爬取数据就会有了比较直观的了解。

具体研究见附件。

赵文慧-全国股票交易数据提取及分析.pdf




https://blog.sciencenet.cn/blog-3316039-1179173.html

上一篇:电影票房数据采集与分析
下一篇:基于R对东营酒店信息的采集
收藏 IP: 61.179.124.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-11 22:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部