博文

爬取HTML的Java库-Jsoup

已有 4418 次阅读 2014-5-4 09:25 |个人分类:IT研究|系统分类:科研笔记

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。主要功能：1. 从一个URL，文件或字符串中解析HTML；2. 使用DOM或CSS选择器来查找、取出数据；3. 可操作HTML元素、属性、文本；jsoup是基于MIT协议发布的，可放心使用于商业项目。官网：http://jsoup.org/

转载本文请联系原作者获取授权，同时请注明本文来自赵建保科学网博客。
链接地址：https://blog.sciencenet.cn/blog-1313601-791120.html

上一篇：CNKI参考文献进展
下一篇：写了篇Citespace基础教程的文章

收藏 IP: 61.140.21.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

博文发布时间已经超过87600小时，评论已关闭。

赵建保

扫一扫，分享此博文

mpcer的个人博客分享 http://blog.sciencenet.cn/u/mpcer

博文

爬取HTML的Java库-Jsoup

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

赵建保

全部作者的其他最新博文

全部精选博文导读

相关博文

mpcer的个人博客分享 http://blog.sciencenet.cn/u/mpcer

博文

爬取HTML的Java库-Jsoup

当前推荐数：0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

赵建保

全部作者的其他最新博文

全部精选博文导读

相关博文

该博文允许注册用户评论请点击登录评论 (0 个评论)