Web信息智能采集与自动分类标引系统简介
已有 5247 次阅读
2010-1-14 14:26
|个人分类:生活点滴|系统分类:科研笔记|
自动分类, 信息采集, web信息, 正文提取, 自动提取
Web信息智能采集与自动分类标引系统是我们汇海科技—武汉大学移动商务联合实验室的第一个联合研发项目,目前已经完成系统整合,进入系统测试阶段。现对其做点介绍。
概述:
Web信息智能采集与自动分类标引系统是一个根据用户定制需求从互联网上自动采集和处理信息的智能系统,采集信息的类型包括新闻网页、论坛社区、SNS、BBS、博客、微博等。
功能列表:
1. Web信息的分布式多通道实时定向采集
2. 对采集Web页面进行正文提取
3. 相似性信息去重
4. 自动的主题分类(将一篇文章自动分类到预先设定的类目)
5. 自动的主题标引(抽取5~6个关键词)
6. 自动的作者,时间,发布单位抽取
7. 信息检索,包括全文检索,按时间范围检索,限定类目检索
8. 检索结果自动分类
应用方向:
1. 垂直搜索引擎
2. 舆情监控
3. 出版物评价信息监控
4. 企业竞争情报与市场情报监控
5. 机构负面信息监控
6. 区域形象评价
7. 用户倾向性分析
8. 在线社会网络分析与挖掘
9. 其他信息增值服务
其他概述:
Web信息采集系统是基于Web信息的各种应用服务的基础,对采集到的Web信息,企业可以开展各种具体的内外增值服务,它是出版社涉足信息服务业的基础性和平台型工具,对于传统出版集团的出版选题、网络营销、竞争情报、产品评价、企业形象管理等工作都有很好的支撑性作用。
我们欢迎出版界朋友与我们合作进行系统研发、业务咨询和理论探讨,特别是有志于开展移动出版服务和增值性在线信息服务的合作。
武汉大学-汇海科技移动商务联合实验室 副主任 王晓光
https://blog.sciencenet.cn/blog-67855-287195.html
上一篇:
京城归来杂记下一篇:
互联网、数字人文与网络数据采集