数据,模型,决策分享 http://blog.sciencenet.cn/u/郭崇慧 自强不息,厚德载物

博文

文本挖掘技术

已有 11253 次阅读 2015-9-1 16:24 |个人分类:科研笔记|系统分类:科研笔记| 文本挖掘

       对于人类而言,目前的大多数信息都是以文本数据的形式生成、呈现、存储、加工和处理的,而且随着互联网的快速发展,电子化的文本数量增长越来越快。同时,在企业、政府机构中,绝大多数的信息也都以文本的形式存在。因此,文本挖掘技术被认为具有较高的潜在商业价值。随着商务智能技术的广泛应用和商务智能市场的日趋成熟,以及文本挖掘技术的快速发展,基于文本挖掘的商务智能系统将得到长足的发展。 


       文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是文档;文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档大都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含足够的信息以反映文本的特征,又不至于过于复杂使学习算法无法处理。


图1  主要的文本挖掘技术


       对文本挖掘技术的理解可以用一幅图来说明。图1由三部分组成:底层是文本挖掘的基础领域,包括数据挖掘与机器学习、数理统计、自然语言处理;在此基础上是文本挖掘的基本技术,有五大类,包括文本数据预处理、文本分类与聚类、文本关联分析、文本信息检索与抽取、文本自动摘要;在基本技术之上是两个主要应用领域,包括信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括文本数据分析与文本数据分类、聚类与关联分析等。总之,这里把对文本数据的预处理、信息检索、信息抽取自动摘要以及从文本中发现知识都看作是文本挖掘。


参考文献:

1. 苗夺谦, 卫志华. 中文文本信息处理的原理与应用[M]. 北京: 清华大学出版社, 2007.

2. 程显毅,朱倩. 文本挖掘原理[M]. 北京: 科学出版社, 2010.









https://blog.sciencenet.cn/blog-34250-917638.html

上一篇:科学网“善意跟帖”倡议:拒绝谩骂和人身攻击
下一篇:数据科学简介
收藏 IP: 202.118.69.*| 热度|

1 刘桂锋

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-19 12:26

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部