|||
互联网信息生,应该说都是界于结构化与非结构化之间。互联网信息的概念过泛,这里限定在Web网页信息及其链接网络所承载的信息,或者叫做Web信息更为合适一些。关于Web信息的挖掘研究,各个学科研究重点有些不同。大的来看,Web挖掘(Web Mining),主要有Web内容挖掘、Web结构挖掘和Web使用记录挖掘。计算机科学,强调如何利用计算机技术自动得到有用的信息;而情报学,则更为偏重这些信息是什么,怎么让它更为有用;相应地其他学科研究也有自己的特色。
从最近的技术发展和应用来看,我更倾向于将任何非结构化的信息,看作是结构化的信息。NoSQL之美,也逃不过结构的骨干;社交网站更像一个网络信息组织系统,只是组织方式发生了变革;Web链接,也有结构化表示方法;Web的HTML也能抽取出核心的结构要素。似乎结不结构在于如何看待与分析了,个人觉得目前对于非结构的信息转变为了结构信息才更有研究价值,研究也更为方便。最近有一些关于Web信息结构化处理的想法,先记在下面。
首先,Web结构化信息的搜集。国内计量学喜欢对一些结构性较强的数据进行分析,其原因之一在于这些信息获取非常容易,ISI、期刊网等等说到底也都是关系数据库中的数据,其结构性非常强,数据获取比较容易。在Web信息获取方面,链接信息结构性也比较强,似乎也可以利用现有的一些网络计量理论进行分析。但链接信息,似乎是网络中比较外在的数据,对于Web网页内容呢,是不是也有结构化的信息可以采集并进行分析?这一方面,深网、垂直搜索引擎等已有所研究,主要还是数据库信息的Web呈现方式。一般来说,其采集的信息在一个Web页之内。利用相关的一些数据采集软件即可实现,如火车头、htmlclient、htmlparser等,不算难但也并不是随便就能使用的。而对于一些涉及多个Web页、更为宏观一些的结构化数据呢?目前这方面的分析似乎不太多,比如说社交网站中的数据采集,需要涉及用户关系的采集、核心分析对象(如日志)的采集等,并不是在一个网页内就能实现的。这恐怕只有编程实现了。当然,如果有数据库数据,那么也不用去采集。可惜的是,这方面开放的数据集很少见,需要看研究的具体领域,现在关于标签数据集、评论数据集等还有一些。
其次,Web结构化信息的分析方法。说到分析方法似乎都逃不过计量和语义了,语义难度大,现实应用较少,计量分析(这里理解为利用数理原理进行分析的方法)内涵丰富,研究较多。个人觉得,词频分析、共现分析、基于图论的分析方法,都属于这个范畴。词频分析的难点,也是这一方面分析的基础性难题,就是“词”的确定。中文中需要分词处理,特定领域(domain)需要特征词提取,每一个问题都是大问题,由计算机全自动处理能够取得一定的效果,但似乎都逃脱不掉人工标注,尤其是在情报学领域的研究,似乎人参与的部分所占比例更大,计算机科学则在尽力解决如果让人参与得更少。现在的方法热点,也集中在寻找一种更好地数理理论模型,来解决具体领域的一些问题,揭示存在和发展规律(最近似乎都喜欢用“机制”、“演化”这样的词)。
最后,Web结构化信息的分析目的,这个也是情报学领域里研究的目的吧。通过Web信息挖掘,能够为“人”带来什么?个人了解得并不是很多,胡乱谈一通。从服务角度讲,提供协同服务、集成服务、个性化服务是热点;从知识角度讲,Web知识发现、知识组织方式、知识形成和演化规律;从人的角度,研究网络用户兴趣、认知行为、选择行为、检索行为、交流行为、分享行为等等;从宏观管理的角度,有舆情监测;更细粒度的一些有意见挖掘、情感倾向性分析、话题跟踪与监测、主题识别、分类、聚类等任务,而这些任务主要是计算机领域在解决。
对于Web结构信息的研究,有一些倾向于对某个或某些特定领域进行深入的分析,例如Web2.0环境下的科学研究的知识交流和知识共享、学术博客的知识组织和整合模式、网络学术社区的信息聚合与共享模式研究等。有些奇怪的是,情报学研究在选择研究领域 时,似乎总喜欢围绕“知识”本身的相关领域。另外,部分研究比较喜欢新的技术,比如Grid Computing、Distributed Computing、Linked Data、Cloud Computing,而往往题目是XXX在XXX中的应用,俨然一副应用科学的样子,还是深入一些好。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-22 17:58
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社