《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《立委科普:机器八卦》

已有 9598 次阅读 2009-12-23 06:45 |个人分类:立委科普|系统分类:科普集锦

机器八卦:Text Mining and Intelligence Discovery (13219)
Posted by: liwei999
Date: June 10, 2006 10:07PM

犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。

文本挖掘(text mining) 是我这几年的研究重点之一,简单介绍一下。我们上贴用的是自然语言(英语,汉语),它们只是一串串字符,称作 unstructured text, 不是真的没有结构,而是结构是隐含的(语法结构、语义结构),需要自然语言理解额(NLU,Natural Language Understanding)技术中的 句法分析(parsing) 才能使其结构化。为什么要结构化?你想啊,千变万化的字符串组合,表达各种意义,如果不结构化,怎么从中有效地抽取信息(IE: information extraction),并挖掘出有价值的情报(所谓 intelligence discovery) 呢?

当然,也有人不用结构去提取和挖掘,所谓基于关键词的信息抽取与文本挖掘(keyword-based information extraction and text mining). 一些浅层的信息和情报也可能这样被提取/挖掘出来。这就好比大家用 Google 搜索,Google 并不懂你的问题(query), 在 Google 眼中,你的查询不过是一串串互不相干、没有结构的搜索词串 (search terms),但是由于网上有海量的带有很大冗余度(redundancy) 的信息,东方不亮西方亮,查询结果往往很不错。Nevertheless, search 也好,IE 和text mining 也好,其最终突破在于 NLU.

文本挖掘(Text mining) 这个术语从数据挖掘(Data mining) 而来,后者通常指从数据库里面的有结构的数据中挖掘出规律来(hidden correlations and patterns)。Data mining 是个比较成熟的在实际应用中的技术。它能挖掘出对于针对性行销(target marketing)很有价值的情报出来。比较数据挖掘和文本挖掘, 可以知道,前者的成熟是建立在数据的结构化(数据库一般是人工建立和输入的)基础之上。因此,要想提高文本挖掘的可用度,重点还是把非结构文本(unstructured text) 转化成结构化的内部表达(representation). 这就是我们一辈子也研究不完的题目了。

分析主谓宾及其修饰语关系(decoding Subject-Verb-Object, or SVO),是自然语言自动分析 (Natural Language Parsing)的主要任务。它是结构化非结构文本的基础。SVO parsing 做好了,就为语言理解打好了基础。在此基础上做信息抽取(IE: Information Extraction)和文本挖掘(Text Mining)就事半功倍了。

信息抽取和文本挖掘的区别是,前者提取的是“事实”(facts),文本中显性(explicitly)表达出来的东东(比如我曾说过我籍贯安徽,是世界语者,爱舞文弄墨等等),而后者是挖掘文本中没有明说的隐含关系(hidden relationships, patterns and trends). 所以 信息抽取可以充当文本挖掘的基础:根据已知事实挖掘隐含的联系、规律和走向,真地是八卦了,基于科学基础上的八卦。将来有一天,机器很有可能挖掘出这样一条爆炸性信息来:本坛网友某某某有同性恋倾向。那可比网络上的“人言”厉害,这是有“科学”根据的预测啊。真地是跳到黄河洗不清了。

总结如下:

Natural Language Parsing –> Information Extraction –> Text Mining

——– 立委名言:如果生活能重来,我应该从事新闻采编。


【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-280704.html

上一篇:立委科研笔记:谁是最大的反科学大忽悠?
下一篇:mirror - 贾鹤鹏先生浅薄了
收藏 IP: 192.168.0.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-16 20:41

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部