||
机器八卦:Text Mining and Intelligence Discovery (13219) 犀角提议,干脆用机器挖掘吧。我不想吓唬大家,但是,理论上说,除非你不冒泡,言多必失,机器八卦,比人工挖掘,可能揭示出你的更多特征。好在该技术还不成熟。 文本挖掘(text mining) 是我这几年的研究重点之一,简单介绍一下。我们上贴用的是自然语言(英语,汉语),它们只是一串串字符,称作 unstructured text, 不是真的没有结构,而是结构是隐含的(语法结构、语义结构),需要自然语言理解额(NLU,Natural Language Understanding)技术中的 句法分析(parsing) 才能使其结构化。为什么要结构化?你想啊,千变万化的字符串组合,表达各种意义,如果不结构化,怎么从中有效地抽取信息(IE: information extraction),并挖掘出有价值的情报(所谓 intelligence discovery) 呢? 当然,也有人不用结构去提取和挖掘,所谓基于关键词的信息抽取与文本挖掘(keyword-based information extraction and text mining). 一些浅层的信息和情报也可能这样被提取/挖掘出来。这就好比大家用 Google 搜索,Google 并不懂你的问题(query), 在 Google 眼中,你的查询不过是一串串互不相干、没有结构的搜索词串 (search terms),但是由于网上有海量的带有很大冗余度(redundancy) 的信息,东方不亮西方亮,查询结果往往很不错。Nevertheless, search 也好,IE 和text mining 也好,其最终突破在于 NLU. 文本挖掘(Text mining) 这个术语从数据挖掘(Data mining) 而来,后者通常指从数据库里面的有结构的数据中挖掘出规律来(hidden correlations and patterns)。Data mining 是个比较成熟的在实际应用中的技术。它能挖掘出对于针对性行销(target marketing)很有价值的情报出来。比较数据挖掘和文本挖掘, 可以知道,前者的成熟是建立在数据的结构化(数据库一般是人工建立和输入的)基础之上。因此,要想提高文本挖掘的可用度,重点还是把非结构文本(unstructured text) 转化成结构化的内部表达(representation). 这就是我们一辈子也研究不完的题目了。 分析主谓宾及其修饰语关系(decoding Subject-Verb-Object, or SVO),是自然语言自动分析 (Natural Language Parsing)的主要任务。它是结构化非结构文本的基础。SVO parsing 做好了,就为语言理解打好了基础。在此基础上做信息抽取(IE: Information Extraction)和文本挖掘(Text Mining)就事半功倍了。 信息抽取和文本挖掘的区别是,前者提取的是“事实”(facts),文本中显性(explicitly)表达出来的东东(比如我曾说过我籍贯安徽,是世界语者,爱舞文弄墨等等),而后者是挖掘文本中没有明说的隐含关系(hidden relationships, patterns and trends). 所以 信息抽取可以充当文本挖掘的基础:根据已知事实挖掘隐含的联系、规律和走向,真地是八卦了,基于科学基础上的八卦。将来有一天,机器很有可能挖掘出这样一条爆炸性信息来:本坛网友某某某有同性恋倾向。那可比网络上的“人言”厉害,这是有“科学”根据的预测啊。真地是跳到黄河洗不清了。 总结如下: Natural Language Parsing –> Information Extraction –> Text Mining ——– 立委名言:如果生活能重来,我应该从事新闻采编。
Posted by: liwei999
Date: June 10, 2006 10:07PM
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-21 20:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社