《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【立委科普:语法结构树之美(之二)】

已有 10210 次阅读 2011-11-22 14:44 |个人分类:立委科普|系统分类:科普集锦|关键词:中文分析,语法树,结构树,自动分析,信息抽取,parsing| 信息抽取, 自动分析, 中文分析, 语法树, 结构树

引用
如果爱因斯坦在时空万物中看到了造物主的美,如果门捷列夫在千姿百态的物质后面看到了元素表的简洁,语言学家则是在千变万化的语言现象中看到了逻辑结构之美。这种美的体验伴随着我们的汗水,鼓励我们为铲平语言壁垒而愚公移山,造福人类。


摘自:立委科普:语法结构树之美



 

 

 


上片片啦 : 研发不到一个月的中文系统已经可以自动分析相当凌乱的社会媒体语言了,其 robustness 初见成效。请欣赏中文结构树之美: 可谓 婀娜多姿,风情万种





thumbs upthumbs upthumbs up虽然看不懂,但看着像传销网络。
不用明白细节,只要知道线性转成了平面就可以了
作者: 立委 (*)
日期: 11/21/2011 20:47:07

Unstructured language data parsed into structures.

That is all the trick it is.

为什么要结构化?

不结构化如何抽取语义?

盖因 语言是无限的,但结构是有限的。

给数据挖掘的人提供一个宝库。

挖掘者与结构化数据打交道,可是面对这种不是很规范的linguistic 结构(业内有时也称作 semi-structured data),大概是遇到美女同样的感觉:既心痒,又不知如何下手。

对于聪明的抽取者、挖掘者,这才是不尽的宝藏。

上述结构的表达式(representations)没什么奥妙,大家的想法大同小异。可是怎样达到这个结构,才是硬功夫。

thumbs up从前汉语语法研究纠缠于语义,比如施动、被动之类,天天吵,月月打,
作者: shijie
日期: 11/21/2011 20:52:45

一地鸡毛,谁也不服谁。如今,眼光转向“结构“,问题迎刃而解,一通百通,不论鸡毛鸭毛均可以结构论处。

两个都要吧。- 吴礼

语义是要的,但是语义可以临时抱佛脚。结构则不同。
作者: 立委
日期: 11/21/2011 23:04:55

用工程的话说,就是,语言 处理的时候面对的是海量文本,要做 offline indexing, 就不适宜纠缠语义,而是应该先结构化了(parsing:句法解构)再说,存到数据库去。

在应用的层面,需要的是语义(信息抽取)。这时候,做语义的条件已经成熟了,因为应用层面的语义一般是在一个特定的领域,或者为了一个特定的用场(产品),所以抽象层的语义纠缠就自然化解了。甚至可以直接对数据库的结构树进行在线即时检索,检索的时候加入适量的语义限制即可。这样的句法和语义分工,在工程上是合理的。













【相关博文】

【立委科普:自然语言parsers是揭示语言奥秘的LIGO式探测仪】 

社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么
科普随笔:“他走得风一样地快” 的详细语法结构分析

科研笔记:开天辟地的感觉真好

【置顶:立委科学网博客NLP博文一览(定期更新版)】



http://blog.sciencenet.cn/blog-362400-510570.html

上一篇:社会媒体(围脖啦)火了,信息泛滥成灾,技术跟上了么?
下一篇:探索性研究的“生态”与北京生命科学研究所的“生态”

1 武夷山

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备14006957 )

GMT+8, 2019-3-23 21:16

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部