《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

【新智元笔记:词类消歧没那么漂亮,也没那么重要】

已有 2989 次阅读 2015-12-4 09:47 |个人分类:立委科普|系统分类:科普集锦| POS, 词类消歧

吉:  “结果是大家误以为,必须做 POS,而且 assume POS 是个 solved problem”,感觉这句话有道理!
朱: 的确这么理解的。我们一直在用,一般工具分词后就标上pos了
我: POS 可以用,当不要只用它,也不要指望它。只用它做不出实用系统。指望它常常怪罪它,把自己的无能,归罪于 POS 的无能。
比较忌讳的是所谓 “铁路警察各管一段” 的研发思想。句法做得不够包容鲁棒,出了问题,就踢皮球,追到 POS。然后,不断在 POS 上打补丁。POS 的时候条件不成熟,再怎么打补丁也擦不干净屁股,结果是本末倒置地做开发。工程上,任何复杂系统都应该模块化,但并不是说,模块之间一定要泾渭分明,其实也做不到泾渭分明。宁可把 parsing 搞得复杂,也不要没完没了折腾 POS。
吉: 嗯!对!其实没有人规定pos是做ie或mt等的前提或必经步骤。
这样肯定不行。反思是有理论勇气的表现!
白: 机器学习只能解决从标记集里选取标记的问题,不能解决应该有哪些标记的问题。特别是,当标记还有深层用途的时候,不当的标记集会把困难放大。
我: 这个道理同样适用于 segmentation。很多时候,就这么没完没了折腾 segmenter,折腾得最厉害的,据说还运用了常识等,来帮助做一个好的segmenter,以期它可以支持好的 parsing。
思维应该反过来,segmentation 除了词典的修修补补外,算法和规则就这样了,我就是不完美,你也要娶我进门,使用我,更重要是包容我。不要给我整容。你自己多修理自己就好了。只要包容,一样是美丽的婚姻。

刘: 标记是可以学习的啊,经典的工作是http://dl.acm.org/citation.cfm?id=1220230,现在最好的Berkley Parser就是基于这个工作的

白:  这不是学习from scrach,只是refinement。而且树还是已经画出来的对吧。。@刘群 
刘: @白硕 是的。如果要求全部自动学,那就是无监督学习了
但就具体应用来说,POS或者句法树是否真的比无监督学到的东西更好呢?
白: 无监督学POS,早年试过,不靠谱。
至少也要画树,不写字。
不写nonterminal
刘: 为什么要去学POS?一般没有必要
白: 你是说POS很好了还是说虽然不好但学不是出路必须自顶向下人工“构建”?
或者像伟哥说的那样,将就着用,在补丁上做文章?
刘: POS是人为的东西,没多大道理,在解决实际问题中也没多大用处,不学也罢
现在NN学到的word embedding在大部分情况下比pos好用太多
白: 这倒是
朱: @wei parser可信吗?够快吗?只要回答肯定,我们当然愿意用。其实作为使用者不存在是否相信pos的问题,因为我们没有选择
刘群: POS粒度太粗,区分性太差
湖那边是山: 哇,刘老师都不看好POS,出乎意料
看得出POS局限性真的很大
我: @朱小燕 你用 POS 做什么?
POS 与 parser 相距那么大一截路呢。
PennTree POS tagset 定的标准就不好定了好几十个,其实有用的就三五个,那些功能词,分那么细琐没有什么道理。名形动副介就差不多了,其他的都可以枚举。
如果用到中文,这名形动副介都有麻烦,一方面太大,另一方面边界不清。首先是 动和名 的区分(工作,学习),不如不分,就叫逻辑动词好了。其次是动词和形容词,在汉语,也不如直接照着 HowNet 的 top 去定义逻辑的动词(ActionBehaviour)和形容词(AttributeValue) 好了。硬要从句法角度做区分,不如在上面再加一个“谓词”的老子罩住它们。
最后是动词和介词(副动词),功能上也有相当重合。当然,介词是封闭类,可以词典强盗绑定,不用参与POS消歧。
这么一看,POS 在汉语不伦不类,还不如只把他们当做 HowNet 的顶层逻辑类,词典绑定,不做 POS 的所谓 tagging,因为没的可 tag 呀,就是查词典就搞定了。
李志飞: @白硕 @刘群 关于pos的unsupervised的学习,2009年时学术界热衷non-parametric Bayesian 时很多人做过。目的就是不commit to 某一种特定的pos 标注体系,而是由数据和domain去自动决定pos的tag set
我: 词无定类,入句 。。。不用定了。
都入句了,你还定啥,就直接句法分析不就是了。
原以为,先用类句法的条件去分离,然后再用分离了的POS去支持句法。可一来一回,就被绕进死循环去了。
最可笑的例子是,先把“工作、学习”这些逻辑动词千方百计地查不同的上下文,搞定它是名词,然后 assume 它与其他的名词(桌子,空气等)有共同的特性,可以概括性地做句法。结果是,句法的东西差不多要在 POS 里重复一遍,而且是拙劣的重复。
刘: POS对一些形态丰富的语言来说,还有点用处,对中文这样的语言来说,真没什么用。
李: 记得上课时老师让算过英文的H(pos|word),好像是很小的,所以从实际工程角度,英文pos必要性真的不大,不知道中文是否也这样,尤其大家对word set都没达成共识情况下
我: 英语的 POS 可以帮助一些,但也不能过火。
POS 做些大面上的就可以了,不能把句法降格到POS去做太细的活。既没必要,也做不好。
对于形态丰富的语言,俄语、德语之类,POS 基本上是 Morphology 模块的 side effects,也不是要单独做 tagging,因为词尾分析所给的信息比 POS 要具体多了,POS 只是 taxonomy 的上端,自然的 derived 的结果。
基本上,整个领域把 POS 独立出来作为一个任务,给人自给自足并且学一下就是 solved problem 的印象,是个很大的误导。
白: 伟哥问朱老师的话我也想问。你们主要用POS干什么?@朱小燕 
沈: 英语PTB POS tag集设计的一个原则就是能否在3-gram的窗口里solve,不能排岐就不区分
例如and都是IN,例如TO单独成一类
我: 这种设计原则就是问题的来源,当然历史上是有故事的。这叫自娱自乐原则。搞一个自己觉得可以搞定的任务,后去能有多少用不是主要考量,然后让共同体去竞赛谁做得好,最后宣布做得最好的系统是把这个问题给 solved 了,都 solved 了,还留下这么多后遗症?
白: 凡是我这把锤子砸不到的都不是钉子。
长的丑,别卸妆就是了。
我: 把主从连词(although,because)和介词混在一起叫做 IN 也是很典型的笑柄。
这个题目其实没有多少可论的了,就是大家都被误导过,时间长短不同而已,都在这里栽过跟头,现在多数都理解了,要放下它,它没那么重要,不过就是帮助句法的前处理而已,用得合适,可以简化一点句法。
POS 还不像 segmentation,POS 本身不是目的,它只是帮助下面的工作。segmentation 本身可以是目的。
沈: PTB框架下,POS只是中间结果,目的是最终的句法分析,从这个角度看,这样设计也是有一定道理的。在保证准确率的前提下,降低后一步骤的perplexity。
我: 历史上看,有一定道理:梨子总要一口一口吃。
它起到了模块化的作用,也鼓励研究者把复杂问题单纯化。推动了模块内部的算法比拼和方法的进步。
但这个历史功绩经不起时间的检验,到今天的境界和理解深度,它就显得那么毛病多多。
它是一个陷阱,很容易把初学者绕进去。


【相关】

中文处理的迷思之二:词类标注是句法分析的前提

泥沙龙笔记:汉语牛逼,国人任性!句法语义,粗细不同,POS 靠边

【新智元笔记:中文处理中的POS、搭配和句法】 2015-12-01

【新智元笔记:李白隔空对话录,关于词类活用】 2015-12-02

【置顶:立委科学网博客NLP博文一览(定期更新版)】



https://blog.sciencenet.cn/blog-362400-940960.html

上一篇:衙门文化(后续)
下一篇:【社煤挖掘:新鲜出炉,大数据男神排行榜】
收藏 IP: 192.168.0.*| 热度|

1 陈辉

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-21 04:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部