《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵,插队修地球,1991年去国离乡,不知行止。

博文

《李白宋121:中文分词歧义及其包容》

已有 631 次阅读 2021-6-30 13:15 |个人分类:立委科普|系统分类:科研笔记

分词结果应该长什么样?

最新原创出炉,白老师又有佳作,话题是中文“分词”。

李:请教@白硕 ,“线状补丁”列表的遗漏掉的词汇就是一个 list of words?所说的优先级来自何处?优先级本身是不是也表示出来?根据优先级需要 cut 一刀,否则就是 exhaustive tokenization 的查词典全覆盖了,这一刀在哪里截住有说法吗?

另外: 如果只剩下“难过”一个整体,离合词的寻找就是一个伪命题,更无需说“小河”和作为一个整体的“难过”在语义上是不相谐的。这个说法 逻辑上/语义上 没问题,但从大数据现场看,“小河难过” 的相谐性不是子虚乌有,而是可验证的。只要数据足够大,都可以和谐:1. 过河;2 过小河; 3 难过河; 4 难过小河

白:如果是未经分词的大数据或者未经人工校对的已分词的大数据,你根本不知道那个出现是“难过”还是“难+过”,从而,你也无法给出二者相区别的统计数据。

李:最简单的高频ngrams共现,应该可以确认上面4种相谐。不需要知道 “难过” 是不是 一种 “过”,还是一种 “难”。有意思的是,大数据的语言模型越来越舍弃分词了。gram 都是立足于 characters(字)这种没有争辩空间的基础之上。对分词(错误)完全免疫。换句话说,分词 irrelevant 了。其可行,是因为大数据不怕 redundancy,非逻辑系统也不需要概念单元。甚至欧洲文字明明有空格帮助分词,也有系统开始立足于纯粹的 character(字符,字母和空格等)之上,舍弃“词”的拐杖。最明显的好处就是模型的鲁棒性。错别字 手误 不再是挑战。

最近用机器翻译的时候发现,漏掉几个词,或者某个长词只写了一半,系统照样翻译正确。有时候把几个英文词连在一起写,把空格去掉,也一样出来正确的结果。

白:机器翻译跟精准解析几乎无关。容错也不是元组表示独有的功劳。

李:那是。但是非机器翻译用的模型也都是这个趋向。

是两条路上跑的车,确实不必混在一起谈。

白:我们关注的是,不做“难过”和“难+过”的区分,能走多远?能成为一种常态?如果需要区分,而且是通过“反哺”来区分,那么如何给“反哺”保留最必要的信息?

李:这个问题也琢磨过。

区分可以原子化和词典化,而不是在词典外的系统层面,感觉是相当可行的。就是说,难过 看成是一个单元(词条),两个 senses(概念)。这就对外看上去没有区分,对内转化成了 WSD 的问题。 词典标注的 sense1 就是 sad,sense2 是 “某种” cross。sense2 与动词 “过” 的标注一致。有了词典内部的标注,这个区分就自圆了。

白:这是组合歧义,交叉歧义呢?

难道“文化学+到手”和“文化+学+到手”是同一个“五字词”的两个sense?

李:其实也不是不可以想象的。才 5-gram,总有一天 5-gram 之内的问题 原则上 都可以词典化。起码高频的 5-grams 可以越过传统词界限的束缚。

文化学到手:sense1=“文化学+到手”;sense2=“文化+学+到手”

好处是一旦歧义被“包住”了,敌我矛盾就转化为人民内部矛盾。都是自家人,什么事都好商量。甚至商量不了,解决不了,也可以搁置,不影响外交关系。这个思路感觉是有益的。

以前有个“错误放大”(error propagation)的理论担心。这个理论夸大了局部问题的全局后果。其实如果应对得当,局部问题解决不了,就包住它,也是可以的,影响不到全局。

白:感觉:1)五个不一定够;2)遇到bug现场打包改词典比retrain还不靠谱;3)随着词典的增长,组合歧义/交叉歧义也在增长,这个过程都不一定收敛。4)如果必须牵涉语义,打包过程中语义的组合还是要靠能产性解决而不是靠个案解决,换汤不换药。

你过去做词典的人写词项的定义就ok。现在写多元组的定义,是若干个词项定义的特定形式的组合,在公司里都不见得是同一个工种。等于让修理工当装配工。

李:我的感觉不一样:1)5个够了(99.999…, 就是小数点后到了第几位);2)遇到 bug 现场打包其实是靠谱的,如果只求快速包扎,我们一直就是这样做的;3)收敛是个理论问题,现场的问题是,有没有办法让(高级)用户在现场自己搞定。就是说,系统从来不是一锤子买卖,只要用户自己觉得不是绝路,有逃生的希望,就可以。

白:不可能的。

一个词项乃至N个词项组合对应的标签,客户怎么搞得定

李:预设是精准解析,才会得出不可能、不可持续的结论。但精准解析与分词一样,都是手段,不是目的。从目的和现场看,个案解决或止损,是没有啥问题的。至于要不要统筹解决,那是另一个层面的问题。

白:谈商业是另一种谈法。

李:统筹解决与个案解决是并行的,后台研发不断考虑统筹的问题。前台现场提供个案解决的用户友好工具。个案解决有个回路,反馈到后台,保不准类似的个案问题在下一个 release 中就不必个案解决了。

白:“纽约周三再开放,到中国直飞机票没有,转飞就难说了。”

直飞/机票 vs 直/飞机票

宋:用“大词”就解决了。一般来说,交搭型歧义用大词解决,离合型歧义用词义解决。

李:其实两种歧义都可以大词典应对之,前者是内部解决,后者是内部包容。二者都被“大词”包裹了。包裹的好处是抓大放小,一致对外。甚至连内部发生不可调和矛盾的现象(例如 NP/VP 兼容大词,学习材料/红烧牛肉),也可以包裹得严严实实。如果 “指挥” 可以包裹两个 senses,就没有理由不能让 “学习材料” 包裹两条内部子图路径。

以前提过的一个论点是,NLP 的大部分工作都可以绕开 WSD 来做,说的就是只要能包裹住歧义,绝大多数工作都可以继续,舞照跳,马照跑。

包裹了以后,还解决不解决内部矛盾呢?其实,90%以上的内部矛盾就一直包裹到死,夫妻吵吵闹闹一辈子的有的是,一样过日子。如果恰好在 NLP 应用现场,被包裹的歧义是关键所在。于是会有不到 10% 的内部矛盾,可能需要根据需要重新打开包裹,来解决矛盾。而这种解决也还是词典驱动的。

 

【相关】

 

 

【语义计算:李白对话录系列】

【置顶:立委NLP博文一览】

《朝华午拾》总目录

 

 




https://blog.sciencenet.cn/blog-362400-1293455.html

上一篇:从疑似愚人节新闻的特斯拉大规模“召回”说起
下一篇:【李白122: 现在是个什么东西】

2 武夷山 许培扬

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2021-12-2 21:40

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部