博文

《李白荀舟詹128：从专名的层次纠缠谈NLP前路漫漫一缕曙光》

已有 1667 次阅读 2022-1-10 20:55 |个人分类:立委科普|系统分类:科研笔记

舟：新闻标题：“球员明天昨日与爱妻举行婚礼，武汉队官方送上祝福” 如何解析？

白：爱妻一个坑，球员一个坑，武汉队反填球员坑，球员反填爱妻坑。明天做专有名词。什么都能做专有名词，明是一个姓，更能。昨日倒是只能做状语。再加上一个矛盾的时间状语，优先级折损，让专有名词义项露出来。

“明天”本来就是名词，组成同位结构和降格成为状语两个可能性，在句法层面本来都是存在的。只不过，同位结构是NN合并，需要白名单制。进入白名单的条件之一就是“类型相谐、一称呼一实例”。现在，是要在句法标签同为N的情况下，解决本体标签由Time向Human转换的问题。

舟：@白硕谷歌百度，都没有搞定翻译！[Tongue][Scream]

球员明天昨日与爱妻举行婚礼，武汉队官方送上祝福。

百度：The players will have a wedding with their beloved wife tomorrow and the Wuhan team will send their best wishes to them.

谷歌：The player held a wedding with his beloved wife yesterday, and the Wuhan team officially sent blessings.

谷歌还是聪明一些，把明天扔掉了……[Tongue][Grin][Shhh]

詹：这个得有篇章处理能力才好。正文第一句“武汉队球员明天与爱妻举行婚礼”。这个“明天”还得继续是专名。

荀：从工程角度看，类似这样的极端例子，不是现阶段NLP能力所及，处理对了也未必理解了上下文。可以愣是迎着困难上，很可能得不偿失，灌入更多类似语言现象数据，或者引用更多语言知识，这句对了，可能受伤大批句子。

学理上可以深入讨论，能得到以点带面的结论是非常好的，但是那这些句子去测试机器翻译，测试大模型的能力，没有意义。

李：荀老师所言极是。

有过教训的。极端例子的处理很难“包圆”，这往往造成副作用远大于正面作用。这是因为极端例子统计上属于极小概率。对于极小概率的现象，最有利的工程策略是选择忽略它，与噪音过滤同理。

可以探讨原则性的解决方案，实现的时候需要小心与现架构或pipeline小心对接。例如，专有名词的任意性是一类现象，虽然每一个具体案例都是小概率，但这类现象可以探讨一种原则性的出路。出路往往出现在另一个层面，例如应用场景的动态词典层面：一个与常用词同形的专名在 discourse 或某个数据源中反复出现，当它远远高于它作为常用词的正常出现频率的时候，它作为专有名词的小概率就变成了现实可能性。动态词典或用户词典可以收录它，增加它作为专名的权重。把动态词典与系统核心词典融合，可望帮助解决这类层次纠缠。但这种融合还是需要格外小心。比如，动态词典不仅仅要适合的时机融入处理，也要在合适的时候退出，以免对于变化了的场景产生持续的副作用。

通常的 NLP 只针对局部字符串。现在出现了更大的场景约束： dicourse、data source（source 本身也份不同层次）、domain 以及用户词典。为这些场景规划范围，以及资源进出的条件边界，是一个远远超出常规NLP处理流程的更高层面的控制逻辑。很不容易处理妥帖。

弄巧成拙的坑，不知道栽进去多少回了。

很多年前，还是在跟随刘倬老师做MT的时候，我们做过一个动态领域词典帮助确定领域场景的简单实现，有动态加入和忘记的功能：就是建立一个有限长度的先进先出的队列，当进入某个 discourse，有足够多领域A的词汇时候，就认定为A领域场景。当数据源源不断进入系统处理，领域B的词汇进来会冲刷领域A词汇，系统就进入领域B的场景。

这是为了解决WSD的领域问题，很多常用术语是跨好几个领域的，不同领域的译词不同。当时的办法就是希望动态决定，实际上就是 domain 词汇 propagation 的效果。取得了局部成功。当然，现如今的神经系统对于更大的上下文有表示记忆，这类当年的难题原则上在 discourse层面已经解决。超越 discourse 层面的，很多翻译软件（例如搜狗）允许用户自己设定一个大的领域。

另：现在对预训练的好感越来越浓，彷佛看见了一道曙光。隐隐觉得预训练+下游NLP落地可能是人间正道，可望碾压 parser+落地，但在当下的时间点，还不好说这条道路在规模化领域落地方面的可行性究竟如何。觉得时间窗口是 5 年左右。按照现在的科研进步和资源投入，5 年左右还做不到遍地开花，那就是遇到了真麻烦。否则，有可能终结符号路线。

荀：深度语义解析，离不开符号和结构，但不会是之前合一运算那样暴力使用知识，而是跟模型结合，处理好符号和参数方法的适用边界和做好两者融合是关键。我们在这个方向探索了多年，有了一些经验和体会，正在努力地把它写出来并开源。

李：looking forward to it ....

有时候，我也有建设开源社区的冲动，一直没有机会和精力。同时也觉得真开源了，也是门可罗雀。不知道要经营多久才有可能形成社区效应。但有一些积累如果总不开源，一辈子的思索和闯荡，也就老死手中了，想想也挺悲催的。

荀：是的，有心理准备，学习代价就是最大障碍。在努力地做到简单易学易用，届时各位老师多指教。

李：学习代价是个拦路虎。无论怎么简单易学，实现低代码，符号NLP 还是很难普及。

内部曾经说过，正则和 Excel 够简单了吧，真学好还是要费力气的。我说我定义的语言script 比正则还要简单，为什么说难呢？被告知：正则学了，Excel 学了，到处可用，那是万金油。学这个哪里认呢？

想想也是。这不是简单降低门槛，把设计做到极致简单就可以普及的事情。

荀：不管效果如何，算是多一些不同的声音和思路。不过还是小有信心的，在北语，可以部分放在课程体系中，几轮下来，辐射面挺乐观的。

李：嗯，学校环境有所不同，可以渐渐辐射。工业界不一样，前场救火似的，很难有耐心和动机坐下来学一门偏门的东西。

荀：nlp往深里做，不可能不结合语言知识，只是找到好的做法。逼到墙角了，不得不学，不得不用，现在还没到墙角，还可以发论文，还可以拿到项目。

白：script的服务对象是程序员，那是最难伺候的用户群。

【相关】

《AI 随笔：观老教授Walid的神经网络批判有感》

李维郭进《自然语言处理答问》（商务印书馆 2020）

预告：李维《巴别塔影：符号自然语言处理之旅》（人民邮电出版社 2022）

【语义计算：李白对话录系列】

【置顶：立委NLP博文一览】

《朝华午拾》总目录

转载本文请联系原作者获取授权，同时请注明本文来自李维科学网博客。
链接地址：https://blog.sciencenet.cn/blog-362400-1320422.html

上一篇：面对快餐文化，要牺牲一代人吗？
下一篇：《李白梁129：新年快乐的符号逻辑》

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《李白荀舟詹128：从专名的层次纠缠谈NLP前路漫漫一缕曙光》

当前推荐数：1 推荐人：尤明庆

该博文允许注册用户评论请点击登录评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

《镜子大全》《朝华午拾》分享 http://blog.sciencenet.cn/u/liwei999 曾任红小兵，插队修地球，1991年去国离乡，不知行止。

博文

《李白荀舟詹128：从专名的层次纠缠谈NLP前路漫漫 一缕曙光》

当前推荐数：1 推荐人： 尤明庆

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

李维

全部作者的精选博文

全部作者的其他最新博文

全部精选博文导读

《李白荀舟詹128：从专名的层次纠缠谈NLP前路漫漫一缕曙光》

当前推荐数：1 推荐人：尤明庆

该博文允许注册用户评论请点击登录评论 (0 个评论)