|||
过度思维是语言学家的通病,很多人不可救药。
语言这个东西不能做过度的思维实验(乔姆斯基鼓励并身体力行通过“内省"去探索语言机制和共性,副作用很大)。搞自然语言的,还是数据制导(data-driven)靠谱,这一点统计派的一直坚持是对的。
看不见当然不等于不存在,很可能是长尾(long tail)问题。长尾现象也不能真地完全回避。系统开发初期可以忽略,但长远来看不能无视。不过,技术上看,长尾问题只要有一个垃圾机制可以应对即可,通常是用某个用法词典(词汇制导的手段)。至于实际上用不用这个垃圾机制,值不值得用,用到什么程度,那是一个工程和产品级别上的决策,而不是技术上的决策。因为这涉及长尾开发和维护的成本及其对效率的影响,能不能 justify 所带来的小幅提升质量的好处。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-21 22:39
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社