|||
而且即便你找到办法保留了 non-deterministic results,系统越大,层次越多,最后是越加不 tractable。如果一切都保留到语用层面最后定夺,很怀疑任何系统设计者会受得了那样的千头万绪。反正我们在实践中是不行的。结果就是不追求纯粹和完美,选择性地、经验性地决定哪些结果可以中途扔掉(枝枝蔓蔓),哪些 non-deterministic 结果必须保留。这种选择肯定会出现问题。会出现以前的deterministic system 同类的问题。就是所谓铁路警察各管一段的踢皮球的问题。但是,出问题不可怕,只要系统是掌握在同一个设计师手中,只要一开始考虑架构的时候就给 non-deterministic 的东西留下了空间,这种问题的出现恰好可以 data-driven 地帮助设计者决定如何调配带还是不带的决策。
谁把李航请来就好了,也想听听他的高见。
其实后来我们又做出了一个错误的决定,虽然这个决定在当时是无可奈何的,但显然是错误的。我们在做多语言的时候,因为迫于 deadline,不得不 license 了 Basis 的 多语 morphology,结果不但是擦不完的屁股,交不完的 license fee,更要命的是,他那里一更新,我这里就两难,升级还是不升级?
还有一个体会,同样是擦屁股,擦别人的屁股比擦自己的屁股别扭多了。因此,即便自给自足在时间压力下开始是做不好底层支持的,也比用他人的“成熟”的模块是更好的选择。反正,NLP 终归是长线项目,时间压力只是要求系统先转起来,iteratively 和 incrementally 地擦屁股和维护协调是系统转起来以后的必由之路。
【相关】
《新智元笔记:NLP 系统的分层挑战》 2015-12-09
【Google 年度顶级论文】机器学习系统,隐藏多少技术债?(论文下载) 如需获得论文原文 Hidden Technical Debt in Machine Learning Systems,请在新智元微信订阅号(AI_era),回复1208获得。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2025-1-9 11:28
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社