||
在内蒙古大学参加全国语料库的前沿论坛,参会专家不多,都是这个领域做实事和实证研究的学者。
在大模型的时代,许多人觉得已经没有必要建设语料库了,甚至只依靠LLM来创造语料就行。因为LLM已经花了巨大的代价在采集语料,没有必要重复建设。语料更没有必要深入标注语言知识,现在的LLM对话很流利了,深入的语言知识可能都是废品,没有什么用。
然而,经过研讨,我们已经清晰地看到,对于资源稀缺的民族语言,像蒙古语的大模型缺位,是应该去等ChatGPT加入蒙语,还是自己去开发?对于国家和地区语言现状的分析,能依赖大模型吗?对语言的检索和分析,直接用大模型?
我在会议上报告了《从全文检索到语言计量和语言智能——语料库研究应用的三个层次及资源》一文,这篇文章是应李德俊教授之问而做“大家都在做语料库,但是为什么感觉很不一样”。传统上我们把语料库分为历时的、共时的,单语的、多语的,母语的、中介语的,生的不带标注的、熟的带标注的,等等。但是我们真正服务的目标却很不相同。最基本的需求是检索字句,这就是全文型的语料库。其次是带标注,面向特定计量目标的语料库,例如观察二语学习者的特殊偏误类型,或者统计词类分布情况。而当前最要紧的是,面向语言智能计算的语料库,即制定严格的标注规范,适应机器学习模型需求,可计算、可评测的语料库。
这种语料库的建设,既可以融合现有的语言知识,又可以建模计算,是真正把语言学和计算技术结合的关键资源。我们必须加强这种语料库的建设,不只是因为欧美的大模型公司每年数十亿美金花费在数据版权和数据加工上,更是因为只有这种语料库才是建设和发展大模型的根本,是赶超欧美的坚实道路(没有捷径)。
我们不能依赖欧美的大模型,那些80%以上都是英文内核的大模型,其逻辑、思路、文化、道德观都与我们有区别。发展自己语种的大模型是当务之急。而语言材料的精选、标注与加工还不够重视。
最近,多位语言学大家发出了“让语言学融入AI”“加入AI”“改善AI”“语言大数据的胜利”的论断,大数据和大模型之势已成学界共识。
然而,采集数据、标注数据,一直被工业界认为是吃力不讨好,让别人摘桃子的苦差事。但是,OpenAI做到了,李飞飞当年的ImageNet做到了。反倒是应该加强数据科学的建设,更多地科普数据的价值,如何加工和制作数据。加油干吧!
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-12-22 10:45
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社