||
在这个言必大模型的时代,语言数据的重要性似乎没有那么重要。
但是在真正做开发的团队看来,数据是石油,高质量数据是金子,特别是对资源稀缺的语言来说,数据是系统开发不可或缺的关键。
GPU可以租,程序员可以花钱雇,模型可以从GitHub等处下载部署,但是唯独数据难寻。
有人说,互联网数据很多,但是有多少数据是稀缺的语种?在英语为主的LLM向其他资源稀缺的语言迁移应用时,数据少的语言,文化特性还能保存多少?
要解决各种语言的字符集问题,词库问题,语料库建设问题,计算应用问题,不只是技术上的问题,更是资金、人员、市场,特别是良性的商业模式问题,以保障长期稳定的研究与发展。
诸多专家亮出技术绝活,各有特色,这难得的文理交叉大会,期待未来能够延续下去,真正做出实绩来。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-19 17:30
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社