随园厚学分享 http://blog.sciencenet.cn/u/gothere 计算语言学博士 希望在这里留下学术的足迹

博文

语言资源与计算人文研讨会总结

已有 492 次阅读 2024-11-6 23:43 |个人分类:Computational Linguistics|系统分类:科研笔记

在这个言必大模型的时代,语言数据的重要性似乎没有那么重要。

但是在真正做开发的团队看来,数据是石油,高质量数据是金子,特别是对资源稀缺的语言来说,数据是系统开发不可或缺的关键。

GPU可以租,程序员可以花钱雇,模型可以从GitHub等处下载部署,但是唯独数据难寻。

有人说,互联网数据很多,但是有多少数据是稀缺的语种?在英语为主的LLM向其他资源稀缺的语言迁移应用时,数据少的语言,文化特性还能保存多少?

要解决各种语言的字符集问题,词库问题,语料库建设问题,计算应用问题,不只是技术上的问题,更是资金、人员、市场,特别是良性的商业模式问题,以保障长期稳定的研究与发展。

诸多专家亮出技术绝活,各有特色,这难得的文理交叉大会,期待未来能够延续下去,真正做出实绩来。



https://blog.sciencenet.cn/blog-39714-1458903.html

上一篇:QL2024计量语言学会议随感
下一篇:十年课程的教材终于出版:《数字人文实战:网络数据库编程技术》(前言)
收藏 IP: 117.62.197.*| 热度|

2 王安良 郑永军

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-11-19 17:30

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部