Yetta分享 http://blog.sciencenet.cn/u/yetta

博文

[转载]推进语音数据收集与标注:方法介绍、实践经验与未来展望

已有 637 次阅读 2026-1-30 10:12 |系统分类:论文交流|文章来源:转载

推进语音数据收集与标注:方法介绍、实践经验与未来展望

高迎明1,冯晓莉2, 3,李博学4,解焱陆5,张劲松5,李雅1

(1. 北京邮电大学 人工智能学院,北京 1008762. 教育部语言文字应用研究所,北京 1000103. 首都师范大学 文学院,1000894. 云帆海量数据科技(北京)有限公司,北京 1024005. 北京语言大学 信息科学学院,北京 100083 

摘要:语音数据是推动语音研究与技术应用发展的基石。数据采集与标注是确保语音数据可用性与有效性的关键环节。尽管学术界与产业界的语音数据库日益丰富,但是数据采集与标注仍面临诸多挑战,包括缺乏标准化方案设计、经验共享不足等问题,尤其在代表性不足的人群或资源匮乏的语言领域更为突出。本文因此首先概述了数据采集与标注的整体框架及其关键组成部分,并介绍了代表性方法和常用工具。此外,展示了我们为采集和标注第二语言习得、听障儿童及心理健康监测语音数据而构建的工具与平台。最后,探讨了大数据与大型模型时代的新兴趋势、挑战及潜在解决方案。通过将方法论指南与实证案例研究相结合,本文为构建语音数据库提供了可操作的见解。

关键词:语音采集,语音标注,语音标注工具,语音数据库构建

扫二维码浏览全文  

 12204_OF_26_004下载.png

Cite this article

Gao, Y., Feng, X., Li, B. et al. Advancing Speech Data Collection and Annotation: General Methods, Practical Experience, and Future Perspectives. J. Shanghai Jiaotong Univ. (Sci.) (2026). https://doi.org/10.1007/s12204-026-2898-9

12204_OF_26_004_GraphAbstract.jpg



https://blog.sciencenet.cn/blog-45888-1520458.html

上一篇:[转载]高灵敏度巨磁阻效应磁生物传感器与病原菌检测
下一篇:[转载]真空晶圆传输机器人碰撞检测
收藏 IP: 202.120.12.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2026-2-4 12:27

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部