|
国内在语音识别领域的工作,眼之所见,主要是以下两种:
1、写工具。每个团队一般都有自己的训练工具和解码工具。GMM时代是根据HTK重写一遍,现在应该是根据Kaldi。重写的人在数据结构和算法方面会做优化,以满足产品线对效率的要求。至于对语音识别问题的认识自然是不会加深。
2、用工具。具体到一个应用,需要有人处理数据、训练模型、测试结果。很不幸我便是这样的角色。搭系统总还是要考虑应用场景、数据搭配、超参数调优等事情,不至于说高中生即可胜任。但较之写工具,该工作又要逊色很多。
真正加深大家对语音识别认识的工作,是成功实现了过去没有的算法。十几年来,这样的工作屈指可数,不外乎MPE训练、DNN-HMM框架和LSTM-HMM框架。这些工作实实在在的提升了语音识别的体验,他们的发明者是这个行业的脊梁。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-10-20 03:44
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社