lixinbaidu的个人博客分享 http://blog.sciencenet.cn/u/lixinbaidu

博文

语音识别从业有感

已有 1892 次阅读 2017-11-7 14:00 |系统分类:科研笔记

国内在语音识别领域的工作,眼之所见,主要是以下两种:

1、写工具。每个团队一般都有自己的训练工具和解码工具。GMM时代是根据HTK重写一遍,现在应该是根据Kaldi。重写的人在数据结构和算法方面会做优化,以满足产品线对效率的要求。至于对语音识别问题的认识自然是不会加深。

2、用工具。具体到一个应用,需要有人处理数据、训练模型、测试结果。很不幸我便是这样的角色。搭系统总还是要考虑应用场景、数据搭配、超参数调优等事情,不至于说高中生即可胜任。但较之写工具,该工作又要逊色很多。

真正加深大家对语音识别认识的工作,是成功实现了过去没有的算法。十几年来,这样的工作屈指可数,不外乎MPE训练、DNN-HMM框架和LSTM-HMM框架。这些工作实实在在的提升了语音识别的体验,他们的发明者是这个行业的脊梁。



https://blog.sciencenet.cn/blog-3367139-1084155.html


收藏 IP: 61.135.169.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-10-20 03:44

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部