|||
2016.01.27更新
我们的声纹识别技术在2015年8月贵阳召开的CTF2015(China technology forum 2015)会议上展示,获得好评。
http://www.fujitsu-jftt.com/listItemSelect.action?infoId=94
我们的声纹识别技术在2015年9月被富士通对全球做新闻发表,以下分别是中英文链接和截图:
http://www.fujitsu.com/cn/about/resources/news/press-releases/2015/frdc-0915.html
http://www.fujitsu.com/cn/en/about/resources/news/press-releases/2015/frdc-0915.html
我们的声纹识别技术在2015年11月慕尼黑召开的FF2015(fujitsu forum 2015,富士通论坛2015)会议上展示,获得好评。
-------------------以下为原文博客-----------------
最近和永强(当然大部分是他的功劳)一起搭了一套酷炫的声纹识别(确认)系统。准确率很高,基本上能够达到95%以上。
声纹识别就是用待识别语音和预先提取的说话人特征来鉴别出说话人身份的一种技术,是语音信号处理领域一个十分活跃的研究方向。从本质上讲,声纹识别是语音信号模式识别的问题。
我们对该软件进行了详细的测试,根据注册说话人的数目,包含两种规模的说话人测试,分别为500说话人和50说话人。
1. 测试条件与实验设置
a) 50人规模的测试:注册人数50人,每人30秒语音;测试人数150人,其中集内50人,集外100人,分别测试了30秒和60秒的情形。
b) 500人规模的测试:注册人数500人,每人30秒语音;测试人数1746人,其中集内500人,集外1246人,分别测试了30秒和60秒的情形。
2. 评价指标
a) 错误拒绝:False rejectionrate (FRR); 错误报警率:false alarm rate (FAR)。计算方法如下图所示
FRR= X/(X+Y)*100%
FAR= Z/(Y+Z)*100%
b) 运行时间
3. 实验结果
在以下图标中,如果是FRR和FAR图,则横轴为阈值,纵轴为百分比;如果是运行时间结果图,则横轴为语音时长(秒),纵轴为处理用时时长(秒)
a)500人测试结果
b)50人测试结果
4. 说话人去重测试
根据注册语音片段的数目,包含三种规模的说话人去重测试,分别为100段语音、200段和400段语音。
a) 测试条件与实验设置
100段语音规模的测试:90段不同说话人的片段,剩余10段为5个不同说话人,每人两段。
200段和400段规模测试与100段语音测试类似。
b) 测试结果
在所有规模(100段,200段或400段)测试下,在我们所设的阈值范围中,所有重复段均成功检出,且没有误识。对于处理时间,在单进程情况下,结果如下图所示,横轴为语音段数目,纵轴为处理用时时长(小时)。可以看到,处理时间和问题规模呈线性关系,也就说说,如果需要处理4000段语音,单进程需要12小时,所以如果运行12个进程,仅需一小时。
软件的使用方法如下:
1,软件界面如下:
2,说话人注册,输入为说话人姓名和对应的语音音频数据
3,点击确认开始注册,直到注册成功
4,在识别阶段,点击识别tab,然后选择待识别的测试音频
5,输出前三名置信度较高的结果,可以看到第一名正是我们的结果
欢迎提供意见。如有任何问题,请联系邮箱shiziqiang7@gmail.com。
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-5-16 06:20
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社