|
1 工作简介
近年,语音识别系统的应用越来越普及,但是语音识别系统需要处理庞大的语言模型,它需要大量的运算以及内存的使用,因此会消耗大量的能量。实际上,语音识别系统的使用比例相当低,通常使用语音唤醒来预判输入的信号是否有人声,如果有才会打开语音识别系统。它可以利用少量的计算来大幅降低系统功耗。另一方面,即使语音识别系统是在云端作计算,如果缺少边缘端的语音唤醒,边缘节点还需要把所有原始数据上传送到云端。语音唤醒也能在这种场合减少传输原始数据的功耗。传统的语音唤醒应用滤波器组作语音信号的特征提取,并以神经网络作为分类器。然而由于音频信号的频率很低,因此使用滤波器组作特征提取会有大面积和大功耗的缺点。
为了减少特征提取的功耗和面积,但仍然维持低延时,澳门大学阮家煇助理教授提出把特征提取融入分类器的神经网络里,这一层称作时域卷积神经网络 (TD-CNN)。TD-CNN用被动开关电容电路来作低功耗但是高精度的运算,它所提取出来的特征,只需被量化为1 bit,给后面的二元神经网络作分类,大大降低模数转换的的数量和速度。本工作提出与TD-CNN 配套的稀疏感知计算 (SAC) 与稀疏化量化 (SQ),它们提升了乘加运算的输出信号大小,也让输出差异化,使得电路有更好的抵抗电路失配和噪声的能力。
图1. 语音唤醒系统图。
稀疏感知计算 (SAC) (图2) 是利用wn,1-3把对应零权重的电容开路,减少输出信号的衰减。而且由于电容值是能表达正数的权重,当权重为负数的时候,wn,4会把正负端反接,把权重的负号换到差分输入去。稀疏化量化 (SQ) 会使量化前为常态分布的权重变成双峰分布,并且由于TD-CNN 的只有79个通道,这样会克服中央极限定理,令输出的分布从常态分布变成双峰分布。这会减少因电路失配所造成的比较器阈值飘移导致的量化错误。另外稀疏化量化会令量化后的权重像一个连续分布,提升了模型量化的精度,以排除语音唤醒模型因量化所造成的正确率下降。
图2. SAC电路以及SQ令输出分布差异化。
本工作在28 nm 的CMOS工艺下进行了流片验证 (图3),由于TD-CNN 使用了开关电容电路来实行高精度、低功耗的特征提取,因此功耗只需108 nW,面积为0.8 mm2,语音唤醒在10 dB 的信噪比下达到92%,比近年的语音唤醒正确率高,且面积小,功耗低。
图3. 电路实现、芯片照片与语音唤醒正确率比较。
2 作者简介
通讯作者
阮家煇,助理教授,澳门大学微电子研究院助理教授。
2014年在澳门大学获得博士学位,2014、2015年分别成为澳门大学博士后研究员及讲师。2017-2018年在爱尔兰都柏林大学学院作访问学者。2018年在澳门大学成为助理教授。研究领域包括低功耗模拟运算AI、模拟存内计算、数字及基于FPGA的AI加速器等。在ISSCC,JSSC,A-SSCC,T-CAS I等集成电路领域顶级会议和期刊上发表二十余篇论文,受邀于A-SSCC 2021 RiS论坛上发表演讲。
第一作者
陈飞飞,澳门大学博士。
3 原文传递
详情请点击论文链接:
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-24 14:01
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社