武夷山分享 http://blog.sciencenet.cn/u/Wuyishan 中国科学技术发展战略研究院研究员;南京大学信息管理系博导

博文

[转载]向不同区域传送不同语言,“多点语音播放技术”迈向实用化

已有 182 次阅读 2024-7-27 07:10 |个人分类:科普小兵|系统分类:博客资讯|文章来源:转载

【创新日本走访】(12)向不同区域传送不同语言,“多点语音播放技术”迈向实用化

2024年07月25日

https://keguanjp.com/kgjp_jish/kgjp_jish/pt20240725000003.html

title

“创新日本走访”系列采访那些以实际应用于社会一线为目标的研发现场。第12回介绍日本情报通信研究机构通用通信研究所的冈本拓磨研究经理,他研究的“多点语音播放技术”,旨在通过使用多个扬声器消除不必要的声音,自由地向多个区域传送不同的语音,并推进实用化。

四种语言同时解说融合音场控制和语音合成

日本国立研究开发法人情报通信研究机构(NICT)通用通信研究所坐落在横跨京都、大阪和奈良三地、绿意盎然的丘陵地带的“京阪奈学研都市”之中。踏进研究所内的一间中央摆放着一个直径约18厘米圆盘形装置的房间时,首先听到其中传出的日语播音。沿着该装置顺时针行走,到了某个位置后,听到的声音从日语切换成了英语,继续走下去,则会依次变成韩语和汉语,走完一圈后又回到了日语播音状态。

换句话说,装置中同时播放着四种语言,但根据所站位置不同,听到的语言也不同,而且不会混音,能清晰地听到某一种语言。仔细观察该圆盘装置,可以看到有16个直径约3厘米的小喇叭整齐地排列着。情报通信研究机构(NICT)通用通信研究所的研究经理冈本拓磨介绍道:“这就是所谓的多点语音播放技术,通过声波的叠加或抵消,能做到在希望听到的地方听到,在不希望听到的地方听不到。”

冈本先生从学生时代起,就一直在研究在空间内控制声音的“音场控制”技术,让人的感觉仿佛是置身于立体影像中一样。来到NICT后,他将研究范围扩展到了智能手机多语言语音翻译应用程序种使用的自然流畅的“语音合成技术”,并设计开发出了融合音场控制技术和语音合成技术的“多点语音播放技术”。目前已有的向特定地点传递声音的技术是利用超声波直进性的定向扬声器,而他开发的多点语音播放技术具有高音质,而且对耳朵负担较小也是一大特点。

从直线配置变为圆盘形配置最多可分割为8个区域

普通的扬声器播放的声音会向各个方向传播,而多点语音播放技术则利用与降噪耳机相同的原理,消除了目标方向以外的声音(图1)。关于其技术原理,冈本先生介绍道:“通过这种方式,可以使多个声音在各自的方向上同时被听到。”

title

图1 多点语音播放技术的原理通常,声波会从音源向各个方向传播,但通过消除不必要的部分,可以实现只有扬声器前方的声音会被加强而听得更加清楚。目前最多可以分割成8个区域。

冈本先生认为这种扬声器可根据社会需求用于多种用途,他参加了NICT IDI共创设计项目中由疋田啓太负责的JST“项目经理(PM)培养和促进活动计划”实际培训,该技术也被选定为培训课题,从2021年起开始面向技术得实用化推进开发。2014年当初开发的原型机由64个直径5厘米的扬声器直线排列组成。将这些扬声器安装在展示室的墙壁和天花板上后,根据站立位置的不同,可以分别听到日语或英语的播音,但存在系统安装位置受限和难以搬运的问题。为了解决这个问题,他想出了将扬声器排列方式改为圆盘状的方法。

冈本先生回顾道:“最初我以为要消除扬声器后方的声音泄漏是很困难的,但经过反复试验,成功地彻底清除了漏音。”2022年在日本科学未来馆的协助下,对他与北日本音响公司(日本山形县酒田市)合作开发的圆形扬声器1号机和直线型扬声器两种类型的语音多点播放设备,并进行了实地实验。这些设备受到了入馆参观者的好评,并吸引了多家企业前来的咨询。

国内外知名企业前来咨询“百见不如一闻”,欢迎现场来听

为加速基于1号机的成果实用化开发,冈本先生申请了2022年度A-STEP试验类项目。申请被采纳后,他便开始致力于提升包括男性低频声音在内的高品质稳定音频的再现,确保在广阔活动场地中有足够的音量,以及提升操作性和便携性等改进。冈本先生全新开发了提升音声清晰度的扬声器再生信号计算方法,并与北日本音响共同开发了高音质扬声器,于2023年3月完成了2号机。

title

图2 2023年6月在NICT总部举办的开放日活动上展示多点语音播放技术的情景将日语、英语、汉语和韩语四种语言的同声传译系统与多点语音播放技术相结合,实现了无延迟的自然会话。

2号机在2023年6月举办的NICT总部开放日上进行了演示。演示时,2号机被放置在圆桌的中央,分别说四种语言(日语、英语、汉语、韩语)的4个人发出的声音被同声传译(图2)。冈本先生高兴地表示:“就连闲聊的内容也能顺利地翻译,公众也能体验到这项技术的惊人之处。”此后,2号机还先后在联合国主办的互联网治理论坛、电子信息技术产业协会主办的CEATEC展会、国际研讨会等活动中进行了展示。2024年1月,日本的电视节目介绍了该技术,日本国内有力企业也纷纷前来咨询。同年2月,冈本先生的团队开发出了体积更小的3号机(图3)。

title

图3 圆形扬声器演示机的变化从左到右依次为1号机、2号机、3号机。2号机和3号机改善了1号机存在的音量和音质问题,功能上几乎相同,但为了实用化,3号机做得更小。

冈本先生今后的目标是实现设备的无线化和大音量化,开发各种用途。比如,在与家人共度时光的客厅或驾车途中,传送符合个人需求的声音;在车站提供紧急交通信息,或在海岸、悬崖等地区用于特定的防灾无线播报系统等。冈本先生介绍其抱负时表示:“我认为声音的商品化还有很大的空间。我还想制作能够根据位置调整不同音量的扬声器。”由冈本先生及其团队开发的多点语音播放装置已被设置在NICT总部(东京都小金井市)展示室中进行长期展示。常言道“百闻不如一见”,我们不妨暂且把它改成“百见不如一闻”,各位亲自来展示室听一下如何。(TEXT:森部信次、PHOTO:石原秀树)

原文: JSTnews 2024年7月号



https://blog.sciencenet.cn/blog-1557-1443982.html

上一篇:美国国家科学基金会的EPSCR 计划(1989)
收藏 IP: 219.142.146.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-7-27 20:18

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部