CN113555033A - 语音交互***的自动增益控制方法、装置及*** - Google Patents
语音交互***的自动增益控制方法、装置及*** Download PDFInfo
- Publication number
- CN113555033A CN113555033A CN202110878010.5A CN202110878010A CN113555033A CN 113555033 A CN113555033 A CN 113555033A CN 202110878010 A CN202110878010 A CN 202110878010A CN 113555033 A CN113555033 A CN 113555033A
- Authority
- CN
- China
- Prior art keywords
- gain control
- automatic gain
- voice
- gain
- sound signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000005236 sound signal Effects 0.000 claims abstract description 96
- 238000001514 detection method Methods 0.000 claims abstract description 45
- 238000000926 separation method Methods 0.000 claims abstract description 21
- 230000002452 interceptive effect Effects 0.000 claims description 17
- 229920006395 saturated elastomer Polymers 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Control Of Amplification And Gain Control (AREA)
Abstract
本申请公开了一种语音交互***的自动增益控制方法、装置、***以及计算机可读存储介质,该方法包括:接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。
Description
技术领域
本申请涉及语音交互技术领域,尤其涉及一种语音交互***的自动增益控制方法、装置、***以及计算机可读存储介质。
背景技术
随着智能技术的普及,生活中的衣食住行的方方面面都开始应用智能技术,例如智能音箱、智能电视等。智能技术为人们的生活提供了方便快捷的服务。智能语音交互是目前被广泛使用的一种智能技术。智能语音交互是指基于语音输入的一种交互方式,用户可以直接使用语音控制、操控设备。该交互方式能够有效解放双手,最大程度降低操作难度,极大地方便了用户的使用。
语音交互可以分为远场语音与近场语音,与近场语音相比,在远场语音交互过程中,说话者与设备的距离通常在一米到十米之间。其前端通常使用麦克风阵列作为拾音设备,拾取的声音信号供后续语音识别处理。
由于远场语音交互中,拾音设备拾取的声音动态范围较大,这就要求拾音设备具有自动增益控制(Automatic Gain Control,AGC)功能,以控制拾取声音的音量在一个合理的范围内,从而保证语音识别的准确性。而在远场语音交互的实际场景中,可能包含背景噪声、多人说话声音、设备自身的播放音等干扰因素。因此,如何准确计算所需增益是本申请发明人意图解决的技术问题之一。
应理解,上述所列举的技术问题仅作为示例而非对本发明的限制,本发明并不限于同时解决上述所有技术问题的技术方案。本发明的技术方案可以实施为解决上述或其他技术问题中的一个或多个。
发明内容
为解决上述问题,本申请提供了一种语音交互***的自动增益控制方法,包括:
接收语音信号;
通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
可选地,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值的最大值,并将所述绝对值的最大值保存至所述FIFO队列中。
可选地,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值,并使用高斯窗与所述绝对值进行卷积,将进行卷积后的最大值保存至所述FIFO队列中。
可选地,所述FIFO队列的长度N与所述唤醒词检测每帧长度的乘积,等于所述唤醒词的长度。
可选地,所述计算所述语音交互***中自动增益控制所需的增益包括:
计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
计算所述语音交互***中拾音设备所需的增益G;
其中,Aref为参考音频信号的幅值,所述参考音频信号为固定值。
可选地,在所述计算所述语音交互***中自动增益控制所需的增益之后还包括:
调节模拟增益至所需的增益G,如果模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,调节数字增益为G-Ga。
可选地,还包括:在检测到语音交互完成后,增益恢复为初始增益Ginit。
可选地,所述初始增益Ginit为:在确定所述参考音频信号数值的情况下,保证拾音设备所拾取的音频数据不饱和所对应的增益。
可选地,所述唤醒词检测模型为预先使用delta-LFBE作为特征训练得到的模型。
本申请还提供了一种语音交互***的自动增益控制装置,包括:
接收模块,用于接收语音信号;
盲源分离模块,用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
唤醒词检测模块,用于调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
增益确定模块,用于将基于所述检测到唤醒词的声音信号作为参考音频信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
本申请还提供了一种语音交互***,包括:存储器以及处理器;其中,所述存储器用于存储有指令;所述处理器调用所述指令时,执行上述任一种所述的方法。
本申请还提供了一种计算机可读存储介质,包括指令,所述指令被执行时实现上述任一种所述的方法。
本申请提供的语音交互***的自动增益控制方法,通过接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测,将检测到唤醒词的声音信号与其他噪声信号区分开来,并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。此外,本申请还提供了一种具有上述技术效果的语音交互***的自动增益控制装置、***以及计算机可读存储介质。
附图说明
在下文中,将基于实施例参考附图进一步解释本申请。
图1示意性地示出本申请提供的语音交互***的自动增益控制方法的一种具体实施方式的流程图;
图2示意性地示出本申请提供的语音交互***的自动增益控制方法的另一种具体实施方式的流程图;
图3示意性地示出本申请提供的语音交互***的自动增益控制方法的又一种具体实施方式的流程图;
图4示意性地示出本申请所提供的语音交互***的自动增益控制装置的一种具体实施方式的结构框图;
图5示意性地示出本申请所提供的语音交互***的结构框图。
具体实施方式
以下将结合附图和具体的实施方式,对本申请的方法和装置进行详细说明。应理解,附图所示以及下文所述的实施例仅仅是说明性的,而不作为对本申请的限制。
图1示出了本申请提供的语音交互***的自动增益控制方法的一种具体实施方式的流程图。本实施例中,该方法具体包括:
步骤S100:接收语音信号。
本步骤中,可以由拾音设备对环境中的语音信号进行拾取。具体地,拾音设备可以为麦克风阵列。可以理解的是,麦克风阵列中麦克风的具体数量以及分布均不影响本申请的实现,当然也可以采用单个麦克风来实现。
步骤S102:通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号。
在接收到语音信号之后,采用盲源分离的方式将接收到的语音信号划分为多个不同音源的声音信号。可以理解的是,盲源分离为现有技术,其具体实施方式为本领域所熟知,在此不再赘述。
步骤S104:调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号。
其中,唤醒词检测模型为预先针对多个语料进行训练得到。在输入声音信号后,该模块通过对预设唤醒词进行检测,可以输出该输入声音信号中是否包含唤醒词的检测结果。预设唤醒词可以为任意预先定义的词语。
作为一种具体实施方式,唤醒词检测模型可以为预先使用delta-LFBE作为特征训练得到的模型。通过使用delta-LFBE作为特征训练唤醒词,可以使得训练得到的唤醒词模型对音量不敏感,即较大/较小音量的声音信号均能够被处理,从而扩大唤醒词模型所接收的语音信号的幅度范围。作为一种具体实施方式,该幅度范围可以为在麦克风处音量大于40db。
另外,在唤醒词训练过程中还可以添加基于音量的数据增强,即对预先存储的唤醒词进行基于幅度值的增强,使用多个幅度值不同的唤醒词进行模拟训练,例如[-30dB,-25dB,-20dB,-15dB,-10dB,-5dB,-2dB],从而增加唤醒词训练模型的泛化能力。
针对每个不同音源的声音信号,该唤醒词检测模块可以同步或非同步对各个声音信号进行唤醒词检测,从中确定出可以检测到唤醒词的声音信号。
步骤S106:基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
将检测到唤醒词的声音信号作为参考基准,计算此时语音交互***自动增益控制所需的增益,使得拾取音频数据的音量在预设范围之内。预设范围可以预先定义,在此不做限定。
本申请提供的语音交互***的自动增益控制方法,通过接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测,将检测到唤醒词的声音信号与其他噪声信号区分开来,并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。
本申请所提供的语音交互***的自动增益控制方法的另一种具体实施方式的流程图如图2所示,该方法具体包括:
步骤S200:接收语音信号;
步骤S202:通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
步骤S204:针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
FIFO队列的长度N与唤醒词检测每帧长度frame_time的乘积,由唤醒词的长度所确定。例如在唤醒词的长度为1.5s时,设置N*frame_time在1.5s左右。
步骤S206:针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值的最大值,并将所述绝对值的最大值保存至所述FIFO队列中;
针对每个不同音源的声音信号,计算每帧信号的幅值的绝对值的最大值,并将该最大值保存至FIFO队列中,当队列满时,可以自动删除队首元素,依次不断循环。
步骤S208:调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
步骤S210:计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
计算所述语音交互***中拾音设备所需的增益G;其中,Aref为参考音频信号的幅值。
确定参考音频信号的一种具体实施方式为:根据拾音设备最大允许播放音量,得到参考音频信号的幅值。另一支具体实施方式可以为:根据预先设定的固定值,得到参考音频信号的幅值。作为一种具体实施方式,可以预先设定固定值为90db。
本申请所提供的语音交互***的自动增益控制方法的又一种具体实施方式的流程图如图3所示,该方法具体包括:
步骤S300:接收语音信号;
步骤S302:通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
步骤S304:针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
FIFO队列的长度N与唤醒词检测每帧长度frame_time的乘积,由唤醒词的长度所确定。例如在唤醒词的长度为1.5s时,设置N*frame_time在1.5s左右。
步骤S306:针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值,并使用高斯窗与所述绝对值进行卷积,将进行卷积后的最大值保存至所述FIFO队列中;
针对每个不同音源的声音信号,计算每帧信号的幅值的绝对值,并使用高斯窗与该绝对值进行卷积,并将进行卷积后的最大值保存至FIFO队列中,当队列满时,可以自动删除队首元素,依次不断循环。其中,高斯窗可以为窗长w为15或19的高斯窗。
步骤S308:调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
步骤S310:计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
计算所述语音交互***中拾音设备所需的增益G;其中,Aref为参考音频信号的幅值。
确定参考音频信号的一种具体实施方式为:根据拾音设备最大允许播放音量,得到参考音频信号的幅值。另一支具体实施方式可以为:根据预先设定的固定值,得到参考音频信号的幅值。作为一种具体实施方式,可以预先设定固定值为90db。
本实施例使用高斯窗与每帧信号的幅值的绝对值进行卷积,计算卷积后的最大值,可以增加最大值计算的稳定性,减少因为突然磕碰或者其他情况引起的瞬时扰动而导致错误计算最大值。采用该方法进一步提升了增益计算的准确性。
进一步地,在上述任一实施例的基础上,在所述计算所述语音交互***中自动增益控制所需的增益之后还包括:调节模拟增益至所需的增益G,如果模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,调节数字增益为G-Ga。在确定出自动增益控制所需的增益之后,根据所选择的音频ADC/DAC的配置,优先调节音频ADC/DAC的模拟增益,如果该模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,然后调节数字增益至G-Ga。本实施方式采用调节信噪比更高的模拟增益先进行调节,然后采用数字增益调节进行补充,确保了增益调节的准确实施。
在上述任一实施例的基础上,本申请所提供的自动增益控制方法还可以进一步包括:在检测到语音交互完成后,增益恢复为初始增益Ginit。
其中,所述初始增益Ginit为:在确定所述参考音频信号数值的情况下,保证拾音设备所拾取的音频数据不饱和所对应的增益。该初始增益可以保证音响在最大响度下播放音乐时,麦克风录音数据不会被截幅值。
本实施例中,在完成一轮语音交互之后,将增益恢复为初始增益Ginit,等待下一次唤醒词触发。可以理解的是,通过检测拾音设备在预设时间段内未检测到说话者的声音信号,则判定该轮语音交互完成。可以理解的是,在检测到语音交互完成后,也可以保持当前增益,等待下一次唤醒词触发。
本申请所提供的语音交互***的自动增益控制装置40的一种具体实施方式的结构框图如图4所示,该装置包括:
接收模块42,用于接收语音信号;
盲源分离模块44,用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
唤醒词检测模块46,用于调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
增益确定模块48,用于基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
可以理解的是,本申请所提供的语音交互***的自动增益控制装置与上述自动增益控制方法相对应,其内部模块42-48分别用于实现自动增益控制方法的步骤S100-S106,其具体实施方式可参照上述对应内容,在此不再赘述。
本装置通过接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测,将检测到唤醒词的声音信号与其他噪声信号区分开来,并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。
此外,本申请还提供了一种语音交互***50,如图5本申请所提供的语音交互***50的结构框图,该语音交互***50包括:存储器52以及处理器54;其中,所述存储器52用于存储有指令;所述处理器54调用所述指令时,执行上述任一种所述的自动增益控制方法。
此外,本申请还提供了一种计算机可读存储介质,包括指令,所述指令被执行时实现上述任一种所述的自动增益控制方法。
可以理解的是,本申请所提供的自动增益控制装置、语音交互***、计算机可读存储介质与上述自动增益控制方法相对应,其具体实施方式可以参照上述内容,在此不再赘述。
本申请将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。
虽然出于本公开的目的已经描述了本申请各方面的各种实施例,但是不应理解为将本公开的教导限制于这些实施例。在一个具体实施例中公开的特征并不限于该实施例,而是可以和不同实施例中公开的特征进行组合。例如,在一个实施例中描述的根据本申请的方法的一个或多个特征和/或操作,亦可单独地、组合地或整体地应用在另一实施例中。本领域技术人员应理解,还存在可能的更多可选实施方式和变型,可以对上述***进行各种改变和修改,而不脱离由本申请权利要求所限定的范围。
Claims (12)
1.一种语音交互***的自动增益控制方法,其特征在于,包括:
接收语音信号;
通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
2.根据权利要求1所述的自动增益控制方法,其特征在于,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值的最大值,并将所述绝对值的最大值保存至所述FIFO队列中。
3.根据权利要求1所述的自动增益控制方法,其特征在于,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值,并使用高斯窗与所述绝对值进行卷积,将进行卷积后的最大值保存至所述FIFO队列中。
4.根据权利要求2或3所述的自动增益控制方法,其特征在于,所述FIFO队列的长度N与所述唤醒词检测每帧长度的乘积,等于所述唤醒词的长度。
6.根据权利要求5所述的自动增益控制方法,其特征在于,在所述计算所述语音交互***中自动增益控制所需的增益之后还包括:
调节模拟增益至所需的增益G,如果模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,调节数字增益为G-Ga。
7.根据权利要求6所述的自动增益控制方法,其特征在于,还包括:在检测到语音交互完成后,增益恢复为初始增益Ginit。
8.根据权利要求7所述的自动增益控制方法,其特征在于,所述初始增益Ginit为:在确定所述参考音频信号数值的情况下,保证拾音设备所拾取的音频数据不饱和所对应的增益。
9.根据权利要求1至3任一项所述的自动增益控制方法,其特征在于,所述唤醒词检测模型为预先使用delta-LFBE作为特征训练得到的模型。
10.一种语音交互***的自动增益控制装置,其特征在于,包括:
接收模块,用于接收语音信号;
盲源分离模块,用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
唤醒词检测模块,用于调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
增益确定模块,用于基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
11.一种语音交互***,其特征在于,包括:存储器以及处理器;其中,所述存储器用于存储有指令;所述处理器调用所述指令时,执行如权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,包括指令,所述指令被执行时实现如权利要求1至9任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110878010.5A CN113555033A (zh) | 2021-07-30 | 2021-07-30 | 语音交互***的自动增益控制方法、装置及*** |
PCT/CN2022/109240 WO2023006107A1 (zh) | 2021-07-30 | 2022-07-29 | 语音交互***的自动增益控制方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110878010.5A CN113555033A (zh) | 2021-07-30 | 2021-07-30 | 语音交互***的自动增益控制方法、装置及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113555033A true CN113555033A (zh) | 2021-10-26 |
Family
ID=78133528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110878010.5A Pending CN113555033A (zh) | 2021-07-30 | 2021-07-30 | 语音交互***的自动增益控制方法、装置及*** |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113555033A (zh) |
WO (1) | WO2023006107A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023006107A1 (zh) * | 2021-07-30 | 2023-02-02 | 乐鑫信息科技(上海)股份有限公司 | 语音交互***的自动增益控制方法、装置及*** |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101019465A (zh) * | 2004-10-21 | 2007-08-15 | 罗姆股份有限公司 | 发音方法、音源电路、使用其的电子电路和电子设备 |
CN101278337A (zh) * | 2005-07-22 | 2008-10-01 | 索福特迈克斯有限公司 | 噪声环境中语音信号的健壮分离 |
CN102437825A (zh) * | 2010-09-29 | 2012-05-02 | 索尼公司 | 控制装置和控制方法 |
CN103039023A (zh) * | 2010-04-09 | 2013-04-10 | Dts公司 | 音频重放的自适应环境噪声补偿 |
CN103827965A (zh) * | 2011-07-29 | 2014-05-28 | Dts有限责任公司 | 自适应语音可理解性处理器 |
CN107123429A (zh) * | 2017-03-22 | 2017-09-01 | 歌尔科技有限公司 | 音频信号的自动增益控制方法和装置 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
CN110364166A (zh) * | 2018-06-28 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 实现语音信号识别的电子设备 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN110914901A (zh) * | 2017-07-18 | 2020-03-24 | 哈曼贝克自动***股份有限公司 | 言语信号调平 |
CN111667843A (zh) * | 2019-03-05 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、***、电子设备、存储介质 |
CN112397083A (zh) * | 2020-11-13 | 2021-02-23 | Oppo广东移动通信有限公司 | 语音处理方法及相关装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5146504A (en) * | 1990-12-07 | 1992-09-08 | Motorola, Inc. | Speech selective automatic gain control |
CN102915753B (zh) * | 2012-10-23 | 2015-09-30 | 华为终端有限公司 | 一种电子设备的智能控制音量的方法及实现装置 |
US20200279575A1 (en) * | 2019-03-01 | 2020-09-03 | DSP Concepts, Inc. | Automatic gain control for speech recognition engine in far field voice user interface |
CN113555033A (zh) * | 2021-07-30 | 2021-10-26 | 乐鑫信息科技(上海)股份有限公司 | 语音交互***的自动增益控制方法、装置及*** |
-
2021
- 2021-07-30 CN CN202110878010.5A patent/CN113555033A/zh active Pending
-
2022
- 2022-07-29 WO PCT/CN2022/109240 patent/WO2023006107A1/zh unknown
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101019465A (zh) * | 2004-10-21 | 2007-08-15 | 罗姆股份有限公司 | 发音方法、音源电路、使用其的电子电路和电子设备 |
CN101278337A (zh) * | 2005-07-22 | 2008-10-01 | 索福特迈克斯有限公司 | 噪声环境中语音信号的健壮分离 |
CN103039023A (zh) * | 2010-04-09 | 2013-04-10 | Dts公司 | 音频重放的自适应环境噪声补偿 |
CN102437825A (zh) * | 2010-09-29 | 2012-05-02 | 索尼公司 | 控制装置和控制方法 |
CN103827965A (zh) * | 2011-07-29 | 2014-05-28 | Dts有限责任公司 | 自适应语音可理解性处理器 |
US10192546B1 (en) * | 2015-03-30 | 2019-01-29 | Amazon Technologies, Inc. | Pre-wakeword speech processing |
CN107123429A (zh) * | 2017-03-22 | 2017-09-01 | 歌尔科技有限公司 | 音频信号的自动增益控制方法和装置 |
CN110914901A (zh) * | 2017-07-18 | 2020-03-24 | 哈曼贝克自动***股份有限公司 | 言语信号调平 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN110364166A (zh) * | 2018-06-28 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 实现语音信号识别的电子设备 |
CN110875045A (zh) * | 2018-09-03 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、智能设备和智能电视 |
CN109192219A (zh) * | 2018-09-11 | 2019-01-11 | 四川长虹电器股份有限公司 | 基于关键词改进麦克风阵列远场拾音的方法 |
CN111667843A (zh) * | 2019-03-05 | 2020-09-15 | 北京京东尚科信息技术有限公司 | 终端设备的语音唤醒方法、***、电子设备、存储介质 |
CN112397083A (zh) * | 2020-11-13 | 2021-02-23 | Oppo广东移动通信有限公司 | 语音处理方法及相关装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023006107A1 (zh) * | 2021-07-30 | 2023-02-02 | 乐鑫信息科技(上海)股份有限公司 | 语音交互***的自动增益控制方法、装置及*** |
Also Published As
Publication number | Publication date |
---|---|
WO2023006107A1 (zh) | 2023-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335620B (zh) | 一种噪声抑制方法、装置和移动终端 | |
US9830924B1 (en) | Matching output volume to a command volume | |
EP2592546B1 (en) | Automatic Gain Control in a multi-talker audio system | |
US20180275951A1 (en) | Speech recognition device, speech recognition method and storage medium | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN108573709B (zh) | 一种自动增益控制方法及装置 | |
CN110600048B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN110400571B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN111508515A (zh) | 话音命令触发的语音增强 | |
WO2023006107A1 (zh) | 语音交互***的自动增益控制方法、装置及*** | |
CN113963716A (zh) | 通话式门铃的音量均衡方法、装置、设备和可读存储介质 | |
CN110689887B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
JP5251808B2 (ja) | 雑音除去装置 | |
JP4880136B2 (ja) | 音声認識装置および音声認識方法 | |
CN109584877B (zh) | 语音交互控制方法和装置 | |
US10818298B2 (en) | Audio processing | |
CN113168831A (zh) | 用于同时的关键字发现、转录和实时通信的音频管线 | |
EP4084002B1 (en) | Information processing method, electronic equipment, storage medium, and computer program product | |
CN109920433A (zh) | 嘈杂环境下电子设备的语音唤醒方法 | |
US11776538B1 (en) | Signal processing | |
US20240048901A1 (en) | Processing method and device | |
JP4999267B2 (ja) | 音声入力装置 | |
CN116627377A (zh) | 音频处理方法、装置、电子设备和存储介质 | |
US20210391840A1 (en) | Audio gain selection | |
US20190385603A1 (en) | System and method of acoustically controlling equalizer in natural language and computer readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |