CN113555033A

CN113555033A - 语音交互的自动增益控制方法、装置及

Info

Publication number: CN113555033A
Application number: CN202110878010.5A
Authority: CN
Inventors: 孙祥宇
Original assignee: Espressif Systems Shanghai Co Ltd
Current assignee: Espressif Systems Shanghai Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-26
Also published as: WO2023006107A1

Abstract

本申请公开了一种语音交互***的自动增益控制方法、装置、***以及计算机可读存储介质，该方法包括：接收语音信号；通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。本申请能够准确计算出每次交互所需的增益，保证语音识别的准确性，提升用户的交互体验。

Description

语音交互***的自动增益控制方法、装置及***

技术领域

本申请涉及语音交互技术领域，尤其涉及一种语音交互***的自动增益控制方法、装置、***以及计算机可读存储介质。

背景技术

随着智能技术的普及，生活中的衣食住行的方方面面都开始应用智能技术，例如智能音箱、智能电视等。智能技术为人们的生活提供了方便快捷的服务。智能语音交互是目前被广泛使用的一种智能技术。智能语音交互是指基于语音输入的一种交互方式，用户可以直接使用语音控制、操控设备。该交互方式能够有效解放双手，最大程度降低操作难度，极大地方便了用户的使用。

语音交互可以分为远场语音与近场语音，与近场语音相比，在远场语音交互过程中，说话者与设备的距离通常在一米到十米之间。其前端通常使用麦克风阵列作为拾音设备，拾取的声音信号供后续语音识别处理。

由于远场语音交互中，拾音设备拾取的声音动态范围较大，这就要求拾音设备具有自动增益控制(Automatic Gain Control，AGC)功能，以控制拾取声音的音量在一个合理的范围内，从而保证语音识别的准确性。而在远场语音交互的实际场景中，可能包含背景噪声、多人说话声音、设备自身的播放音等干扰因素。因此，如何准确计算所需增益是本申请发明人意图解决的技术问题之一。

应理解，上述所列举的技术问题仅作为示例而非对本发明的限制，本发明并不限于同时解决上述所有技术问题的技术方案。本发明的技术方案可以实施为解决上述或其他技术问题中的一个或多个。

发明内容

为解决上述问题，本申请提供了一种语音交互***的自动增益控制方法，包括：

接收语音信号；

通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；

调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；

基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。

可选地，在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括：

针对每个不同音源的声音信号分别维护对应的FIFO队列；其中，所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定；

针对每个不同音源的声音信号，分别按帧进行读取，计算每帧信号的幅值的绝对值的最大值，并将所述绝对值的最大值保存至所述FIFO队列中。

针对每个不同音源的声音信号，分别按帧进行读取，计算每帧信号的幅值的绝对值，并使用高斯窗与所述绝对值进行卷积，将进行卷积后的最大值保存至所述FIFO队列中。

可选地，所述FIFO队列的长度N与所述唤醒词检测每帧长度的乘积，等于所述唤醒词的长度。

可选地，所述计算所述语音交互***中自动增益控制所需的增益包括：

计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值A_max，根据

计算所述语音交互***中拾音设备所需的增益G；

其中，A_ref为参考音频信号的幅值，所述参考音频信号为固定值。

可选地，在所述计算所述语音交互***中自动增益控制所需的增益之后还包括：

调节模拟增益至所需的增益G，如果模拟增益可调范围G_a小于所需的增益G，则将模拟增益调节至最大，调节数字增益为G-G_a。

可选地，还包括：在检测到语音交互完成后，增益恢复为初始增益G_init。

可选地，所述初始增益G_init为：在确定所述参考音频信号数值的情况下，保证拾音设备所拾取的音频数据不饱和所对应的增益。

可选地，所述唤醒词检测模型为预先使用delta-LFBE作为特征训练得到的模型。

本申请还提供了一种语音交互***的自动增益控制装置，包括：

接收模块，用于接收语音信号；

盲源分离模块，用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；

唤醒词检测模块，用于调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；

增益确定模块，用于将基于所述检测到唤醒词的声音信号作为参考音频信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。

本申请还提供了一种语音交互***，包括：存储器以及处理器；其中，所述存储器用于存储有指令；所述处理器调用所述指令时，执行上述任一种所述的方法。

本申请还提供了一种计算机可读存储介质，包括指令，所述指令被执行时实现上述任一种所述的方法。

本申请提供的语音交互***的自动增益控制方法，通过接收语音信号；通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测，将检测到唤醒词的声音信号与其他噪声信号区分开来，并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准，能够准确计算出每次交互所需的增益，保证语音识别的准确性，提升用户的交互体验。此外，本申请还提供了一种具有上述技术效果的语音交互***的自动增益控制装置、***以及计算机可读存储介质。

附图说明

在下文中，将基于实施例参考附图进一步解释本申请。

图1示意性地示出本申请提供的语音交互***的自动增益控制方法的一种具体实施方式的流程图；

图2示意性地示出本申请提供的语音交互***的自动增益控制方法的另一种具体实施方式的流程图；

图3示意性地示出本申请提供的语音交互***的自动增益控制方法的又一种具体实施方式的流程图；

图4示意性地示出本申请所提供的语音交互***的自动增益控制装置的一种具体实施方式的结构框图；

图5示意性地示出本申请所提供的语音交互***的结构框图。

具体实施方式

以下将结合附图和具体的实施方式，对本申请的方法和装置进行详细说明。应理解，附图所示以及下文所述的实施例仅仅是说明性的，而不作为对本申请的限制。

图1示出了本申请提供的语音交互***的自动增益控制方法的一种具体实施方式的流程图。本实施例中，该方法具体包括：

步骤S100：接收语音信号。

本步骤中，可以由拾音设备对环境中的语音信号进行拾取。具体地，拾音设备可以为麦克风阵列。可以理解的是，麦克风阵列中麦克风的具体数量以及分布均不影响本申请的实现，当然也可以采用单个麦克风来实现。

步骤S102：通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号。

在接收到语音信号之后，采用盲源分离的方式将接收到的语音信号划分为多个不同音源的声音信号。可以理解的是，盲源分离为现有技术，其具体实施方式为本领域所熟知，在此不再赘述。

步骤S104：调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号。

其中，唤醒词检测模型为预先针对多个语料进行训练得到。在输入声音信号后，该模块通过对预设唤醒词进行检测，可以输出该输入声音信号中是否包含唤醒词的检测结果。预设唤醒词可以为任意预先定义的词语。

作为一种具体实施方式，唤醒词检测模型可以为预先使用delta-LFBE作为特征训练得到的模型。通过使用delta-LFBE作为特征训练唤醒词，可以使得训练得到的唤醒词模型对音量不敏感，即较大/较小音量的声音信号均能够被处理，从而扩大唤醒词模型所接收的语音信号的幅度范围。作为一种具体实施方式，该幅度范围可以为在麦克风处音量大于40db。

另外，在唤醒词训练过程中还可以添加基于音量的数据增强，即对预先存储的唤醒词进行基于幅度值的增强，使用多个幅度值不同的唤醒词进行模拟训练，例如[-30dB,-25dB,-20dB,-15dB,-10dB,-5dB,-2dB]，从而增加唤醒词训练模型的泛化能力。

针对每个不同音源的声音信号，该唤醒词检测模块可以同步或非同步对各个声音信号进行唤醒词检测，从中确定出可以检测到唤醒词的声音信号。

步骤S106：基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。

将检测到唤醒词的声音信号作为参考基准，计算此时语音交互***自动增益控制所需的增益，使得拾取音频数据的音量在预设范围之内。预设范围可以预先定义，在此不做限定。

本申请提供的语音交互***的自动增益控制方法，通过接收语音信号；通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测，将检测到唤醒词的声音信号与其他噪声信号区分开来，并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准，能够准确计算出每次交互所需的增益，保证语音识别的准确性，提升用户的交互体验。

本申请所提供的语音交互***的自动增益控制方法的另一种具体实施方式的流程图如图2所示，该方法具体包括：

步骤S200：接收语音信号；

步骤S202：通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；

步骤S204：针对每个不同音源的声音信号分别维护对应的FIFO队列；其中，所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定；

FIFO队列的长度N与唤醒词检测每帧长度frame_time的乘积，由唤醒词的长度所确定。例如在唤醒词的长度为1.5s时，设置N*frame_time在1.5s左右。

步骤S206：针对每个不同音源的声音信号，分别按帧进行读取，计算每帧信号的幅值的绝对值的最大值，并将所述绝对值的最大值保存至所述FIFO队列中；

针对每个不同音源的声音信号，计算每帧信号的幅值的绝对值的最大值，并将该最大值保存至FIFO队列中，当队列满时，可以自动删除队首元素，依次不断循环。

步骤S208：调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；

步骤S210：计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值A_max，根据

计算所述语音交互***中拾音设备所需的增益G；其中，A_ref为参考音频信号的幅值。

确定参考音频信号的一种具体实施方式为：根据拾音设备最大允许播放音量，得到参考音频信号的幅值。另一支具体实施方式可以为：根据预先设定的固定值，得到参考音频信号的幅值。作为一种具体实施方式，可以预先设定固定值为90db。

本申请所提供的语音交互***的自动增益控制方法的又一种具体实施方式的流程图如图3所示，该方法具体包括：

步骤S300：接收语音信号；

步骤S302：通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；

步骤S304：针对每个不同音源的声音信号分别维护对应的FIFO队列；其中，所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定；

步骤S306：针对每个不同音源的声音信号，分别按帧进行读取，计算每帧信号的幅值的绝对值，并使用高斯窗与所述绝对值进行卷积，将进行卷积后的最大值保存至所述FIFO队列中；

针对每个不同音源的声音信号，计算每帧信号的幅值的绝对值，并使用高斯窗与该绝对值进行卷积，并将进行卷积后的最大值保存至FIFO队列中，当队列满时，可以自动删除队首元素，依次不断循环。其中，高斯窗可以为窗长w为15或19的高斯窗。

步骤S308：调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；

步骤S310：计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值A_max，根据

本实施例使用高斯窗与每帧信号的幅值的绝对值进行卷积，计算卷积后的最大值，可以增加最大值计算的稳定性，减少因为突然磕碰或者其他情况引起的瞬时扰动而导致错误计算最大值。采用该方法进一步提升了增益计算的准确性。

进一步地，在上述任一实施例的基础上，在所述计算所述语音交互***中自动增益控制所需的增益之后还包括：调节模拟增益至所需的增益G，如果模拟增益可调范围G_a小于所需的增益G，则将模拟增益调节至最大，调节数字增益为G-G_a。在确定出自动增益控制所需的增益之后，根据所选择的音频ADC/DAC的配置，优先调节音频ADC/DAC的模拟增益，如果该模拟增益可调范围G_a小于所需的增益G，则将模拟增益调节至最大，然后调节数字增益至G-G_a。本实施方式采用调节信噪比更高的模拟增益先进行调节，然后采用数字增益调节进行补充，确保了增益调节的准确实施。

在上述任一实施例的基础上，本申请所提供的自动增益控制方法还可以进一步包括：在检测到语音交互完成后，增益恢复为初始增益G_init。

其中，所述初始增益G_init为：在确定所述参考音频信号数值的情况下，保证拾音设备所拾取的音频数据不饱和所对应的增益。该初始增益可以保证音响在最大响度下播放音乐时，麦克风录音数据不会被截幅值。

本实施例中，在完成一轮语音交互之后，将增益恢复为初始增益G_init，等待下一次唤醒词触发。可以理解的是，通过检测拾音设备在预设时间段内未检测到说话者的声音信号，则判定该轮语音交互完成。可以理解的是，在检测到语音交互完成后，也可以保持当前增益，等待下一次唤醒词触发。

本申请所提供的语音交互***的自动增益控制装置40的一种具体实施方式的结构框图如图4所示，该装置包括：

接收模块42，用于接收语音信号；

盲源分离模块44，用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；

唤醒词检测模块46，用于调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；

增益确定模块48，用于基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。

可以理解的是，本申请所提供的语音交互***的自动增益控制装置与上述自动增益控制方法相对应，其内部模块42-48分别用于实现自动增益控制方法的步骤S100-S106，其具体实施方式可参照上述对应内容，在此不再赘述。

本装置通过接收语音信号；通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号；调用预先训练的唤醒词检测模型，针对每个不同音源的声音信号分别执行唤醒词检测，确定其中检测到唤醒词的声音信号；基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测，将检测到唤醒词的声音信号与其他噪声信号区分开来，并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准，能够准确计算出每次交互所需的增益，保证语音识别的准确性，提升用户的交互体验。

此外，本申请还提供了一种语音交互***50，如图5本申请所提供的语音交互***50的结构框图，该语音交互***50包括：存储器52以及处理器54；其中，所述存储器52用于存储有指令；所述处理器54调用所述指令时，执行上述任一种所述的自动增益控制方法。

此外，本申请还提供了一种计算机可读存储介质，包括指令，所述指令被执行时实现上述任一种所述的自动增益控制方法。

可以理解的是，本申请所提供的自动增益控制装置、语音交互***、计算机可读存储介质与上述自动增益控制方法相对应，其具体实施方式可以参照上述内容，在此不再赘述。

本申请将检测到唤醒词的声音信号作为进行自动增益控制的调节基准，能够准确计算出每次交互所需的增益，保证语音识别的准确性，提升用户的交互体验。

虽然出于本公开的目的已经描述了本申请各方面的各种实施例，但是不应理解为将本公开的教导限制于这些实施例。在一个具体实施例中公开的特征并不限于该实施例，而是可以和不同实施例中公开的特征进行组合。例如，在一个实施例中描述的根据本申请的方法的一个或多个特征和/或操作，亦可单独地、组合地或整体地应用在另一实施例中。本领域技术人员应理解，还存在可能的更多可选实施方式和变型，可以对上述***进行各种改变和修改，而不脱离由本申请权利要求所限定的范围。

Claims

1.一种语音交互***的自动增益控制方法，其特征在于，包括：

接收语音信号；

2.根据权利要求1所述的自动增益控制方法，其特征在于，在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括：

3.根据权利要求1所述的自动增益控制方法，其特征在于，在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括：

4.根据权利要求2或3所述的自动增益控制方法，其特征在于，所述FIFO队列的长度N与所述唤醒词检测每帧长度的乘积，等于所述唤醒词的长度。

5.根据权利要求2或3所述的自动增益控制方法，其特征在于，所述计算所述语音交互***中自动增益控制所需的增益包括：

计算所述语音交互***中拾音设备所需的增益G；

6.根据权利要求5所述的自动增益控制方法，其特征在于，在所述计算所述语音交互***中自动增益控制所需的增益之后还包括：

7.根据权利要求6所述的自动增益控制方法，其特征在于，还包括：在检测到语音交互完成后，增益恢复为初始增益G_init。

8.根据权利要求7所述的自动增益控制方法，其特征在于，所述初始增益G_init为：在确定所述参考音频信号数值的情况下，保证拾音设备所拾取的音频数据不饱和所对应的增益。

9.根据权利要求1至3任一项所述的自动增益控制方法，其特征在于，所述唤醒词检测模型为预先使用delta-LFBE作为特征训练得到的模型。

10.一种语音交互***的自动增益控制装置，其特征在于，包括：

接收模块，用于接收语音信号；

增益确定模块，用于基于所述检测到唤醒词的声音信号，计算所述语音交互***中自动增益控制所需的增益，以调节拾取音频数据的音量在预设范围内。

11.一种语音交互***，其特征在于，包括：存储器以及处理器；其中，所述存储器用于存储有指令；所述处理器调用所述指令时，执行如权利要求1至9任一项所述的方法。

12.一种计算机可读存储介质，包括指令，所述指令被执行时实现如权利要求1至9任一项所述的方法。