CN113555033A - 语音交互***的自动增益控制方法、装置及*** - Google Patents

语音交互***的自动增益控制方法、装置及*** Download PDF

Info

Publication number
CN113555033A
CN113555033A CN202110878010.5A CN202110878010A CN113555033A CN 113555033 A CN113555033 A CN 113555033A CN 202110878010 A CN202110878010 A CN 202110878010A CN 113555033 A CN113555033 A CN 113555033A
Authority
CN
China
Prior art keywords
gain control
automatic gain
voice
gain
sound signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110878010.5A
Other languages
English (en)
Inventor
孙祥宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Espressif Systems Shanghai Co Ltd
Original Assignee
Espressif Systems Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Espressif Systems Shanghai Co Ltd filed Critical Espressif Systems Shanghai Co Ltd
Priority to CN202110878010.5A priority Critical patent/CN113555033A/zh
Publication of CN113555033A publication Critical patent/CN113555033A/zh
Priority to PCT/CN2022/109240 priority patent/WO2023006107A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

本申请公开了一种语音交互***的自动增益控制方法、装置、***以及计算机可读存储介质,该方法包括:接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。

Description

语音交互***的自动增益控制方法、装置及***
技术领域
本申请涉及语音交互技术领域,尤其涉及一种语音交互***的自动增益控制方法、装置、***以及计算机可读存储介质。
背景技术
随着智能技术的普及,生活中的衣食住行的方方面面都开始应用智能技术,例如智能音箱、智能电视等。智能技术为人们的生活提供了方便快捷的服务。智能语音交互是目前被广泛使用的一种智能技术。智能语音交互是指基于语音输入的一种交互方式,用户可以直接使用语音控制、操控设备。该交互方式能够有效解放双手,最大程度降低操作难度,极大地方便了用户的使用。
语音交互可以分为远场语音与近场语音,与近场语音相比,在远场语音交互过程中,说话者与设备的距离通常在一米到十米之间。其前端通常使用麦克风阵列作为拾音设备,拾取的声音信号供后续语音识别处理。
由于远场语音交互中,拾音设备拾取的声音动态范围较大,这就要求拾音设备具有自动增益控制(Automatic Gain Control,AGC)功能,以控制拾取声音的音量在一个合理的范围内,从而保证语音识别的准确性。而在远场语音交互的实际场景中,可能包含背景噪声、多人说话声音、设备自身的播放音等干扰因素。因此,如何准确计算所需增益是本申请发明人意图解决的技术问题之一。
应理解,上述所列举的技术问题仅作为示例而非对本发明的限制,本发明并不限于同时解决上述所有技术问题的技术方案。本发明的技术方案可以实施为解决上述或其他技术问题中的一个或多个。
发明内容
为解决上述问题,本申请提供了一种语音交互***的自动增益控制方法,包括:
接收语音信号;
通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
可选地,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值的最大值,并将所述绝对值的最大值保存至所述FIFO队列中。
可选地,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值,并使用高斯窗与所述绝对值进行卷积,将进行卷积后的最大值保存至所述FIFO队列中。
可选地,所述FIFO队列的长度N与所述唤醒词检测每帧长度的乘积,等于所述唤醒词的长度。
可选地,所述计算所述语音交互***中自动增益控制所需的增益包括:
计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
Figure BDA0003189969630000031
计算所述语音交互***中拾音设备所需的增益G;
其中,Aref为参考音频信号的幅值,所述参考音频信号为固定值。
可选地,在所述计算所述语音交互***中自动增益控制所需的增益之后还包括:
调节模拟增益至所需的增益G,如果模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,调节数字增益为G-Ga
可选地,还包括:在检测到语音交互完成后,增益恢复为初始增益Ginit
可选地,所述初始增益Ginit为:在确定所述参考音频信号数值的情况下,保证拾音设备所拾取的音频数据不饱和所对应的增益。
可选地,所述唤醒词检测模型为预先使用delta-LFBE作为特征训练得到的模型。
本申请还提供了一种语音交互***的自动增益控制装置,包括:
接收模块,用于接收语音信号;
盲源分离模块,用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
唤醒词检测模块,用于调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
增益确定模块,用于将基于所述检测到唤醒词的声音信号作为参考音频信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
本申请还提供了一种语音交互***,包括:存储器以及处理器;其中,所述存储器用于存储有指令;所述处理器调用所述指令时,执行上述任一种所述的方法。
本申请还提供了一种计算机可读存储介质,包括指令,所述指令被执行时实现上述任一种所述的方法。
本申请提供的语音交互***的自动增益控制方法,通过接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测,将检测到唤醒词的声音信号与其他噪声信号区分开来,并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。此外,本申请还提供了一种具有上述技术效果的语音交互***的自动增益控制装置、***以及计算机可读存储介质。
附图说明
在下文中,将基于实施例参考附图进一步解释本申请。
图1示意性地示出本申请提供的语音交互***的自动增益控制方法的一种具体实施方式的流程图;
图2示意性地示出本申请提供的语音交互***的自动增益控制方法的另一种具体实施方式的流程图;
图3示意性地示出本申请提供的语音交互***的自动增益控制方法的又一种具体实施方式的流程图;
图4示意性地示出本申请所提供的语音交互***的自动增益控制装置的一种具体实施方式的结构框图;
图5示意性地示出本申请所提供的语音交互***的结构框图。
具体实施方式
以下将结合附图和具体的实施方式,对本申请的方法和装置进行详细说明。应理解,附图所示以及下文所述的实施例仅仅是说明性的,而不作为对本申请的限制。
图1示出了本申请提供的语音交互***的自动增益控制方法的一种具体实施方式的流程图。本实施例中,该方法具体包括:
步骤S100:接收语音信号。
本步骤中,可以由拾音设备对环境中的语音信号进行拾取。具体地,拾音设备可以为麦克风阵列。可以理解的是,麦克风阵列中麦克风的具体数量以及分布均不影响本申请的实现,当然也可以采用单个麦克风来实现。
步骤S102:通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号。
在接收到语音信号之后,采用盲源分离的方式将接收到的语音信号划分为多个不同音源的声音信号。可以理解的是,盲源分离为现有技术,其具体实施方式为本领域所熟知,在此不再赘述。
步骤S104:调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号。
其中,唤醒词检测模型为预先针对多个语料进行训练得到。在输入声音信号后,该模块通过对预设唤醒词进行检测,可以输出该输入声音信号中是否包含唤醒词的检测结果。预设唤醒词可以为任意预先定义的词语。
作为一种具体实施方式,唤醒词检测模型可以为预先使用delta-LFBE作为特征训练得到的模型。通过使用delta-LFBE作为特征训练唤醒词,可以使得训练得到的唤醒词模型对音量不敏感,即较大/较小音量的声音信号均能够被处理,从而扩大唤醒词模型所接收的语音信号的幅度范围。作为一种具体实施方式,该幅度范围可以为在麦克风处音量大于40db。
另外,在唤醒词训练过程中还可以添加基于音量的数据增强,即对预先存储的唤醒词进行基于幅度值的增强,使用多个幅度值不同的唤醒词进行模拟训练,例如[-30dB,-25dB,-20dB,-15dB,-10dB,-5dB,-2dB],从而增加唤醒词训练模型的泛化能力。
针对每个不同音源的声音信号,该唤醒词检测模块可以同步或非同步对各个声音信号进行唤醒词检测,从中确定出可以检测到唤醒词的声音信号。
步骤S106:基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
将检测到唤醒词的声音信号作为参考基准,计算此时语音交互***自动增益控制所需的增益,使得拾取音频数据的音量在预设范围之内。预设范围可以预先定义,在此不做限定。
本申请提供的语音交互***的自动增益控制方法,通过接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测,将检测到唤醒词的声音信号与其他噪声信号区分开来,并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。
本申请所提供的语音交互***的自动增益控制方法的另一种具体实施方式的流程图如图2所示,该方法具体包括:
步骤S200:接收语音信号;
步骤S202:通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
步骤S204:针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
FIFO队列的长度N与唤醒词检测每帧长度frame_time的乘积,由唤醒词的长度所确定。例如在唤醒词的长度为1.5s时,设置N*frame_time在1.5s左右。
步骤S206:针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值的最大值,并将所述绝对值的最大值保存至所述FIFO队列中;
针对每个不同音源的声音信号,计算每帧信号的幅值的绝对值的最大值,并将该最大值保存至FIFO队列中,当队列满时,可以自动删除队首元素,依次不断循环。
步骤S208:调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
步骤S210:计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
Figure BDA0003189969630000071
计算所述语音交互***中拾音设备所需的增益G;其中,Aref为参考音频信号的幅值。
确定参考音频信号的一种具体实施方式为:根据拾音设备最大允许播放音量,得到参考音频信号的幅值。另一支具体实施方式可以为:根据预先设定的固定值,得到参考音频信号的幅值。作为一种具体实施方式,可以预先设定固定值为90db。
本申请所提供的语音交互***的自动增益控制方法的又一种具体实施方式的流程图如图3所示,该方法具体包括:
步骤S300:接收语音信号;
步骤S302:通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
步骤S304:针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
FIFO队列的长度N与唤醒词检测每帧长度frame_time的乘积,由唤醒词的长度所确定。例如在唤醒词的长度为1.5s时,设置N*frame_time在1.5s左右。
步骤S306:针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值,并使用高斯窗与所述绝对值进行卷积,将进行卷积后的最大值保存至所述FIFO队列中;
针对每个不同音源的声音信号,计算每帧信号的幅值的绝对值,并使用高斯窗与该绝对值进行卷积,并将进行卷积后的最大值保存至FIFO队列中,当队列满时,可以自动删除队首元素,依次不断循环。其中,高斯窗可以为窗长w为15或19的高斯窗。
步骤S308:调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
步骤S310:计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
Figure BDA0003189969630000081
计算所述语音交互***中拾音设备所需的增益G;其中,Aref为参考音频信号的幅值。
确定参考音频信号的一种具体实施方式为:根据拾音设备最大允许播放音量,得到参考音频信号的幅值。另一支具体实施方式可以为:根据预先设定的固定值,得到参考音频信号的幅值。作为一种具体实施方式,可以预先设定固定值为90db。
本实施例使用高斯窗与每帧信号的幅值的绝对值进行卷积,计算卷积后的最大值,可以增加最大值计算的稳定性,减少因为突然磕碰或者其他情况引起的瞬时扰动而导致错误计算最大值。采用该方法进一步提升了增益计算的准确性。
进一步地,在上述任一实施例的基础上,在所述计算所述语音交互***中自动增益控制所需的增益之后还包括:调节模拟增益至所需的增益G,如果模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,调节数字增益为G-Ga。在确定出自动增益控制所需的增益之后,根据所选择的音频ADC/DAC的配置,优先调节音频ADC/DAC的模拟增益,如果该模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,然后调节数字增益至G-Ga。本实施方式采用调节信噪比更高的模拟增益先进行调节,然后采用数字增益调节进行补充,确保了增益调节的准确实施。
在上述任一实施例的基础上,本申请所提供的自动增益控制方法还可以进一步包括:在检测到语音交互完成后,增益恢复为初始增益Ginit
其中,所述初始增益Ginit为:在确定所述参考音频信号数值的情况下,保证拾音设备所拾取的音频数据不饱和所对应的增益。该初始增益可以保证音响在最大响度下播放音乐时,麦克风录音数据不会被截幅值。
本实施例中,在完成一轮语音交互之后,将增益恢复为初始增益Ginit,等待下一次唤醒词触发。可以理解的是,通过检测拾音设备在预设时间段内未检测到说话者的声音信号,则判定该轮语音交互完成。可以理解的是,在检测到语音交互完成后,也可以保持当前增益,等待下一次唤醒词触发。
本申请所提供的语音交互***的自动增益控制装置40的一种具体实施方式的结构框图如图4所示,该装置包括:
接收模块42,用于接收语音信号;
盲源分离模块44,用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
唤醒词检测模块46,用于调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
增益确定模块48,用于基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
可以理解的是,本申请所提供的语音交互***的自动增益控制装置与上述自动增益控制方法相对应,其内部模块42-48分别用于实现自动增益控制方法的步骤S100-S106,其具体实施方式可参照上述对应内容,在此不再赘述。
本装置通过接收语音信号;通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。本申请从真实的使用场景中采用唤醒词检测,将检测到唤醒词的声音信号与其他噪声信号区分开来,并将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。
此外,本申请还提供了一种语音交互***50,如图5本申请所提供的语音交互***50的结构框图,该语音交互***50包括:存储器52以及处理器54;其中,所述存储器52用于存储有指令;所述处理器54调用所述指令时,执行上述任一种所述的自动增益控制方法。
此外,本申请还提供了一种计算机可读存储介质,包括指令,所述指令被执行时实现上述任一种所述的自动增益控制方法。
可以理解的是,本申请所提供的自动增益控制装置、语音交互***、计算机可读存储介质与上述自动增益控制方法相对应,其具体实施方式可以参照上述内容,在此不再赘述。
本申请将检测到唤醒词的声音信号作为进行自动增益控制的调节基准,能够准确计算出每次交互所需的增益,保证语音识别的准确性,提升用户的交互体验。
虽然出于本公开的目的已经描述了本申请各方面的各种实施例,但是不应理解为将本公开的教导限制于这些实施例。在一个具体实施例中公开的特征并不限于该实施例,而是可以和不同实施例中公开的特征进行组合。例如,在一个实施例中描述的根据本申请的方法的一个或多个特征和/或操作,亦可单独地、组合地或整体地应用在另一实施例中。本领域技术人员应理解,还存在可能的更多可选实施方式和变型,可以对上述***进行各种改变和修改,而不脱离由本申请权利要求所限定的范围。

Claims (12)

1.一种语音交互***的自动增益控制方法,其特征在于,包括:
接收语音信号;
通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
2.根据权利要求1所述的自动增益控制方法,其特征在于,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值的最大值,并将所述绝对值的最大值保存至所述FIFO队列中。
3.根据权利要求1所述的自动增益控制方法,其特征在于,在所述通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号之后还包括:
针对每个不同音源的声音信号分别维护对应的FIFO队列;其中,所述FIFO队列的长度N的数值根据所述唤醒词的长度和唤醒词检测每帧长度确定;
针对每个不同音源的声音信号,分别按帧进行读取,计算每帧信号的幅值的绝对值,并使用高斯窗与所述绝对值进行卷积,将进行卷积后的最大值保存至所述FIFO队列中。
4.根据权利要求2或3所述的自动增益控制方法,其特征在于,所述FIFO队列的长度N与所述唤醒词检测每帧长度的乘积,等于所述唤醒词的长度。
5.根据权利要求2或3所述的自动增益控制方法,其特征在于,所述计算所述语音交互***中自动增益控制所需的增益包括:
计算所述检测到唤醒词的声音信号对应的FIFO队列中的最大值Amax,根据
Figure FDA0003189969620000021
计算所述语音交互***中拾音设备所需的增益G;
其中,Aref为参考音频信号的幅值,所述参考音频信号为固定值。
6.根据权利要求5所述的自动增益控制方法,其特征在于,在所述计算所述语音交互***中自动增益控制所需的增益之后还包括:
调节模拟增益至所需的增益G,如果模拟增益可调范围Ga小于所需的增益G,则将模拟增益调节至最大,调节数字增益为G-Ga
7.根据权利要求6所述的自动增益控制方法,其特征在于,还包括:在检测到语音交互完成后,增益恢复为初始增益Ginit
8.根据权利要求7所述的自动增益控制方法,其特征在于,所述初始增益Ginit为:在确定所述参考音频信号数值的情况下,保证拾音设备所拾取的音频数据不饱和所对应的增益。
9.根据权利要求1至3任一项所述的自动增益控制方法,其特征在于,所述唤醒词检测模型为预先使用delta-LFBE作为特征训练得到的模型。
10.一种语音交互***的自动增益控制装置,其特征在于,包括:
接收模块,用于接收语音信号;
盲源分离模块,用于通过盲源分离将接收到的语音信号划分为多个不同音源的声音信号;
唤醒词检测模块,用于调用预先训练的唤醒词检测模型,针对每个不同音源的声音信号分别执行唤醒词检测,确定其中检测到唤醒词的声音信号;
增益确定模块,用于基于所述检测到唤醒词的声音信号,计算所述语音交互***中自动增益控制所需的增益,以调节拾取音频数据的音量在预设范围内。
11.一种语音交互***,其特征在于,包括:存储器以及处理器;其中,所述存储器用于存储有指令;所述处理器调用所述指令时,执行如权利要求1至9任一项所述的方法。
12.一种计算机可读存储介质,包括指令,所述指令被执行时实现如权利要求1至9任一项所述的方法。
CN202110878010.5A 2021-07-30 2021-07-30 语音交互***的自动增益控制方法、装置及*** Pending CN113555033A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110878010.5A CN113555033A (zh) 2021-07-30 2021-07-30 语音交互***的自动增益控制方法、装置及***
PCT/CN2022/109240 WO2023006107A1 (zh) 2021-07-30 2022-07-29 语音交互***的自动增益控制方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110878010.5A CN113555033A (zh) 2021-07-30 2021-07-30 语音交互***的自动增益控制方法、装置及***

Publications (1)

Publication Number Publication Date
CN113555033A true CN113555033A (zh) 2021-10-26

Family

ID=78133528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110878010.5A Pending CN113555033A (zh) 2021-07-30 2021-07-30 语音交互***的自动增益控制方法、装置及***

Country Status (2)

Country Link
CN (1) CN113555033A (zh)
WO (1) WO2023006107A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023006107A1 (zh) * 2021-07-30 2023-02-02 乐鑫信息科技(上海)股份有限公司 语音交互***的自动增益控制方法、装置及***

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101019465A (zh) * 2004-10-21 2007-08-15 罗姆股份有限公司 发音方法、音源电路、使用其的电子电路和电子设备
CN101278337A (zh) * 2005-07-22 2008-10-01 索福特迈克斯有限公司 噪声环境中语音信号的健壮分离
CN102437825A (zh) * 2010-09-29 2012-05-02 索尼公司 控制装置和控制方法
CN103039023A (zh) * 2010-04-09 2013-04-10 Dts公司 音频重放的自适应环境噪声补偿
CN103827965A (zh) * 2011-07-29 2014-05-28 Dts有限责任公司 自适应语音可理解性处理器
CN107123429A (zh) * 2017-03-22 2017-09-01 歌尔科技有限公司 音频信号的自动增益控制方法和装置
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
CN109192219A (zh) * 2018-09-11 2019-01-11 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
CN110364166A (zh) * 2018-06-28 2019-10-22 腾讯科技(深圳)有限公司 实现语音信号识别的电子设备
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN110914901A (zh) * 2017-07-18 2020-03-24 哈曼贝克自动***股份有限公司 言语信号调平
CN111667843A (zh) * 2019-03-05 2020-09-15 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、***、电子设备、存储介质
CN112397083A (zh) * 2020-11-13 2021-02-23 Oppo广东移动通信有限公司 语音处理方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146504A (en) * 1990-12-07 1992-09-08 Motorola, Inc. Speech selective automatic gain control
CN102915753B (zh) * 2012-10-23 2015-09-30 华为终端有限公司 一种电子设备的智能控制音量的方法及实现装置
US20200279575A1 (en) * 2019-03-01 2020-09-03 DSP Concepts, Inc. Automatic gain control for speech recognition engine in far field voice user interface
CN113555033A (zh) * 2021-07-30 2021-10-26 乐鑫信息科技(上海)股份有限公司 语音交互***的自动增益控制方法、装置及***

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101019465A (zh) * 2004-10-21 2007-08-15 罗姆股份有限公司 发音方法、音源电路、使用其的电子电路和电子设备
CN101278337A (zh) * 2005-07-22 2008-10-01 索福特迈克斯有限公司 噪声环境中语音信号的健壮分离
CN103039023A (zh) * 2010-04-09 2013-04-10 Dts公司 音频重放的自适应环境噪声补偿
CN102437825A (zh) * 2010-09-29 2012-05-02 索尼公司 控制装置和控制方法
CN103827965A (zh) * 2011-07-29 2014-05-28 Dts有限责任公司 自适应语音可理解性处理器
US10192546B1 (en) * 2015-03-30 2019-01-29 Amazon Technologies, Inc. Pre-wakeword speech processing
CN107123429A (zh) * 2017-03-22 2017-09-01 歌尔科技有限公司 音频信号的自动增益控制方法和装置
CN110914901A (zh) * 2017-07-18 2020-03-24 哈曼贝克自动***股份有限公司 言语信号调平
CN108615535A (zh) * 2018-05-07 2018-10-02 腾讯科技(深圳)有限公司 语音增强方法、装置、智能语音设备和计算机设备
CN110364166A (zh) * 2018-06-28 2019-10-22 腾讯科技(深圳)有限公司 实现语音信号识别的电子设备
CN110875045A (zh) * 2018-09-03 2020-03-10 阿里巴巴集团控股有限公司 一种语音识别方法、智能设备和智能电视
CN109192219A (zh) * 2018-09-11 2019-01-11 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
CN111667843A (zh) * 2019-03-05 2020-09-15 北京京东尚科信息技术有限公司 终端设备的语音唤醒方法、***、电子设备、存储介质
CN112397083A (zh) * 2020-11-13 2021-02-23 Oppo广东移动通信有限公司 语音处理方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023006107A1 (zh) * 2021-07-30 2023-02-02 乐鑫信息科技(上海)股份有限公司 语音交互***的自动增益控制方法、装置及***

Also Published As

Publication number Publication date
WO2023006107A1 (zh) 2023-02-02

Similar Documents

Publication Publication Date Title
CN110335620B (zh) 一种噪声抑制方法、装置和移动终端
US9830924B1 (en) Matching output volume to a command volume
EP2592546B1 (en) Automatic Gain Control in a multi-talker audio system
US20180275951A1 (en) Speech recognition device, speech recognition method and storage medium
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN108573709B (zh) 一种自动增益控制方法及装置
CN110600048B (zh) 音频校验方法、装置、存储介质及电子设备
CN110400571B (zh) 音频处理方法、装置、存储介质及电子设备
CN111508515A (zh) 话音命令触发的语音增强
WO2023006107A1 (zh) 语音交互***的自动增益控制方法、装置及***
CN113963716A (zh) 通话式门铃的音量均衡方法、装置、设备和可读存储介质
CN110689887B (zh) 音频校验方法、装置、存储介质及电子设备
JP5251808B2 (ja) 雑音除去装置
JP4880136B2 (ja) 音声認識装置および音声認識方法
CN109584877B (zh) 语音交互控制方法和装置
US10818298B2 (en) Audio processing
CN113168831A (zh) 用于同时的关键字发现、转录和实时通信的音频管线
EP4084002B1 (en) Information processing method, electronic equipment, storage medium, and computer program product
CN109920433A (zh) 嘈杂环境下电子设备的语音唤醒方法
US11776538B1 (en) Signal processing
US20240048901A1 (en) Processing method and device
JP4999267B2 (ja) 音声入力装置
CN116627377A (zh) 音频处理方法、装置、电子设备和存储介质
US20210391840A1 (en) Audio gain selection
US20190385603A1 (en) System and method of acoustically controlling equalizer in natural language and computer readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination