CN117351925B - 啸叫抑制方法、装置、电子设备和存储介质 - Google Patents

啸叫抑制方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN117351925B
CN117351925B CN202311659980.1A CN202311659980A CN117351925B CN 117351925 B CN117351925 B CN 117351925B CN 202311659980 A CN202311659980 A CN 202311659980A CN 117351925 B CN117351925 B CN 117351925B
Authority
CN
China
Prior art keywords
audio signal
signal
feature extraction
howling suppression
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311659980.1A
Other languages
English (en)
Other versions
CN117351925A (zh
Inventor
朱东辉
马峰
高建清
朱志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202311659980.1A priority Critical patent/CN117351925B/zh
Publication of CN117351925A publication Critical patent/CN117351925A/zh
Application granted granted Critical
Publication of CN117351925B publication Critical patent/CN117351925B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17813Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms
    • G10K11/17819Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms between the output signals and the reference signals, e.g. to prevent howling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17885General system configurations additionally using a desired external signal, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3025Determination of spectrum characteristics, e.g. FFT
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3038Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种啸叫抑制方法、装置、电子设备和存储介质,涉及音频处理技术领域。其中方法包括:获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号。本发明可以减少非线性失真,进而提高啸叫抑制效果,最终提高音质。

Description

啸叫抑制方法、装置、电子设备和存储介质
技术领域
本发明涉及音频处理技术领域,尤其涉及一种啸叫抑制方法、装置、电子设备和存储介质。
背景技术
随着科技的迅速发展,人们对汽车的乘坐体验要求越来越高。其中,智能化车载娱乐是影响乘坐体验的重要因素。目前,智能化车载娱乐包括无“麦”K歌,该无“麦”K歌是指不使用传统手持麦克风的形式进行K歌,而是使用车机内嵌的语音麦克风进行K歌,以提供更灵活方便的K歌方式。然而,抛弃手持麦克风意味着摒弃强指向性拾音的优势,在K歌这种嘈杂的环境下,车载麦克风更易拾取到噪声从而引发啸叫问题。因此,需要进行啸叫抑制,以确保无“麦”K歌的使用体验。
目前,啸叫抑制方式主要分为传统方式和深度学习方式,传统方式如相位调制法其啸叫抑制效果并不好,而采用深度学习方式进行啸叫抑制,现有技术大多基于麦克风信号重建目标信号,然而深度学习模型直接基于麦克风信号重建目标信号,将会引入较多失真,即目标信号为失真信号。因此,现有技术的啸叫抑制效果较差。
发明内容
本发明提供一种啸叫抑制方法、装置、电子设备和存储介质,用以解决现有技术中啸叫抑制效果差的缺陷。
本发明提供一种啸叫抑制方法,包括:
获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;
将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;
将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;
其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号。
根据本发明提供的一种啸叫抑制方法,所述将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量,包括:
将所述第一音频信号转换为第一频谱信号,并将所述第二音频信号转换为第二频谱信号;
将所述第一频谱信号和所述第二频谱信号进行拼接,得到拼接频谱信号;
将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的特征张量;
将所述特征张量输入至所述啸叫抑制模型中的权重向量生成层,得到所述权重向量生成层输出的分离权重向量。
根据本发明提供的一种啸叫抑制方法,所述将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的特征张量,包括:
将所述拼接频谱信号输入至所述特征提取层中的频域特征提取层,得到所述频域特征提取层输出的第一目标特征张量,所述频域特征提取层用于在频率轴上对所述拼接频谱信号进行特征提取;
将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的特征张量,所述时域特征提取层用于在时间轴上对所述第一目标特征张量进行特征提取。
根据本发明提供的一种啸叫抑制方法,所述将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的特征张量,包括:
将所述第一目标特征张量与所述拼接频谱信号输入至所述特征提取层中的第一特征融合层,得到所述第一特征融合层输出的第一融合特征张量;
将所述第一融合特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的第二目标特征张量;
将所述第二目标特征张量与所述第一融合特征张量输入至所述特征提取层中的第二特征融合层,得到所述第二特征融合层输出的特征张量。
根据本发明提供的一种啸叫抑制方法,所述将所述第一频谱信号和所述第二频谱信号进行拼接,得到拼接频谱信号,包括:
将所述第一频谱信号划分为多个频段的第一频带信号,并将所述第二频谱信号划分为多个频段的第二频带信号;
基于各所述频段对应的预设切分间隔,分别对各所述第一频带信号进行切分,得到多个第三频带信号,并基于各所述频段对应的预设切分间隔,分别对各所述第二频带信号进行切分,得到多个第四频带信号;
将所述多个第三频带信号和所述多个第四频带信号分别进行拼接,得到多个拼接频谱信号;
其中,所述频段的频率越大则对应的所述预设切分间隔越大。
根据本发明提供的一种啸叫抑制方法,所述将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的特征张量,包括:
将所述多个拼接频谱信号分别输入至所述特征提取层中的频域特征提取层,得到所述频域特征提取层输出的多个第一目标特征张量;
将所述多个第一目标特征张量分别输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的多个特征张量;
其中,所述频域特征提取层包括依次连接的双向门控循环网络GRU层、点卷积层、归一化层和激活层;所述时域特征提取层包括依次连接的GRU层、点卷积层、归一化层和激活层。
根据本发明提供的一种啸叫抑制方法,所述目标音频信号标签包括频域信号标签和时域信号标签,所述啸叫抑制模型是基于如下步骤训练得到:
将所述样本第一音频信号转换为样本第一频谱信号,并将所述样本第二音频信号转换为样本第二频谱信号;
将所述样本第一频谱信号和所述样本第二频谱信号进行拼接,得到样本拼接频谱信号;
将所述样本拼接频谱信号输入至待训练模型,得到所述待训练模型输出的预测分离权重向量;
将所述样本第一频谱信号与所述预测分离权重向量进行相乘,得到预测目标频谱信号;
基于所述预测目标频谱信号和所述频域信号标签,确定第一损失值;
将所述预测目标频谱信号转换为属于时域的预测目标音频信号,基于所述预测目标音频信号和所述时域信号标签,确定第二损失值;
基于所述第一损失值和所述第二损失值,训练所述待训练模型得到所述啸叫抑制模型。
本发明还提供一种啸叫抑制装置,包括:
信号获取模块,用于获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;
向量输出模块,用于将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;
信号相乘模块,用于将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;
其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述啸叫抑制方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述啸叫抑制方法。
本发明提供的啸叫抑制方法、装置、电子设备和存储介质,获取麦克风采集的第一音频信号,以及第一音频信号对应的第二音频信号,且第二音频信号为第一音频信号经过处理后所需输出的参考信号,以将第一音频信号与第二音频信号输入至啸叫抑制模型,得到啸叫抑制模型输出的分离权重向量,从而不仅基于第一音频信号的信息确定分离权重向量,还基于第二音频信号的信息确定分离权重向量,即基于更多的信息确定分离权重向量,从而提高分离权重向量的确定准确性,进而提高啸叫抑制效果;且啸叫抑制模型输出的是分离权重向量,并将第一音频信号与分离权重向量进行相乘,得到目标音频信号,其是在原始的第一音频信号上进行线性分离,相比非线性模型直接输出重建的目标信号而言,本发明可以减少非线性失真,进而提高啸叫抑制效果,提高音质;且通过上述方式,将第一音频信号中的其他信号分离,保留目标音频信号,可以从根源上抑制啸叫的发生,进而提高啸叫抑制效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的啸叫抑制方法的流程示意图之一;
图2为本发明提供的啸叫抑制方法的流程示意图之二;
图3为本发明提供的啸叫抑制模型的结构示意图;
图4为本发明提供的啸叫抑制装置的结构示意图;
图5为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着科技和汽车的迅速发展,人们对汽车的乘坐体验要求越来越高,尤其对于智能座舱的要求越来越高。其中,智能化车载娱乐是影响乘坐体验的重要因素。目前,智能化车载娱乐包括无“麦”K歌,该无“麦”K歌是指不使用传统手持麦克风的形式进行K歌,而是使用车机内嵌的语音麦克风进行K歌,以提供更灵活方便的K歌方式,即用户在车内不需要手举麦克风,因此无论前后排甚至驾驶者都能随时随地想唱就唱。然而,抛弃手持麦克风意味着摒弃强指向性拾音的优势,在K歌这种嘈杂的环境下,车载麦克风更易拾取到噪声从而引发啸叫问题。因此,需要进行啸叫抑制,以确保无“麦”K歌的使用体验。
需要说明的是,啸叫现象是指音频信号通过扬声器播放后,经过一定的传播路径,再次被麦克风拾取,经过放大器的处理后,最后经由扬声器播放,倘若在“扬声器-麦克风-扬声器”的闭环电路中,存在某种正反馈导致某些音频频率发生自激振荡,就会产生啸叫现象。
目前,啸叫抑制方式主要分为传统方式和深度学习方式,传统方式如相位调制法其啸叫抑制效果并不好,而采用深度学习方式进行啸叫抑制,现有技术大多基于麦克风信号重建目标信号,然而深度学习模型直接基于麦克风信号重建目标信号,由于深度学习模型的非线性建模能力,将会引入较多的非线性失真,即目标信号为失真信号。因此,现有技术的啸叫抑制效果较差。
例如,相位调制法包括频移法和相移法,其通过在回路中偏移信号的频率和相位从而破坏啸叫产生的条件;然而,频率或相位偏移较小时啸叫抑制效果并不明显,频率或相位偏移较大时会导致音质变差。因此,该相位调制法的啸叫抑制效果较差。
例如,传统方式中的增益控制法(如陷波器法),通过检测啸叫产生的频点,对该频点增益进行抑制来消除啸叫;然而,增益控制法往往需要先进行啸叫的检测,当啸叫发生时针对发生频率进行增益的控制,其并无法从根源上解决问题。因此,该增益控制法的啸叫抑制效果较差。
例如,传统方式中的自适应声反馈消除法,其通过估计反馈路径得到反馈信号,在麦克风中直接减去反馈信号得到目标信号,从而避免啸叫的发生,但是由于扬声器信号和麦克风信号的相关性会造成估计误差,通常会引入去相关技术来降低二者的相关性从而增加性能,如注入噪声信号法、非线性处理法、时变处理法减少估计误差;然而,其不可避免的会引入失真,并且无法应对反馈路径中存在非线性映射的情况,因此,其仍存在算法延迟和音质失真的问题。因此,该自适应声反馈消除法的啸叫抑制效果较差。
针对上述问题,本发明提出以下各实施例。图1为本发明提供的啸叫抑制方法的流程示意图之一,如图1所示,该啸叫抑制方法包括:
步骤110,获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号。
此处,第一音频信号为麦克风信号,其包括实际需要采集的目标音频信号和其他信号,即麦克风接收的信号为混合信号,该其他信号包括回放信号和背景噪声信号等等,因此,需要将第一音频信号中的其他信号分离(去除),以得到目标音频信号,进而在根源上实现啸叫抑制。
此处,第二音频信号为扬声器所需输出的音频信号。假设在未进行啸叫抑制时,第一音频信号经过处理后所需输出的音频信号为第二音频信号,例如,第二音频信号为第一音频信号经过放大处理后的音频信号。换言之,第二音频信号为第一音频信号经过***延迟所对应输出的音频信号。
进一步地,该第二音频信号为第一音频信号经过处理后的信号与其他待输出信号混合形成的音频信号。该其他待输出信号为扬声器还需输出的其他信号。例如,该第二音频信号为第一音频信号经过处理后的信号与扬声器输出的伴奏信号混合形成的音频信号。基于此,进一步提高参考信号的准确性,以使参考信号涵盖的信息更多,进而提高啸叫抑制模型的性能,进而提高啸叫抑制效果。
在一实施例中,第二音频信号是在扬声器的前端实时采集得到的,即第一音频信号输入后,实时在扬声器的前端采集该第二音频信号。
在另一实施例中,在扬声器处再安装一个麦克风,以采集扬声器输出的第二音频信号。
步骤120,将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量。
此处,啸叫抑制模型利用神经网络强大的非线性建模能力,将反复的啸叫抑制过程转化为瞬态的语音分离任务,即该啸叫抑制模型基于第一音频信号与第二音频信号,生成分离权重向量(Mask,掩膜),以分离第一音频信号中的回放信号和背景噪声信号等等,从而得到目标音频信号。
其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号。
此处,样本第一音频信号同样为麦克风信号,其包括实际需要采集的目标音频信号标签和其他信号,即麦克风接收的信号为混合信号,该其他信号包括回放信号和背景噪声信号等等。该样本第一音频信号可以参考上述第一音频信号,此处不再赘述。
此处,样本第二音频信号为样本第一音频信号经过处理后所需输出的参考信号,即样本第二音频信号同样为扬声器所需输出的音频信号。假设在未进行啸叫抑制时,样本第一音频信号经过处理后所需输出的音频信号为样本第二音频信号,例如,样本第二音频信号为样本第一音频信号经过放大处理后的音频信号。换言之,样本第二音频信号为样本第一音频信号经过***延迟所对应输出的音频信号。该样本第二音频信号可以参考上述第二音频信号,此处不再赘述。
在一实施例中,将第一音频信号转换为第一频谱信号,并将第二音频信号转换为第二频谱信号;将第一频谱信号和第二频谱信号进行拼接,得到拼接频谱信号;将拼接频谱信号输入至啸叫抑制模型,得到啸叫抑制模型输出的分离权重向量。
在另一实施例中,将第一音频信号与第二音频信号进行拼接,得到拼接音频信号;将拼接音频信号输入至啸叫抑制模型,得到啸叫抑制模型输出的分离权重向量。
应理解,啸叫抑制模型输出的是分离权重向量,相比模型直接输出重建的目标信号而言,能够减少非线性失真,进而提高啸叫抑制效果,提高音质。
步骤130,将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号。
此处,目标音频信号为第一音频信号(混合信号)中去除(分离)其他信号后得到的音频信号。示例性的,对于无“麦”K歌的场景,可以从混合信号中分离得到属于人声的目标音频信号。
在一实施例中,若输入至啸叫抑制模型的信号为频谱信号,则将第一音频信号对应的第一频谱信号与分离权重向量进行相乘,得到目标频谱信号;将目标频谱信号转换为属于时域的目标音频信号。示例性的,将目标频谱信号进行逆傅里叶变换(如逆短时傅里叶变换)得到目标音频信号。
示例性的,该目标音频信号的计算公式如下所示:
式中,表示目标音频信号,/>表示第一频谱信号,/>表示分离权重向量,表示逆短时傅里叶变换。
在另一实施例中,若输入至啸叫抑制模型的信号为属于时域的信号,则将第一音频信号与分离权重向量直接进行相乘,得到属于时域的目标音频信号。
应理解,将第一音频信号与分离权重向量进行相乘,是在原始的第一音频信号上进行线性分离,相比非线性模型直接输出重建的目标信号而言,可以减少非线性失真,进而提高啸叫抑制效果,提高音质。此外,将第一音频信号中的其他信号分离,保留目标音频信号,相比较于增益控制法,本发明无需进行啸叫的检测,可以从根源上抑制啸叫的发生,进而提高啸叫抑制效果。此外,相较于相位调制法和自适应声反馈消除法,本发明无需进行进行移频或者对信号进行去相关,因此对音质的影响较小,此外在反馈路径存在非线性映射的情况下能表现出更好的性能,进而提高啸叫抑制效果。
本发明实施例提供的啸叫抑制方法,获取麦克风采集的第一音频信号,以及第一音频信号对应的第二音频信号,且第二音频信号为第一音频信号经过处理后所需输出的参考信号,以将第一音频信号与第二音频信号输入至啸叫抑制模型,得到啸叫抑制模型输出的分离权重向量,从而不仅基于第一音频信号的信息确定分离权重向量,还基于第二音频信号的信息确定分离权重向量,即基于更多的信息确定分离权重向量,从而提高分离权重向量的确定准确性,进而提高啸叫抑制效果;且啸叫抑制模型输出的是分离权重向量,并将第一音频信号与分离权重向量进行相乘,得到目标音频信号,其是在原始的第一音频信号上进行线性分离,相比非线性模型直接输出重建的目标信号而言,本发明可以减少非线性失真,进而提高啸叫抑制效果,提高音质;且通过上述方式,将第一音频信号中的其他信号分离,保留目标音频信号,可以从根源上抑制啸叫的发生,进而提高啸叫抑制效果。
基于上述任一实施例,图2为本发明提供的啸叫抑制方法的流程示意图之二,如图2所示,上述步骤120包括:
步骤121,将所述第一音频信号转换为第一频谱信号,并将所述第二音频信号转换为第二频谱信号。
在一具体实施例中,对属于时域的第一音频信号进行傅里叶变换得到属于频域的第一频谱信号;对属于时域的第二音频信号进行傅里叶变换得到属于频域的第二频谱信号。示例性的,该傅里叶变换为短时傅里叶变换(STFT,Short Time FourierTransformation)。
步骤122,将所述第一频谱信号和所述第二频谱信号进行拼接,得到拼接频谱信号。
具体地,将第一频谱信号和第二频谱信号在频域维度上进行拼接,得到拼接后的属于频域的拼接频谱信号。
在一实施例中,将第一频谱信号划分为多个频段的第一频带信号,并将第二频谱信号划分为多个频段的第二频带信号;基于各频段对应的预设切分间隔,分别对各第一频带信号进行切分,得到多个第三频带信号,并基于各频段对应的预设切分间隔,分别对各第二频带信号进行切分,得到多个第四频带信号;将多个第三频带信号和多个第四频带信号分别进行拼接,得到多个拼接频谱信号;其中,频段的频率越大则对应的预设切分间隔越大。该实施例的具体执行过程可以参照下述实施例,此处不再一一赘述。
在另一实施例中,基于预设的切分间隔,对第一频谱信号进行切分,得到多个第五频带信号;基于预设的切分间隔,对第二频谱信号进行切分,得到多个第六频带信号;将多个第五频带信号和多个第六频带信号分别进行拼接,得到多个拼接频谱信号。例如,预设的切分间隔为1KHz,则每个频带信号的频带范围为1KHz。
在另一实施例中,将第一频谱信号和第二频谱信号进行拼接,得到拼接后的频谱信号;将拼接后的频谱信号划分为多个频段的第七频带信号;基于各频段对应的预设切分间隔,分别对各第七频带信号进行切分,得到多个拼接频谱信号;其中,频段的频率越大则对应的预设切分间隔越大。
在另一实施例中,将第一频谱信号和第二频谱信号进行拼接,得到拼接后的频谱信号;基于预设的切分间隔,对拼接后的频谱信号进行切分,得到多个拼接频谱信号。
相应的,下述步骤123包括:将所述多个拼接频谱信号分别输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的多个特征张量。
相应的,下述步骤124包括:将多个所述特征张量进行特征融合,得到第二融合特征张量;将所述第二融合特征张量输入至所述权重向量生成层,得到所述权重向量生成层输出的分离权重向量。应理解,上述分为多个子带(多个拼接频谱信号),此处需要将多个特征张量进行特征融合,以整合成完整的频谱(第二融合特征张量)。
步骤123,将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的特征张量。
此处,特征提取层用于对拼接频谱信号进行特征提取,以提取第一音频信号的特征以及第二音频信号的特征。
在一实施例中,将拼接频谱信号输入至特征提取层中的频域特征提取层,得到频域特征提取层输出的特征张量,该频域特征提取层用于在频率轴上对拼接频谱信号进行特征提取。
进一步地,将拼接频谱信号输入至特征提取层中的频域特征提取层,得到频域特征提取层输出的第一目标特征张量,该频域特征提取层用于在频率轴上对拼接频谱信号进行特征提取;将第一目标特征张量与拼接频谱信号输入至特征提取层中的第一特征融合层,得到第一特征融合层输出的特征张量。
在另一实施例中,将拼接频谱信号输入至特征提取层中的时域特征提取层,得到时域特征提取层输出的特征张量,该时域特征提取层用于在时间轴上对拼接频谱信号进行特征提取。
进一步地,将拼接频谱信号输入至特征提取层中的时域特征提取层,得到时域特征提取层输出的第二目标特征张量,该时域特征提取层用于在时间轴上对拼接频谱信号进行特征提取;将第二目标特征张量与拼接频谱信号输入至特征提取层中的第二特征融合层,得到第二特征融合层输出的特征张量。
示例性的,频域特征提取层包括依次连接的双向GRU(Gate Recurrent Unit,门控循环网络)层、点卷积层、归一化层和激活层。时域特征提取层包括依次连接的GRU层、点卷积层、归一化层和激活层。应理解,使用双向GRU层,可以在频率轴上对输入进行特征提取,以增加感受野并沿频率轴分享信息。使用GRU层,可以在时间轴上对输入进行特征提取,以沿时间轴进行建模来获取时间上下文的信息。例如,归一化层为批量归一化层。激活层是基于激活函数ReLU(Linear Rectification Unit,整流线性函数)构建的。
步骤124,将所述特征张量输入至所述啸叫抑制模型中的权重向量生成层,得到所述权重向量生成层输出的分离权重向量。
此处,权重向量生成层用于基于提取的特征张量生成分离权重向量。在一具体实施例中,将特征张量输入至权重向量生成层中的全连接层,得到该全连接层输出的目标权重向量;将该目标权重向量输入至权重向量生成层中的激活层,得到该激活层(如Softmax激活层)输出的分离权重向量。
本发明实施例提供的啸叫抑制方法,将第一音频信号转换为第一频谱信号,并将第二音频信号转换为第二频谱信号,以将第一频谱信号和第二频谱信号进行拼接,得到拼接频谱信号,以将拼接频谱信号输入至啸叫抑制模型中的特征提取层,得到特征提取层输出的特征张量,以将特征张量输入至啸叫抑制模型中的权重向量生成层,得到权重向量生成层输出的分离权重向量,从而可以在频域上完成特征提取,进而可以在频域上生成对应的分离权重向量,提高分离权重向量的确定准确性,进而提高啸叫抑制效果;且将第一频谱信号和第二频谱信号进行拼接,得到拼接频谱信号,从而不仅基于第一音频信号的信息确定分离权重向量,还基于第二音频信号的信息确定分离权重向量,即基于更多的信息确定分离权重向量,从而提高分离权重向量的确定准确性,进而提高啸叫抑制效果。
基于上述任一实施例,该方法中,上述步骤123包括:
将所述拼接频谱信号输入至所述特征提取层中的频域特征提取层,得到所述频域特征提取层输出的第一目标特征张量,所述频域特征提取层用于在频率轴上对所述拼接频谱信号进行特征提取;
将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的特征张量,所述时域特征提取层用于在时间轴上对所述第一目标特征张量进行特征提取。
在一实施例中,频域特征提取层包括双向GRU层,以使用双向GRU层,在频率轴上对输入进行特征提取,以增加感受野并沿频率轴分享信息。进一步地,该频域特征提取层还包括卷积层。进一步地,该频域特征提取层还包括归一化层。进一步地,该频域特征提取层还包括激活层。
示例性的,频域特征提取层包括依次连接的双向GRU层、点卷积层、归一化层和激活层。例如,归一化层为批量归一化层;激活层是基于激活函数ReLU构建的。
在一实施例中,时域特征提取层包括GRU层,以使用GRU层在时间轴上对输入进行特征提取,以沿时间轴进行建模来获取时间上下文的信息。进一步地,该时域特征提取层还包括卷积层。进一步地,该时域特征提取层还包括归一化层。进一步地,该时域特征提取层还包括激活层。
示例性的,时域特征提取层包括依次连接的GRU层、点卷积层、归一化层和激活层。例如,归一化层为批量归一化层;激活层是基于激活函数ReLU构建的。
本发明实施例提供的啸叫抑制方法,将拼接频谱信号输入至特征提取层中的频域特征提取层,得到频域特征提取层输出的第一目标特征张量,将第一目标特征张量输入至特征提取层中的时域特征提取层,得到时域特征提取层输出的特征张量,且频域特征提取层用于在频率轴上对拼接频谱信号进行特征提取,且时域特征提取层用于在时间轴上对第一目标特征张量进行特征提取,从而实现频域和时间域的交替建模,以在有限的参数条件下提取更多的信息,进而提高分离权重向量的确定准确性,进而提高啸叫抑制效果。
基于上述任一实施例,该方法中,所述将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的特征张量,包括:
将所述第一目标特征张量与所述拼接频谱信号输入至所述特征提取层中的第一特征融合层,得到所述第一特征融合层输出的第一融合特征张量;
将所述第一融合特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的第二目标特征张量;
将所述第二目标特征张量与所述第一融合特征张量输入至所述特征提取层中的第二特征融合层,得到所述第二特征融合层输出的特征张量。
此处,第一特征融合层用于将第一目标特征张量与拼接频谱信号进行特征融合,即一个分支进行频域特征提取,一个分支恒等映射,从而实现残差网络结构,以便进行更深层次的特征建模,进而提高啸叫抑制模型的鲁棒性,最终提高啸叫抑制效果。
此处,第二特征融合层用于将第二目标特征张量与第一融合特征张量进行特征融合,即一个分支进行时域特征提取,一个分支恒等映射,从而实现残差网络结构,以便进行更深层次的特征建模,进而提高啸叫抑制模型的鲁棒性,最终提高啸叫抑制效果。
为便于理解啸叫抑制模型,此处以一具体实施例进行说明。如图3所示,该啸叫抑制模型包括依次连接的频域特征提取层、时域特征提取层和权重向量生成层。
本发明实施例提供的啸叫抑制方法,将第一目标特征张量与拼接频谱信号输入至特征提取层中的第一特征融合层,得到第一特征融合层输出的第一融合特征张量,从而实现残差网络结构,以便进行更深层次的特征建模,进而提高啸叫抑制模型的鲁棒性,最终提高啸叫抑制效果;将第二目标特征张量与第一融合特征张量输入至特征提取层中的第二特征融合层,得到第二特征融合层输出的特征张量,从而实现残差网络结构,以便进行更深层次的特征建模,进而提高啸叫抑制模型的鲁棒性,最终提高啸叫抑制效果。
基于上述任一实施例,该方法中,上述步骤122包括:
将所述第一频谱信号划分为多个频段的第一频带信号,并将所述第二频谱信号划分为多个频段的第二频带信号;
基于各所述频段对应的预设切分间隔,分别对各所述第一频带信号进行切分,得到多个第三频带信号,并基于各所述频段对应的预设切分间隔,分别对各所述第二频带信号进行切分,得到多个第四频带信号;
将所述多个第三频带信号和所述多个第四频带信号分别进行拼接,得到多个拼接频谱信号。
其中,所述频段的频率越大则对应的所述预设切分间隔越大。
考虑到第一音频信号通常具有高采样率的特性,尤其在K歌场景下第一音频信号的采样率较高,因此第一频谱信号和第二频谱信号具有较高的带宽,基于此,对第一频谱信号和第二频谱信号进行子带切分,以分别对各子带进行特征提取,得到各子带对应的特征张量,进而实现针对不同子带进行建模,从而可以得到更好的分离权重向量,进而提高啸叫抑制效果,且针对不同子带进行建模,可以降低参数量,进而降低对硬件的要求。
此处,多个第一频带信号的频率宽度可以一样,也可以不一样;多个第二频带信号的频率宽度可以一样,也可以不一样。在一具体实施例中,基于多个频段对应的预设频带范围,将第一频谱信号划分为多个频段的第一频带信号;基于多个频段对应的预设频带范围,将第二频谱信号划分为多个频段的第二频带信号。
示例性的,多个频段对应的预设频带范围分别为0-1KHz、1 KHz-4KHz、4KHz-8KHz、8 KHz-16KHz和16KHz-24KHz。
考虑到目标音频信号(如人声信号)存在谐波特性,基于此,对于各频段对应的预设切分间隔,频段的频率越大则对应的预设切分间隔越大,即将信号从低频到高频按照由小到大的间隔进行切分,从而通过较高的低频分辨率更精准的获取基频信息,根据倍频关系帮助更好的估计高频分量,进而提高后续特征提取的准确性,从而提高分离权重向量的确定准确性,最终提高啸叫抑制效果。
示例性的,各频段的频带范围分别为0-1KHz(第一频段)、1 KHz-4KHz(第二频段)、4KHz-8KHz(第三频段)、8 KHz-16KHz(第四频段)和16KHz-24KHz(第五频段),第一频段对应的预设切分间隔为100Hz,第二频段对应的预设切分间隔为250Hz,第三频段对应的预设切分间隔为500Hz,第四频段对应的预设切分间隔为1KHz,第五频段对应的预设切分间隔为2KHz。
需要说明的是,将多个第三频带信号和多个第四频带信号中相同频带范围的频带信号进行拼接,得到多个拼接频谱信号。第三频带信号和第四频带信号的数量相同,该多个拼接频谱信号的数量与第三频带信号的数量相同。
进一步地,在将多个第三频带信号和多个第四频带信号分别进行拼接之前,将多个第三频带信号和多个第四频带信号输入至正则化层和全连接层,以将多个第三频带信号和多个第四频带信号调整到一致的维度,进而将多个第三频带信号和多个第四频带信号在频域维度上分别进行拼接。
本发明实施例提供的啸叫抑制方法,将第一频谱信号划分为多个频段的第一频带信号,并将第二频谱信号划分为多个频段的第二频带信号,以分别对各子带进行特征提取,得到各子带对应的特征张量,进而实现针对不同子带进行建模,从而可以得到更好的分离权重向量,进而提高啸叫抑制效果,且针对不同子带进行建模,可以降低参数量,进而降低对硬件的要求;基于各频段对应的预设切分间隔,分别对各第一频带信号进行切分,得到多个第三频带信号,并基于各频段对应的预设切分间隔,分别对各第二频带信号进行切分,得到多个第四频带信号,且频段的频率越大则对应的预设切分间隔越大,从而将信号从低频到高频按照由小到大的间隔进行切分,从而通过较高的低频分辨率更精准的获取基频信息,根据倍频关系帮助更好的估计高频分量,进而提高后续特征提取的准确性,从而提高分离权重向量的确定准确性,最终提高啸叫抑制效果。综上,通过上述子带切分方式进行建模,利用谐波特性在低频进行更精细的划分,在高采样率场景下得到更好的分离效果,即得到更好的分离权重向量。
基于上述任一实施例,该方法中,上述步骤123包括:
将所述多个拼接频谱信号分别输入至所述特征提取层中的频域特征提取层,得到所述频域特征提取层输出的多个第一目标特征张量;
将所述多个第一目标特征张量分别输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的多个特征张量。
其中,所述频域特征提取层包括依次连接的双向门控循环网络GRU层、点卷积层、归一化层和激活层;所述时域特征提取层包括依次连接的GRU层、点卷积层、归一化层和激活层。
示例性的,归一化层为批量归一化层;激活层是基于激活函数ReLU构建的。
应理解,使用双向GRU层,在频率轴上对输入进行特征提取,以增加感受野并沿频率轴分享信息。使用GRU层在时间轴上对输入进行特征提取,以沿时间轴进行建模来获取时间上下文的信息。
本发明实施例提供的啸叫抑制方法,将多个拼接频谱信号分别输入至特征提取层中的频域特征提取层,且频域特征提取层包括依次连接的双向GRU层、点卷积层、归一化层和激活层,从而不同子带对应的拼接频谱信号共享相同的双向GRU层,从而节省模型参数量,且多个拼接频谱信号可以并行处理,从而提高处理效率;将多个第一目标特征张量分别输入至特征提取层中的时域特征提取层,得到时域特征提取层输出的多个特征张量,且时域特征提取层包括依次连接的GRU层、点卷积层、归一化层和激活层,从而不同子带对应的第一目标特征张量共享相同的GRU层,从而节省模型参数量,且多个第一目标特征张量可以并行处理,从而提高处理效率。同时,将信号从低频到高频按照由小到大的间隔进行切分,从而通过较高的低频分辨率更精准的获取基频信息,根据倍频关系帮助更好的估计高频分量,进而提高频域特征提取和时域特征提取的准确性,从而提高分离权重向量的确定准确性,最终提高啸叫抑制效果。
基于上述任一实施例,所述目标音频信号标签包括频域信号标签和时域信号标签,所述啸叫抑制模型是基于如下步骤训练得到:
将所述样本第一音频信号转换为样本第一频谱信号,并将所述样本第二音频信号转换为样本第二频谱信号;
将所述样本第一频谱信号和所述样本第二频谱信号进行拼接,得到样本拼接频谱信号;
将所述样本拼接频谱信号输入至待训练模型,得到所述待训练模型输出的预测分离权重向量;
将所述样本第一频谱信号与所述预测分离权重向量进行相乘,得到预测目标频谱信号;
基于所述预测目标频谱信号和所述频域信号标签,确定第一损失值;
将所述预测目标频谱信号转换为属于时域的预测目标音频信号,基于所述预测目标音频信号和所述时域信号标签,确定第二损失值;
基于所述第一损失值和所述第二损失值,训练所述待训练模型得到所述啸叫抑制模型。
此处,样本第一频谱信号的确定方式可以参照上述第一频谱信号,样本第二频谱信号的确定方式可以参照上述第二频谱信号,样本拼接频谱信号的确定方式可以参照上述拼接频谱信号,预测分离权重向量的确定方式可以参照上述分离权重向量,预测目标频谱信号的确定方式可以参照上述目标频谱信号,预测目标音频信号的确定方式可以参照上述目标音频信号,此处不再一一赘述。
具体地,基于预测目标频谱信号(预测值)和频域信号标签(真实值),确定第一损失函数对应的第一损失值。
示例性的,第一损失函数如下所示:
式中,表示预测目标频谱信号,/>表示频域信号标签,/>表示预测目标频谱信号/>和频域信号标签/>的平均绝对误差。
具体地,基于预测目标音频信号(预测值)和时域信号标签(真实值),确定第二损失函数对应的第二损失值。
示例性的,第二损失函数如下所示:
;/>
式中,表示预测目标音频信号,/>表示时域信号标签,/>表示时域信号标签/>的平均功率。其中,上述计算/>,可以通过尺度归一化消除信号音量对损失大小的影响,从而提高模型训练效果。
具体地,基于第一损失值和第二损失值,确定第三损失函数对应的第三损失值,基于该第三损失值训练待训练模型得到啸叫抑制模型。
示例性的,第三损失函数如下所示:
式中,表示第一损失值,/>表示第二损失值,/>表示第三损失值,/>表示二者加权的权重(平衡参数)。
本发明实施例提供的啸叫抑制方法,通过上述方式,啸叫抑制模型的训练过程中,不仅考虑时域损失,还考虑频域损失,即训练时的损失函数包括时域损失和频域损失,从而提高啸叫抑制模型的训练效果,进而提高啸叫抑制模型的鲁棒性,最终提高啸叫抑制效果。
基于上述各实施例,本发明可以有效抑制啸叫的发生,保证无“麦”K歌的使用体验。
下面对本发明提供的啸叫抑制装置进行描述,下文描述的啸叫抑制装置与上文描述的啸叫抑制方法可相互对应参照。
图4为本发明提供的啸叫抑制装置的结构示意图,如图4所示,该啸叫抑制装置,包括:
信号获取模块410,用于获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;
向量输出模块420,用于将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;
信号相乘模块430,用于将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;
其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号。
本发明实施例提供的啸叫抑制装置,获取麦克风采集的第一音频信号,以及第一音频信号对应的第二音频信号,且第二音频信号为第一音频信号经过处理后所需输出的参考信号,以将第一音频信号与第二音频信号输入至啸叫抑制模型,得到啸叫抑制模型输出的分离权重向量,从而不仅基于第一音频信号的信息确定分离权重向量,还基于第二音频信号的信息确定分离权重向量,即基于更多的信息确定分离权重向量,从而提高分离权重向量的确定准确性,进而提高啸叫抑制效果;且啸叫抑制模型输出的是分离权重向量,并将第一音频信号与分离权重向量进行相乘,得到目标音频信号,其是在原始的第一音频信号上进行线性分离,相比非线性模型直接输出重建的目标信号而言,本发明可以减少非线性失真,进而提高啸叫抑制效果,提高音质;且通过上述方式,将第一音频信号中的其他信号分离,保留目标音频信号,可以从根源上抑制啸叫的发生,进而提高啸叫抑制效果。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行啸叫抑制方法,该方法包括:获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的啸叫抑制方法,该方法包括:获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种啸叫抑制方法,其特征在于,包括:
获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;
将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;
将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;
其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号;
所述目标音频信号标签包括频域信号标签和时域信号标签,所述啸叫抑制模型是基于如下步骤训练得到:
将所述样本第一音频信号转换为样本第一频谱信号,并将所述样本第二音频信号转换为样本第二频谱信号;
将所述样本第一频谱信号和所述样本第二频谱信号进行拼接,得到样本拼接频谱信号;
将所述样本拼接频谱信号输入至待训练模型,得到所述待训练模型输出的预测分离权重向量;
将所述样本第一频谱信号与所述预测分离权重向量进行相乘,得到预测目标频谱信号;
基于所述预测目标频谱信号和所述频域信号标签,确定第一损失值;
将所述预测目标频谱信号转换为属于时域的预测目标音频信号,基于所述预测目标音频信号和所述时域信号标签,确定第二损失值;
基于所述第一损失值和所述第二损失值,训练所述待训练模型得到所述啸叫抑制模型。
2.根据权利要求1所述的啸叫抑制方法,其特征在于,所述将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量,包括:
将所述第一音频信号转换为第一频谱信号,并将所述第二音频信号转换为第二频谱信号;
将所述第一频谱信号和所述第二频谱信号进行拼接,得到拼接频谱信号;
将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的特征张量;
将所述特征张量输入至所述啸叫抑制模型中的权重向量生成层,得到所述权重向量生成层输出的分离权重向量。
3.根据权利要求2所述的啸叫抑制方法,其特征在于,所述将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的特征张量,包括:
将所述拼接频谱信号输入至所述特征提取层中的频域特征提取层,得到所述频域特征提取层输出的第一目标特征张量,所述频域特征提取层用于在频率轴上对所述拼接频谱信号进行特征提取;
将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的特征张量,所述时域特征提取层用于在时间轴上对所述第一目标特征张量进行特征提取。
4.根据权利要求3所述的啸叫抑制方法,其特征在于,所述将所述第一目标特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的特征张量,包括:
将所述第一目标特征张量与所述拼接频谱信号输入至所述特征提取层中的第一特征融合层,得到所述第一特征融合层输出的第一融合特征张量;
将所述第一融合特征张量输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的第二目标特征张量;
将所述第二目标特征张量与所述第一融合特征张量输入至所述特征提取层中的第二特征融合层,得到所述第二特征融合层输出的特征张量。
5.根据权利要求2所述的啸叫抑制方法,其特征在于,所述将所述第一频谱信号和所述第二频谱信号进行拼接,得到拼接频谱信号,包括:
将所述第一频谱信号划分为多个频段的第一频带信号,并将所述第二频谱信号划分为多个频段的第二频带信号;
基于各所述频段对应的预设切分间隔,分别对各所述第一频带信号进行切分,得到多个第三频带信号,并基于各所述频段对应的预设切分间隔,分别对各所述第二频带信号进行切分,得到多个第四频带信号;
将所述多个第三频带信号和所述多个第四频带信号分别进行拼接,得到多个拼接频谱信号;
其中,所述频段的频率越大则对应的所述预设切分间隔越大。
6.根据权利要求5所述的啸叫抑制方法,其特征在于,所述将所述拼接频谱信号输入至所述啸叫抑制模型中的特征提取层,得到所述特征提取层输出的特征张量,包括:
将所述多个拼接频谱信号分别输入至所述特征提取层中的频域特征提取层,得到所述频域特征提取层输出的多个第一目标特征张量;
将所述多个第一目标特征张量分别输入至所述特征提取层中的时域特征提取层,得到所述时域特征提取层输出的多个特征张量;
其中,所述频域特征提取层包括依次连接的双向门控循环网络GRU层、点卷积层、归一化层和激活层;所述时域特征提取层包括依次连接的GRU层、点卷积层、归一化层和激活层。
7.一种啸叫抑制装置,其特征在于,包括:
信号获取模块,用于获取麦克风采集的第一音频信号,以及所述第一音频信号对应的第二音频信号,所述第二音频信号为所述第一音频信号经过处理后所需输出的参考信号;
向量输出模块,用于将所述第一音频信号与所述第二音频信号输入至啸叫抑制模型,得到所述啸叫抑制模型输出的分离权重向量;
信号相乘模块,用于将所述第一音频信号与所述分离权重向量进行相乘,得到目标音频信号;
其中,所述啸叫抑制模型是基于训练样本和所述训练样本对应的目标音频信号标签训练得到的,所述训练样本包括样本第一音频信号和样本第二音频信号;
所述目标音频信号标签包括频域信号标签和时域信号标签,所述啸叫抑制模型是基于如下步骤训练得到:
将所述样本第一音频信号转换为样本第一频谱信号,并将所述样本第二音频信号转换为样本第二频谱信号;
将所述样本第一频谱信号和所述样本第二频谱信号进行拼接,得到样本拼接频谱信号;
将所述样本拼接频谱信号输入至待训练模型,得到所述待训练模型输出的预测分离权重向量;
将所述样本第一频谱信号与所述预测分离权重向量进行相乘,得到预测目标频谱信号;
基于所述预测目标频谱信号和所述频域信号标签,确定第一损失值;
将所述预测目标频谱信号转换为属于时域的预测目标音频信号,基于所述预测目标音频信号和所述时域信号标签,确定第二损失值;
基于所述第一损失值和所述第二损失值,训练所述待训练模型得到所述啸叫抑制模型。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述啸叫抑制方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述啸叫抑制方法。
CN202311659980.1A 2023-12-06 2023-12-06 啸叫抑制方法、装置、电子设备和存储介质 Active CN117351925B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311659980.1A CN117351925B (zh) 2023-12-06 2023-12-06 啸叫抑制方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311659980.1A CN117351925B (zh) 2023-12-06 2023-12-06 啸叫抑制方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN117351925A CN117351925A (zh) 2024-01-05
CN117351925B true CN117351925B (zh) 2024-04-12

Family

ID=89371461

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311659980.1A Active CN117351925B (zh) 2023-12-06 2023-12-06 啸叫抑制方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN117351925B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210021A (zh) * 2020-01-09 2020-05-29 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置
CN111583949A (zh) * 2020-04-10 2020-08-25 南京拓灵智能科技有限公司 啸叫抑制的方法、装置和设备
CN111710346A (zh) * 2020-06-18 2020-09-25 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质
CN113921023A (zh) * 2021-12-14 2022-01-11 北京百瑞互联技术有限公司 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备
CN115223584A (zh) * 2022-09-19 2022-10-21 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012175453A (ja) * 2011-02-22 2012-09-10 Sony Corp 音声処理装置、音声処理方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111210021A (zh) * 2020-01-09 2020-05-29 腾讯科技(深圳)有限公司 一种音频信号处理方法、模型训练方法以及相关装置
CN111583949A (zh) * 2020-04-10 2020-08-25 南京拓灵智能科技有限公司 啸叫抑制的方法、装置和设备
CN111710346A (zh) * 2020-06-18 2020-09-25 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质
CN113921023A (zh) * 2021-12-14 2022-01-11 北京百瑞互联技术有限公司 一种蓝牙音频啸叫抑制方法、装置、介质及蓝牙设备
CN115223584A (zh) * 2022-09-19 2022-10-21 腾讯科技(深圳)有限公司 音频数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN117351925A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
Michelsanti et al. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification
JP5127754B2 (ja) 信号処理装置
CN111863015B (zh) 一种音频处理方法、装置、电子设备和可读存储介质
CN110164468B (zh) 一种基于双麦克风的语音增强方法及装置
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
Fingscheidt et al. Environment-optimized speech enhancement
CN110491412B (zh) 声音分离方法和装置、电子设备
CN113674763B (zh) 利用线谱特性的鸣笛声识别方法及***、设备与存储介质
KR101581885B1 (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
CN115668366A (zh) 一种声学回声消除方法和***
JP2836271B2 (ja) 雑音除去装置
JP5443547B2 (ja) 信号処理装置
JP3786038B2 (ja) 入力信号処理方法および入力信号処理装置
CN117351925B (zh) 啸叫抑制方法、装置、电子设备和存储介质
Agcaer et al. Optimization of amplitude modulation features for low-resource acoustic scene classification
CN116106826A (zh) 声源定位方法、相关装置和介质
CN111009259A (zh) 一种音频处理方法和装置
KR101568282B1 (ko) 클러스터 기반 손실 특징 복원 알고리즘을 위한 마스크 추정 방법 및 장치
CN113611319A (zh) 基于语音成分实现的风噪抑制方法、装置、设备及***
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
JP6790659B2 (ja) 音響処理装置および音響処理方法
CN113852388B (zh) 一种对讲机发射尾音去除***及方法
CN117998254B (zh) 破音修复方法、装置及存储介质
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
Cho et al. Underdetermined audio source separation from anechoic mixtures with long time delay

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant