CN106898359A - 音频信号处理方法、***、音频交互装置及计算机设备 - Google Patents

音频信号处理方法、***、音频交互装置及计算机设备 Download PDF

Info

Publication number
CN106898359A
CN106898359A CN201710182290.XA CN201710182290A CN106898359A CN 106898359 A CN106898359 A CN 106898359A CN 201710182290 A CN201710182290 A CN 201710182290A CN 106898359 A CN106898359 A CN 106898359A
Authority
CN
China
Prior art keywords
signal
audio
noise
residual
audio input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710182290.XA
Other languages
English (en)
Other versions
CN106898359B (zh
Inventor
余世经
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201710182290.XA priority Critical patent/CN106898359B/zh
Publication of CN106898359A publication Critical patent/CN106898359A/zh
Application granted granted Critical
Publication of CN106898359B publication Critical patent/CN106898359B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了音频信号处理方法、***、音频交互装置及计算机设备。该方法包括:对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤。利用该方法,能够去除音频交互时音频输入信号中的回声信号和环境噪声信号,同时实现了对残留噪声的检测及过滤,有效抑制了环境噪声对音频交互过程的影响,更好提升了音频交互过程中回声及噪声的消除效果,从而提高了音频交互装置对回声及噪声的消除性能。

Description

音频信号处理方法、***、音频交互装置及计算机设备
技术领域
本发明实施例涉及音频信号处理技术领域,尤其涉及音频信号处理方法、***、音频交互装置及计算机设备。
背景技术
对于具备语音交互功能的智能音频交互装置而言,其既可以通过麦克风接受用户的语音指令,又可以将反馈信息通过扬声器播报给用户。但是,扬声器播报给用户的声音也会同时作为声学回声再次被麦克风采集到,由此影响交互设备对用户语音的识别和理解,从而降低音频交互设备的工作性能。此外,在实际应用中,由于智能音频交互装置的硬件结构不同,麦克风和扬声器的距离和安装方式各异,***应用的场所也多种多样,回声路径和回声的延时情况也会各有不同,这些因素都增加了回声消除问题的难度和复杂性。因此,如何有效消除音频交互时产生的声学回声成为技术人员需要解决的问题。
目前,一般采用自适应滤波的方法来解决回声消除问题,图1给出了现有的基于自适应滤波进行回声消除的基本原理图,具体地,由图1可以发现,扬声器信号x经过回声路径w形成回声信号y,该回声信号y和用户语音信号v一同被电子设备的扬声器采集形成扬声器信号d;图1中的自适应滤波器可以通过自适应更新其滤波器系数矢量以使不断的模拟和逼近回声路径w,并根据对输入的扬声器信号x进行处理,之后将输出的模拟回声信号从扬声器信号d中减去,最终得到误差信号e,该误差信号e中将主要包含用户语音信号v,其回声信号基本被消除。考虑到电子设备中实时的语音交互***对语音 输入的延时有一定要求,因此,实现回声消除时会分段估计计算滤波器系数矢量,常用的计算方法是分段块频率域自适应滤波(Partitioned Block Frequency Domain Adaptive Filter,PBFDAF)算法。
基于PBFDAF算法的回声消除技术,在网络电话和网页实时通信中被证明能够有效的消除回声,改善话音通讯的质量,然而,在智能音频交互装置的回声消除上的表现却不尽如人意。首先,PBFDAF算法尽管可以降低扬声器产生的回声,但是对于同样会干扰智能语音交互的环境噪声,基本上没有效果;其次,由于使用环境和回声路径多变,语音交互情景各异等因素的影响,自适应滤波算法难以将滤波器的估计误差收敛到理想的情况,因此对回声及噪声的消除效果无法达到智能音频交互装置的要求。
发明内容
本发明实施例提供了音频信号处理方法、***、音频交互装置及计算机设备,更好地抑制了环境噪声对智能音频交互装置的影响,提高了智能音频交互装置的噪声消除性能。
第一方面,本发明实施例提供了一种音频信号处理方法,包括:
对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;
对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;
对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤。
第二方面,本发明实施例提供了一种音频信号处理***,包括:
回声信号消除模块,用于对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;
噪声信号消除模块,用于对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;
残留噪声检测模块,用于对所述音频增强信号进行残留噪声信号检测;
残留噪声过滤模块,用于当所述音频增强信号中存在残留噪声信号时,对所述残留噪声信号进行过滤。
第三方面,本发明实施例还提供了一种音频交互装置,该音频交互装置包括了本发明上述实施例提供的音频信号处理***。
第四方面,本发明实施例也提供了一种计算机设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明上述实施例提供的音频信号处理方法。
第五方面,本发明实施例又提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明上述实施例提供的音频信号处理方法。
本发明实施例提供了音频信号处理方法、***、音频交互装置及计算机设备,该音频信号处理方法首先对所获取音频输入信号中的回声信号进行回声消除,获得该音频输入信号的音频残差信号;然后对该音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;最终对音频增强信号进行 残留噪声检测,并在检测到残留噪声信号时,对该残留噪声信号进行过滤。利用该方法,有效去除了音频交互时音频输入信号中的回声信号和环境噪声信号,同时实现了对残留噪声的检测及过滤,与现有方法相比,有效抑制了环境噪声对音频交互过程的影响,更好提升了音频交互过程中回声及噪声的消除效果,从而提高了音频交互装置对回声及噪声的消除性能。
附图说明
图1给出了现有的基于自适应滤波进行回声消除的基本原理图;
图2为本发明实施例一提供的一种音频信号处理方法的流程示意图;
图3为本发明实施例二提供的一种音频信号处理方法的流程示意图;
图4a为本发明实施例三提供的一种音频信号处理方法的流程示意图;
图4b为基于本发明实施例三提供的一种音频信号处理方法进行音频信号处理的基本原理图;
图5a为本发明实施例四提供的音频信号处理方法的优选实施例的流程示意图;
图5b为本发明实施例四提供的优选实施例中音频输入信号的波形图;
图5c为本发明实施例四提供的优选实施例中音频参考信号的波形图;
图5d为本发明实施例四提供的优选实施例中对音频输入信号进行处理的处理效果图;
图5e为基于现有的一种音频信号处理方法对音频输入信号进行处理的处理效果图;
图5f为基于现有的另一种音频信号处理方法对音频输入信号进行处理的处 理效果图;
图6为本发明实施例五提供的一种音频信号处理***的结构框图;
图7为本发明实施例六提供的一种计算机设备的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图2为本发明实施例一提供的一种音频信号处理方法的流程示意图,该方法适用于具有音频交互功能的音频交互装置进行音频交互时对拾取的音频输入信号进行回声和噪声处理的情况,该方法可以由音频信号处理***执行,其中该***可由软件和/或硬件实现,并一般集成在具有音频交互功能的音频交互装置上。
需要说明的是,所述音频交互具体可理解为用户与音频交互装置之间的语音交互,所述音频交互装置可以是智能语音助手、智能家居以及语音导航仪等带有语音交互功能的电子产品。
如图2所示,本发明实施例一提供的音频信号处理方法,包括如下操作:
S101、对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号。
在本实施例中,可以从预先设定的输入缓存区中以帧为单位获取音频输入信号,其中,所述输入缓存区预先设置在音频交互装置中,输入缓存区中音频输入信号可以在音频交互时通过音频交互装置上的音频输入设备拾取,所述音频输入设备具体可指音频交互装置中的话筒和麦克风等用于拾取音频信号数据的音频拾取器件。
具体地,进行音频交互时,所获取的音频输入信号中往往包括了回声信号以及噪声信号等,所述回声信号具体可理解为音频输出设备输出的音频参考信号在外界环境中经过一次或多次反射后被音频输入设备拾取的信号,其中,所述音频输出设备具体可指音频交互装置中的听筒和扬声器等用于播放音频数据的音频播放器件,所述音频参考信号具体可指音频输出设备输出的信号;所述噪声信号具体可理解为音频输入设备所拾取的除用户语音信号及回声信号之外的其他信号。
本步骤首先通过自动回声消除策略对音频输入信号中的回声信号进行回声消除处理,由此获得对应于所述音频输入信号的音频残差信号,所述音频残差信号具体可理解为对音频输入信号中的回声信号进行消除后形成的信号。
在本实施例中,可采用的自动回声消除策略包括:基于正则最小均方误差的自适应滤波算法以及PBFDAF算法等,上述算法进行回声消除的工作原理为:上述算法均可以通过自适应滤波器模拟外界环境的回声路径形成与音频输入信号中回声信号相近的回声估计信号,最终可以从音频输入信号中减去所形成的回声估计信号,相当于抵消掉音频输入信号中的回声信号,由此实现回声信号的消除得到音频残差信号。
S102、对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后 的音频增强信号。
本步骤可以在回声消除之后对音频残差信号中的噪声信号进行噪声消除,具体地,预先确定噪声信号和音频残差信号的信噪比S/N(其中,S表示音频残差信号,N表示音频残差信号中的噪声信号),并根据信噪比S/N确定噪声信号在音频残差信号中对应的衰减系数,所述衰减系数具体表明了噪声信号在音频残差信号中的衰减比值,由此可通过所述衰减系数与所述音频残差信号的乘积进行噪声信号的衰减,以实现噪声信号的消除。可以理解的是,噪声信号消除后的音频残差信号相对于消除之前实现了信号增强,因此可将噪声消除后的音频残差信号称为音频增强信号。
S103、对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤。
本步骤可以对获得的音频增强信号进一步进行残留噪声检测,并可以在确定存在残留噪声信号时对残留噪声信号进行过滤处理。具体地,可以将音频输入信号与所获得音频增强信号的能量值之比确定为残留噪声信号的检测参数值,同时可以将确定的检测参数值与设定的检测阈值进行比对,且在所述检测参数值大于检测阈值时确定所述音频增强信号中存在残留噪声信号,其中,所述检测阈值具体可根据历史经验值设定。
在本实施例中,如果确定音频增强信号中存在残留噪声信号,则可以确定残留噪声信号在音频增强信号中对应的衰减系数。具体地,首先可以确定所述检测阈值与所述检测参数值的比值,然后比较所述比值与设定衰减阈值的大小,最终选取二者中的最大值作为残留噪声信号相对于音频增强信号的衰减系数。其中,该衰减系数也表明了残留噪声信号在音频增强信号中的衰减比值,由此 可通过该衰减系数与所述音频增强信号的乘积进行残留噪声信号的衰减,以实现残留噪声信号的过滤。
本发明实施例一提供的一种音频信号处理方法,首先对所获取音频输入信号中的回声信号进行回声消除,获得该音频输入信号的音频残差信号;然后对该音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;最终对音频增强信号进行残留噪声检测,并在检测到残留噪声信号时,对该残留噪声信号进行过滤。利用该方法,有效去除了音频交互时音频输入信号中的回声信号和环境噪声信号,同时实现了对残留噪声的检测及过滤,与现有方法相比,该方法有效避免了环境噪声对回声消除收敛结果的影响,还有效抑制了环境噪声对音频交互过程的影响,更好提升了音频交互过程中回声及噪声的消除效果,进而提高了音频交互装置的噪声消除性能。
实施例二
图3为本发明实施例二提供的一种音频信号处理方法的流程示意图,本发明实施例以上述实施例为基础进行优化,在本实施例中,将对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号,进一步优化为:根据所述音频残差信号的功率谱以及预先确定的所述音频残差信号中噪声信号的噪声功率谱,确定所述音频残差信号的第一后验信噪比和先验信噪比;根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号中噪声信号的第一衰减系数;根据所述第一衰减系数消除所述音频残差信号中的噪声信号,获得所述音频残差信号的音频增强信号。
本实施例进一步将对所述音频增强信号进行残留噪声信号检测,如果所述 音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤具体优化为:根据所述音频输入信号、所述音频增强信号和预设的检测参数公式,确定所述音频增强信号的残留噪声检测参数;如果所述残留噪声检测参数小于设定的检测参数阈值,则确定所述音频增强信号中存在残留噪声信号;根据所述残留噪声检测参数以及所述检测参数阈值,获得所述残留噪声信号在所述音频增强信号中的第二衰减系数;根据所述第二衰减系数,过滤所述音频增强信号中的残留噪声信号。
此外,本实施例还将对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号,具体优化为:获取音频输入设备拾取的音频输入信号以及音频输出设备输出的音频参考信号;根据当前确定的自适应滤波系数处理所述音频参考信号,获得所述音频参考信号的回声估计信号;将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号。
如图3所示,本发明实施例二提供的一种音频信号处理方法,具体包括如下操作:
在本实施例中,S201~S203给出了回声消除的具体操作步骤,本实施例优选的采用PBFDAF算法进行回声消除。
S201、获取音频输入设备拾取的音频输入信号以及音频输出设备输出的音频参考信号。
具体地,本步骤获取当前待进行回声消除的音频输入信号,同时获取进行回声消除所需的音频参考信号,其中,本实施例可以从设定的参考缓存区中以帧为单位获取音频参考信号,所获取的音频参考信号可作为自适应滤波器的输 入信号用于音频输入信号的回声消除。
需要说明的是,音频输入信号中的回声信号具体指由音频输出设备输出的音频参考信号通过外界环境的回声路径后形成的信号,同时,根据上述实施例中描述的自适应滤波器进行回声消除的工作原理,本实施例可以获取音频参考信号,并将音频参考信号通过自适应滤波器形成模拟回声路径,以生成与实际回声信号相近的回声估计信号。此外,所述参考缓存区预先设置在音频交互装置中,用于缓存待通过音频输出设备输出的音频参考信号。
S202、根据当前确定的自适应滤波系数处理所述音频参考信号,获得所述音频参考信号的回声估计信号。
本步骤采用PBFDAF算法处理音频参考信号,由此获得该音频参考信号对应的回声估计信号,具体地,其回声估计信号的确定过程表述为:将获得的音频参考信号作为PBFDAF算法的输入值,根据当前确定的自适应滤波系数模拟当前环境的回声信号路径,进而在频率域上对音频参考信号进行滤波处理,获得与实际回声信号相近的回声估计信号。
在本实施例中,上述自适应滤波系数具体可理解为自适应滤波中用于模拟当前环境回声路径的滤波系数。一般地,最初的自适应滤波系数可初始设定为0向量,之后可在回声消除的同时确定更新因子,并根据确定的更新因子进行自适应滤波系数的更新,其中,所述更新因子的具体取值不是固定的,具体与回声消除时所获得的音频残差信号相关。可以理解的是,所述当前确定的自适应滤波系数具体取值可以在对前一帧音频输入信号进行回声消除处理的过程中更新获得。
需要说明的是,最初的自适应滤波系数也可初始设定为其它任意一个非零 向量,其不影响本发明的保护范围。
S203、将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号。
本步骤实现了在音频输入信号中消除回声估计信号的操作,由此获得对音频输入信号消除回声信号后的音频残差信号。在本实施例中,S204~S206给出了噪声信号消除的具体操作步骤。
S204、根据所述音频残差信号的功率谱以及预先确定的所述音频残差信号中噪声信号的噪声功率谱,确定所述音频残差信号的第一后验信噪比和先验信噪比。
本步骤首先确定用于噪声信号消除的第一后验信噪比和先验信噪比。具体地,本步骤可以获得音频残差信号的功率谱,同时可以获取预先确定的音频残差信号中噪声信号的噪声功率谱,之后根据确定的音频残差信号的功率谱和噪声信号功率谱获得所需的第一后验信噪比及先验信噪比。
需要说明的是,当前采用的噪声功率谱具体可在对前一帧音频输入信号进行信号处理时更新获取,而噪声功率谱的初始值可基于所获取的前3到5帧音频残差信号的功率谱均值确定。具体地,噪声功率谱的初始值可通过下述公式获取:其中,j表示频率域的频率编号,为0~M-1中的任一整数值,M表示频率域长度,NE0(j)表示频率编号j对应的噪声功率谱的初始值,i表示音频输入信号的帧号,0<i<m,m表示计算噪声功率谱的初始值所需的音频残差信号的帧数,3≤m≤5,|E(i,j)|2表示第i帧音频输入信号的音频残差信号的功率谱。
进一步地,本实施例分别根据下述第一后验信噪比公式以及先验信噪比公 式获得所述音频残差信号的第一后验信噪比和先验信噪比,所述第一后验信噪比公式表示为:所述先验信噪比公式表示为:
其中,j表示频率域的频率编号,为0~M-1中的任一整数值,M表示频率域长度,n表示当前所处理音频输入信号的帧号,α为0~1之间的任一常数,SNRpost(n,j)表示第n帧音频输入信号的音频残差信号的第一后验信噪比,SNRprio(n,j)表示第n帧音频输入信号的音频残差信号的先验信噪比,|E(n,j)|2表示第n帧音频输入信号的音频残差信号的功率谱,|NE(n,j)|2表示第n帧音频输入信号的音频残差信号中噪声信号的噪声功率谱,|E1(n-1,j)|2表示第n-1帧音频输入信号的音频残差信号的增强信号功率谱。
在本实施例中,|E1(n-1,j)|2可以根据第n-1帧音频输入信号的音频残差信号对应的音频增强信号确定,可以理解的是,第n-1帧音频输入信号相当于第n帧音频输入信号的前一帧,因此,第n-1帧音频输入信号的音频残差信号对应的音频增强信号同样基于本发明实施例提供的音频信号处理方法确定,且其处理操作需要在对第n帧音频输入信号处理之前进行。
S205、根据所述第一后验信噪比和先验信噪比,确定所述音频残差信号中噪声信号的第一衰减系数。
本步骤可以根据确定的第一后验信噪比及先验信噪比,确定用于噪声信号消除的第一衰减系数,进一步地,本实施例根据下述第一衰减系数公式获得所述音频残差信号中噪声信号的第一衰减系数,所述第一衰减系数公式表示为:
其中,ζ1(n,j)表示第n帧音频输入信号的音频残差信号的第一衰减系数。
在本实施例中,上述公式中的exp(.)具体为指数运算,exp int(.)具体为指数积分运算。
S206、根据所述第一衰减系数消除所述音频残差信号中的噪声信号,获得所述音频残差信号的音频增强信号。
本实施例通过上述步骤获得了音频残差信号对应的第一衰减系数,根据其第一衰减系数可以对音频残差信号中的噪声信号进行噪声衰减,相当于去除音频残差信号中的噪声信号,由此获得音频增强信号。
进一步地,可以根据下述增强信号功率谱公式确定第n帧音频输入信号的音频残差信号的增强信号功率谱,所述增强信号功率谱公式表示为:
|E1(n,j)|2=ζ1(n,j)|E(n,j)|2
其中,|E1(n,j)|2表示第n帧音频输入信号的音频残差信号的增强信号功率谱。
可以理解的是,基于上述增强信号功率谱公式可以确定频率域上的音频残差信号的增强信号功率谱,本步骤可以根据该增强信号功率谱确定音频残差信号在频率域上对应的音频增强信号,之后可以对确定的音频增强信号进行逆傅里叶变换,最终获得时域上的音频增强信号。
在本实施例中,S207~S210给出了残留噪声信号的检测及过滤的具体操作过程。
S207、根据所述音频输入信号、所述音频增强信号和预设的检测参数公式, 确定所述音频增强信号的残留噪声检测参数。
本步骤首先根据音频输入信号、确定的音频增强信号及设定的检测参数公式确定用于残留噪声检测的检测参数。
进一步地,所述检测参数公式表示为:
其中,n表示当前所处理音频输入信号的帧号,∑|d(n,t)|2表示第n帧音频输入信号的能量值;∑|e1(n,t)|2表示第n帧音频输入信号的音频增强信号的能量值;RD(n)表示第n帧音频输入信号的音频增强信号的残留噪声检测参数。
S208、如果所述残留噪声检测参数小于设定的检测参数阈值,则确定所述音频增强信号中存在残留噪声信号。
本步骤可以通过残留噪声参数与检测参数阈值的大小比较来确定音频增强信号中是否存在残留噪声信号,具体地,当残留噪声参数小于检测参数阈值时,确定存在残留噪声信号。需要说明的是,所述检测参数阈值具体值可以根据历史经验值人为设定,或者根据具体使用场景确定相应的取值。
S209、根据所述残留噪声检测参数以及所述检测参数阈值,获得所述残留噪声信号在所述音频增强信号中的第二衰减系数。
在确定存在残留噪声信号时,需要进一步过滤该残留噪声信号,本步骤首先确定过滤所述残留噪声信号所需的第二衰减系数。
具体地,本实施例可以根据下述第二衰减系数公式确定所述残留噪声信号在所述音频增强信号中的第二衰减系数,所述第二衰减系数公式表示为:
ζ2(n)=max(RDth/RD(n),ζmin),其中,RDth为设定的检测参数阈值;ζmin为设定的最小衰减系数;ζ2(n)表示第n帧音频输入信号的音频增强信号中残留 噪声信号的第二衰减系数。
在本实施例中,RDth的取值通常设定为大于1的常数,ζmin的取值通常设定为大于0且小于1的常数,即ζmin∈(0,1),其具体取值可优选的根据历史经验值设定。
S210、根据所述第二衰减系数,过滤所述音频增强信号中的残留噪声信号。
在本实施例中,根据其第二衰减系数可以对音频增强信号中的残留噪声信号再次进行噪声衰减,相当于对音频增强信号中的噪声信号再次进行过滤处理,可以理解的是,其过滤处理后的音频信号即为待输出的目标音频信号。
进一步地,在对所述残留噪声信号进行过滤之后,还包括:
根据下述信号确定公式,确定待输出的目标音频信号;
所述信号确定公式表示为:s(n)=ζ2(n)*e1(n),其中,e1(n)表示第n帧音频输入信号的音频增强信号,s(n)表示待输出的第n帧音频输入信号的目标音频信号。
可以理解的是,如果根据上述S208确定残留噪声检测参数不小于设定的检测参数阈值,则可确定音频增强信号中不存在残留噪声信号,此时,本实施例直接将音频增强信号作为目标音频信号输出。
需要说明的是,本实施例的目标音频信号同样经过音频输出设备输出,所述目标音频信号与上述音频参考信号的区别在于,所获得的目标音频信号首先缓存于预先设定的参考缓存区中,参考缓存区可看作一个队列数据结构,具有先进先出的特点,即,只有目标音频信号在参考缓存区中达到输出要求时,才经过音频输出设备输出,而本实施例中的音频参考信号可看作参考缓存区中当前待从音频输出设备输出的信号。一般情况下,待输出的音频参考信号与处理 获得的目标音频信号之间可能存在多帧已经过音频信号处理的待输出的信号。
本发明实施例二提供的一种音频信号处理方法,具体采用了分段块频域自适应滤波对音频输入信号进行回声消除、同时具体化了环境噪声的去除操作以及残留噪声的检测及过滤操作。利用该方法,能够有效去除了音频交互时音频输入信号中的回声信号和环境噪声信号,同时实现了对残留噪声的检测及过滤。该方法还有效避免了环境噪声对回声消除时估计误差收敛结果的影响,更好提升了音频交互过程中回声及噪声的消除效果,从而提高了音频交互装置对回声及噪声的消除性能。
在上述优化的基础上,本发明实施例进一步在根据所述音频残差信号的功率谱以及预先确定的所述音频残差信号中噪声信号的噪声功率谱,确定所述音频残差信号的第一后验信噪比和先验信噪比之后,优化增加了:根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号的噪声估计调节参数;如果所述噪声估计调节参数小于设定调节参数阈值,则更新所述噪声功率谱并保存。
在本实施例中,除基于上述操作对音频输入信号进行回声消除、噪声消除以及残留噪声过滤外,还可以在噪声消除阶段更新确定处理下一帧音频输入信号时所需的噪声功率谱,即可以在噪声消除阶段同步进行噪声功率谱的更新操作。
在本实施例中,所述设定调节参数阈值的取值通常设定为大于0且小于1的常数,其具体取值可优选的根据历史经验值设定。具体地,在获得当前所处理音频输入信号对应的音频残差信号并确定该音频残差信号的第一后验信噪比及先验信噪比后,可以根据其第一后验信噪比及先验信噪比确定更新噪声功率 谱所需的噪声估计调节参数。
进一步地,本实施例根据下述噪声估计调节参数公式获得所述音频残差信号的噪声估计调节参数,所述噪声估计调节参数公式表示为:
其中,β表示第n帧音频残差信号的噪声估计调节参数。
在本实施例中,当β小于上述设定调节参数阈值时,符合噪声功率谱的更新条件,进一步地,可以根据下述噪声功率谱更新公式更新所述噪声功率谱,所述噪声功率谱更新公式表示为:|NE(n,j)|2=ε|NE(n-1,j)|2+(1-ε)|E(n,j)|2,其中,|NE(n-1,j)|2表示第n-1帧音频输入信号的音频残差信号中噪声信号的噪声功率谱。
在本实施例中,ε的取值通常设定为大于0且小于1的常数,即ε∈(0,1),其具体取值可优选的根据历史经验值设定,|NE(n-1,j)|2可以根据第n-1帧音频残差信号以及第n-2帧音频残差信号中噪声信号的噪声功率谱确定,其确定结果同样可以基于本发明实施例提供的音频信号处理方法实现,且其处理操作一般在对第n帧音频输入信号处理之前进行。
本实施例中所述噪声功率谱的更新可用于后续的音频残差信号确定更精确的第一后验信噪比及先验信噪比,从而保证后续获得更精确的音频增强信号以及输出更优质的目标音频信号。
实施例三
图4a为本发明实施例三提供的一种音频信号处理方法的流程示意图。本发明实施例以上述实施例为基础进行优化,在本实施例中,在将所述音频输入信 号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号之后,还优化包括了:根据所述音频参考信号和确定的音频残差信号,确定频率域滤波器系数的更新因子;根据所述更新因子更新所述自适应滤波系数并保存。
进一步地,在对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号之后,还包括:检测所述音频输入信号中是否包含用户语音信号,并检测所述音频参考信号中是否包含回声信号;当所述音频输入信号中包含所述用户语音信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中不包含回声信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中包含回声信号时,更新所述自适应滤波系数并保存。
本实施例下述步骤具体阐述了自适应滤波系数更新的限定条件以及自适应滤波系数的更新操作。可以理解的是,对音频输入信号进行回声消除获得音频残差信号后,还可根据获得音频残差信号更新自适应滤波系数,更新后的自适应滤波系数可用于对下一帧音频输入信号的回声消除处理,此外,本实施例还可根据所提出了更新限制条件在进行自适应滤波系数更新之前判定是否能够进行自适应滤波系数的更新。
如图4a所示,本发明实施例三提供的一种音频信号处理方法,具体包括如下操作:
S301、获取音频输入设备拾取的音频输入信号以及音频输出设备输出的音频参考信号。
示例性的,基于本实施例的音频信号处理方法进行音频信号处理时,可以 从设定的输入缓存区中获取当前待处理的一帧音频输入信号,同时可从设定参考缓存区中获取一帧用于回声消除的音频参考信号。
S302、根据当前确定的自适应滤波系数处理所述音频参考信号,获得所述音频参考信号的回声估计信号。
示例性的,本步骤中的自适应滤波系数可以在对前一帧音频输入信号进行信号处理时确定,本实施例可根据该已确定的自适应滤波系数根据PBFDAF算法模拟回声路径,从而获得音频参考信号对应的回声估计信号,最终实现回声消除。
在本实施例中,基于PBFDAF算法对所获取音频输入信号进行回声消除的过程可表述为:假设当前确定的自适应滤波系数为w(n),长度为P阶,其中,n表示当前对第n帧音频参考信号进行处理,P为一常数,P的具体取值由回声路径的回声时延决定,回声时延越长,P的取值越高,示例性地,当回声路径的回声时延为10ms时,其P的取值可以是9,即自适应滤波系数的长度为9阶;当回声路径的回声时延为20ms时,其P的取值可以是15,即自适应滤波系数的长度为15阶,此外,为保证回声消除的时效,P的最高取值往往不大于100。因该算法的核心在于分段块,所以首先可以在时域上将w(n)分为K段,第k段自适应滤波系数wk (n)的长度为N=P/K,且wk (n)具体可表示为:
其中,k=0,1,2,......,K-1。
可以确定的是,所获得的每段自适应滤波系数wk (n)的长度为N,如果设定的频率域长度为M,则可以对每段自适应滤波系数wk (n)进行补零,且可在补零后通过快速傅里叶变换在频率域上获得k段频率域滤波器系数,每段频率域滤 波器系数Wk (n)可表示为:
其中,0M-N表示M-N阶零向量。
后续可根据确定的各段频率域滤波器系数Wk (n)分别进行回声消除,具体地,首先将获取的音频参考信号x(n)分为k段,并分别进行傅里叶变换,获得k段频率域的音频参考信号,频率域上的音频参考信号可表示为:
其中,L表示所获取单位帧音频参考信号的数据长度。
在本实施例中,单位帧的时长可根据具体场景中具体确定,但当音频交互装置具有固定的采样率时,单位帧的时长与数据长度呈正比,一般可将单位帧的时长取值范围确定为1ms~100ms。需要说明的是,所设定的单位帧时长不会影响音频输入信号的最终处理结果,而本实施例为保证每帧的数据长度,将单位帧的时长优选的设定为10ms~30ms。示例性地,若当前所使用音频交互装置的采样率为16KHz,则本实施例音频参考信号的数据长度范围为160/3~160。
然后,可以通过每段频率域滤波器系数分别对相应频率域的音频参考信号进行滤波处理并进行结果累加,之后可从累计后的结果中取后L个采样数据为有效的回声估计信号,示例性地,其回声估计信号可表示为:
其中,0M-L表示M-L阶零矩阵,IL表示L阶单位矩阵。
S303、将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号,分别执行S304和S306。
接上述示例,音频残差信号e(n)可以表示为:此外本步骤获得回声消除后的音频残差信号,后续可以通过执行S304和S305实现该音频残差信号噪声信号消除以及残留回声信号的检测及过滤,同时还可以根据S306及其后续步骤确定是否更新自适应滤波系数,并在符合更新条件时更新用于下一帧音频输入信号回声消除的自适应滤波系数。
S304、对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号。
S305、对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤。
本实施例可以采用上述实施例阐述的方法实现S304和S305,这里不再详述。
S306、检测所述音频输入信号中是否包含用户语音信号,若是,则执行S308;若否,则执行S307。
在本实施例中,一般以帧为单位对音频输入信号进行信号处理,如果当前处理的音频输入信号中包含了用户语音信号,则停止更新自适应滤波系数,以避免后续回声消除时的模拟的回声路径偏离真实的回声路径。具体地,本步骤可以在确定包含用户语音信号时执行S308;也可以在确定不包含用户语音信号时执行S307。
进一步地,所述检测所述音频输入信号中是否包含用户语音信号,包括:
根据所述音频输入信号的能量值及所述音频参考信号的能量值,确定所述音频输入信号与所述音频参考信号的瞬时能量比;如果所述瞬时能量比小于第一设定阈值,则确定所述音频输入信号中不包含用户语音信号;否则,确定包 含所述用户语音信号。
在本实施例中,假设当前处理的音频输入信号为d(n),音频参考信号为x(n),则音频输入信号的能量值可以表示为|d(n,t)|2,音频参考信号的能量值可以表示为|x(n,t)|2,二者的瞬时能量比η(n)可以表示为:
在本实施例中,所述第一设定阈值可以是任一常数,其取值可以通过历史经验值或样本训练确定,且根据应用场景的不同可以进行不同的限定,示例性的,在进行音频交互过程中,可以根据其历史经验值设定所述第一设定阈值为0.5。
S307、检测所述音频参考信号中是否包含回声信号,若是,则执行S309;若否,则执行S308。
本实施例在确定不包含用户语音信号时,可进一步检测是否包含回声信号,如果当前处理的音频输入信号中不包含用户语音信号且不包含回声信号,则可认为当前的音频输入信号中即无用户语音信号输入也无回声信号输入,因此为避免模拟的回声路径偏离真实的回声路径,同样需要停止更新自适应滤波系数。
具体地,本步骤可以在确定不包含回声信号时执行S308;也可以包含回声信号时执行S309。
进一步地,所述检测所述音频参考信号中是否包含回声信号,包括:
根据所述音频输入信号的功率谱及所述音频残差信号对应的噪声功率谱,确定所述音频输入信号的第二后验信噪比;根据所述音频输入信号的功率值及所述音频残差信号的功率值,确定所述音频输入信号与所述音频残差信号的互相关系数;如果所述第二后验信噪比小于第二设定阈值,则确定所述音频参考 信号中不包含回声信号;或者,如果所述第二后验信噪比不小于第二设定阈值且所述互相关系数不小于第三设定阈值,则确定所述音频参考信号中包含回声信号且所述回声信号的回声路径发生了变化;或者,如果所述第二后验信噪比不小于所述第二设定阈值且所述互相关系数小于所述第三设定阈值,则确定所述音频参考信号中包含回声信号且所述回声信号的回声路径没有发生变化。
在本实施例中,假设当前处理的音频输入信号为d(n),所对应的音频残差信号为e(n),则频率域上音频输入信号的功率谱可表示为∑|D(n,j)|2,音频残差信号中噪声信号的噪声功率谱表示为∑|NE(n,j)|2,音频输入信号的第二后验信噪比σ(n)可表示为:
同样,音频输入信号为d(n)的功率值可表示为Pd(n),音频残差信号为e(n)的功率值可表示为Pe(n),二者的互相关系数ξ(n)可表示为:
其中,Pd,e(0)=e(0)dT(0),Pd,e(n)=λPd,e(n-1)+(1-λ)e(n)dT(n),
Pd(0)=d(0)dT(0),Pd(n)=λPd(n-1)+(1-λ)d(n)dT(n),
Pe(0)=e(0)eT(0),Pe(n)=λPe(n-1)+(1-λ)e(n)eT(n),λ∈(0,1)。
在本实施例中,所述第二设定阈值以及第三设定阈值可以是任一常数,其取值均可以通过历史经验值或样本训练确定,且均可根据应用场景的不同进行不同的限定,此外,λ可以是0至1之间的任一常数,可根据历史经验设定其具体取值,示例性地,可以根据历史经验值分别设定所述第二设定阈值为1.2,设定所述第三设定阈值为1.25,以及设定所述λ为0.75。
S308、停止更新所述自适应滤波系数。
在本实施例中,当检测到音频输入信号中包含用户语音信号时,可以进行本步骤的操作;或者,当前检测到音频输入信号中不包含用户语音信号且不包含回声信号时,同样可以进行本步骤的操作。
具体地,在确定音频残差信号后,可以暂停更新自适应滤波器系数的更新,可以仍用当前确定的自适应滤波系数进行对后续的音频输入信号进行回声消除,且只有在后续音频输入信号的处理操作中确定符合自适应滤波系数的更新条件后才可以接着更新自适应滤波系数。
需要说明的是,当停止更新自适应滤波系数,且后续又符合更新条件开始进行自适应滤波系数时,可以接着对当前使用的自适应滤波系数进行更新。
S309、根据所述音频参考信号和确定的音频残差信号,确定频率域滤波器系数的更新因子。
在本实施例中,当符合自适应滤波系数的更新条件时,可以基于本步骤及S310进行自适应滤波系数的更新。具体地,在根据PBFDAF算法确定出音频输入信号的音频残差信号后,就可根据本步骤获得自适应滤波器的频率域滤波器系数的更新因子。
接上述S303的示例,假设当前获取的音频参考信号为x(n),其划分为k段后在频率域上的伴随矩阵表示为X* k(n),假设回声消除后确定的音频残差信号为e(n),则其经过傅里叶变换后在频率域可表示为则通过每段音频参考信号的伴随矩阵X* k(n)以及频率域上的音频残差信号E(n)可以确定每段自适应滤波系数在时域上对应的更新因子λk(n),且λk(n)具体可表示为:λk(n)=IFFT(E(n)X* k(n)),将λk(n)中前L长度的数据作为有效的更新因子, 可表示为λ’k(n),对各λ’k(n)进行傅里叶变换,最终可获得自适应滤波器的各段频率域滤波器系数的更新因子Λk(n),且各段频率域滤波器系数的更新因子Λk(n)可表示为:
其中,k=0,1,2,......,K-1。
S310、根据所述更新因子更新所述自适应滤波系数并保存。
接上述示例,可知当前确定的自适应滤波系数在频率域上对应的各段频率域滤波器系数可表示为Wk (n),在确定各段频率域滤波器系数的更新因子Λk(n)后,根据Wk (n)以及Λk(n),就可以确定更新后的频率域滤波器系数Wk (n+1),且Wk (n+1)可以表示为:
Wk (n+1)=Wk (n)+μΛk(n),其中,μ的取值通常设定为大于0且小于1的常数,其具体取值可优选的根据历史经验值设定。
在本实施例中,可以对获得的各段频率域滤波器系数Wk (n+1)进行逆傅里叶变换及累加,最终可获得用于处理下一帧音频输入信号的自适应滤波系数。
本实施例上述步骤不仅实现了音频输入信号的处理,还实现了自适应滤波系数的更新,本实施例可以通过一个基本原理图对所提出的音频信号处理方法进行阐述。
具体地,图4b为基于本发明实施例三提供的一种音频信号处理方法进行音频信号处理的基本原理图,如图4b所示,首先可以将获取的音频参考信号x通过自适应滤波器得到回声估计信号之后可根据音频输入信号d(d中可能包含经回声路径w形成的回声信号y,还可能包含用户语音信号v以及噪声信号n)和所获得回声估计信号进行回声消除得到对应的音频残差信号e;然后可以根据噪声信号消除模块消除音频残差信号e中的噪声信号获得音频增强信号e1, 以及通过残留噪声消除模块消除音频增强信号e1中的残留噪声,最终获得可输出的目标音频信号S;同时,可以根据音频参考信号x,音频输入信号d以及音频残差信号e通过图4b中还示出的双端信号检测模块检测当前处理的音频输入信号中是否包含用户语音信号或者是否包含回声信号,由此根据检测结果确定是否进行自适应滤波系数更新。
本发明实施例三提供的一种音频信号处理方法,不仅实现了音频输入信号的处理,还具体增加了自适应滤波系数的更新判断及更新操作,各操作之间相互关联,使得自适应滤波器能够达到的估计误差收敛的理想情况,更好提升了音频交互过程中回声及噪声的消除效果,从而音频交互装置的回声及噪声的消除性能。
实施例四
图5a为本发明实施例四提供的音频信号处理方法的优选实施例的流程示意图,本发明实施例的应用场景可表述为:首先提供一个可以应用上述发明实施例提供的音频信号处理方法的音频交互装置(如,智能语音机器人),其音频输入设备为智能语音机器人上的麦克风,音频输出设备为智能语音机器人上的扬声器;然后基于本实施上述音频信号处理方法一帧为单位对所述智能语音机器人上所设定输入缓存区中音频输入信号进行音频信号处理,其中,输入缓存区中的音频输入信号具体基于麦克风拾取。
本实施例包含了3种场景模式下拾取的音频输入信号,3种场景模式分别为:远端场景模式,该种模式为用户没有说话,只有智能音频交互装置的音频输出设备进行音频信号输出;此时音频输入设备拾取的音频输入信号中包含回 声信号和环境噪声;双端场景模式,该种模式为用户在说话,智能音频交互装置的音频输出设备也在进行音频信号输出;此时音频输入设备拾取的音频输入信号中包含用户语音、回声信号以及环境噪声;近端场景模式,该种模式为用户在说话,但智能音频交互装置的音频输出设备没有进行音频信号输出,此时音频输入设备拾取的音频输入信号中包含用户语音和环境噪声。可以理解的是,本实施例中的音频输入信号及音频参考信号均缓存至对应的输入缓存区和参考缓存区。
图5b为本发明实施例四提供的优选实施例中音频输入信号的波形图,如图5b所示,分别给出了3种场景模式下音频输入设备拾取的音频输入信号的波形图;图5c为本发明实施例四提供的优选实施例中音频参考信号的波形图,如图5c所示,分别给出了3种场景模式下音频输出设备输出的音频参考信号的波形图。
如图5a所示,基于本发明上述实施例提供的音频信号处理方法对音频输入信号处理,具体包括如下操作:
S401、从参考缓存区获取一帧音频参考信号以及从输入缓存区中获取一帧音频输入信号,根据当前确定的自适应滤波系数处理该音频参考信号,得到对应的一帧回声估计信号。
示例性地,所述参考缓存区设置于智能语音机器人上,所述参考缓存区中的音频参考信号为待基于扬声器输出的信号。
S402、确定该帧音频输入信号与该帧回声估计信号的信号差,将该信号差作为对应的一帧音频残差信号,后续分别执行S403和S409。
S403、根据该帧音频残差信号的功率谱及预先确定的该帧音频残差信号中 噪声信号的噪声功率谱,确定该帧音频残差信号的第一后验信噪比和先验信噪比,后续分别执行S404和S405;
S404、根据噪声功率谱的更新条件,更新所述噪声功率谱并保存,后续执行S411。
示例性地,本实施例中噪声功率谱的更新条件可以是,确定噪声估计调节参数,其中,所述噪声估计调节参数具体可以根据音频残差信号的第一后验信噪比及先验信噪比确定,判断噪声估计调节参数是否小于设定调节参数阈值,如果小于,则可更新所述噪声功率谱,其中,所述设定调节参数阈值的取值通常设定为大于0且小于1的常数,其具体取值可优选的根据历史经验值设定,优选地,设定所述设定调节参数阈值为0.4。
S405、根据确定的第一后验信噪比和先验信噪比,确定该帧音频残差信号对应的一帧音频增强信号。
S406、检测该帧音频增强信号中是否存在残留噪声信号,若是,则执行S407;若否,则执行S408。
S407、对残留噪声信号进行过滤,并从音频输出设备输出一帧进行残留噪声过滤后的音频增强信号,后续执行S411。
S408、从音频输出设备输出该帧音频增强信号,后续执行S411。
S409、检测该帧音频输入信号中是否包含用户语音信号,并检测该帧音频参考信号中是否包含回声信号。
S410、当所述音频输入信号中包含所述用户语音信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中不包含回声信号时,停止更新所述自适应滤波系数;或者,当 所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中包含回声信号时,根据该帧音频参考信号和确定的音频残差信号,确定频率域滤波器系数的更新因子,根据该更新因子更新所述自适应滤波系数并保存。
S411、当参考缓存区或输入缓存区不为空时,返回执行S401。
可以理解的是,本实施例提供的音频信号处理方法是一个循环执行的操作方法,只要可以获取音频输入信号及音频参考信号,就可以对获取的音频输入信号进行处理。
需要说明的是,本实施例给出了不同音频信号处理方法对应的处理效果图,具体地,图5d为本发明实施例四提供的优选实施例中对音频输入信号进行处理的处理效果图,图5e为基于现有的一种音频信号处理方法对音频输入信号进行处理的处理效果图,示例性地,图5e为基于现有的开源项目源自网页实时通信(Web Real-Time Communication,WebRTC)中的音频信号处理方法进行信号处理的效果图;图5f为基于现有的另一种音频信号处理方法对音频输入信号进行处理的处理效果图,示例性地,图5f为基于现有的开源项目Speex中的音频信号处理方法进行信号处理的效果图。通过对图5d、图5e以及图5f的处理效果比对,同样可以看出,无论以何种场景模式拾取音频输入信号,图5d中的噪声信号几乎全部消除,图5e和图5f中仍残留有较多的噪声信号,由此可以确定,基于本发明实施例提供的音频信号处理方法处理后对应的噪声信号明显少于基于两种现有方法处理后的对应的噪声信号,即,本发明实施例提供的音频信号处理方法对应的处理性能明显优于现有方法的处理性能。
此外,本实施例还提出了回声返回衰减增益(Echo Return Loss Enhan-cement,ERLE)的信号处理评判参数,以用于对音频信号处理方法的处理结果 进行评判比对,其中该ERLE可表示为:
其中,r(n)为音频输入设备拾取的第n帧音频输入信号中的回声信号;e(n)为第n帧音频输入信号经音频信号处理后的残留回声信号,E[r2(n)]表示回声信号的功率谱,E[e2(n)]表示残留回声信号的功率谱,ERLE(n)表示第n帧音频输入信号经音频信号处理后的回声返回衰减增益。
具体地,基于本发明实施例提供的音频信号处理方法以及上述提出的其他两种现有的音频信号处理方法进行信号处理后,可以发现,与上述提出的其他两种现有方法相比,本发明实施例所提供音频信号处理方法对应的回声返回衰减增益可以高出10dB~15dB,由此也更好的体现了本发明实施例提供的音频信号处理方法的处理性能优势。
实施例五
图6为本发明实施例五提供的一种音频信号处理***的结构框图,该***适用于音频交互时对输入的音频信号进行处理的情况,可以由软件和/或硬件实现,并一般集成在具有音频交互功能的音频交互装置上。如图6所示,该音频信号处理***包括:回声信号消除模块51、噪声信号消除模块52、残留噪声检测模块53以及残留噪声过滤模块54。
其中,回声信号消除模块51,用于对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号。
噪声信号消除模块52,用于对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号。
残留噪声检测模块53,用于对所述音频增强信号进行残留噪声信号检测。
残留噪声过滤模块54,用于当所述音频增强信号中存在残留噪声信号时,对所述残留噪声信号进行过滤。
在本实施例中,该音频信号处理***首先通过回声信号消除模块51对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;然后通过噪声信号消除模块52对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;之后通过残留噪声检测模块53对所述音频增强信号进行残留噪声信号检测;最终通过残留噪声过滤模块54当所述音频增强信号中存在残留噪声信号时,对所述残留噪声信号进行过滤。
本发明实施例五提供的一种音频信号处理***,有效去除了音频交互时音频输入信号中的回声信号和环境噪声信号,同时实现了对残留噪声的检测及过滤,与现有方法相比,有效抑制了环境噪声对音频交互过程的影响,更好提升了音频交互过程中回声及噪声的消除效果,从而提高了音频交互装置对回声及噪声的消除性能。
进一步地,噪声信号消除模块52,包括:
第一信噪比确定单元521,用于根据所述音频残差信号的功率谱以及预先确定的所述音频残差信号中噪声信号的噪声功率谱,确定所述音频残差信号的第一后验信噪比和先验信噪比。
第一衰减系数确定单元522,用于根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号中噪声信号的第一衰减系数。
增强信号获取单元523,用于根据所述第一衰减系数消除所述音频残差信号中的噪声信号,获得所述音频残差信号的音频增强信号。
在上述优化的基础上,噪声信号消除模块52,还包括:
调节参数确定单元524,用于在确定所述音频残差信号的第一后验信噪比和先验信噪比之后,根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号的噪声估计调节参数。
噪声功率谱更新单元525,用于当所述噪声估计调节参数小于设定调节参数阈值时,更新所述噪声功率谱并保存。
进一步地,第一信噪比确定单元521,具体用于分别根据下述第一后验信噪比公式以及先验信噪比公式获得所述音频残差信号的第一后验信噪比和先验信噪比,所述第一后验信噪比公式表示为:
所述先验信噪比公式表示为:
其中,j表示频率域的频率编号,为0~M-1中的任一整数值,M表示频率域长度,n表示当前所处理音频输入信号的帧号,α为0~1之间的任一常数,SNRpost(n,j)表示第n帧音频输入信号的音频残差信号的第一后验信噪比,SNRprio(n,j)表示第n帧音频输入信号的音频残差信号的先验信噪比,|E(n,j)|2表示第n帧音频输入信号的音频残差信号的功率谱,|NE(n,j)|2表示第n帧音频输入信号的音频残差信号中噪声信号的噪声功率谱,|E1(n-1,j)|2表示第n-1帧音频输入信号的音频残差信号的增强信号功率谱。
第一衰减系数确定单元522,具体用于根据下述第一衰减系数公式获得所述音频残差信号中噪声信号的第一衰减系数,所述第一衰减系数公式表示为:
其中,ζ1(n,j)表示第n帧音频输入信号的音频残差信号的第一衰减系数。
相应的,增强信号获取单元523,还用于根据下述增强信号功率谱公式确定第n帧音频输入信号的音频残差信号的增强信号功率谱,所述增强信号功率谱公式表示为:
|E1(n,j)|2=ζ1(n,j)|E(n,j)|2
其中,|E1(n,j)|2表示第n帧音频输入信号的音频残差信号的增强信号功率谱。
调节参数确定单元524,具体用于根据下述噪声估计调节参数公式获得所述音频残差信号的噪声估计调节参数,所述噪声估计调节参数公式表示为:
其中,β表示第n帧音频残差信号的噪声估计调节参数;
噪声功率谱更新单元525,具体用于根据下述功率谱更新公式更新所述噪声功率谱,所述功率谱更新公式表示为:
|NE(n,j)|2=ε|NE(n-1,j)|2+(1-ε)|E(n,j)|2
其中,|NE(n-1,j)|2表示第n帧音频输入信号的音频残差信号中噪声信号的噪声功率谱。
进一步地,残留噪声检测模块53,包括:
检测参数确定单元531,用于根据所述音频输入信号、所述音频增强信号和预设的检测参数公式,确定所述音频增强信号的残留噪声检测参数;
残留噪声确定单元532,用于当所述残留噪声检测参数小于设定的检测参 数阈值时,确定所述音频增强信号中存在残留噪声信号;
第二衰减系数确定单元533,用于根据所述残留噪声检测参数以及所述检测参数阈值,获得所述残留噪声信号在所述音频增强信号中的第二衰减系数。
相应的,残留噪声过滤模块54,包括:
残留噪声去除单元541,用于根据所述第二衰减系数,过滤所述音频增强信号中的残留噪声信号。
在上述优化的基础上,所述检测参数公式表示为:
其中,n表示当前所处理音频输入信号的帧号,∑|d(n,t)|2表示第n帧音频输入信号的能量值;∑|e1(n,t)|2表示第n帧音频输入信号的音频增强信号的能量值;RD(n)表示第n帧音频输入信号的音频增强信号残留噪声检测参数。
第二衰减系数确定单元533,具体用于根据下述第二衰减系数公式确定所述残留噪声信号在所述音频增强信号中的第二衰减系数,所述第二衰减系数公式表示为:ζ2(n)=max(RDth/RD(n),ζmin),其中,RDth为设定的检测参数阈值;ζmin为设定的最小衰减系数;ζ2(n)表示第n帧音频输入信号的音频增强信号中残留噪声信号的第二衰减系数。
进一步地,残留噪声过滤模块54,还包括:
目标信号确定单元542,用于在对所述残留噪声信号进行过滤之后,根据下述信号确定公式,确定待输出的目标音频信号,所述信号确定公式表示为:s(n)=ζ2(n)*e1(n),其中,e1(n)表示第n帧的音频增强信号,s(n)表示待输出的第n帧目标音频信号。
进一步地,回声信号消除模块51,包括:
音频信号获取单元511,用于获取音频输入设备拾取的音频输入信号以及音频输出设备输出的音频参考信号。
估计信号确定单元512,用于根据当前确定的自适应滤波系数处理所述音频参考信号,获得所述音频参考信号的回声估计信号。
残差信号确定单元513,用于将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号。
此外,回声信号消除模块51,还包括:
更新因子确定单元514,用于在将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号之后,根据所述音频参考信号和确定的音频残差信号,确定频率域滤波器系数的更新因子。
滤波系数处理单元515,用于根据所述更新因子更新所述自适应滤波系数并保存。
在上述优化的基础上,该音频信号处理***,还包括:
双端信号检测模块55,用于在对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号之后,检测所述音频输入信号中是否包含用户语音信号,并检测所述音频参考信号中是否包含回声信号。
相应的,滤波系数处理单元515,还用于当所述音频输入信号中包含所述用户语音信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中不包含回声信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中包含回声信号时,更新所述自适应滤波系数并保存。
进一步地,双端信号检测模块55,包括:
能量比确定单元551,用于根据所述音频输入信号的能量值及所述音频参考信号的能量值,确定所述音频输入信号与所述音频参考信号的瞬时能量比。
语音信号判定单元552,用于当所述瞬时能量比小于第一设定阈值时,确定所述音频输入信号中不包含用户语音信号;否则,确定包含所述用户语音信号。
此外,双端信号检测模块55,还包括:
第二信噪比确定单元553,用于根据所述音频输入信号的功率谱及所述音频残差信号对应的噪声功率谱,确定所述音频输入信号的第二后验信噪比;
互相关系数确定单元554,用于根据所述音频输入信号的功率值及所述音频残差信号的功率值,确定所述音频输入信号与所述音频残差信号的互相关系数;
回声信号判定单元555,用于当所述第二后验信噪比小于第二设定阈值时,确定所述音频参考信号中不包含回声信号;或者,当所述第二后验信噪比不小于第二设定阈值且所述互相关系数不小于第三设定阈值时,则确定所述音频参考信号中包含回声信号且所述回声信号的回声路径发生了变化;或者,当所述第二后验信噪比不小于所述第二设定阈值且所述互相关系数小于所述第三设定阈值时,确定所述音频参考信号中包含回声信号且所述回声信号的回声路径没有发生变化。
本实施例中音频信号处理***的具体工作过程可以参考实施例一至实施例四,在此不再赘述。
实施例六
本发明实施例六提供了一种音频交互装置,该音频交互装置包括了本发明 上述实施例提供的一种音频信号处理***。
进一步地,还音频交互装置还包括了音频输入设备,用于拾取音频输入信号;音频输出设备,用于输出音频参考信号。
在本实施例中,基于该音频交互装置能够通过音频信号处理***,根据音频输入设备拾取的音频输入信号及音频输出设备输出的音频参考信号进行音频信号处理,从而消除音频输入信号中回声信号和噪声信号,同时还可以在消除噪声信号后对残留噪声信号进行检测,与现有的音频交互装置相比,有效抑制了环境噪声对音频交互过程的影响,更好提升了音频交互过程中回声及噪声的消除效果,从而提高了音频交互装置对回声及噪声的消除性能。
本发明实施例还提供了一种计算机设备,该计算机设备可作为音频交互装置集成上述实施例提供的音频信号处理***。图7为本发明实施例六提供的一种计算机设备的结构框图,如图7所示,该计算机设备还包括:处理器61和存储装置62;设备中处理器61的数量可以是一个或多个,图7中以一个处理器61为例;所述设备中的处理器61和存储装置62可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储装置62作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中的音频信号处理方法对应的程序指令/模块(例如,附图6所示的音频信号处理***中的回声信号消除模块51、噪声信号消除模块52、残留噪声检测模块53以及残留噪声过滤模块54)。处理器61通过运行存储在存储装置62中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法实施例中的音频信号处理方法。
存储装置62可包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储装置62可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置62可进一步包括相对于处理器61远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
并且,当上述计算机设备所包括一个或者多个程序被所述一个或者多个处理器61执行时,程序进行如下操作:
对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤。
此外,本发明实施例又提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种如实施例一、实施例二、实施例三或实施例四中所述的音频信号处理方法,该方法包括:对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述音频信号处理***的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (28)

1.一种音频信号处理方法,其特征在于,包括:
对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;
对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;
对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤。
2.根据权利要求1所述的方法,其特征在于,所述对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号,包括:
根据所述音频残差信号的功率谱以及预先确定的所述音频残差信号中噪声信号的噪声功率谱,确定所述音频残差信号的第一后验信噪比和先验信噪比;
根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号中噪声信号的第一衰减系数;
根据所述第一衰减系数消除所述音频残差信号中的噪声信号,获得所述音频残差信号的音频增强信号。
3.根据权利要求2所述的方法,其特征在于,在根据所述音频残差信号的功率谱以及预先确定的所述音频残差信号中噪声信号的噪声功率谱,确定所述音频残差信号的第一后验信噪比和先验信噪比之后,还包括:
根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号的噪声估计调节参数;
如果所述噪声估计调节参数小于设定调节参数阈值,则更新所述噪声功率谱并保存。
4.根据权利要求3所述的方法,其特征在于,分别根据下述第一后验信噪比公式以及先验信噪比公式获得所述音频残差信号的第一后验信噪比和先验信噪比,
所述第一后验信噪比公式表示为:
所述先验信噪比公式表示为:
SNR p r i o ( n , j ) = &alpha; | E 1 ( n - 1 , j ) | 2 | N E ( n , j ) | 2 + ( 1 - &alpha; ) m a x ( SNR p o s t ( n , j ) - 1 , 0 ) ,
其中,j表示频率域的频率编号,为0~M-1中的任一整数值,M表示频率域长度,n表示当前所处理音频输入信号的帧号,α为0~1之间的任一常数,SNRpost(n,j)表示第n帧音频输入信号的音频残差信号的第一后验信噪比,SNRprio(n,j)表示第n帧音频输入信号的音频残差信号的先验信噪比,|E(n,j)|2表示第n帧音频输入信号的音频残差信号的功率谱,|NE(n,j)|2表示第n帧音频输入信号的音频残差信号中噪声信号的噪声功率谱,|E1(n-1,j)|2表示第n-1帧音频输入信号的音频残差信号的增强信号功率谱;
根据下述第一衰减系数公式获得所述音频残差信号中噪声信号的第一衰减系数,所述第一衰减系数公式表示为:
&zeta; 1 ( n , j ) = SNR p r i o ( n , j ) 1 + SNR p r i o ( n , j ) exp ( 1 2 exp int ( SNR p r i o ( n , j ) SNR p o s t ( n , j ) 1 + SNR p r i o ( n , j ) ) ) ,
其中,ζ1(n,j)表示第n帧音频输入信号的音频残差信号的第一衰减系数;
相应的,根据下述增强信号功率谱公式确定第n帧音频输入信号的音频残差信号的增强信号功率谱,所述增强信号功率谱公式表示为:
|E1(n,j)|2=ζ1(n,j)|E(n,j)|2
其中,|E1(n,j)|2表示第n帧音频输入信号的音频残差信号的增强信号功率谱;
根据下述噪声估计调节参数公式获得所述音频残差信号的噪声估计调节参数,所述噪声估计调节参数公式表示为:
&beta; = 1 M &Sigma; j = 0 M - 1 ( SNR p r i o ( n , j ) SNR p o s t ( n , j ) 1 + SNR p r i o ( n , j ) - log ( 1 + SNR p r i o ( n , j ) ) ) ,
其中,β表示第n帧音频残差信号的噪声估计调节参数;
根据下述噪声功率谱更新公式更新所述噪声功率谱,所述噪声功率谱更新公式表示为:|NE(n,j)|2=ε|NE(n-1,j)|2+(1-ε)|E(n,j)|2
其中,|NE(n-1,j)|2表示第n-1帧音频输入信号的音频残差信号中噪声信号的噪声功率谱。
5.根据权利要求1所述的方法,其特征在于,对所述音频增强信号进行残留噪声信号检测,如果所述音频增强信号中存在残留噪声信号,则对所述残留噪声信号进行过滤,包括:
根据所述音频输入信号、所述音频增强信号和预设的检测参数公式,确定所述音频增强信号的残留噪声检测参数;
如果所述残留噪声检测参数小于设定的检测参数阈值,则确定所述音频增强信号中存在残留噪声信号;
根据所述残留噪声检测参数以及所述检测参数阈值,获得所述残留噪声信号在所述音频增强信号中的第二衰减系数;
根据所述第二衰减系数,过滤所述音频增强信号中的残留噪声信号。
6.根据权利要求5所述的方法,其特征在于,所述检测参数公式表示为:
其中,n表示当前所处理音频输入信号的帧号,∑|d(n,t)|2表示第n帧音频输入信号的能量值;∑|e1(n,t)|2表示第n帧音频输入信号的音频增强信号的能量值;RD(n)表示第n帧音频输入信号的音频增强信号的残留噪声检测参数;
根据下述第二衰减系数公式确定所述残留噪声信号在所述音频增强信号中的第二衰减系数,
所述第二衰减系数公式表示为:ζ2(n)=max(RDth/RD(n),ζmin),其中,RDth为设定的检测参数阈值;ζmin为设定的最小衰减系数;ζ2(n)表示第n帧音频输入信号的音频增强信号中残留噪声信号的第二衰减系数。
7.根据权利要6所述的方法,其特征在于,在对所述残留噪声信号进行过滤之后,还包括:
根据下述信号确定公式,确定待输出的目标音频信号;
所述信号确定公式表示为:s(n)=ζ2(n)*e1(n),其中,e1(n)表示第n帧音频输入信号的音频增强信号,s(n)表示待输出的第n帧音频输入信号的目标音频信号。
8.根据权利要求1所述的方法,其特征在于,所述对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号,包括:
获取音频输入设备拾取的音频输入信号以及音频输出设备输出的音频参考信号;
根据当前确定的自适应滤波系数处理所述音频参考信号,获得所述音频参考信号的回声估计信号;
将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号。
9.根据权利要求8所述的方法,其特征在于,在将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号之后,还包括:
根据所述音频参考信号和确定的音频残差信号,确定频率域滤波器系数的更新因子;
根据所述更新因子更新所述自适应滤波系数并保存。
10.根据权利要求9所述的方法,其特征在于,在对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号之后,还包括:
检测所述音频输入信号中是否包含用户语音信号,并检测所述音频参考信号中是否包含回声信号;
当所述音频输入信号中包含所述用户语音信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中不包含回声信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中包含回声信号时,更新所述自适应滤波系数并保存。
11.根据权利要求10所述的方法,其特征在于,所述检测所述音频输入信号中是否包含用户语音信号,包括:
根据所述音频输入信号的能量值及所述音频参考信号的能量值,确定所述音频输入信号与所述音频参考信号的瞬时能量比;
如果所述瞬时能量比小于第一设定阈值,则确定所述音频输入信号中不包含用户语音信号;否则,确定包含所述用户语音信号。
12.根据权利要求10所述的方法,其特征在于,所述检测所述音频参考信号中是否包含回声信号,包括:
根据所述音频输入信号的功率谱及所述音频残差信号对应的噪声功率谱,确定所述音频输入信号的第二后验信噪比;
根据所述音频输入信号的功率值及所述音频残差信号的功率值,确定所述音频输入信号与所述音频残差信号的互相关系数;
如果所述第二后验信噪比小于第二设定阈值,则确定所述音频参考信号中不包含回声信号;或者,如果所述第二后验信噪比不小于第二设定阈值且所述互相关系数不小于第三设定阈值,则确定所述音频参考信号中包含回声信号且所述回声信号的回声路径发生了变化;或者,如果所述第二后验信噪比不小于所述第二设定阈值且所述互相关系数小于所述第三设定阈值,则确定所述音频参考信号中包含回声信号且所述回声信号的回声路径没有发生变化。
13.一种音频信号处理***,其特征在于,包括:
回声信号消除模块,用于对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号;
噪声信号消除模块,用于对所述音频残差信号中的噪声信号进行噪声消除,获得噪声消除后的音频增强信号;
残留噪声检测模块,用于对所述音频增强信号进行残留噪声信号检测;
残留噪声过滤模块,用于当所述音频增强信号中存在残留噪声信号时,对所述残留噪声信号进行过滤。
14.根据权利要求13所述的***,其特征在于,所述噪声信号消除模块,包括:
第一信噪比确定单元,用于根据所述音频残差信号的功率谱以及预先确定的所述音频残差信号中噪声信号的噪声功率谱,确定所述音频残差信号的第一后验信噪比和先验信噪比;
第一衰减系数确定单元,用于根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号中噪声信号的第一衰减系数;
增强信号获取单元,用于根据所述第一衰减系数消除所述音频残差信号中的噪声信号,获得所述音频残差信号的音频增强信号。
15.根据权利要求14所述的***,其特征在于,所述噪声信号消除模块,还包括:
调节参数确定单元,用于在确定所述音频残差信号的第一后验信噪比和先验信噪比之后,根据所述第一后验信噪比和所述先验信噪比,确定所述音频残差信号的噪声估计调节参数;
噪声功率谱更新单元,用于当所述噪声估计调节参数小于设定调节参数阈值时,更新所述噪声功率谱并保存。
16.根据权利要求15所述的***,其特征在于,所述第一信噪比确定单元,具体用于分别根据下述第一后验信噪比公式以及先验信噪比公式获得所述音频残差信号的第一后验信噪比和先验信噪比,
所述第一后验信噪比公式表示为:
所述先验信噪比公式表示为:
SNR p r i o ( n , j ) = &alpha; | E 1 ( n - 1 , j ) | 2 | N E ( n , j ) | 2 + ( 1 - &alpha; ) max ( SNR p o s t ( n , j ) - 1 , 0 ) ,
其中,j表示频率域的频率编号,为0~M-1中的任一整数值,M表示频率域长度,n表示当前所处理音频输入信号的帧号,α为0~1之间的任一常数,SNRpost(n,j)表示第n帧音频输入信号的音频残差信号的第一后验信噪比,SNRprio(n,j)表示第n帧音频输入信号的音频残差信号的先验信噪比,|E(n,j)|2表示第n帧音频输入信号的音频残差信号的功率谱,|NE(n,j)|2表示第n帧音频输入信号的音频残差信号中噪声信号的噪声功率谱,|E1(n-1,j)|2表示第n-1帧音频输入信号的音频残差信号的增强信号功率谱;
所述第一衰减系数确定单元,具体用于根据下述第一衰减系数公式获得所述音频残差信号中噪声信号的第一衰减系数,
所述第一衰减系数公式表示为:
&zeta; 1 ( n , j ) = SNR p r i o ( n , j ) 1 + SNR p r i o ( n , j ) exp ( 1 2 exp int ( SNR p r i o ( n , j ) SNR p o s t ( n , j ) 1 + SNR p r i o ( n , j ) ) ) ,
其中,ζ1(n,j)表示第n帧音频输入信号的音频残差信号的第一衰减系数;
相应的,增强信号获取单元,还用于根据下述增强信号功率谱公式确定第n帧音频输入信号的音频残差信号的增强信号功率谱,所述增强信号功率谱公式表示为:
|E1(n,j)|2=ζ1(n,j)|E(n,j)|2
其中,|E1(n,j)|2表示第n帧音频输入信号的音频残差信号的增强信号功率谱;
所述调节参数确定单元,具体用于根据下述噪声估计调节参数公式获得所述音频残差信号的噪声估计调节参数,
所述噪声估计调节参数公式表示为:
&beta; = 1 M &Sigma; j = 0 M - 1 ( SNR p r i o ( n , j ) SNR p o s t ( n , j ) 1 + SNR p r i o ( n , j ) - l o g ( 1 + SNR p r i o ( n , j ) ) ) ,
其中,β表示第n帧音频残差信号的噪声估计调节参数;
噪声功率谱更新单元,具体用于根据下述噪声功率谱更新公式更新所述噪声功率谱,所述噪声功率谱更新公式表示为:
|NE(n,j)|2=ε|NE(n-1,j)|2+(1-ε)|E(n,j)|2
其中,|NE(n-1,j)|2表示第n-1帧音频输入信号的音频残差信号中噪声信号的噪声功率谱。
17.根据权利要求13所述的***,其特征在于,所述残留噪声检测模块,包括:
检测参数确定单元,用于根据所述音频输入信号、所述音频增强信号和预设的检测参数公式,确定所述音频增强信号的残留噪声检测参数;
残留噪声确定单元,用于当所述残留噪声检测参数小于设定的检测参数阈值时,确定所述音频增强信号中存在残留噪声信号;
第二衰减系数确定单元,用于根据所述残留噪声检测参数以及所述检测参数阈值,获得所述残留噪声信号在所述音频增强信号中的第二衰减系数;
相应的,所述残留噪声过滤模块,包括:
残留噪声去除单元,用于根据所述第二衰减系数,过滤所述音频增强信号中的残留噪声信号。
18.根据权利要求17所述的***,其特征在于,所述检测参数公式表示为:
其中,n表示当前所处理音频输入信号的帧号,∑|d(n,t)|2表示第n帧音频输入信号的能量值;∑|e1(n,t)|2表示第n帧音频输入信号的音频增强信号的能量值;RD(n)表示第n帧音频输入信号的音频增强信号的残留噪声检测参数;
第二衰减系数确定单元,具体用于根据下述第二衰减系数公式确定所述残留噪声信号在所述音频增强信号中的第二衰减系数,
所述第二衰减系数公式表示为:ζ2(n)=max(RDth/RD(n),ζmin),其中,RDth为设定的检测参数阈值;ζmin为设定的最小衰减系数;ζ2(n)表示第n帧音频输入信号的音频增强信号中残留噪声信号的第二衰减系数。
19.根据权利要求18所述的***,其特征在于,所述残留噪声过滤模块,还包括:
目标信号确定单元,用于在对所述残留噪声信号进行过滤之后,根据下述信号确定公式,确定待输出的目标音频信号;
所述信号确定公式表示为:s(n)=ζ2(n)*e1(n),其中,e1(n)表示第n帧的音频增强信号,s(n)表示待输出的第n帧目标音频信号。
20.根据权利要求13所述的***,其特征在于,所述回声信号消除模块,包括:
音频信号获取单元,用于获取音频输入设备拾取的音频输入信号以及音频输出设备输出的音频参考信号;
估计信号确定单元,用于根据当前确定的自适应滤波系数处理所述音频参考信号,获得所述音频参考信号的回声估计信号;
残差信号确定单元,用于将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号。
21.根据权利要求20所述的***,其特征在于,所述回声信号消除模块,还包括:
更新因子确定单元,用于在将所述音频输入信号与所述回声估计信号的差值确定为所述音频输入信号的音频残差信号之后,根据所述音频参考信号和确定的音频残差信号,确定频率域滤波器系数的更新因子;
滤波系数处理单元,用于根据所述更新因子更新所述自适应滤波系数并保存。
22.根据权利要求20所述的***,其特征在于,还包括:
双端信号检测模块,用于在对所获取音频输入信号中的回声信号进行回声消除,获得所述音频输入信号的音频残差信号之后,检测所述音频输入信号中是否包含用户语音信号,并检测所述音频参考信号中是否包含回声信号;
相应的,所述滤波系数处理单元,还用于当所述音频输入信号中包含所述用户语音信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中不包含回声信号时,停止更新所述自适应滤波系数;或者,当所述音频输入信号中不包含所述用户语音信号且所述音频参考信号中包含回声信号时,更新所述自适应滤波系数并保存。
23.根据权利要求22所述的***,其特征在于,所述双端信号检测模块,包括:
能量比确定单元,用于根据所述音频输入信号的能量值及所述音频参考信号的能量值,确定所述音频输入信号与所述音频参考信号的瞬时能量比;
语音信号判定单元,用于当所述瞬时能量比小于第一设定阈值时,确定所述音频输入信号中不包含用户语音信号;否则,确定包含所述用户语音信号。
24.根据权利要求22所述的***,其特征在于,所述双端信号检测模块,还包括:
第二信噪比确定单元,用于根据所述音频输入信号的功率谱及所述音频残差信号对应的噪声功率谱,确定所述音频输入信号的第二后验信噪比;
互相关系数确定单元,用于根据所述音频输入信号的功率值及所述音频残差信号的功率值,确定所述音频输入信号与所述音频残差信号的互相关系数;
回声信号判定单元,用于当所述第二后验信噪比小于第二设定阈值时,确定所述音频参考信号中不包含回声信号;或者,当所述第二后验信噪比不小于第二设定阈值且所述互相关系数不小于第三设定阈值时,则确定所述音频参考信号中包含回声信号且所述回声信号的回声路径发生了变化;或者,当所述第二后验信噪比不小于所述第二设定阈值且所述互相关系数小于所述第三设定阈值时,确定所述音频参考信号中包含回声信号且所述回声信号的回声路径没有发生变化。
25.一种音频交互装置,其特征在于,该音频交互装置包括了权利要求13-24任一项所述的音频信号处理***。
26.根据权利要求25所述的装置,其特征在于,还包括:音频输入设备,用于拾取音频输入信号;音频输出设备,用于输出音频参考信号。
27.一种计算机设备,其特征在于,该计算机设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12中任一项所述的音频信号处理方法。
28.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-12中任一项所述的音频信号处理方法。
CN201710182290.XA 2017-03-24 2017-03-24 音频信号处理方法、***、音频交互装置及计算机设备 Active CN106898359B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710182290.XA CN106898359B (zh) 2017-03-24 2017-03-24 音频信号处理方法、***、音频交互装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710182290.XA CN106898359B (zh) 2017-03-24 2017-03-24 音频信号处理方法、***、音频交互装置及计算机设备

Publications (2)

Publication Number Publication Date
CN106898359A true CN106898359A (zh) 2017-06-27
CN106898359B CN106898359B (zh) 2020-03-17

Family

ID=59193462

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710182290.XA Active CN106898359B (zh) 2017-03-24 2017-03-24 音频信号处理方法、***、音频交互装置及计算机设备

Country Status (1)

Country Link
CN (1) CN106898359B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393546A (zh) * 2017-09-04 2017-11-24 恒玄科技(上海)有限公司 一种用于语音识别过程的回声消除方法及语音识别设备
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置
CN108696648A (zh) * 2018-05-16 2018-10-23 北京小鱼在家科技有限公司 一种短时语音信号处理的方法、装置、设备及存储介质
CN109256145A (zh) * 2017-07-14 2019-01-22 北京搜狗科技发展有限公司 基于终端的音频处理方法、装置、终端和可读存储介质
CN109658946A (zh) * 2017-10-12 2019-04-19 深圳前海黑鲸科技有限公司 一种回声处理方法、装置、存储介质及终端设备
CN109785853A (zh) * 2019-03-11 2019-05-21 出门问问信息科技有限公司 一种回声消除方法、装置、***及存储介质
CN110021289A (zh) * 2019-03-28 2019-07-16 腾讯科技(深圳)有限公司 一种声音信号处理方法、装置及存储介质
CN110176244A (zh) * 2018-06-19 2019-08-27 腾讯科技(深圳)有限公司 回声消除方法、装置、存储介质和计算机设备
CN110418233A (zh) * 2019-07-26 2019-11-05 歌尔股份有限公司 一种耳机降噪方法、装置、耳机及可读存储介质
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111402910A (zh) * 2018-12-17 2020-07-10 华为技术有限公司 一种消除回声的方法和设备
CN111756906A (zh) * 2020-06-24 2020-10-09 上海立可芯半导体科技有限公司 一种语音信号的回声抑制方法和装置
CN112201267A (zh) * 2020-09-07 2021-01-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质
CN112545547A (zh) * 2020-11-25 2021-03-26 北京积水潭医院 呼吸音分析方法及呼吸音分析***
CN112837697A (zh) * 2021-02-20 2021-05-25 北京猿力未来科技有限公司 一种回声抑制方法及装置
CN113194387A (zh) * 2021-04-27 2021-07-30 北京小米移动软件有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113286047A (zh) * 2021-04-22 2021-08-20 维沃移动通信(杭州)有限公司 语音信号处理方法、装置及电子设备
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN113489854A (zh) * 2021-06-30 2021-10-08 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN114664322A (zh) * 2022-05-23 2022-06-24 深圳市听多多科技有限公司 基于蓝牙耳机芯片的单麦克风助听降噪方法及蓝牙耳机

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901601A (zh) * 2010-05-17 2010-12-01 天津大学 一种车内降噪语音通讯的方法与***
CN101917527A (zh) * 2010-09-02 2010-12-15 杭州华三通信技术有限公司 回声消除的方法和装置
CN103327201A (zh) * 2012-03-20 2013-09-25 联芯科技有限公司 残留回声消除方法及***
CN104427143A (zh) * 2013-09-06 2015-03-18 联芯科技有限公司 残留回声检测方法及***
US20160063997A1 (en) * 2014-08-28 2016-03-03 Audience, Inc. Multi-Sourced Noise Suppression

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901601A (zh) * 2010-05-17 2010-12-01 天津大学 一种车内降噪语音通讯的方法与***
CN101917527A (zh) * 2010-09-02 2010-12-15 杭州华三通信技术有限公司 回声消除的方法和装置
CN103327201A (zh) * 2012-03-20 2013-09-25 联芯科技有限公司 残留回声消除方法及***
CN104427143A (zh) * 2013-09-06 2015-03-18 联芯科技有限公司 残留回声检测方法及***
US20160063997A1 (en) * 2014-08-28 2016-03-03 Audience, Inc. Multi-Sourced Noise Suppression

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393550A (zh) * 2017-07-14 2017-11-24 深圳永顺智信息科技有限公司 语音处理方法及装置
CN109256145A (zh) * 2017-07-14 2019-01-22 北京搜狗科技发展有限公司 基于终端的音频处理方法、装置、终端和可读存储介质
CN109256145B (zh) * 2017-07-14 2021-11-02 北京搜狗科技发展有限公司 基于终端的音频处理方法、装置、终端和可读存储介质
CN107393550B (zh) * 2017-07-14 2021-03-19 深圳永顺智信息科技有限公司 语音处理方法及装置
CN107393546A (zh) * 2017-09-04 2017-11-24 恒玄科技(上海)有限公司 一种用于语音识别过程的回声消除方法及语音识别设备
CN109658946A (zh) * 2017-10-12 2019-04-19 深圳前海黑鲸科技有限公司 一种回声处理方法、装置、存储介质及终端设备
CN108696648A (zh) * 2018-05-16 2018-10-23 北京小鱼在家科技有限公司 一种短时语音信号处理的方法、装置、设备及存储介质
CN110176244A (zh) * 2018-06-19 2019-08-27 腾讯科技(深圳)有限公司 回声消除方法、装置、存储介质和计算机设备
CN110176244B (zh) * 2018-06-19 2023-10-03 腾讯科技(深圳)有限公司 回声消除方法、装置、存储介质和计算机设备
CN111402910A (zh) * 2018-12-17 2020-07-10 华为技术有限公司 一种消除回声的方法和设备
CN111402910B (zh) * 2018-12-17 2023-09-01 华为技术有限公司 一种消除回声的方法和设备
CN109785853A (zh) * 2019-03-11 2019-05-21 出门问问信息科技有限公司 一种回声消除方法、装置、***及存储介质
CN109785853B (zh) * 2019-03-11 2020-06-16 出门问问信息科技有限公司 一种回声消除方法、装置、***及存储介质
CN110021289A (zh) * 2019-03-28 2019-07-16 腾讯科技(深圳)有限公司 一种声音信号处理方法、装置及存储介质
CN110021289B (zh) * 2019-03-28 2021-08-31 腾讯科技(深圳)有限公司 一种声音信号处理方法、装置及存储介质
CN110418233A (zh) * 2019-07-26 2019-11-05 歌尔股份有限公司 一种耳机降噪方法、装置、耳机及可读存储介质
CN111048118B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048118A (zh) * 2019-12-24 2020-04-21 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111756906A (zh) * 2020-06-24 2020-10-09 上海立可芯半导体科技有限公司 一种语音信号的回声抑制方法和装置
CN112201267A (zh) * 2020-09-07 2021-01-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质
CN112545547A (zh) * 2020-11-25 2021-03-26 北京积水潭医院 呼吸音分析方法及呼吸音分析***
CN112837697A (zh) * 2021-02-20 2021-05-25 北京猿力未来科技有限公司 一种回声抑制方法及装置
CN112837697B (zh) * 2021-02-20 2024-05-14 北京猿力未来科技有限公司 一种回声抑制方法及装置
CN113286047A (zh) * 2021-04-22 2021-08-20 维沃移动通信(杭州)有限公司 语音信号处理方法、装置及电子设备
CN113286047B (zh) * 2021-04-22 2023-02-21 维沃移动通信(杭州)有限公司 语音信号处理方法、装置及电子设备
CN113194387A (zh) * 2021-04-27 2021-07-30 北京小米移动软件有限公司 音频信号处理方法、装置、电子设备及存储介质
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN113489854A (zh) * 2021-06-30 2021-10-08 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN113489854B (zh) * 2021-06-30 2024-03-01 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN114664322A (zh) * 2022-05-23 2022-06-24 深圳市听多多科技有限公司 基于蓝牙耳机芯片的单麦克风助听降噪方法及蓝牙耳机
CN114664322B (zh) * 2022-05-23 2022-08-12 深圳市听多多科技有限公司 基于蓝牙耳机芯片的单麦克风助听降噪方法及蓝牙耳机

Also Published As

Publication number Publication date
CN106898359B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN106898359A (zh) 音频信号处理方法、***、音频交互装置及计算机设备
US11017791B2 (en) Deep neural network-based method and apparatus for combining noise and echo removal
EP1080465B1 (en) Signal noise reduction by spectral substraction using linear convolution and causal filtering
CN104158990A (zh) 用于处理音频信号的方法和音频接收电路
KR101737824B1 (ko) 잡음 환경의 입력신호로부터 잡음을 제거하는 방법 및 그 장치
CN109979476B (zh) 一种语音去混响的方法及装置
CN110211602B (zh) 智能语音增强通信方法及装置
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及***
CN108010536B (zh) 回声消除方法、装置、***及存储介质
CN111885275A (zh) 语音信号的回声消除方法、装置、存储介质以及电子装置
CN111223492A (zh) 一种回声路径延迟估计方法及装置
Yang et al. A noise reduction method based on LMS adaptive filter of audio signals
CN109961798B (zh) 回声消除***、方法、可读计算机存储介质、及终端
CN109727605A (zh) 处理声音信号的方法及***
CN109559756A (zh) 滤波系数确定方法、回声消除方法、相应装置及设备
CN104410762A (zh) 免提通话***中的稳健回声抵消方法
CN111370016B (zh) 一种回声消除方法及电子设备
CN117672245A (zh) 一种基于快速行投影的自适应回声消除方法
JP2003309493A (ja) 反響低減方法、反響低減装置、反響低減プログラム
JP3673727B2 (ja) 反響消去方法、その装置、そのプログラム及びその記録媒体
Tong et al. Acoustic echo suppression based on speech presence probability
CN111883155A (zh) 回声消除方法、装置及存储介质
CN112687285B (zh) 回声消除方法和装置
CN114360570A (zh) 用于消除回声的方法及其相关产品
US20230344941A1 (en) Method for echo cancellation, echo cancellation device and electronic equipment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Audio signal processing method, system, audio interaction device and computer equipment

Effective date of registration: 20230223

Granted publication date: 20200317

Pledgee: China Construction Bank Corporation Shanghai No.5 Sub-branch

Pledgor: SHANGHAI XIAOI ROBOT TECHNOLOGY Co.,Ltd.

Registration number: Y2023980033272

PE01 Entry into force of the registration of the contract for pledge of patent right