CN113362842A - 音频信号处理方法及装置 - Google Patents

音频信号处理方法及装置 Download PDF

Info

Publication number
CN113362842A
CN113362842A CN202110739121.8A CN202110739121A CN113362842A CN 113362842 A CN113362842 A CN 113362842A CN 202110739121 A CN202110739121 A CN 202110739121A CN 113362842 A CN113362842 A CN 113362842A
Authority
CN
China
Prior art keywords
echo path
path vector
echo
vector
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110739121.8A
Other languages
English (en)
Other versions
CN113362842B (zh
Inventor
操陈斌
何梦楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd, Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN202110739121.8A priority Critical patent/CN113362842B/zh
Publication of CN113362842A publication Critical patent/CN113362842A/zh
Application granted granted Critical
Publication of CN113362842B publication Critical patent/CN113362842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)

Abstract

本公开涉及语音通信技术领域,具体涉及一种音频信号处理方法及装置。一种音频信号处理方法,包括:基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量;其中,所述第一音频信号包括由扬声器播放所述参考信号所产生的回声信号;基于所述参考信号和所述第一音频信号进行第二滤波处理,得到第二回声路径向量;所述第一滤波处理的滤波更新速率不同于所述第二滤波处理的滤波更新速率;响应于所述第一回声路径向量和所述第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。本公开实施方式方法,有效检测回声路径变化,并且检测通用性和鲁棒性更强,提高回声消除效果。

Description

音频信号处理方法及装置
技术领域
本公开涉及语音通信技术领域,具体涉及一种音频信号处理方法及装置。
背景技术
对于语音通信领域,在近端扬声器播放远端传输的声音后,近端麦克风会再次拾取声音并将该声音传输至远端,从而产生声学回声。声学回声会严重影响语音通话质量,因此回声消除是语音通信必要的过程。
相关技术中,往往采用自适应滤波器来估计回声路径进行回声消除,但是,对于例如多人在线语音等复杂的双讲(Double talk)声学场景,回声路径频繁发生变化,回声消除的效果不佳。
发明内容
为提高语音通信***的回声消除效果,本公开实施方式提供了一种音频信号处理方法、装置、电子设备以及存储介质。
第一方面,本公开实施方式提供了一种音频信号处理方法,包括:
基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量;其中,所述第一音频信号包括由扬声器播放所述参考信号所产生的回声信号;
基于所述参考信号和所述第一音频信号进行第二滤波处理,得到第二回声路径向量;所述第一滤波处理的滤波更新速率不同于所述第二滤波处理的滤波更新速率;
响应于所述第一回声路径向量和所述第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。
在一些实施方式中,所述第一滤波处理为卡尔曼滤波,所述第二滤波处理为NLMS滤波。
在一些实施方式中,所述卡尔曼滤波为时域卡尔曼滤波。
在一些实施方式中,所述基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量,包括:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的第一残差信号;
根据所述当前时刻的第一残差信号和卡尔曼增益向量,对所述前一时刻的回声路径向量进行更新,得到当前时刻的所述第一回声路径向量。
在一些实施方式中,所述基于所述参考信号和所述第一音频信号进行第二滤波处理,得到第二回声路径向量,包括:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的误差信号;
根据所述第一音频信号和所述误差信号,得到当前时刻的第二残差信号;
根据当前时刻的第二残差信号和预先设置的自适应步长参数对前一时刻的回声路径向量进行更新,得到当前时刻的所述第二回声路径向量。
在一些实施方式中,所述响应于所述第一回声路径向量和所述第二回声路径向量的相关性不小于预设阈值,确定检测到回声路径发生变化,包括:
根据所述第一回声路径向量和所述第二回声路径向量,确定所述第一回声路径向量和所述第二回声路径向量的相关系数;
响应于所述相关系数不大于预设相关阈值,确定检测到回声路径发生变化。
在一些实施方式中,在所述确定检测到回声路径发生变化之后,所述方法还包括:
对所述第一滤波处理和所述第二滤波处理的参数进行初始化。
第二方面,本公开实施方式提供了一种音频信号处理装置,包括:
第一滤波模块,被配置为基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量;其中,所述第一音频信号包括由扬声器播放所述参考信号所产生的回声信号;
第二滤波模块,被配置为基于所述参考信号和所述第一音频信号进行第二滤波处理,得到第二回声路径向量;所述第一滤波处理的滤波更新速率不同于所述第二滤波处理的滤波更新速率;
回声路径确定模块,被配置为响应于所述第一回声路径向量和所述第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。
在一些实施方式中,所述第一滤波处理为卡尔曼滤波,所述第二滤波处理为NLMS滤波。
在一些实施方式中,所述卡尔曼滤波为时域卡尔曼滤波。
在一些实施方式中,所述第一滤波模块具体被配置为:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的第一残差信号;
根据所述当前时刻的第一残差信号和卡尔曼增益向量,对所述前一时刻的回声路径向量进行更新,得到当前时刻的所述第一回声路径向量。
在一些实施方式中,所述第二滤波模块具体被配置为:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的误差信号;
根据所述第一音频信号和所述误差信号,得到当前时刻的第二残差信号;
根据当前时刻的第二残差信号和预先设置的自适应步长参数对前一时刻的回声路径向量进行更新,得到当前时刻的所述第二回声路径向量。
在一些实施方式中,所述回声路径确定模块具体被配置为:
根据所述第一回声路径向量和所述第二回声路径向量,确定所述第一回声路径向量和所述第二回声路径向量的相关系数;
响应于所述相关系数不大于预设相关阈值,确定检测到回声路径发生变化。
在一些实施方式中,本公开所述的音频信号处理装置,还包括:
初始化模块,被配置为对所述第一滤波处理和所述第二滤波处理的参数进行初始化。
第三方面,本公开实施方式提供了一种电子设备,包括:
麦克风和扬声器;
处理器;以及
存储器,存储有计算机指令,所述计算机指令用于使处理器执行根据第一方面中任一实施方式所述的方法。
第四方面,本公开实施方式提供了一种存储介质,存储有计算机指令,所述计算机指令用于使计算机执行根据第一方面任一实施方式所述的方法。
本公开实施方式的音频信号处理方法,包括基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理得到第一回声路径向量,基于参考信号和麦克风拾取的第一音频信号进行第二滤波处理得到第二回声路径向量,响应于第一回声路径向量和第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。本公开实施方式方法,采用两个更新速率不同的滤波处理,基于两个回声路基向量相关性确定回声路径是否变化,有效检测回声路径变化,并且检测通用性和鲁棒性更强,提高回声消除效果。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一些实施方式中音频信号处理方法的流程图。
图2是根据本公开一些实施方式中回声路径变化前后的回声冲激响应示意图。
图3是根据本公开一些实施方式中语音通信***的结构框图。
图4是根据本公开一些实施方式中音频信号处理方法的流程图。
图5是根据本公开一些实施方式中音频信号处理方法的流程图。
图6是根据本公开一些实施方式中音频信号处理方法的流程图。
图7是根据本公开一些实施方式中音频信号处理装置的结构框图。
图8是适于实现本公开方法的电子设备的结构框图。
具体实施方式
下面将结合附图对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本公开一部分实施方式,而不是全部的实施方式。基于本公开中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本公开保护的范围。此外,下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在语音通信***中,由于扬声器与麦克风的耦合,由扬声器播放的远端信号会被麦克风接收并再次传给远端,形成声学回声。声学回声会严重影响语音通信的质量,同时也会降低人机交互的语音唤醒和语音识别,因此为了提高语音通信质量,需要对语音通信***进行回声消除。
在回声消除领域,一般采用基于可变步长控制的自适应滤波技术来估计回声路径进行回声消除,例如NLMS(Normalized Least Mean Squares,归一化最小均方)滤波器。但是,在例如多人在线游戏等声学环境复杂的双讲(Double Talk)场景下,回声路径会频繁发生变化,若基于当前的滤波器更新速率进行回声路径估计,会造成滤波器发散,无法准确估计回声信号,产生较多的残留回声。
相关技术中,在应对回声路径变化的场景时,一类方法是设置更新速率较小的自适应滤波器,从而在回声路径变化时,可以得到较差的稳态残留回声。另一类方法是设置双讲检测器(DTD,Double Talk Double),当检测到双讲场景时,停止滤波器更新或者降低滤波器的更新速率。但是,这两种方法都不能从根本上解决问题,由于滤波器更新速率较慢,因此在回声路径变化的起始时刻无法快速估计出回声信号,导致产生较多的残留回声。
基于上述相关技术中存在的缺陷,本公开实施方式提供了一种音频信号处理方法、装置、电子设备以及存储介质,旨在复杂声学场景中准确检测回声路径变化,从而提高回声消除效果。
第一方面,本公开实施方式提供了一种音频信号处理方法,该方法可以应用于具有语音通信***的电子设备中,例如手机、平板电脑、笔记本电脑等,本公开对此不作限制。
如图1所示,在一些实施方式中,本公开示例的音频信号处理方法包括:
S110、基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量。
S120、基于参考信号和第一音频信号进行第二滤波处理,得到第二回声路径向量。
具体来说,本公开实施方式的语音通信***包括扬声器和麦克风,扬声器播放的声音会被麦克风拾取到,并随近端语音一起发送至远端,从而形成声学回声。
参考信号指***接收到的远端语音信号,以手机通话场景为例,远端讲话人说话产生的音频信号由近端***接收到,即为参考信号。扬声器播放该参考信号之后,经过扬声器与麦克风之间的回声路径传播之后到达麦克风,从而麦克风会拾取到该参考信号到达麦克风时的回声信号。
同时,对于双讲场景,麦克风还会采集到近端讲话人讲话时产生的近端语音信号以及近端的背景噪声信号。也就是说,麦克风拾取到的第一音频信号包括:近端语音信号、背景噪声信号以及回声信号。
在本公开实施方式中,语音通信***共设置两个滤波器,也即第一滤波器和第二滤波器,并且,第一滤波器和第二滤波器的更新速率不同。例如第一滤波器的更新速率大于第二滤波器,又例如第二滤波器的更新速率大于第一滤波器,本公开对此不作限制。
第一滤波器对第一音频信号进行第一滤波处理,第二滤波器对第一音频信号进行第二滤波处理。由于两个滤波处理的滤波更新速率不同,从而在回声路径发生变化的初始时刻,更新速率较快的滤波器即可快速跟踪回声路径的突变,估计得到瞬态回声路径向量,也即第一回声路径;而更新速率较慢的滤波器相对较慢的跟踪回声路径的变化,估计得到稳态回声路径向量,也即第二回声路径向量。
在一些实施方式中,第一滤波处理可基于参考信号和麦克风拾取的第一音频信号进行迭代更新,得到第一回声路径向量。第二滤波处理可基于参考信号和麦克风拾取的第一音频信号进行迭代更新,得到第二回声路径向量。
在一些实施方式中,第一滤波处理可以是卡尔曼滤波,第二滤波处理可以是NLMS滤波。
可以理解,回声路径向量表示麦克风到扬声器之间的回声路径。本公开实施方式中,由于两个滤波处理的更新速率不同,例如一个示例中,第一滤波处理的滤波更新速率大于第二滤波处理的滤波更新速率。从而在回声路径发生变化的初始时刻,第一滤波处理可以快速跟踪到回声路径发生变化,第一滤波处理后得到的第一回声路径向量即可表示当前时刻的瞬态回声路径。而第二滤波处理由于更新速率较慢,因此滤波器更加容易收敛,第二滤波处理后得到的第二回声向量可表示当前时刻的稳态回声路径。
在真实场景中,当回声路径发生较大的突变时,第一回声路径向量和第二回声路径向量应当产生较大的差异;而当回声路径未发生变化或者变化很小时,第一回声路径向量和第二回声路径向量应当不会产生明显差异。基于此原理,本公开实施方式即可确定当前是否发生回声路径变化。本公开下述实施方式中进行具体说明,在此暂不详述。
对于第一回声路径向量和第二回声路径向量的具体计算过程,本公开下述实施方式中进行说明,在此暂不详述。
S130、响应于第一回声路径向量和第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。
具体而言,基于前述可知,第一回声路径向量和第二回声路径向量分别表示瞬态回声路径和稳态回声路径,在真实回声路径发生突变时,两者应当产生较大差异,反之则相反。因此,在本公开实施方式中,可预先设置预设阈值,根据第一回声路径向量和第二回声路径向量之间的相关性,判断相关性与预设阈值的关系,确定回声路径是否发生变化。
预设阈值指预先设置的表示回声路径变化的门限值,当第一回声路径向量和第二回声路径向量的相关性大于该预设阈值,表示两者相关性较高,也即瞬态回声路径和稳态回声路径较为接近,因此可确定回声路径未发生变化。而当第一回声路径和第二回声路径向量的相关性不大于该预设阈值,表示两者相关性较低,也即瞬态回声路径和稳态回声路径差异较大,因此可确定回声路径发生变化。
在一些实施方式中,在确定回声路径发生变化之后,可对滤波处理参数进行初始化,从而避免滤波器发散,提高回声消除效果。本公开下述进行具体说明,在此暂不详述。
本公开实施方式中的第一回声路径向量和第二回声路径向量,其表示当前时刻的瞬态冲激响应和稳态冲激响应。在回声路径发生变化时,当前时刻的回声冲激响应与变化前时刻的回声冲激响应具有明显不同的形状。例如图2中示出了回声路径变化前后回声冲激响应的形状变化,可以看到,回声路径变化前后回声冲击响应的形状也变化很大。据此可知,利用瞬态冲激响应和稳态冲激响应之间的差异,可以准确检测到回声路径发生变化。
另外,值得说明的是,在回声路径发生明显变化时,两个更新速率不同的滤波器的输出信号能量差异也很明显,但是,考虑到语音信号是高度非平稳的,其能量的动态范围很大,若基于两个滤波器的输出信号能量差异来判断回声路径变化,无法设计出合适且通用的能量阈值,因此鲁棒性较差。而本公开实施方式中,基于两个更新速率不同的滤波器的回声路径向量的相关性来判断回声路径变化,回声路径向量的相关性不依赖于具体信号的能量值,因此预设阈值的设置与具体信号无关,本公开方法的通用性和鲁棒性更强。
通过上述可知,本公开实施方式中,基于两个更新速率不同的滤波处理,根据得到的第一回声路径向量和第二回声路径向量的相关性来确定回声路径变化,检测结果更加准确,提高回声消除效果,并且本公开实施方式的方法通用性和鲁棒性更强。
图3中示出了本公开一些实施方式中的语音通信***。如图3所示,语音通信***包括麦克风100和扬声器200。扬声器200在播放参考信号x(n)时,麦克风100会接收到回声信号y(n)。同时,对于双讲场景,麦克风拾取到的第一音频信号d(n)还包括近端音频信号s(n)。也即,第一音频信号d(n)=y(n)+s(n),其中s(n)包括近端讲话人讲话产生的近端语音信号和背景噪声信号。
本公开一些实施方式的***中,包括两个自适应滤波器,也即第一滤波器h1和第二滤波器h2。在一些实施方式中,第一滤波器h1为卡尔曼滤波器,其用于对第一音频信号d(n)进行第一滤波处理得到第一回声路径向量;第二滤波器h2为NLMS滤波器,其用于对第一音频信号d(n)进行第二滤波处理得到第二回声路径向量。
卡尔曼滤波器在许多实际应用中被广泛应用,由于卡尔曼滤波器对大的干扰信号具有鲁棒性以及快速收敛的特点,本公开实施方式中,可以将卡尔曼滤波器用来快速跟踪回声路径的变化。也就是说,在本公开实施方式中,第一滤波器h1的更新速率大于第二滤波器h2。
图4中示出了本公开音频信号处理方法中第一滤波处理的过程,下面结合图4进行具体说明。
如图4所示,在一些实施方式中,本公开示例的音频信号处理方法包括:
S410、根据参考信号和前一时刻的回声路径向量,确定当前时刻的第一残差信号。
S420、根据当前时刻的第一残差信号和卡尔曼增益向量,对前一时刻的回声路径向量进行更新,得到当前时刻的第一回声路径向量。
具体而言,在本公开一些实施方式中,考虑到第一滤波器h1需要快速检测出回声路径的突变,因此使用时间样本迭代更新方式的时域卡尔曼滤波器。
第一滤波器h1的观测方程表示为:
d(n)=y(n)+s(n)
其中,d(n)表示第一音频信号,y(n)表示回声信号,s(n)表示近端音频信号。
首先,可根据当前时刻的参考信号x(n)和前一时刻的回声路径向量,确定当前时刻的第一残差信号e1(n),表示为:
Figure BDA0003142493190000101
Figure BDA0003142493190000102
其中,
Figure BDA0003142493190000103
表示第一滤波器h1在前一时刻估计的回声路径向量,
Figure BDA0003142493190000104
表示回声误差信号,e1(n)表示当前时刻的第一残差信号。
其次,在得到第一残差信号e1(n)之后,即可对第一滤波器h1的回声路径向量进行更新。具体而言,对于卡尔曼滤波器,首先计算得到卡尔曼增益k(n),其表示为:
Figure BDA0003142493190000105
Figure BDA0003142493190000106
Figure BDA0003142493190000107
Rμ(n)=[IL-k(n)xT(n)]Rm(n)
其中,
Figure BDA0003142493190000108
是先验误差信号方差,
Figure BDA0003142493190000109
是噪声方差,Rm(n)是先验失调误差的相关矩阵,k(n)是卡尔曼增益向量,Rμ(n)是先验误差向量的相关矩阵,IL表示单位矩阵。
然后基于第一残差信号e1(n)和卡尔曼增益向量得到当前时刻的第一回声路径向量,表示为:
Figure BDA00031424931900001010
其中,
Figure BDA00031424931900001011
表示更新后的当前时刻的第一回声路径向量。
在卡尔曼滤波器中需要估计两个参数,第一个参数是
Figure BDA00031424931900001012
表示状态向量h1不确定度,其可以通过计算两次迭代之间的范数表示:
Figure BDA00031424931900001013
第二个参数是噪声能量
Figure BDA00031424931900001014
可以假设第一滤波器h1已经收敛到一定程度,从而通过计算期望信号和回声估计的能量差而得到。
Figure BDA00031424931900001015
Figure BDA0003142493190000111
Figure BDA0003142493190000112
其中β是遗忘因子,0<β<1。
通过上述过程,即可得到当前时刻的第一回声路径向量
Figure BDA0003142493190000113
其表示当前时刻的瞬态回声路径。
图5中示出了本公开音频信号处理方法中第二滤波处理的过程,下面结合图5进行具体说明。
如图5所示,在一些实施方式中,本公开示例的音频信号处理方法包括:
S510、根据参考信号和前一时刻的回声路径向量,确定当前时刻的误差信号。
S520、根据第一音频信号和误差信号,得到当前时刻的第二残差信号。
S530、根据当前时刻的第二残差信号和预先设置的自适应步长参数对前一时刻的回声路径向量进行更新,得到当前时刻的第二回声路径向量。
具体而言,在一些实施方式中,第二滤波器h2可以是NLMS自适应滤波器。第二滤波器h2首先根据参考信号x(n)和前一时刻的回声路径向量,确定当前时刻的误差信号
Figure BDA0003142493190000114
表示为:
Figure BDA0003142493190000115
其中,
Figure BDA0003142493190000116
表示当前时刻的误差信号,
Figure BDA0003142493190000117
表示前一时刻的回声路径向量。然后即可根据第一音频信号d(n)和误差信号,计算得到当前时刻的第二残差信号e2(n),表示为:
Figure BDA0003142493190000118
之后即可根据第二残差信号对前一时刻的回声路径向量进行更新,表示为:
Figure BDA0003142493190000119
其中,
Figure BDA0003142493190000121
表示更新后的当前时刻的第二回声路径向量,μ是预先设置的第二滤波器h2的自适应步长参数。在一些实施方式中,考虑第二滤波器h2用于估计稳态回声路径,因此μ可以取比较小的正数。
通过上述过程,即可得到当前时刻的第二回声路径向量
Figure BDA0003142493190000122
在通过上述图4和图5实施方式分别得到第一回声路径向量和第二回声路径向量之后,可对第一回声路径向量和第二回声路径向量之间的相关性进行判断,从而确定回声路径是否发生变化。下面结合图6对回声路径变化的判断过程进行具体说明。
如图6所示,在一些实施方式中,本公开示例的音频信号处理方法包括:
S610、根据第一回声路径向量和第二回声路径向量,确定第一回声路径向量和第二回声路径向量的相关系数。
S620、响应于相关系数不大于预设相关阈值,确定检测到回声路径发生变化。
参见图2所示,回声路径检测模块300可基于第一滤波器h1处理得到的第一回声路径向量和第二滤波器h2处理得到的第二回声路径向量,计算得到两个向量的相关系数。
具体而言,在一些实施方式中,可基于皮尔逊(Pearson)相关性分析的方法,通过计算第一回声路径向量
Figure BDA0003142493190000123
和第二回声路径向量
Figure BDA0003142493190000124
的Pearson相关系数来表示两者的相关性,表示为:
Figure BDA0003142493190000125
其中,ρ表示第一回声路径向量和第二回声路径向量的相关系数,L表示滤波器长度。
相关系数ρ的值介于-1至+1之间,其性质如下:
1)当|ρ|=1时,表示第一回声路径向量和第二回声路径向量为完全线性相关,也即两者完全相同。
2)当ρ=0时,表示第一回声路径向量和第二回声路径向量无线性相关关系,也即两者完全不相关。
3)当0<|ρ|<1时,表示第一回声路径向量和第二回声路径向量存在一定程度的线性相关。且|ρ|越接近1,两者的线性关系越密切;|ρ|越接近于0,表示两者的线性相关越弱。
基于上述性质,即可在0~1之间设置一个合适的预设相关阈值,该预设相关阈值表示第一回声路径向量和第二回声路径向量存在线性相关的门限值。当相关系数|ρ|大于该预设相关阈值时,表示第一回声路径向量和第二回声路径向量线性相关,从而确定回声路径没有发生变化。而当相关系数|ρ|不大于该预设相关阈值时,表示第一回声路径向量和第二回声路径向量无线性相关,从而确定检测到回声路径发生变化。
可以理解,预设相关阈值可根据先验知识或有限次试验获取得到,本领域技术人员可根据具体的场景需求进行设置,本公开对此不作限制。
通过上述可知,本公开实施方式中,基于两个更新速率不同的滤波处理,根据得到的第一回声路径向量和第二回声路径向量的相关性来确定回声路径变化,检测结果更加准确,提高回声消除效果,并且本公开实施方式的方法通用性和鲁棒性更强。另外,相较于利用自适应应滤波后的残差信号与参考信号的相关性检测回声路径变化的方法,本公开方法避免了由于残差信号中残留成分导致相关性增加而发生回声路径变化误检的问题,提高检测准确性。
在回声路径发生变化的情况下,若继续采用当前滤波器参数进行迭代更新,会导致滤波器发散,无法准确估计变化后的回声路径。因此,在本公开实施方式中,在确定检测到回声路径发生变化之后,音频信号处理方法还包括:
对第一滤波处理和第二滤波处理的参数进行初始化。
具体来说,在检测到回声路径发生变化之后,如图2中所示,可对第一滤波器h1和第二滤波器h2的参数进行初始化,从而使得第一滤波器h1和第二滤波器h2基于初始化参数重新开始迭代收敛,避免回声路径变化导致的滤波器发散或者长时间错误工作的问题,提高复杂场景下回声消除效果。
在一些实施方式中,如图2所示,语音通信***还包括残留回声抑制模块400,残留回声抑制模块400可对消除回声之后的第一音频信号中残留的回声进行抑制,从而得到更加干净的近端音频信号。在一个示例中,残留回声抑制模块400可以采用RES模块。
对于残留回声抑制模块400的过程以及原理,本领域技术人员基于相关技术即可理解并充分实施,本公开对此不作限制。
通过上述可知,本公开实施方式中,采用两个更新速率不同的滤波器,分别检测瞬态回声路径和稳态回声路径,基于两者的相关系数确定回声路径是否变化,有效检测回声路径变化,并且检测通用性和鲁棒性更强,提高回声消除效果。并且,相较于利用自适应应滤波后的残差信号与参考信号的相关性检测回声路径变化的方法,本公开方法避免了由于残差信号中残留成分导致相关性增加而发生回声路径变化误检的问题,提高检测准确性。
第二方面,本公开实施方式提供了一种音频信号处理装置,该装置可以应用于具有语音通信***的电子设备中,例如手机、平板电脑、笔记本电脑等,本公开对此不作限制。
如图7所示,在一些实施方式中,本公开示例的音频信号处理装置包括:
第一滤波模块701,被配置为基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量;其中,第一音频信号包括由扬声器播放参考信号所产生的回声信号;
第二滤波模块702,被配置为基于参考信号和第一音频信号进行第二滤波处理,得到第二回声路径向量;第一滤波处理的滤波更新速率不同于第二滤波处理的滤波更新速率;
回声路径确定模块703,被配置为响应于第一回声路径向量和第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。
通过上述可知,本公开实施方式中,基于两个更新速率不同的滤波处理,根据得到的第一回声路径向量和第二回声路径向量的相关性来确定回声路径变化,检测结果更加准确,提高回声消除效果,并且本公开实施方式的方法通用性和鲁棒性更强。
在一些实施方式中,第一滤波处理为卡尔曼滤波,第二滤波处理为NLMS滤波。
在一些实施方式中,第一滤波模块701具体被配置为:
根据参考信号和前一时刻的回声路径向量,确定当前时刻的第一残差信号;
根据当前时刻的第一残差信号和卡尔曼增益向量,对前一时刻的回声路径向量进行更新,得到当前时刻的第一回声路径向量。
在一些实施方式中,第二滤波模块702具体被配置为:
根据参考信号和前一时刻的回声路径向量,确定当前时刻的误差信号;
根据第一音频信号和误差信号,得到当前时刻的第二残差信号;
根据当前时刻的第二残差信号和预先设置的自适应步长参数对前一时刻的回声路径向量进行更新,得到当前时刻的第二回声路径向量。
在一些实施方式中,回声路径确定模块703具体被配置为:
根据第一回声路径向量和第二回声路径向量,确定第一回声路径向量和第二回声路径向量的相关系数;
响应于相关系数不大于预设相关阈值,确定检测到回声路径发生变化。
在一些实施方式中,本公开的音频信号处理装置,还包括:
初始化模块,被配置为对第一滤波处理和第二滤波处理的参数进行初始化。
通过上述可知,本公开实施方式中,基于两个更新速率不同的滤波处理,根据得到的第一回声路径向量和第二回声路径向量的相关性来确定回声路径变化,检测结果更加准确,提高回声消除效果,并且本公开实施方式的方法通用性和鲁棒性更强。另外,相较于利用自适应应滤波后的残差信号与参考信号的相关性检测回声路径变化的方法,本公开方法避免了由于残差信号中残留成分导致相关性增加而发生回声路径变化误检的问题,提高检测准确性。
第三方面,本公开实施方式提供了一种电子设备,包括:
处理器;和
存储器,存储有计算机指令,计算机指令用于使处理器执行根据第一方面中任一实施方式的方法。
第四方面,本公开实施方式提供了一种存储介质,存储有计算机指令,计算机指令用于使计算机执行根据第一方面任一实施方式的方法。
图8中示出了本公开一些实施方式中的电子设备的结构框图,下面结合图8对本公开一些实施方式的电子设备及存储介质相关原理进行说明。
参照图8,电子设备1800可以包括以下一个或多个组件:处理组件1802,存储器1804,电源组件1806,多媒体组件1808,音频组件1810,输入/输出(I/O)接口1812,传感器组件1816,以及通信组件1818。
处理组件1802通常控制电子设备1800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1802可以包括一个或多个处理器1820来执行指令。此外,处理组件1802可以包括一个或多个模块,便于处理组件1802和其他组件之间的交互。例如,处理组件1802可以包括多媒体模块,以方便多媒体组件1808和处理组件1802之间的交互。又如,处理组件1802可以从存储器读取可执行指令,以实现电子设备相关功能。
存储器1804被配置为存储各种类型的数据以支持在电子设备1800的操作。这些数据的示例包括用于在电子设备1800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1806为电子设备1800的各种组件提供电力。电源组件1806可以包括电源管理***,一个或多个电源,及其他与为电子设备1800生成、管理和分配电力相关联的组件。
多媒体组件1808包括在所述电子设备1800和用户之间的提供一个输出接口的显示屏。在一些实施例中,多媒体组件1808包括一个前置摄像头和/或后置摄像头。当电子设备1800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件1810被配置为输出和/或输入音频信号。例如,音频组件1810包括一个麦克风(MIC),当电子设备1800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1804或经由通信组件1818发送。在一些实施例中,音频组件1810还包括一个扬声器,用于输出音频信号。
I/O接口1812为处理组件1802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1816包括一个或多个传感器,用于为电子设备1800提供各个方面的状态评估。例如,传感器组件1816可以检测到电子设备1800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备1800的显示器和小键盘,传感器组件1816还可以检测电子设备1800或电子设备1800一个组件的位置改变,用户与电子设备1800接触的存在或不存在,电子设备1800方位或加速/减速和电子设备1800的温度变化。传感器组件1816可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1816还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1816还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1818被配置为便于电子设备1800和其他设备之间有线或无线方式的通信。电子设备1800可以接入基于通信标准的无线网络,如Wi-Fi,2G,3G,4G,5G或6G,或它们的组合。在一个示例性实施例中,通信组件1818经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1818还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备1800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。
显然,上述实施方式仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。

Claims (15)

1.一种音频信号处理方法,其特征在于,包括:
基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量;其中,所述第一音频信号包括由扬声器播放所述参考信号所产生的回声信号;
基于所述参考信号和所述第一音频信号进行第二滤波处理,得到第二回声路径向量;所述第一滤波处理的滤波更新速率不同于所述第二滤波处理的滤波更新速率;
响应于所述第一回声路径向量和所述第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。
2.根据权利要求1所述的方法,其特征在于,
所述第一滤波处理为卡尔曼滤波,所述第二滤波处理为NLMS滤波。
3.根据权利要求2所述的方法,其特征在于,
所述卡尔曼滤波为时域卡尔曼滤波。
4.根据权利要求2或3所述的方法,其特征在于,所述基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量,包括:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的第一残差信号;
根据所述当前时刻的第一残差信号和卡尔曼增益向量,对所述前一时刻的回声路径向量进行更新,得到当前时刻的所述第一回声路径向量。
5.根据权利要求2或3所述的方法,其特征在于,所述基于所述参考信号和所述第一音频信号进行第二滤波处理,得到第二回声路径向量,包括:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的误差信号;
根据所述第一音频信号和所述误差信号,得到当前时刻的第二残差信号;
根据当前时刻的第二残差信号和预先设置的自适应步长参数对前一时刻的回声路径向量进行更新,得到当前时刻的所述第二回声路径向量。
6.根据权利要求1所述的方法,其特征在于,所述响应于所述第一回声路径向量和所述第二回声路径向量的相关性不小于预设阈值,确定检测到回声路径发生变化,包括:
根据所述第一回声路径向量和所述第二回声路径向量,确定所述第一回声路径向量和所述第二回声路径向量的相关系数;
响应于所述相关系数不大于预设相关阈值,确定检测到回声路径发生变化。
7.根据权利要求1所述的方法,其特征在于,在所述确定检测到回声路径发生变化之后,所述方法还包括:
对所述第一滤波处理和所述第二滤波处理的参数进行初始化。
8.一种音频信号处理装置,其特征在于,包括:
第一滤波模块,被配置为基于参考信号和麦克风拾取的第一音频信号进行第一滤波处理,得到第一回声路径向量;其中,所述第一音频信号包括由扬声器播放所述参考信号所产生的回声信号;
第二滤波模块,被配置为基于所述参考信号和所述第一音频信号进行第二滤波处理,得到第二回声路径向量;所述第一滤波处理的滤波更新速率不同于所述第二滤波处理的滤波更新速率;
回声路径确定模块,被配置为响应于所述第一回声路径向量和所述第二回声路径向量的相关性不大于预设阈值,确定检测到回声路径发生变化。
9.根据权利要求8所述的装置,其特征在于,
所述第一滤波处理为卡尔曼滤波,所述第二滤波处理为NLMS滤波。
10.根据权利要求9所述的装置,其特征在于,所述第一滤波模块具体被配置为:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的第一残差信号;
根据所述当前时刻的第一残差信号和卡尔曼增益向量,对所述前一时刻的回声路径向量进行更新,得到当前时刻的所述第一回声路径向量。
11.根据权利要求9所述的装置,其特征在于,所述第二滤波模块具体被配置为:
根据所述参考信号和前一时刻的回声路径向量,确定当前时刻的误差信号;
根据所述第一音频信号和所述误差信号,得到当前时刻的第二残差信号;
根据当前时刻的第二残差信号和预先设置的自适应步长参数对前一时刻的回声路径向量进行更新,得到当前时刻的所述第二回声路径向量。
12.根据权利要求8所述的装置,其特征在于,所述回声路径确定模块具体被配置为:
根据所述第一回声路径向量和所述第二回声路径向量,确定所述第一回声路径向量和所述第二回声路径向量的相关系数;
响应于所述相关系数不大于预设相关阈值,确定检测到回声路径发生变化。
13.根据权利要求8所述的装置,其特征在于,还包括:
初始化模块,被配置为对所述第一滤波处理和所述第二滤波处理的参数进行初始化。
14.一种电子设备,其特征在于,包括:
扬声器和麦克风;
处理器;以及
存储器,存储有计算机指令,所述计算机指令用于使处理器执行根据权利要求1至7任一项所述的方法。
15.一种存储介质,其特征在于,存储有计算机指令,所述计算机指令用于使计算机执行根据权利要求1至7任一项所述的方法。
CN202110739121.8A 2021-06-30 2021-06-30 音频信号处理方法及装置 Active CN113362842B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110739121.8A CN113362842B (zh) 2021-06-30 2021-06-30 音频信号处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110739121.8A CN113362842B (zh) 2021-06-30 2021-06-30 音频信号处理方法及装置

Publications (2)

Publication Number Publication Date
CN113362842A true CN113362842A (zh) 2021-09-07
CN113362842B CN113362842B (zh) 2022-11-11

Family

ID=77537528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110739121.8A Active CN113362842B (zh) 2021-06-30 2021-06-30 音频信号处理方法及装置

Country Status (1)

Country Link
CN (1) CN113362842B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226380B1 (en) * 1998-02-19 2001-05-01 Nortel Networks Limited Method of distinguishing between echo path change and double talk conditions in an echo canceller
CN1937432A (zh) * 2006-09-30 2007-03-28 南京大学 基于最优参数预测的声回声抵消处理方法
JP2009033549A (ja) * 2007-07-27 2009-02-12 Toshiba Corp 音声処理装置およびエコー除去方法
CN103179296A (zh) * 2011-12-26 2013-06-26 中兴通讯股份有限公司 一种回波抵消器及回波抵消方法
US20150181017A1 (en) * 2013-12-23 2015-06-25 Imagination Technologies Limited Echo Path Change Detector
US9602922B1 (en) * 2013-06-27 2017-03-21 Amazon Technologies, Inc. Adaptive echo cancellation
CN109379501A (zh) * 2018-12-17 2019-02-22 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN111755020A (zh) * 2020-08-07 2020-10-09 南京时保联信息科技有限公司 一种立体声回声消除方法
CN112689056A (zh) * 2021-03-12 2021-04-20 浙江芯昇电子技术有限公司 一种回声消除方法及使用该方法的回声消除装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226380B1 (en) * 1998-02-19 2001-05-01 Nortel Networks Limited Method of distinguishing between echo path change and double talk conditions in an echo canceller
CN1937432A (zh) * 2006-09-30 2007-03-28 南京大学 基于最优参数预测的声回声抵消处理方法
JP2009033549A (ja) * 2007-07-27 2009-02-12 Toshiba Corp 音声処理装置およびエコー除去方法
CN103179296A (zh) * 2011-12-26 2013-06-26 中兴通讯股份有限公司 一种回波抵消器及回波抵消方法
US9602922B1 (en) * 2013-06-27 2017-03-21 Amazon Technologies, Inc. Adaptive echo cancellation
US20150181017A1 (en) * 2013-12-23 2015-06-25 Imagination Technologies Limited Echo Path Change Detector
CN109379501A (zh) * 2018-12-17 2019-02-22 杭州嘉楠耘智信息科技有限公司 一种用于回声消除的滤波方法及装置、设备、介质
CN111755020A (zh) * 2020-08-07 2020-10-09 南京时保联信息科技有限公司 一种立体声回声消除方法
CN112689056A (zh) * 2021-03-12 2021-04-20 浙江芯昇电子技术有限公司 一种回声消除方法及使用该方法的回声消除装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王杰等: "具有双方对讲保护的自适应回波消除新算法", 《控制理论与应用》 *
袁红星等: "一种低延时双端发音检测方法", 《计算机工程与应用》 *

Also Published As

Publication number Publication date
CN113362842B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
US11587574B2 (en) Voice processing method, apparatus, electronic device, and storage medium
CN109361828B (zh) 一种回声消除方法、装置、电子设备及存储介质
EP2783504B1 (en) Acoustic echo cancellation based on ultrasound motion detection
CN111986693B (zh) 音频信号的处理方法及装置、终端设备和存储介质
CN113362843B (zh) 音频信号处理方法及装置
CN106791245B (zh) 确定滤波器系数的方法及装置
CN109256145B (zh) 基于终端的音频处理方法、装置、终端和可读存储介质
CN110970015B (zh) 一种语音处理方法、装置和电子设备
CN112447184B (zh) 语音信号处理方法及装置、电子设备、存储介质
CN113362842B (zh) 音频信号处理方法及装置
CN112489653A (zh) 语音识别的方法、装置及存储介质
WO2020191512A1 (zh) 回声消除装置、回声消除方法、信号处理芯片及电子设备
WO2022198820A1 (zh) 一种语音处理方法、装置和用于语音处理的装置
CN111694539B (zh) 在听筒和扬声器之间切换的方法、装置及介质
CN111294473B (zh) 信号处理方法及装置
CN111292760B (zh) 发声状态检测方法及用户设备
CN111667842B (zh) 音频信号处理方法及装置
CN111629104B (zh) 距离判断方法、距离判断装置及计算机存储介质
CN113489855A (zh) 声音处理方法、装置、电子设备和存储介质
CN113345456B (zh) 回声分离方法、装置及存储介质
CN113470675B (zh) 音频信号处理方法及装置
CN112217948B (zh) 语音通话的回声处理方法、装置、设备及存储介质
CN113470676B (zh) 声音处理方法、装置、电子设备和存储介质
CN115883736A (zh) 回声消除方法、装置及存储介质
CN116778943A (zh) 啸叫抑制方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant