CN109727605B - 处理声音信号的方法及*** - Google Patents
处理声音信号的方法及*** Download PDFInfo
- Publication number
- CN109727605B CN109727605B CN201811645765.5A CN201811645765A CN109727605B CN 109727605 B CN109727605 B CN 109727605B CN 201811645765 A CN201811645765 A CN 201811645765A CN 109727605 B CN109727605 B CN 109727605B
- Authority
- CN
- China
- Prior art keywords
- sound signal
- signal
- processed
- spectral density
- power spectral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开一种处理声音信号的方法及***。该方法的一具体实施方式包括:获取待处理声音信号,所述待处理声音信号包括目标声音信号和干扰声音信号;确定所述干扰声音信号的功率谱密度,以及根据所述功率谱密度对所述待处理声音信号进行加权处理,以得到目标声音信号的频谱估计;根据所述频谱估计确定掩蔽阈值;确定所述待处理声音信号中干扰声音信号的频谱成分大于所述掩蔽阈值的情况下,对所述待处理声音信号进行滤波处理。该方法可使声音信号失真减少,听起来更自然,并且减少了算法计算的复杂度,并且加快了前置回声消除器的收敛速度。以及,能够提高其在强背景噪声和近端语音环境下的鲁棒性。
Description
技术领域
本发明涉及信号处理技术领域,尤其涉及一种处理声音信号的方法及 ***。
背景技术
现有技术中,对于声音信号的滤波处理,能减少“音乐噪声”,但是 存在滤波器降噪处理后的语音信号在一定程度上不太自然的问题。因为人 耳接受一个声音时很可能受到另一个声音的干扰和压制,这种现象称为掩 蔽效应。两个声音的音调或时间上越接近,掩蔽效应越严重,所以一般经 后置滤波器降噪处理后的残留噪声丢失了原有特性,在一定程度上使得听 觉测试不自然。
发明内容
本发明实施例提供一种处理声音信号的方法及***,用于至少解决上 述技术问题之一。
第一方面,本发明实施例提供一种处理声音信号的方法,包括:获取 待处理声音信号,所述待处理声音信号包括目标声音信号和干扰声音信 号;确定所述干扰声音信号的功率谱密度,以及根据所述功率谱密度对所 述待处理声音信号进行加权处理,以得到目标声音信号的频谱估计;根据 所述频谱估计确定掩蔽阈值;确定所述待处理声音信号中干扰声音信号的 频谱成分大于所述掩蔽阈值的情况下,对所述待处理声音信号进行滤波处理。
可选地,所述干扰声音信号包括噪声信号和回声信号。
可选地,根据所述功率谱密度对所述待处理声音信号进行加权处理, 以得到目标声音信号的频谱估计的步骤包括:
将所述待处理声音信号转换为频域信号E(Ω);
根据以下公式确定后验信噪比PostSNR(Ω):
PostSNR(Ω)=|E(Ω)|2/(Rbb(Ω)+Rnn(Ω)),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的 功率谱密度;
根据以下公式推导出先验信噪比PrioriSNR(Ω):
PrioriSNR(Ωi)=(1-alpha)*P(PostSNR(Ωi)-1)+alpha*|S’(Ωi-1)|2/Rbb(Ω);
其中,alpha为平滑因子,P(x)=(|x|+x)/2,S’(Ωi-1)为上一帧声音信号的频 谱估计;
进一步计算加权系数HLSA(Ω),并得到所述目标声音信号的频谱估计 S’(Ω):
S’(Ω)=E(Ω)*HLSA(Ω),
其中,theta=PostSNR(Ω)*PrioriSNR(Ω)/(PrioriSNR(Ω)+1)。
可选地,确定所述待处理声音信号中干扰声音信号的频谱成分大于所 述掩蔽阈值的情况下,对所述待处理声音信号进行滤波处理的步骤包括:
根据回声信号的功率谱密度和噪声信号的功率谱密度确定出滤波处 理的加权系数H(Ω):
H(Ω)=min(1,sqrt(RTT(Ω)/(Rbb(Ω)+Rnn(Ω))) +(zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω))/(Rbb(Ω)+Rnn(Ω))),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的 功率谱密度,zeta_b为回声衰减系数,zeta_n为噪声衰减系数。
可选地,根据所述频谱估计确定掩蔽阈值的步骤包括:
根据频谱估计,确定所述待处理声音信号的临界频带的功率谱密度 B(k)和扩展临界频带频谱C(k):
C(k)=B(k)*SF(k),
其中,SF(k)=15.81+7.5*k+0.474-17.5*sqrt(1+(k+0.474)2),bh,bl分别为 各临界频带的上下限频率;
根据扩展临界频带频谱C(k)和偏移函数O(k),确定初步掩蔽阈值T(k):
T(k)=10lg(C(k))-(O(k)/10),
其中,偏移函数O(k)=belta*(14.5+k)+(1-belta)*5.5;belta为音调系数;
根据初步掩蔽阈值T(k)和绝对听阈Tabs(k),确定掩蔽阈值RTT(Ω):
RTT(Ω)=min(T(k),Tabs(k)),
其中,Tabs(k)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4。
可选地,获取待处理声音信号的步骤包括:
接收初始声音信号;
对所述初始声音信号进行回声消除,以得到所述待处理声音信号。
可选地,所述待处理声音信号为语音信号。
第二方面,本发明实施例提供一种处理声音信号的***,包括:信号 获取模块,用于获取待处理声音信号,所述待处理声音信号包括目标声音 信号和干扰声音信号;频谱估计确定模块,用于确定所述干扰声音信号的 功率谱密度,以及根据所述功率谱密度对所述待处理声音信号进行加权处 理,以得到目标声音信号的频谱估计;掩蔽阈值确定模块,用于根据所述 频谱估计确定掩蔽阈值;滤波处理模块,用于确定所述待处理声音信号中 干扰声音信号的频谱成分大于所述掩蔽阈值的情况下,对所述待处理声音 信号进行滤波处理。
可选地,所述干扰声音信号包括噪声信号和回声信号。
可选地,所述频谱估计确定模块还用于,将所述待处理声音信号转换 为频域信号E(Ω);以及,根据以下公式确定后验信噪比PostSNR(Ω):
PostSNR(Ω)=|E(Ω)|2/(Rbb(Ω)+Rnn(Ω)),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的 功率谱密度;
根据以下公式推导出先验信噪比PrioriSNR(Ω):
PrioriSNR(Ωi)=(1-alpha)*P(PostSNR(Ωi)-1)+alpha*|S’(Ωi-1)|2/Rbb(Ω);
其中,alpha为平滑因子,P(x)=(|x|+x)/2,S’(Ωi-1)为上一帧声音信号的频 谱估计;
进一步计算加权系数HLSA(Ω),并得到所述目标声音信号的频谱估计 S’(Ω):
S’(Ω)=E(Ω)*HLSA(Ω),
其中,theta=PostSNR(Ω)*PrioriSNR(Ω)/(PrioriSNR(Ω)+1)。
可选地,掩蔽阈值确定模块还用于,根据频谱估计,确定所述待处理 声音信号的临界频带的功率谱密度B(k)和扩展临界频带频谱C(k):
C(k)=B(k)*SF(k),
其中,SF(k)=15.81+7.5*k+0.474-17.5*sqrt(1+(k+0.474)2),bh,bl分别为 各临界频带的上下限频率;
根据扩展临界频带频谱C(k)和偏移函数O(k),确定初步掩蔽阈值T(k):
T(k)=10lg(C(k))-(O(k)/10),
其中,偏移函数O(k)=belta*(14.5+k)+(1-belta)*5.5;belta为音调系数;
根据初步掩蔽阈值T(k)和绝对听阈Tabs(k),确定掩蔽阈值RTT(Ω):
RTT(Ω)=min(T(k),Tabs(k)),
其中,Tabs(k)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4。
可选地,所述滤波处理模块还用于,根据回声信号的功率谱密度和噪 声信号的功率谱密度确定出滤波处理的加权系数H(Ω):
H(Ω)=min(1,sqrt(RTT(Ω)/(Rbb(Ω)+Rnn(Ω))) +(zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω))/(Rbb(Ω)+Rnn(Ω))),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的 功率谱密度,zeta_b为回声衰减系数,zeta_n为噪声衰减系数。
可选地,所述信号获取模块还用于,接收初始声音信号;对所述初始 声音信号进行回声消除,以得到所述待处理声音信号。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有 一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但 不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发 明上述任一项处理声音信号的方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所 述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述 至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使 所述至少一个处理器能够执行本发明上述任一项处理声音信号的方法及 ***。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程 序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指 令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项处理 声音信号的方法及***。
本发明实施例的有益效果在于:可使声音信号失真减少,听起来更自 然,通过计算的干扰声音信号的功率谱密度PSD,进一步确定出掩蔽阈值, 该过程减少了算法计算的复杂度。并且降低了对前置回声消除滤波器的阶 数要求,进而加快了前置回声消除器的收敛速度。以及,能够提高其在强 背景噪声和近端语音环境下的鲁棒性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中 所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的 前提下,还可以根据这些附图获得其他的附图。
图1为本发明的处理声音信号的方法的一实施例的流程图;
图2为本发明的处理声音信号的方法的另一实施例的流程图;
图3为本发明的处理语音信号的方法实现***的一实施例的示意图;
图4为本发明的处理语音信号的方法的一实施例的示意图;
图5为本发明的处理声音信号的***的一实施例的示意图;
图6为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的 特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描 述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象 数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计 算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连 接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于 包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“***”等指应用于计算机的相关实体, 如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如, 元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、 执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本 程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程 中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机 之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多 个数据包的信号,例如,来自一个与本地***、分布式***中另一元件交 互的,和/或在因特网的网络通过信号与其它***交互的数据的信号通过 本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术 语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定 要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而 且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出 的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要 素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除 在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的实施例提供一种处理声音信号的方法,包括:
步骤S11:获取待处理声音信号,待处理声音信号包括目标声音信号 和干扰声音信号。
步骤S12:确定干扰声音信号的功率谱密度,根据功率谱密度对待处 理声音信号进行加权处理,以得到目标声音信号的频谱估计。具体的,确 定干扰声音信号的功率谱密度之后,确定后验及先验信噪比,以及根据该 信噪比计算加权系数并对待处理声音信号进行加权处理,得到目标声音信 息的频谱估计。
步骤S13:根据频谱估计确定掩蔽阈值。
步骤S14:确定待处理声音信号中干扰声音信号的频谱成分大于掩蔽 阈值的情况下,对待处理声音信号进行滤波处理。
以及,在本发明实施例中,对于掩蔽阈值的计算,具体的:
根据频谱估计,确定待处理声音信号的临界频带的功率谱密度B(k)和 扩展临界频带频谱C(k):
C(k)=B(k)*SF(k),
其中,SF(k)=15.81+7.5*k+0.474-17.5*sqrt(1+(k+0.474)2),bh,bl分别为 各临界频带的上下限频率;
根据扩展临界频带频谱C(k)和偏移函数O(k),确定初步掩蔽阈值T(k):
T(k)=10lg(C(k))-(O(k)/10),
其中,偏移函数O(k)=belta*(14.5+k)+(1-belta)*5.5;belta为音调系数;
根据初步掩蔽阈值T(k)和绝对听阈Tabs(k),确定掩蔽阈值RTT(Ω):
RTT(Ω)=min(T(k),Tabs(k)),
其中,Tabs(k)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4。
本发明实施例,通过计算的干扰声音信号的功率谱密度PSD,进一步 确定出掩蔽阈值,该过程减少了算法计算的复杂度。并且降低了对前置回 声消除滤波器的阶数要求,进而加快了前置回声消除器的收敛速度。以及, 能够提高其在强背景噪声和近端语音环境下的鲁棒性。
如图2所示,本发明的实施例提供一种处理声音信号的方法,包括:
步骤S21:接收初始声音信号。该初始声音信号可通过麦克风等收音 设备拾取。
步骤S22:通过回声消除器对初始声音信号进行回声消除,以得到待 处理声音信号。
步骤S23:确定干扰声音信号的功率谱密度,根据功率谱密度对待处 理声音信号进行加权处理,以得到目标声音信号的频谱估计。
步骤S24:根据频谱估计确定掩蔽阈值。
步骤S25:确定待处理声音信号中干扰声音信号的频谱成分大于掩蔽 阈值的情况下,对待处理声音信号进行滤波处理。
本发明实施例,接收到初始信号之后,先对其初步进行回声消除,可 提高声音信号的处理精度。
如果待处理声音信号中包括噪声信号和回声信号,则根据功率谱密度 对待处理声音信号进行加权处理,以得到目标声音信号的频谱估计的过程 中:
将待处理声音信号转换为频域信号E(Ω);
根据以下公式确定后验信噪比PostSNR(Ω):
PostSNR(Ω)=|E(Ω)|2/(Rbb(Ω)+Rnn(Ω)),
其中,Rbb(Ω)为回声信号的功率谱密度,Rnn(Ω)为噪声信号的功率谱密 度;
根据以下公式推导出先验信噪比PrioriSNR(Ω):
PrioriSNR(Ωi)=(1-alpha)*P(PostSNR(Ωi)-1)+alpha*|S’(Ωi-1)|2/Rbb(Ω);
其中,alpha为平滑因子,P(x)=(|x|+x)/2,S’(Ωi-1)为上一帧声音信号的频 谱估计;
进一步计算加权系数HLSA(Ω),并得到目标声音信号的频谱估计S’(Ω):
S’(Ω)=E(Ω)*HLSA(Ω),
其中,theta=PostSNR(Ω)*PrioriSNR(Ω)/(PrioriSNR(Ω)+1)。
确定待处理声音信号中干扰声音信号的频谱成分大于掩蔽阈值的情 况下,对待处理声音信号进行滤波处理的步骤包括:
根据回声信号的功率谱密度和噪声信号的功率谱密度确定出滤波处 理的加权系数H(Ω):
H(Ω)=min(1,sqrt(RTT(Ω)/(Rbb(Ω)+Rnn(Ω))) +(zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω))/(Rbb(Ω)+Rnn(Ω))),
其中,Rbb(Ω)为回声信号的功率谱密度,Rnn(Ω)为噪声信号的功率谱密 度,zeta_b为回声衰减系数,zeta_n为噪声衰减系数。
本发明实施例,保留了原有的背景噪声特性,残留回声听觉测试更像 噪声,语音失真减少,使得声音听起来更自然。并且降低了对前置回声消 除滤波器的阶数要求,进而加快了前置回声消除器的收敛速度同时降低了 回声消除器的算法计算复杂度。以及,能够提高其在强背景噪声和近端语 音环境下的鲁棒性。
如图3所示,在本发明实施例中,本发明的处理语音信号的方法实现 ***中远端麦克风传来语音信号,由扬声器示出,并且构成初始回声信号 d(k)。近端麦克风拾取语音信号y(k),其中包括纯语音信号s(k)即目标声 音信号,噪声信号n(k),以及扬声器经LRM反馈的初始回声信号d(k)。 首先,回声消除器C对近端麦克风拾取的语音信号y(k)进行回声消除,滤 波器H进一步进行滤波处理。
如图4所示,本发明的实施例提供一种处理语音信号的方法,包括:
近端麦克风拾取语音信号y(k),其中包括纯语音信号s(k),噪声信号 n(k),以及扬声器经LRM反馈的初始回声信号d(k)。在本发明实施例中, 该纯语音信号为目标信息。
回声消除器对近端麦克风拾取的语音信号y(k)进行回声消除,得到回 声消除后的语音信号e(k)。该回声消除后的语音信号e(k)包括的干扰声音 信号为噪声信号和残留回声信号。
通过统计或自相关方法估计出噪声PSD Rnn(Ω)和残留回声PSD Rbb(Ω)。
后置滤波器对回声消除后的近端麦克风信号进行加权处理,得到纯语 音信号的频谱初步估计S’(Ω)。具体过程包括:
a)计算后验信噪比:
PostSNR(Ω)=|E(Ω)|2/(Rbb(Ω)+Rnn(Ω))
b)根据判决引导法推导出先验信噪比:
PrioriSNR(Ωi)=(1-alpha)*P(PostSNR(Ωi)-1)+alpha*|S’(Ωi-1)|2/Rbb(Ω)
其中alpha为平滑因子,P(x)=(|x|+x)/2,S’(Ωi-1)为上一帧语音信号的初步 估计。
c)定义theta=PostSNR(Ω)*PrioriSNR(Ω)/(PrioriSNR(Ω)+1),然后计算加权系数:
d)加权得到语音信号的初步估计S’(Ω)=E(Ω)*HLSA(Ω)
然后,根据语音信号频谱初步估计S’(Ω)估算出掩蔽阈值RTT(Ω)。具体 过程包括:
a)对信号进行临界频带分析,按照位置理论,把人耳看成离散的带 通滤波器组,一个临界频带被称为一个Bark,则
其中,bh、bl分别为各临界频带的上下限频率,k与采样率有关。
b)计算扩展函数SF(k):
SF(k)=15.81+7.5*k+0.474-17.5*sqrt(1+(k+0.474)2)
由于临界频带间的相互影响,扩展扩展临界频带频谱可表示为 C(k)=B(k)*SF(k)。
c)计算掩蔽噪声和残留回声的掩蔽阈值RTT(Ω)。
因存在两种掩蔽阈值,分别是:纯音掩蔽噪声及残留回声的阈值,为 C(k)-(14.5+k)db,以及噪声及残留回声掩蔽纯音的阈值,为C(k)-5.5db。
因此,确定信号类似纯音还是噪声与残留回声,进而需要定义谱平坦 度测度SFM:
SFM=10*lg(G/A)
其中,G,A分别为信号功率谱密度的几何平均值和算术平均值。
以及,定义音调系数belta=min(SFM/SFMmax,1)
通过belta计算各个频带掩蔽能量的偏移函数O(k):
O(k)=belta*(14.5+k)+(1-belta)*5.5
则掩蔽阈值大小为:T(k)=10lg(C(k))-(O(k)/10)
将计算得到的扩展函数阈值返回到Bark域中
与人耳听力绝对阈值比较,如果计算出来的掩蔽阈值低于人耳的绝对 听阈的话,就取绝对听阈的值,其中,绝对听阈Tabs(k)定义为:
Tabs(k)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4
所以,最终的掩蔽阈值为RTT(Ω)=min(T(k),Tabs(k))。
进一步,对回声消除后频域麦克风信号E(Ω)进行心理声学加权滤波。 用FFT(快速傅立叶变换)能将时域的数字信号转换为频域信号,以及判断 回声消除后频域麦克风信号E(Ω)中的噪声频谱成分是否小于掩蔽阈值,若 是则保留不处理;若否则对相应噪声频谱成分根据传统MMSE-LSA进行 衰减。
其中,心理声学加权滤波器系数具体推导过程如下:
心理声学自适应加权滤波的设计目标是在残留回声失真与噪声失真 之和等于掩蔽阈值时近端语音信号失真最少,所以最优心理声学加权滤波 器系数H(Ω)满足:
[zeta_b–H(Ω)]2Rbb(Ω)+[zeta_n–H(Ω)]2Rnn(Ω)=RTT(Ω)
其中,zeta_b为残留回声衰减系数,通常取20lg(zeta_b)=-35;
zeta_n为噪声衰减系数,通常取20lg(zeta_n)=-15.
由于0<=H(Ω)<=1,解上述二次等式H(Ω)取正值得:
H(Ω)=min(1,[zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω)+
sqrt([Rbb(Ω)+Rnn(Ω)]*RTT(Ω)-[zeta_b-zeta_n]2*Rbb(Ω)*Rbb(Ω))]/(Rbb(Ω)+ Rnn(Ω)))
由于zeta_b,zeta_n都远小于1且通常相对于Rbb(Ω)及Rbb(Ω)来说RTT(Ω) 不是太小,所以上式可化简为:
H(Ω)=min(1,sqrt(RTT(Ω)/(Rbb(Ω)+Rnn(Ω))) +(zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω))/(Rbb(Ω)+Rnn(Ω)))
本发明实施例,由于心理声学后置滤波器还可以降低对前置回声消除 自适应滤波器的阶数要求,所以可以加快回声消除器的收敛速度,减少算 法计算复杂度,且能够提高其在强背景噪声和近端语音环境下的鲁棒性。
以及,在后置心理声学加权滤波器中融合残留回声消除,利用残留回 声去自适应更新滤波器加权系数,进一步消除声学回声。另外,在掩蔽阈 值以下的噪声频谱和残留回声成分由于人耳掩蔽效应是听不见的,所以这 部分噪声频谱和残留回声成分不需要衰减,只需要使用传统的后置自适应 滤波方法对没有被语音信号掩蔽的噪声频谱和残留回声成分进行衰减,从 而很好地保留了原有的背景噪声特性,残留回声听觉测试更像噪声,语音失真减少,听起来更自然。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都 表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受 所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序 或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实 施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须 的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没 有详述的部分,可以参见其他实施例的相关描述。
如图5所示,本发明的实施例还提供一种处理声音信号的***500,包 括:
信号获取模块510,用于获取待处理声音信号,待处理声音信号包括 目标声音信号和干扰声音信号。
频谱估计确定模块520,用于确定干扰声音信号的功率谱密度,以及 根据功率谱密度对待处理声音信号进行加权处理,以得到目标声音信号的 频谱估计。
掩蔽阈值确定模块530,用于根据频谱估计确定掩蔽阈值。
滤波处理模块540,用于确定待处理声音信号中干扰声音信号的频谱 成分大于掩蔽阈值的情况下,对待处理声音信号进行滤波处理。
进一步,干扰声音信号包括噪声信号和回声信号。
频谱估计确定模块还用于,将待处理声音信号转换为频域信号E(Ω); 以及,根据以下公式确定后验信噪比PostSNR(Ω):
PostSNR(Ω)=|E(Ω)|2/(Rbb(Ω)+Rnn(Ω)),
其中,Rbb(Ω)为回声信号的功率谱密度,Rnn(Ω)为噪声信号的功率谱密 度;
根据以下公式推导出先验信噪比PrioriSNR(Ω):
PrioriSNR(Ωi)=(1-alpha)*P(PostSNR(Ωi)-1)+alpha*|S’(Ωi-1)|2/Rbb(Ω);
其中,alpha为平滑因子,P(x)=(|x|+x)/2,S’(Ωi-1)为上一帧声音信号的频 谱估计;
进一步计算加权系数HLSA(Ω),并得到目标声音信号的频谱估计S’(Ω):
S’(Ω)=E(Ω)*HLSA(Ω),
其中,theta=PostSNR(Ω)*PrioriSNR(Ω)/(PrioriSNR(Ω)+1)。
掩蔽阈值确定模块还用于,根据频谱估计,确定待处理声音信号的临 界频带的功率谱密度B(k)和扩展临界频带频谱C(k):
C(k)=B(k)*SF(k),
其中,SF(k)=15.81+7.5*k+0.474-17.5*sqrt(1+(k+0.474)2),bh,bl分别为 各临界频带的上下限频率;
根据扩展临界频带频谱C(k)和偏移函数O(k),确定初步掩蔽阈值T(k):
T(k)=10lg(C(k))-(O(k)/10),
其中,偏移函数O(k)=belta*(14.5+k)+(1-belta)*5.5;belta为音调系数;
根据初步掩蔽阈值T(k)和绝对听阈Tabs(k),确定掩蔽阈值RTT(Ω):
RTT(Ω)=min(T(k),Tabs(k)),
其中,Tabs(k)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4。
滤波处理模块还用于,根据回声信号的功率谱密度和噪声信号的功率 谱密度确定出滤波处理的加权系数H(Ω):
H(Ω)=min(1,sqrt(RTT(Ω)/(Rbb(Ω)+Rnn(Ω))) +(zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω))/(Rbb(Ω)+Rnn(Ω))),
其中,Rbb(Ω)为回声信号的功率谱密度,Rnn(Ω)为噪声信号的功率谱密 度,zeta_b为回声衰减系数,zeta_n为噪声衰减系数。
信号获取模块还用于,接收初始声音信号;对初始声音信号进行回声 消除,以得到待处理声音信号。
本发明实施例,通过计算的干扰声音信号的功率谱密度PSD,进一步 确定出掩蔽阈值,该过程减少了算法计算的复杂度。并且降低了对前置回 声消除滤波器的阶数要求,进而加快了前置回声消除器的收敛速度。以及, 能够提高其在强背景噪声和近端语音环境下的鲁棒性。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介 质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指 令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读 取并执行,以用于执行本发明上述任一项处理声音信号的方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计 算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序, 所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述 计算机执行上述任一项处理声音信号的方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少 一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述 存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少 一个处理器执行,以使所述至少一个处理器能够执行处理声音信号的方 法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计 算机程序,其特征在于,该程序被处理器执行时处理声音信号的方法。
上述本发明实施例的处理声音信号的***可用于执行本发明实施例 的处理声音信号的方法,并相应的达到上述本发明实施例的实现处理声音 信号的方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过 硬件处理器(hardware processor)来实现相关功能模块。
图6是本申请另一实施例提供的执行处理声音信号的方法的电子设备 的硬件结构示意图,如图6所示,该设备包括:
一个或多个处理器610以及存储器620,图6中以一个处理器610为 例。
执行处理声音信号的方法的设备还可以包括:输入装置630和输出装 置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总 线或者其他方式连接,图6中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易 失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中 的处理声音信号的方法对应的程序指令/模块。处理器610通过运行存储在 存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各 种功能应用以及数据处理,即实现上述方法实施例处理声音信号的方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可 存储操作***、至少一个功能所需要的应用程序;存储数据区可存储根据 处理声音信号的装置的使用所创建的数据等。此外,存储器620可以包括 高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存 储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存 储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器 可以通过网络连接至处理声音信号的装置。上述网络的实例包括但不限于 互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与处理声音信 号的装置的用户设置以及功能控制有关的信号。输出装置640可包括显示 屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者 多个处理器610执行时,执行上述任意方法实施例中的处理声音信号的方 法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功 能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请 实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供 话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒 体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算 和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC 设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备 包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具 和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、 内存、***总线等,服务器和通用的计算机架构类似,但是由于需要提供 高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、 可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说 明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以 是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多 个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现 本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各 实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬 件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的 部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算 机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使 得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行 各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对 其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通 技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修 改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不 使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (11)
1.一种处理声音信号的方法,其特征在于,包括:
获取待处理声音信号,所述待处理声音信号包括目标声音信号和干扰声音信号,所述干扰声音信号包括噪声信号和回声信号;
确定所述干扰声音信号的功率谱密度;
将所述待处理声音信号转换为频域信号E(Ω);
根据以下公式确定后验信噪比PostSNR(Ω):
PostSNR(Ω)=|E(Ω)|2/(Rbb(Ω)+Rnn(Ω)),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的功率谱密度;
根据以下公式推导出先验信噪比PrioriSNR(Ω):
PrioriSNR(Ωi)=(1-alpha)*P(PostSNR(Ωi)-1)+alpha*|S’(Ωi-1)|2/Rbb(Ω);
其中,alpha为平滑因子,P(x)=(|x|+x)/2,S’(Ωi-1)为上一帧声音信号的频谱估计;
进一步计算加权系数HLSA(Ω),并得到所述目标声音信号的频谱估计S’(Ω):
S’(Ω)=E(Ω)*HLSA(Ω),
其中,theta=PostSNR(Ω)*PrioriSNR(Ω)/(PrioriSNR(Ω)+1);
根据所述频谱估计确定掩蔽阈值;
确定所述待处理声音信号中干扰声音信号的频谱成分大于所述掩蔽阈值的情况下,对所述待处理声音信号进行滤波处理。
2.根据权利要求1所述的方法,其特征在于,确定所述待处理声音信号中干扰声音信号的频谱成分大于所述掩蔽阈值的情况下,对所述待处理声音信号进行滤波处理的步骤包括:
根据回声信号的功率谱密度和噪声信号的功率谱密度确定出滤波处理的加权系数H(Ω):
H(Ω)=min(1,sqrt(RTT(Ω)/(Rbb(Ω)+Rnn(Ω)))+(zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω))/(Rbb(Ω)+Rnn(Ω))),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的功率谱密度,zeta_b为回声衰减系数,zeta_n为噪声衰减系数。
3.根据权利要求1所述的方法,其特征在于,根据所述频谱估计确定掩蔽阈值的步骤包括:
根据频谱估计,确定所述待处理声音信号的临界频带的功率谱密度B(k)和扩展临界频带频谱C(k):
C(k)=B(k)*SF(k),
其中,SF(k)=15.81+7.5*k+0.474-17.5*sqrt(1+(k+0.474)2),bh,bl分别为各临界频带的上下限频率;
根据扩展临界频带频谱C(k)和偏移函数O(k),确定初步掩蔽阈值T(k):
T(k)=10lg(C(k))-(O(k)/10),
其中,偏移函数O(k)=belta*(14.5+k)+(1-belta)*5.5;belta为音调系数;
根据初步掩蔽阈值T(k)和绝对听阈Tabs(k),确定掩蔽阈值RTT(Ω):
RTT(Ω)=min(T(k),Tabs(k)),
其中,Tabs(k)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4。
4.根据权利要求1所述的方法,其特征在于,获取待处理声音信号的步骤包括:
接收初始声音信号;
对所述初始声音信号进行回声消除,以得到所述待处理声音信号。
5.根据权利要求1所述的方法,其特征在于,所述待处理声音信号为语音信号。
6.一种处理声音信号的***,其特征在于,包括:
信号获取模块,用于获取待处理声音信号,所述待处理声音信号包括目标声音信号和干扰声音信号,所述干扰声音信号包括噪声信号和回声信号;
频谱估计确定模块,用于确定所述干扰声音信号的功率谱密度,以及根据所述功率谱密度对所述待处理声音信号进行加权处理,以得到目标声音信号的频谱估计;
掩蔽阈值确定模块,用于根据所述频谱估计确定掩蔽阈值;
滤波处理模块,用于确定所述待处理声音信号中干扰声音信号的频谱成分大于所述掩蔽阈值的情况下,对所述待处理声音信号进行滤波处理;
所述频谱估计确定模块还用于,将所述待处理声音信号转换为频域信号E(Ω);以及,根据以下公式确定后验信噪比PostSNR(Ω):
PostSNR(Ω)=|E(Ω)|2/(Rbb(Ω)+Rnn(Ω)),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的功率谱密度;
根据以下公式推导出先验信噪比PrioriSNR(Ω):
PrioriSNR(Ωi)=(1-alpha)*P(PostSNR(Ωi)-1)+alpha*|S’(Ωi-1)|2/Rbb(Ω);
其中,alpha为平滑因子,P(x)=(|x|+x)/2,S’(Ωi-1)为上一帧声音信号的频谱估计;
进一步计算加权系数HLSA(Ω),并得到所述目标声音信号的频谱估计S’(Ω):
S’(Ω)=E(Ω)*HLSA(Ω),
其中,theta=PostSNR(Ω)*PrioriSNR(Ω)/(PrioriSNR(Ω)+1)。
7.根据权利要求6所述的***,其特征在于,掩蔽阈值确定模块还用于,根据频谱估计,确定所述待处理声音信号的临界频带的功率谱密度B(k)和扩展临界频带频谱C(k):
C(k)=B(k)*SF(k),
其中,SF(k)=15.81+7.5*k+0.474-17.5*sqrt(1+(k+0.474)2),bh,bl分别为各临界频带的上下限频率;
根据扩展临界频带频谱C(k)和偏移函数O(k),确定初步掩蔽阈值T(k):
T(k)=10lg(C(k))-(O(k)/10),
其中,偏移函数O(k)=belta*(14.5+k)+(1-belta)*5.5;belta为音调系数;
根据初步掩蔽阈值T(k)和绝对听阈Tabs(k),确定掩蔽阈值RTT(Ω):
RTT(Ω)=min(T(k),Tabs(k)),
其中,Tabs(k)=3.64f-0.8-6.5exp(f-3.3)2+10-3f4。
8.根据权利要求6所述的***,其特征在于,所述滤波处理模块还用于,根据回声信号的功率谱密度和噪声信号的功率谱密度确定出滤波处理的加权系数H(Ω):
H(Ω)=min(1,sqrt(RTT(Ω)/(Rbb(Ω)+Rnn(Ω)))+(zeta_b*Rbb(Ω)+zeta_n*Rnn(Ω))/(Rbb(Ω)+Rnn(Ω))),
其中,Rbb(Ω)为所述回声信号的功率谱密度,Rnn(Ω)为所述噪声信号的功率谱密度,zeta_b为回声衰减系数,zeta_n为噪声衰减系数。
9.根据权利要求6所述的***,其特征在于,所述信号获取模块还用于,接收初始声音信号;对所述初始声音信号进行回声消除,以得到所述待处理声音信号。
10.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。
11.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811645765.5A CN109727605B (zh) | 2018-12-29 | 2018-12-29 | 处理声音信号的方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811645765.5A CN109727605B (zh) | 2018-12-29 | 2018-12-29 | 处理声音信号的方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109727605A CN109727605A (zh) | 2019-05-07 |
CN109727605B true CN109727605B (zh) | 2020-06-12 |
Family
ID=66298550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811645765.5A Active CN109727605B (zh) | 2018-12-29 | 2018-12-29 | 处理声音信号的方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109727605B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110931007B (zh) * | 2019-12-04 | 2022-07-12 | 思必驰科技股份有限公司 | 语音识别方法及*** |
CN111524498B (zh) * | 2020-04-10 | 2023-06-16 | 维沃移动通信有限公司 | 滤波方法、装置及电子设备 |
CN116320123B (zh) * | 2022-08-11 | 2024-03-08 | 荣耀终端有限公司 | 一种语音信号的输出方法和电子设备 |
CN117392994B (zh) * | 2023-12-12 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 一种音频信号处理方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993670A (zh) * | 2017-11-23 | 2018-05-04 | 华南理工大学 | 基于统计模型的麦克风阵列语音增强方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2226794B1 (en) * | 2009-03-06 | 2017-11-08 | Harman Becker Automotive Systems GmbH | Background noise estimation |
EP2284831B1 (en) * | 2009-07-30 | 2012-03-21 | Nxp B.V. | Method and device for active noise reduction using perceptual masking |
CN101777349B (zh) * | 2009-12-08 | 2012-04-11 | 中国科学院自动化研究所 | 基于听觉感知特性的信号子空间麦克风阵列语音增强方法 |
CN101894563B (zh) * | 2010-07-15 | 2013-03-20 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
CN103824564A (zh) * | 2014-03-17 | 2014-05-28 | 上海申磬产业有限公司 | 一种电动轮椅语音识别过程中的语音增强方法 |
CN105280195B (zh) * | 2015-11-04 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
CN107393550B (zh) * | 2017-07-14 | 2021-03-19 | 深圳永顺智信息科技有限公司 | 语音处理方法及装置 |
US10079026B1 (en) * | 2017-08-23 | 2018-09-18 | Cirrus Logic, Inc. | Spatially-controlled noise reduction for headsets with variable microphone array orientation |
CN108564963B (zh) * | 2018-04-23 | 2019-10-18 | 百度在线网络技术(北京)有限公司 | 用于增强语音的方法和装置 |
CN108735225A (zh) * | 2018-04-28 | 2018-11-02 | 南京邮电大学 | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 |
CN108735229B (zh) * | 2018-06-12 | 2020-06-19 | 华南理工大学 | 基于信噪比加权的幅度与相位联合补偿抗噪语音增强方法 |
-
2018
- 2018-12-29 CN CN201811645765.5A patent/CN109727605B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993670A (zh) * | 2017-11-23 | 2018-05-04 | 华南理工大学 | 基于统计模型的麦克风阵列语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109727605A (zh) | 2019-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109727605B (zh) | 处理声音信号的方法及*** | |
CN109727604B (zh) | 用于语音识别前端的频域回声消除方法及计算机储存介质 | |
JP3568922B2 (ja) | エコー処理装置 | |
WO2018188282A1 (zh) | 回声消除方法、装置、会议平板及计算机存储介质 | |
CN111341336B (zh) | 一种回声消除方法、装置、终端设备及介质 | |
EP2761617B1 (en) | Processing audio signals | |
EP3791565B1 (en) | Method and apparatus utilizing residual echo estimate information to derive secondary echo reduction parameters | |
CN111768796B (zh) | 一种声学回波消除与去混响方法及装置 | |
CN111951819A (zh) | 回声消除方法、装置及存储介质 | |
US20160066087A1 (en) | Joint noise suppression and acoustic echo cancellation | |
CN110176244B (zh) | 回声消除方法、装置、存储介质和计算机设备 | |
US20090238373A1 (en) | System and method for envelope-based acoustic echo cancellation | |
US8306821B2 (en) | Sub-band periodic signal enhancement system | |
US11349525B2 (en) | Double talk detection method, double talk detection apparatus and echo cancellation system | |
CN109102821B (zh) | 时延估计方法、***、存储介质及电子设备 | |
CN111524498B (zh) | 滤波方法、装置及电子设备 | |
KR102190833B1 (ko) | 에코 억제 | |
CN111199748A (zh) | 回声消除方法、装置、设备以及存储介质 | |
US20160073209A1 (en) | Maintaining spatial stability utilizing common gain coefficient | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
CN103370741B (zh) | 处理音频信号 | |
CN106297816B (zh) | 一种回声消除的非线性处理方法和装置及电子设备 | |
CN111756906B (zh) | 一种语音信号的回声抑制方法、装置和计算机可读介质 | |
CN111445916B (zh) | 一种会议***中音频去混响方法、装置及存储介质 | |
CN111989934B (zh) | 回声消除装置、回声消除方法、信号处理芯片及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Patentee after: Sipic Technology Co.,Ltd. Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Patentee before: AI SPEECH Ltd. |
|
CP01 | Change in the name or title of a patent holder |