CN113689878A - 回声消除方法、回声消除装置及计算机可读存储介质 - Google Patents
回声消除方法、回声消除装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113689878A CN113689878A CN202110846655.0A CN202110846655A CN113689878A CN 113689878 A CN113689878 A CN 113689878A CN 202110846655 A CN202110846655 A CN 202110846655A CN 113689878 A CN113689878 A CN 113689878A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- signal
- mask
- sample
- time domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000000873 masking effect Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 91
- 230000006870 function Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- YVPYQUNUQOZFHG-UHFFFAOYSA-N amidotrizoic acid Chemical compound CC(=O)NC1=C(I)C(NC(C)=O)=C(I)C(C(O)=O)=C1I YVPYQUNUQOZFHG-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/175—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
- G10K11/1752—Masking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种回声消除方法、回声消除装置及计算机可读存储介质,该回声消除方法包括:获取近端采集的时域接收信号以及远端发送的时域参考信号;分别将时域接收信号以及时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号;基于频域接收信号的至少部分特征以及频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号;基于频域掩膜信号,对频域接收信号进行声学掩蔽,得到频域目标信号;将频域目标信号从频域转换到时域,得到时域目标信号。本申请所提供的回声消除方法能够保证回声消除的效果。
Description
技术领域
本申请涉及语音信号处理技术领域,特别是涉及一种回声消除方法、回声消除装置及计算机可读存储介质。
背景技术
在视频会议***中,由于麦克风和扬声器的声学耦合,往往会产生影响语音交互的声学回声。传统的回声消除方法包括:首先通过有限长度的线性滤波器来估计声学环境中扬声器到麦克风的声学路径,从而对线性回声进行消除,之后再对残余回声施加一个增益值而去除剩下的非线性回声。传统方法在信回比低、非线性失真强的场景下,无法准确估计残余回声的能力,从而容易得到一个错误的增益值,最终导致视频会议***无法抑制残余回声且近端语音失真。因此利用传统方法进行回声消除的方法不佳。
发明内容
本申请提供一种回声消除方法、回声消除装置及计算机可读存储介质,能够保证回声消除的效果。
本申请实施例第一方面提供了一种回声消除方法,所述方法包括:获取近端采集的时域接收信号以及远端发送的时域参考信号;分别将所述时域接收信号以及所述时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号;基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号;基于所述频域掩膜信号,对所述频域接收信号进行声学掩蔽,得到频域目标信号;将所述频域目标信号从频域转换到时域,得到时域目标信号。
本申请实施例第二方面提供了一种回声消除装置,所述回声消除装置包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现:获取近端采集的时域接收信号以及远端发送的时域参考信号;分别将所述时域接收信号以及所述时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号;基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号;基于所述频域掩膜信号,对所述频域接收信号进行声学掩蔽,得到频域目标信号;将所述频域目标信号从频域转换到时域,得到时域目标信号。
本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被处理器执行以实现:获取近端采集的时域接收信号以及远端发送的时域参考信号;分别将所述时域接收信号以及所述时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号;基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号;基于所述频域掩膜信号,对所述频域接收信号进行声学掩蔽,得到频域目标信号;将所述频域目标信号从频域转换到时域,得到时域目标信号。
有益效果是:本申请首先基于频域接收信号和频域参考信号得到频域掩膜信号,然后利用频域掩膜信号对频域接收信号进行声学掩蔽,而频域掩膜信号包括实部掩膜和虚部掩膜,因此在得到频域目标信号的过程中,同时考虑了频域接收信号的相位信息和幅度信息,相比现有技术中只考虑信号的幅度信息(现有技术中将频域目标信号的相位谱设置为与频域接收信号的相位谱相同),本申请在低信回比、对讲设备非线性失真强的情况下,也能够很好地进行回声消除,从而保证回声消除的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请回声消除方法一实施方式的流程示意图;
图2是本申请预先训练的神经网络的结构示意图;
图3是本申请回声消除方法另一实施方式的部分流程示意图;
图4是对应图3方法的简易框架图;
图5是本申请回声消除装置一实施方式的结构示意图;
图6是本申请回声消除装置另一实施方式的结构示意图;
图7是本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参阅图1,图1是本申请回声消除方法一实施方式的流程示意图,该方法包括:
S110:获取近端采集的时域接收信号以及远端发送的时域参考信号。
具体地,近端是需要对其接收的语音信号进行回声消除的终端,而远端是与近端进行通话的终端。例如,终端A与终端B在进行通话,当需要对终端A接收到的语音信号进行回声消除时,终端A即为近端,终端B即为远端;当需要对终端B接收到的语音信号进行回声消除时,终端B即为近端,终端A即为远端。
其中,时域接收信号是近端采集的语音信号,时域参考信号是远端向近端发送的语音信号。
其中,本申请回声消除方法的目的是:在近端采集到时域接收信号后,消除时域接收信号中远端发送的时域参考信号,避免远端接收到近端发送的语音信号后,远端的用户还能听到回声,也就是说,对于近端而言,远端发送的时域参考信号为回声信号。
S120:分别将时域接收信号以及时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号。
具体地,分别将时域接收信号以及时域参考信号进行时频转换,得到频域接收信号以及频域参考信号。
在一应用场景中,分别对时域接收信号以及时域参考信号做傅里叶变换,得到频域接收信号以及频域参考信号。
在其他应用场景中,还可以利用例如拉普拉斯变换等其他变换分别将时域接收信号以及时域参考信号从时域转换到频域。
其中,在将信号从时域转换到频域时,既可以对时域接收信号以及时域参考信号做同一种变换,例如,对时域接收信号、时域参考信号都进行傅里叶变换,也可以做不同种的变换,例如,对时域接收信号进行傅里叶变换,对时域参考信号进行拉普拉斯变换。
总而言之,本申请对如何将时域接收信号以及时域参考信号从时域转换到频域的过程不做限制。
S130:基于频域接收信号的至少部分特征以及频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号。
具体地,对频域接收信号以及频域参考信号进行分析,确定频域接收信号在各个频点处是否包含回声信号(即频域参考信号),从而得到频域掩膜信号。其中,频域掩膜信号M可以用如下公式表示:
M=Mr+jMi,其中,Mr为实部掩膜,Mi为虚部掩膜。
在一应用场景中,步骤S130得到频域掩膜信号的步骤具体包括:基于频域接收信号的实部、虚部中的至少一个以及频域参考信号的实部、虚部中的至少一个,得到频域掩膜信号。
具体地,将频域接收信号D用如下公式表示:
D=Dr+jDi,其中,Dr为频域接收信号D的实部,Di为频域接收信号D的虚部。
将频域参考信号X用如下公式表示:
X=Xr+jXi,其中,Xr为频域参考信号X的实部,Xi为频域参考信号X的虚部。
其中,基于Dr、Di中的至少一个,以及Xr、Xi中的至少一个,得到频域掩膜信号。例如,基于Dr、Di,以及Xr、Xi,得到频域掩膜信号,或者,基于Dr以及Xr、Xi,得到频域掩膜信号。
S140:基于频域掩膜信号,对频域接收信号进行声学掩蔽,得到频域目标信号。
具体地,利用频域掩膜信号对频域接收信号进行声学掩蔽,去除频域接收信号中的频域参考信号,从而得到频域目标信号。
其中,基于频域掩膜信号,对频域接收信号进行声学掩蔽的过程,可以用如下公式表示:
S=M×D=(Mr+jMi)×(Dr+jDi),其中,S为频域目标信号。
从上述内容可以看出,频域掩膜信号可以看作是一个掩膜滤波器,滤除频域接收信号中的频域参考信号。
S150:将频域目标信号从频域转换到时域,得到时域目标信号。
具体地,将频域目标信号从频域转换到时域,即能够得到时域目标信号。其中,时域目标信号即为对时域接收信号进行回声消除后的语音信号。
在一应用场景中,对频域目标信号进行逆傅里叶变换,得到时域目标信号;在另一应用场景中,对频域目标信号进行拉普拉斯逆变换得到时域目标信号。
在现有技术中,在进行回声消除时,只考虑信号的幅度信息,而直接将频域目标信号的相位谱设置为与频域接收信号的相位谱相同,这种方法忽略了相位信息的估计对回声消除的优势,无法完全做到抑制回声。
而在本实施方式中,首先基于频域接收信号和频域参考信号得到频域掩膜信号,然后利用频域掩膜信号对频域接收信号进行声学掩蔽,而频域掩膜信号包括实部掩膜和虚部掩膜,因此在得到频域目标信号的过程中,同时考虑了频域接收信号的相位信息和幅度信息,相比现有技术中只考虑信号的幅度信息,本实施方式在低信回比、对讲设备非线性失真强的情况下,也能够很好地进行回声消除,从而保证回声消除的效果。
同时本实施方式为了降低回声消除的收敛时间,并减小回声消除的稳态误差,利用预先训练好的神经网络得到频域掩膜信号。
具体地,在一应用场景中,步骤S130包括:将频域接收信号的至少部分特征以及频域参考信号的至少部分特征送入预先训练好的神经网络进行分析,得到频域掩膜信号。
具体地,本实施方式中的神经网络为循环神经网络,其预先训练达到收敛,在接收到频域接收信号的至少部分特征以及频域参考信号的至少部分特征后,能够分析频域接收信号在各个频点处是否包含回声信号(即频域参考信号),从而得到频域掩膜信号。
其中,神经网络可以选用RNN、GRU、LSTM等,且神经网络的层数以及输出维度可以根据不同应用场景的复杂度进行设定,在此不做限定。
在另一应用场景中,步骤S130包括:将频域接收信号的至少部分特征以及频域参考信号的至少部分特征送入预先训练好的神经网络进行分析,得到实部掩膜和虚部掩膜;基于实部掩膜和虚部掩膜,构建频域掩膜信号。
具体地,与上述应用场景不同的是,此时预先训练好的神经网络在接收到频域接收信号以及频域参考信号的特征后,输出实部掩膜和虚部掩膜,最后基于实部掩膜和虚部掩膜,再构建频域掩膜信号。
其中,可以将频域接收信号的实部、虚部中的至少一个以及频域参考信号的实部、虚部中的至少一个输入至预先训练好的神经网络。
例如,将频域接收信号的实部、虚部和频域参考信号的实部、虚部输入至预先训练好的神经网络,然后神经网络输出实部掩膜和虚部掩膜,最后基于实部掩膜和虚部掩膜,再构建频域掩膜信号。
结合图2,在本实施方式中,预先训练好的神经网络包括并联的第一子神经网络10和第二子神经网络20,此时步骤S130具体包括:将频域接收信号的至少部分特征以及频域参考信号的至少部分特征均送入第一子神经网络10以及第二子神经网络20进行分析,分别得到实部掩膜和虚部掩膜。
具体地,将频域接收信号的至少部分特征以及频域参考信号的至少部分特征输入第一子神经网络10,得到实部掩膜;将频域接收信号的至少部分特征以及频域参考信号的至少部分特征输入第二子神经网络20,得到虚部掩膜。
例如,结合图2,将频域接收信号D的实部Dr、频域接收信号D的虚部Di、频域参考信号X的实部Xr以及频域参考信号X的虚部Xi组成特征序列[Xr Xi Dr Di]分别输入第一子神经网络10以及第二子神经网络20,得到实部掩膜Mr、虚部掩膜Mi。
也就是说,第一子神经网络10和第二子神经网络20的接收相同,输出不同。
其中,第一子神经网络10、第二子神经网络20的结构可以相同,也可以不同,在此不做限制。例如,在一应用场景中,输出实部掩膜的第一子神经网络10相比输出虚部掩膜的第二子神经网络20而言,其包括更少的网络层数以及更低的隐藏层维度。
参阅图3和图4,下面介绍本实施方式中神经网络的训练方法,神经网络的训练方法包括:
S201:获取样本时域接收信号、样本时域参考信号以及样本时域真实信号。
具体地,样本时域真实信号为不包含回声信号的语音信号。
S202:分别将样本时域接收信号以及样本时域参考信号从时域转换到频域,得到样本频域接收信号以及样本频域参考信号。
其中,步骤S202与步骤S120类似,详见可参见相关内容,在此不再赘述。
S203:将样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征送入神经网络进行分析,以预测样本实部掩膜和样本虚部掩膜,并基于样本实部掩膜和样本虚部掩膜,构建样本频域掩膜信号。
具体地,在构建好神经网络的基本框架后,将样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征送入神经网络,神经网络基于样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征,预测样本频域接收信号在各个频点处是否包含回声信号(即样本频域参考信号),从而输出样本实部掩膜和样本虚部掩膜,最后根据预测的样本实部掩膜和样本虚部掩膜,构建样本频域掩膜信号。
其中,神经网络可以选用RNN、GRU、LSTM等网络,且神经网络的层数以及输出维度可以根据不同应用场景的复杂度进行设定,在此不做限定。
S204:基于样本频域掩膜信号,对样本频域接收信号进行声学掩蔽,得到样本频域目标信号。
具体地,步骤S204与上述步骤S140相类似,详见可参见相关内容,在此不再赘述。
S205:将样本频域目标信号从频域转换到时域,得到样本时域目标信号。
具体地,步骤S205与步骤S150相类似,详见可参见相关内容,在此不再赘述。
S206:基于样本时域目标信号和样本时域真实信号,得到损失函数值。
具体地,可以选择均绝对误差(L1Loss)、均方误差(L2Loss)等作为损失函数,然后将样本时域目标信号和样本时域真实信号代入损失函数,得到损失函数值。
S207:基于损失函数值,更新神经网络的参数。
具体地,基于损失函数值,更新神经网络的参数,以使神经网络逐渐达到收敛。
S208:判断是否满足预设的停止训练的条件。
若判断结果为是,则结束流程,若判断结果为否,则返回执行步骤S202。
其中,预设的停止训练的条件包括:对神经网络的训练次数达到次数阈值,或者,前后两次计算出的损失函数值相等,或者,损失函数值低于阈值。
通过本实施方式的训练方法,可以保证训练出的神经网络预测出的实部掩膜和虚部掩膜保留了物理连续性,避免实部掩膜和虚部掩膜不匹配的问题。
在一应用场景中,如图2所示,当神经网络包括并联的第一子神经网络10以及第二子神经网络20时,步骤S203预测样本实部掩膜和样本虚部掩膜的步骤,包括:
将样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征均送入第一子神经网络10以及第二子神经网络20进行分析,分别预测样本实部掩膜和样本虚部掩膜。
具体地,第一子神经网络10在接收样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征后,预测出样本实部掩膜;第二子神经网络20在接收样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征后,预测出样本虚部掩膜。
且此时步骤S207更新神经网络的参数的步骤,包括:基于损失函数值,同时更新第一子神经网络10以及第二子神经网络20的参数。
具体地,此时基于损失函数值,同时更新第一子神经网络10和第二子神经网络20的参数,可以保证训练出的第一子神经网络10预测出的实部掩膜和第二子神经网络20预测出的虚部掩膜保留了物理连续性,避免实部掩膜和虚部掩膜不匹配的问题。
参阅图5,图5是本申请回声消除装置一实施方式的结构示意图。该回声消除装置200包括处理器210、存储器220以及通信电路230,处理器210分别耦接存储器220、通信电路230,存储器220中存储有程序数据,处理器210通过执行存储器220内的程序数据以实现上述任一项实施方式方法中的步骤,其中详细的步骤可参见上述实施方式,在此不再赘述。
其中,回声消除装置200可以是电脑、手机等任一项具有语音信号处理能力的装置,在此不做限制。
参阅图6,图6是本申请回声消除装置另一实施方式的结构示意图。该回声消除装置300包括信号获取模块310、第一转换模块320、掩膜获取模块330、声学掩蔽模块340以及第二转换模块350。
信号获取模块310用于获取近端采集的时域接收信号以及远端发送的时域参考信号。
第一转换模块320与信号获取模块310连接,用于分别将时域接收信号以及时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号。
掩膜获取模块330与第一转换模块320连接,用于基于频域接收信号的至少部分特征以及频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号。
声学掩蔽模块340与掩膜获取模块330连接,用于基于频域掩膜信号,对频域接收信号进行声学掩蔽,得到频域目标信号。
第二转换模块350与声学掩蔽模块340连接,用于将频域目标信号从频域转换到时域,得到时域目标信号。
在一实施方式中,掩膜获取模块330具体用于基于频域接收信号的实部、虚部中的至少一个以及频域参考信号的实部、虚部中的至少一个,得到频域掩膜信号。
在一实施方式中,掩膜获取模块330具体用于将频域接收信号的至少部分特征以及频域参考信号的至少部分特征送入预先训练好的神经网络进行分析,得到频域掩膜信号。
在一实施方式中,掩膜获取模块330具体用于将频域接收信号的至少部分特征以及频域参考信号的至少部分特征送入预先训练好的神经网络进行分析,得到实部掩膜和虚部掩膜;基于实部掩膜和虚部掩膜,构建频域掩膜信号。
在一实施方式中,神经网络包括并联的第一子神经网络和第二子神经网络,掩膜获取模块330具体用于将频域接收信号的至少部分特征以及频域参考信号的至少部分特征均送入第一子神经网络以及第二子神经网络进行分析,分别得到实部掩膜和虚部掩膜。
在一实施方式中,回声消除装置300还包括网络训练模块,用于在信号获取模块310获取近端采集的时域接收信号以及远端发送的时域参考信号之前,获取样本时域接收信号、样本时域参考信号以及样本时域真实信号;分别将样本时域接收信号以及样本时域参考信号从时域转换到频域,得到样本频域接收信号以及样本频域参考信号;将样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征送入神经网络进行分析,以预测样本实部掩膜和样本虚部掩膜,并基于样本实部掩膜和样本虚部掩膜,构建样本频域掩膜信号;基于样本频域掩膜信号,对样本频域接收信号进行声学掩蔽,得到样本频域目标信号;将样本频域目标信号从频域转换到时域,得到样本时域目标信号;基于样本时域目标信号和样本时域真实信号,得到损失函数值;基于损失函数值,更新神经网络的参数;重复执行分别将样本时域接收信号以及样本时域参考信号从时域转换到频域,得到样本频域接收信号以及样本频域参考信号的步骤至基于损失函数值,更新神经网络的参数的步骤,直至满足预设的停止训练的条件。
在一实施方式中,神经网络包括并联的第一子神经网络以及第二子神经网络;网络训练模块具体用于将样本频域接收信号的至少部分特征以及样本频域参考信号的至少部分特征均送入第一子神经网络以及第二子神经网络进行分析,分别预测样本实部掩膜和样本虚部掩膜;以及,基于损失函数值,同时更新第一子神经网络以及第二子神经网路的参数。
在一实施方式中,第一转换模块320具体用于分别对时域接收信号以及时域参考信号进行傅里叶变换,得到频域接收信号以及频域参考信号;和/或,第二转换模块350具体用于对频域目标信号进行逆傅里叶变换,得到时域目标信号。
其中,回声消除装置300可以是电脑、手机等任一项具有语音信号处理能力的装置,在此不做限制。
参阅图7,图7是本申请计算机可读存储介质一实施方式的结构示意图。该计算机可读存储介质400存储有计算机程序410,计算机程序410能够被处理器执行以实现上述任一项方法中的步骤。
其中,计算机可读存储介质400具体可以为U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等可以存储计算机程序410的装置,或者也可以为存储有该计算机程序410的服务器,该服务器可将存储的计算机程序410发送给其他设备运行,或者也可以自运行该存储的计算机程序410。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种回声消除方法,其特征在于,所述方法包括:
获取近端采集的时域接收信号以及远端发送的时域参考信号;
分别将所述时域接收信号以及所述时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号;
基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号;
基于所述频域掩膜信号,对所述频域接收信号进行声学掩蔽,得到频域目标信号;
将所述频域目标信号从频域转换到时域,得到时域目标信号。
2.根据权利要求1所述的方法,其特征在于,所述基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号的步骤,包括:
基于所述频域接收信号的实部、虚部中的至少一个以及所述频域参考信号的实部、虚部中的至少一个,得到所述频域掩膜信号。
3.根据权利要求1所述的方法,其特征在于,所述基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号的步骤,包括:
将所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征送入预先训练好的神经网络进行分析,得到所述频域掩膜信号。
4.根据权利要求1所述的方法,其特征在于,所述基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号的步骤,包括:
将所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征送入预先训练好的神经网络进行分析,得到所述实部掩膜和所述虚部掩膜;
基于所述实部掩膜和所述虚部掩膜,构建所述频域掩膜信号。
5.根据权利要求4所述的方法,其特征在于,所述神经网络包括并联的第一子神经网络和第二子神经网络;
所述将所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征送入预先训练好的神经网络进行分析,得到所述实部掩膜和所述虚部掩膜的步骤,包括:
将所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征均送入所述第一子神经网络以及所述第二子神经网络进行分析,分别得到所述实部掩膜和所述虚部掩膜。
6.根据权利要求4所述的方法,其特征在于,在所述获取近端采集的时域接收信号以及远端发送的时域参考信号之前,还包括:
获取样本时域接收信号、样本时域参考信号以及样本时域真实信号;
分别将所述样本时域接收信号以及所述样本时域参考信号从时域转换到频域,得到样本频域接收信号以及样本频域参考信号;
将所述样本频域接收信号的至少部分特征以及所述样本频域参考信号的至少部分特征送入所述神经网络进行分析,以预测样本实部掩膜和样本虚部掩膜;
基于所述样本实部掩膜和所述样本虚部掩膜,构建样本频域掩膜信号;
基于所述样本频域掩膜信号,对所述样本频域接收信号进行声学掩蔽,得到样本频域目标信号;
将所述样本频域目标信号从频域转换到时域,得到样本时域目标信号;
基于所述样本时域目标信号和所述样本时域真实信号,得到损失函数值;
基于所述损失函数值,更新所述神经网络的参数;
重复执行所述分别将所述样本时域接收信号以及所述样本时域参考信号从时域转换到频域,得到样本频域接收信号以及样本频域参考信号的步骤至所述基于所述损失函数值,更新所述神经网络的参数的步骤,直至满足预设的停止训练的条件。
7.根据权利要求6所述的方法,其特征在于,所述神经网络包括并联的第一子神经网络以及第二子神经网络;
所述将所述样本频域接收信号的至少部分特征以及所述样本频域参考信号的至少部分特征送入所述神经网络进行分析,以预测样本实部掩膜和样本虚部掩膜的步骤,包括:
将所述样本频域接收信号的至少部分特征以及所述样本频域参考信号的至少部分特征均送入所述第一子神经网络以及所述第二子神经网络进行分析,分别预测所述样本实部掩膜和所述样本虚部掩膜;
所述基于所述损失函数值,更新所述神经网络的参数的步骤,包括:
基于所述损失函数值,同时更新所述第一子神经网络以及所述第二子神经网路的参数。
8.根据权利要求1所述的方法,其特征在于,所述分别将所述时域接收信号以及所述时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号的步骤,包括:
分别对所述时域接收信号以及所述时域参考信号进行傅里叶变换,得到所述频域接收信号以及所述频域参考信号;
和/或,所述将所述频域目标信号从频域转换到时域,得到时域目标信号的步骤,包括:
对所述频域目标信号进行逆傅里叶变换,得到所述时域目标信号。
9.一种回声消除装置,其特征在于,所述回声消除装置包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现:
获取近端采集的时域接收信号以及远端发送的时域参考信号;
分别将所述时域接收信号以及所述时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号;
基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号;
基于所述频域掩膜信号,对所述频域接收信号进行声学掩蔽,得到频域目标信号;
将所述频域目标信号从频域转换到时域,得到时域目标信号。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被处理器执行以实现:
获取近端采集的时域接收信号以及远端发送的时域参考信号;
分别将所述时域接收信号以及所述时域参考信号从时域转换到频域,得到频域接收信号以及频域参考信号;
基于所述频域接收信号的至少部分特征以及所述频域参考信号的至少部分特征,得到包括实部掩膜和虚部掩膜的频域掩膜信号;
基于所述频域掩膜信号,对所述频域接收信号进行声学掩蔽,得到频域目标信号;
将所述频域目标信号从频域转换到时域,得到时域目标信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846655.0A CN113689878A (zh) | 2021-07-26 | 2021-07-26 | 回声消除方法、回声消除装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846655.0A CN113689878A (zh) | 2021-07-26 | 2021-07-26 | 回声消除方法、回声消除装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113689878A true CN113689878A (zh) | 2021-11-23 |
Family
ID=78577907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110846655.0A Pending CN113689878A (zh) | 2021-07-26 | 2021-07-26 | 回声消除方法、回声消除装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113689878A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114171043A (zh) * | 2021-12-06 | 2022-03-11 | 北京百度网讯科技有限公司 | 回声的确定方法、装置、设备以及存储介质 |
WO2023092955A1 (zh) * | 2021-11-29 | 2023-06-01 | 北京达佳互联信息技术有限公司 | 音频信号处理方法及装置 |
CN117935838A (zh) * | 2024-03-25 | 2024-04-26 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1486566A (zh) * | 2000-09-15 | 2004-03-31 | 英特尔公司 | 用于回声抵消的剩余回声估计 |
CN103348408A (zh) * | 2011-02-10 | 2013-10-09 | 杜比实验室特许公司 | 噪声和位置外信号的组合抑制 |
US20190222691A1 (en) * | 2018-01-18 | 2019-07-18 | Knowles Electronics, Llc | Data driven echo cancellation and suppression |
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111292759A (zh) * | 2020-05-11 | 2020-06-16 | 上海亮牛半导体科技有限公司 | 一种基于神经网络的立体声回声消除方法及*** |
CN111768796A (zh) * | 2020-07-14 | 2020-10-13 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
CN111951819A (zh) * | 2020-08-20 | 2020-11-17 | 北京字节跳动网络技术有限公司 | 回声消除方法、装置及存储介质 |
CN113129918A (zh) * | 2021-04-15 | 2021-07-16 | 浙江大学 | 联合波束形成和深度复数U-Net网络的语音去混响方法 |
CN115116471A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 音频信号处理方法和装置、训练方法、设备及介质 |
-
2021
- 2021-07-26 CN CN202110846655.0A patent/CN113689878A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1486566A (zh) * | 2000-09-15 | 2004-03-31 | 英特尔公司 | 用于回声抵消的剩余回声估计 |
CN103348408A (zh) * | 2011-02-10 | 2013-10-09 | 杜比实验室特许公司 | 噪声和位置外信号的组合抑制 |
US20190222691A1 (en) * | 2018-01-18 | 2019-07-18 | Knowles Electronics, Llc | Data driven echo cancellation and suppression |
CN110808063A (zh) * | 2019-11-29 | 2020-02-18 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111292759A (zh) * | 2020-05-11 | 2020-06-16 | 上海亮牛半导体科技有限公司 | 一种基于神经网络的立体声回声消除方法及*** |
CN111768796A (zh) * | 2020-07-14 | 2020-10-13 | 中国科学院声学研究所 | 一种声学回波消除与去混响方法及装置 |
CN111951819A (zh) * | 2020-08-20 | 2020-11-17 | 北京字节跳动网络技术有限公司 | 回声消除方法、装置及存储介质 |
CN113129918A (zh) * | 2021-04-15 | 2021-07-16 | 浙江大学 | 联合波束形成和深度复数U-Net网络的语音去混响方法 |
CN115116471A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 音频信号处理方法和装置、训练方法、设备及介质 |
Non-Patent Citations (1)
Title |
---|
HYEONG-SEOK CHOI ET AL: "PHASE-AWARE SPEECH ENHANCEMENT WITH DEEP COMPLEX U-NET", ICLR, 31 December 2019 (2019-12-31), pages 1 - 10 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023092955A1 (zh) * | 2021-11-29 | 2023-06-01 | 北京达佳互联信息技术有限公司 | 音频信号处理方法及装置 |
CN114171043A (zh) * | 2021-12-06 | 2022-03-11 | 北京百度网讯科技有限公司 | 回声的确定方法、装置、设备以及存储介质 |
CN117935838A (zh) * | 2024-03-25 | 2024-04-26 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
CN117935838B (zh) * | 2024-03-25 | 2024-06-11 | 深圳市声扬科技有限公司 | 音频获取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113689878A (zh) | 回声消除方法、回声消除装置及计算机可读存储介质 | |
CN111951819B (zh) | 回声消除方法、装置及存储介质 | |
EP2375778B1 (en) | Method and system for nonlinear acoustic echo cancellation in hands-free telecommunication devices | |
CN110246515B (zh) | 回声的消除方法、装置、存储介质及电子装置 | |
JP5036874B2 (ja) | エコー消去装置 | |
CN111768796B (zh) | 一种声学回波消除与去混响方法及装置 | |
JP5501527B2 (ja) | エコー消去装置およびエコー検出装置 | |
EP2352237A1 (en) | Adaptive filter and echo canceller having same | |
CN110177317B (zh) | 回声消除方法、装置、计算机可读存储介质和计算机设备 | |
CN111031448B (zh) | 回声消除方法、装置、电子设备和存储介质 | |
EP2671223A1 (en) | Estimation and suppression of harmonic loudspeaker nonlinearities | |
CN110956975A (zh) | 回声消除方法及装置 | |
CN111883154B (zh) | 回声消除方法及装置、计算机可读的存储介质、电子装置 | |
CN106782592B (zh) | 一种用于消除网络声音传输的回音和啸叫的***和方法 | |
JP2010103875A (ja) | エコー抑圧装置、エコー抑圧方法、エコー抑圧プログラム、記録媒体 | |
CN113744748A (zh) | 一种网络模型的训练方法、回声消除方法及设备 | |
CN111370016B (zh) | 一种回声消除方法及电子设备 | |
CN113055787A (zh) | 回声消除方法、装置、电子设备和存储介质 | |
CN116453532A (zh) | 一种声学回声的回声消除方法 | |
CN116434765A (zh) | 一种基于半二次准则的频域样条自适应回声消除的方法 | |
JP6180689B1 (ja) | エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム | |
CN112863532A (zh) | 回音抑制装置、回音抑制方法以及存储介质 | |
JP2017191992A (ja) | エコー抑圧装置、その方法、プログラム、及び記録媒体 | |
CN112367594B (zh) | Aec调试方法、装置及计算机可读存储介质 | |
CN116386655B (zh) | 回声消除模型建立方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |