CN113362841A - 音频信号处理方法、装置和存储介质 - Google Patents
音频信号处理方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113362841A CN113362841A CN202110649720.0A CN202110649720A CN113362841A CN 113362841 A CN113362841 A CN 113362841A CN 202110649720 A CN202110649720 A CN 202110649720A CN 113362841 A CN113362841 A CN 113362841A
- Authority
- CN
- China
- Prior art keywords
- signal
- frame
- signal frame
- unmixing
- signal value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 92
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000012899 de-mixing Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 132
- 238000012545 processing Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000007774 longterm Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 101100134058 Caenorhabditis elegans nth-1 gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本公开涉及一种音频信号处理方法、装置和存储介质,所述方法包括:获取声音信号;将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值;获得所述解混模型输出的去除混响后的声音信号。本公开可以提升去混响效率。
Description
技术领域
本公开涉及声音处理领域,尤其涉及一种音频信号处理方法、装置和存储介质。
背景技术
目前,各种产品设备大多采用麦克风阵列进行声音拾取,应用麦克风波束形成技术或者盲源分离技术提高语音信号处理质量,提高真实环境下的语音识别率。
然而在实际生活环境中由于墙、家具等的反射,声音存在混响现象。混响会导致波束形成和分离效果的恶化。因此去混响模块在语音增强***链路中是一个非常重要的模块,目前的去混响技术效率较低,效果不够理想。
发明内容
为克服相关技术中存在的问题,本公开提供一种音频信号处理方法、装置和存储介质。
根据本公开实施例的第一方面,提供一种音频信号处理方法,包括获取声音信号;将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型能够根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值;获得所述解混模型输出的去除混响后的声音信号。
可选的,所述解混模型用于对所述当前信号帧中的直达声的期望信号值进行估算,并将估算结果作为对所述当前信号帧去除混响后的信号值,其中,所述解混模型包括解混矩阵,所述解混矩阵是预设的用于建立当前信号帧的信号值、在所述当前信号帧之前的历史信号帧的信号值、以及所述当前信号帧中的直达声的期望信号值三者之间的映射关系的矩阵。
可选的,所述解混模型通过以下方式对所述期望信号值进行估算:基于所述当前信号帧的上一信号帧对应的所述解混矩阵计算所述当前信号帧中的直达声的第一期望信号值;基于所述第一期望信号值更新所述解混矩阵;基于更新后的所述解混矩阵计算所述当前信号帧中的直达声的第二期望信号值,并将所述第二期望信号值作为所述去除混响后的信号值。
可选的,所述基于所述当前信号帧的上一信号帧对应的所述解混矩阵求取所述当前信号帧中的直达声的第一期望信号值,包括:根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述当前信号帧的上一信号帧对应的所述解混矩阵确定所述第一期望信号值。
可选的,所述映射关系为:其中,dn,k为第n帧第k频率索引的直达声的期望信号值,xΔ,k为表征第n帧的前Δ帧内的第k频率索引的信号值序列的向量,xn,k为第n帧第k频率索引的信号值,Wk为所述解混矩阵,其中:w1,k为第一子解混矩阵,w2,k为第二子解混矩阵,为所述解混模型中的解混滤波器系数向量。
可选的,所述基于所述第一期望信号值更新所述第一子解混矩阵,包括:通过所述第一期望信号值更新加权协方差矩阵;基于更新后的所述加权协方差矩阵更新所述解混矩阵。
可选的,所述基于更新后的所述解混矩阵计算所述当前信号帧中的直达声的第二期望信号值,包括:根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述更新后的解混矩阵确定所述第二期望信号值。
根据本公开实施例的第二方面,提供一种音频信号处理装置,包括获取模块,被配置为获取声音信号;处理模块,被配置为将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型能够根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值;输出模块,被配置为获得所述解混模型输出的去除混响后的声音信号。
可选的,解混模型用于对所述信号帧中的直达声的期望信号值进行估算,并将估算结果作为对所述信号帧去除混响后的信号值,其中,所述解混模型包括解混矩阵,所述解混矩阵是预设的用于建立当前信号帧的信号值、在所述当前信号帧之前的历史信号帧的信号值、以及所述当前信号帧中的直达声的期望信号值三者之间的映射关系的矩阵。
可选的,所述解混模型被配置为,通过以下方式对所述期望信号值进行估算:基于所述当前信号帧的上一信号帧对应的所述解混矩阵计算所述当前信号帧中的直达声的第一期望信号值;基于所述第一期望信号值更新所述解混矩阵;基于更新后的所述解混矩阵计算所述当前信号帧中的直达声的第二期望信号值,并将所述第二期望信号值作为所述去除混响后的信号值。
可选的,所述解混模型还被配置为,根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述当前信号帧的上一信号帧对应的所述解混矩阵确定所述第一期望信号值。
可选的,所述映射关系为:其中,dn,k为第n帧第k频率索引的直达声的期望信号值,xΔ,k为表征第n帧的前Δ帧内的第k频率索引的信号值序列的向量,xn,k为第n帧第k频率索引的信号值,Wk为所述解混矩阵,其中:w1,k为第一子解混矩阵,w2,k为第二子解混矩阵,为所述解混模型中的解混滤波器系数向量。
可选的,所述解混模型还被配置为,通过所述第一期望信号值更新加权协方差矩阵;基于更新后的所述加权协方差矩阵更新所述解混矩阵。
可选的,所述解混模型还被配置为,根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述更新后的解混矩阵确定所述第二期望信号值。
根据本公开实施例的第三方面,提供一种音频信号处理装置,包括处理器和存储器;所述存储器用于存储处理器可执行指令的存储器,所述处理器被配置为:获取声音信号;将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型能够根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值;获得所述解混模型输出的去除混响后的声音信号。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的音频信号处理方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:通过将混响作为独立声源和直达声进行区分的解混模型对获取得到的声音信号进行处理,将声音信号中的混响进行分离,得到去除混响之后的声音信号,从而可以更快捷便利地去除声音信号中的混响。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图。
图2是根据一示例性实施例示出的一种音频信号处理的流程的示意图。
图3是根据一示例性实施例示出的一种音频信号处理装置的框图。
图4是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种音频信号处理方法的流程图,如图1所示,该音频信号处理方法可以应用于各类电子设备中,例如,手机、电脑、平板电脑、录音设备等。本方法包括以下步骤。
在步骤S11中,获取声音信号。
在步骤S12中,将所述声音信号中的各信号帧输入解混模型。
其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型能够根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值。
所述解混模型用于对所述信号帧中的直达声的期望信号值进行估算,并将估算结果作为对所述信号帧去除混响后的信号值,其中,所述解混模型包括解混矩阵,所述解混矩阵是预设的用于建立信号帧的信号值、在该信号帧之前的历史信号帧的信号值、以及该信号帧中的直达声的期望信号值三者之间的映射关系的矩阵。
其中,历史信号帧分为远期历史信号帧和近期历史信号帧,靠近当前信号帧较近的信号帧为近期历史信号帧,靠近当前信号帧较远的信号帧为远期历史信号帧,由于近期历史信号帧中的声音被环境反射所收录所得的声音信号与直达声信号较为接近,可以不对其进行区分,因此,在本公开中的历史信号帧可以为远期历史信号帧。例如,若当前信号帧为xn,k,近期历史信号帧为xn-Δ+1,k至xn-1,k,远期历史信号帧xΔ,k可以为xn-Δ-L+1,k至xn-Δ,k,其中,Δ为近期历史信号帧的帧数,L为远期历史信号帧的帧数。
在步骤S13中,获得所述解混模型输出的去除混响后的声音信号。
其中,由于任意信号帧中出现的混响值的来源是该信号帧之前的信号帧中的直达声被反射后收录的,因此,当前信号帧中的直达声的信号值可以通过对当前帧的信号值和该帧之前的信号帧中的信号值进行对比后处理得到,因此,在步骤S12中,可以将当前处理的信号帧的信号值、该信号帧之前的信号帧的信号值以及该当前处理的信号帧中的直达声的信号值之间的映射关系描述为以下的表达式:其中,dn,k为第n帧第k频率索引的直达声的期望信号值,xΔ,k为表征第n-Δ帧以前的预设帧数内的第k频率索引的信号值序列的向量,xn,k为第n帧第k频率索引的信号值,Wk为解混矩阵,w1,k为第一子解混矩阵,w2,k为第二子解混矩阵,为解混滤波器系数向量,其中,所述解混模型用于通过所述解混矩阵对所述期望信号值进行估算,并将计算结果作为所述去除混响后的信号值。
其中,该映射关系是由观测模型改写得到的:
对任意一个麦克风的观测信号可以表示为:
将上述观测模型改写为矩阵形式,可以得到以下混合模型的表达式:
将上述混合模型逆写,可以得到解混模型:
在一种可能的实施方式中,解混模型是通过一下方式对期望信号值进行估算的:
基于当前信号帧的上一信号帧对应的所述子解混矩阵计算当前信号帧中的直达声的第一期望信号值,基于所述第一期望信号值更新所述解混矩阵,并基于更新后的所述解混矩阵计算当前信号帧中的直达声的第二期望信号值,并将所述第二期望信号值作为所述去除混响后的信号值。
也就是说,可以通过上一信号帧的第一子解混矩阵的值估算当前帧的期望信号值,并通过估算得到的期望信号值进行加权计算,更新当前帧的解混矩阵,而当前帧的解混矩阵可以用于计算当前帧的期望信号值,并估算下一帧的期望信号值,从而经过不断迭代,得到所有信号帧的期望信号值。其中,第一期望信号值为通过上一帧的解混矩阵估算得到的期望信号值,估算结果可能出现较大偏差,而第二期望信号值为通过当前帧的解混矩阵计算得到的期望信号值,得到的计算结果较真实的直达声信号值的偏差较小。
由于直达声dn,k为表达式的矩阵中的第一个元素,因此,对解混矩阵的处理也只需要求解得到解混矩阵中的第一个子矩阵,即第一子解混矩阵,使用第一子解混矩阵可以实现第一期望信号值和第二期望信号值的求取。
对第一帧的声音信号值而言,不存在更早的信号帧,因此,在对第一帧的信号进行求解时,可以将解混矩阵初始化为单位矩阵,以便进行迭代运算。
在一种可能的实施方式中,可以根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述当前信号帧的上一信号帧对应的所述解混矩阵确定所述第一期望信号值。
在得到第一期望信号值之后,可以通过得到的第一期望信号值更新第一子解混矩阵,在一种可能的实施方式中,可以通过所述第一期望信号值更新加权协方差矩阵,并基于更新后的所述加权协方差矩阵更新所述解混矩阵。
例如,可以通过以下矩阵进行第一子解混矩阵的更新: Ck(n)为第n帧第k频率索引的加权矩阵,i1=[1,0]T,βk(n)为加权平滑系数,α为预设的平滑系数,为第n帧第k频率索引的对比函数,δ为预设的防除零参数,为任意的极小数,γ为预设的形状参数。
在实践中,α可以设置为0.99,γ可以根据声源的分布情况进行手动调整,以提高解混模型的准确度。在解混模型得到的期望信号值与真实的直达声信号值的差异较大的情况下,可以通过调整γ的值从而调整模型中的声源分布情况。在本公开中,可以将γ的初始值设置为0.2。
在进行第一子解混矩阵初始化的同时,也可以对加权矩阵进行初始化,其中,加权矩阵可以初始化为任意设置的初始矩阵,也可以初始化为零矩阵。
在一种可能的实施方式中,可以将第0帧对应的解混矩阵Wk(0)初始化为IML×ML,将加权矩阵Ck(0)初始化为OML×ML,其中,IML×ML为ML行ML列的单位矩阵,0ML×ML为ML行ML列的零矩阵。
在更新当前帧的第一子解混矩阵矩阵后,可以通过较准确的第一子解混矩阵计算出相较第一期望信号值更准确的期望信号值,即第二期望信号值。可以根据当前信号帧的信号值、所述历史信号帧的信号值以及所述更新后的解混矩阵确定所述第二期望信号值。
在进行第二期望信号计算之前,可以对第一子解混矩阵进行归一化处理,通过将第一子解混矩阵中的每个元素与其中的一指定元素相除,得到归一化的第一子解混矩阵,例如,该指定元素可以为第一子解混矩阵中的第一个元素,归一化处理后的第一子解混矩阵w′1,k(n)为第一子解混矩阵w1,k(n)与第一子解混矩阵中的第一个元素w1相除的结果。
在存在多于一个录音设备或录音单元进行声音收录的情况下,可以对每一个录音设备或录音单元得到的声音信号进行步骤S12的处理,从而得到该录音设备录制的去除混响后的声音信号,例如,当使用麦克风阵列进行录音的情况下,可以对每个麦克风收录的声音信号进行步骤S12的处理。
在获得去除混响后的声音信号之后,可以将该声音信号发送至语音处理单元,以便语音处理单元将声音信号转换为操作指令,例如,该语音处理单元可以对应设备中的语音助手程序等。还可以将该声音信号发送至语音识别单元,以便语音识别单元将声音信号转换为文本内容。在进行去混响之后,声音信号中的杂音较少,更有利于声音的提取和处理。
图2是根据一示例性公开实施例示出的一种音频信号处理的流程的示意图。在存在多个录音设备或录音单元进行声音收录的情况下,可以对每一个录音设备或录音单元得到的声音信号进行如图2所示流程的处理。
在步骤S21中,将解混矩阵初始化为单位矩阵,并将加权矩阵初始化为零矩阵。
在步骤S22中,通过第n-1帧对应的第一子解混矩阵估算第n帧的第一期望信号值。
在步骤S23中,更新第n帧对应的加权矩阵。
在步骤S24中,更新第n帧对应的第一子解混矩阵。
在步骤S25中,对第n帧对应的第一子解混矩阵进行归一化处理。
在步骤S26中,通过归一化处理后的第一子解混矩阵计算第n帧对应的第二期望信号值。
其中,步骤S22到步骤S26为循环执行的步骤,直至各待去混响的信号帧对应的第二期望信号值求取完毕。
通过以上的技术方案,至少可以达到以下技术效果:
通过将混响作为独立声源和直达声进行区分的解混模型对获取得到的声音信号进行处理,将声音信号中的混响进行分离,得到去除混响之后的声音信号,从而可以更快捷便利地去除声音信号中的混响。
图3是根据一示例性实施例示出的一种音频信号处理装置框图。参照图3,该装置包括获取模块310,处理模块320和输出模块330。
该获取模块310被配置为获取声音信号。
该处理模块320被配置为将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型能够根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值。
该输出模块330被配置为获得所述解混模型输出的去除混响后的声音信号。
可选的,解混模型用于对所述信号帧中的直达声的期望信号值进行估算,并将估算结果作为对所述信号帧去除混响后的信号值,其中,所述解混模型包括解混矩阵,所述解混矩阵是预设的用于建立信号帧的信号值、在该信号帧之前的历史信号帧的信号值、以及该信号帧中的直达声的期望信号值三者之间的映射关系的矩阵。
可选的,所述解混模型被配置为,通过以下方式对所述期望信号值进行估算:基于所述当前信号帧的上一信号帧对应的所述解混矩阵计算所述当前信号帧中的直达声的第一期望信号值;基于所述第一期望信号值更新所述解混矩阵;基于更新后的所述解混矩阵计算所述当前信号帧中的直达声的第二期望信号值,并将所述第二期望信号值作为所述去除混响后的信号值。
可选的,所述解混模型还被配置为,根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述当前信号帧的上一信号帧对应的所述解混矩阵确定所述第一期望信号值。
可选的,所述映射关系为:其中,dn,k为第n帧第k频率索引的直达声的期望信号值,xΔ,k为表征第n帧的前Δ帧内的第k频率索引的信号值序列的向量,xn,k为第n帧第k频率索引的信号值,Wk为所述解混矩阵,其中:w1,k为第一子解混矩阵,w2,k为第二子解混矩阵,为所述解混模型中的解混滤波器系数向量。
可选的,所述解混模型还被配置为,通过所述第一期望信号值更新加权协方差矩阵;基于更新后的所述加权协方差矩阵更新所述解混矩阵。
可选的,所述解混模型还被配置为,根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述更新后的解混矩阵确定所述第二期望信号值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
通过将混响作为独立声源和直达声进行区分的解混模型对获取得到的声音信号进行处理,将声音信号中的混响进行分离,得到去除混响之后的声音信号,从而可以更快捷便利地去除声音信号中的混响。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的音频信号处理方法的步骤。
图4是根据一示例性实施例示出的一种用于音频信号处理的装置400的框图。例如,装置400可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电力组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述音频信号处理方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理***,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到装置400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述音频信号处理方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述音频信号处理方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的音频信号处理方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种音频信号处理方法,其特征在于,包括:
获取声音信号;
将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值;
获得所述解混模型输出的去除混响后的声音信号。
2.根据权利要求1所述的方法,其特征在于,所述解混模型用于对所述信号帧中的直达声的期望信号值进行估算,并将估算结果作为对所述信号帧去除混响后的信号值,其中,所述解混模型包括解混矩阵,所述解混矩阵是预设的用于建立当前信号帧的信号值、在所述当前信号帧之前的历史信号帧的信号值、以及所述当前信号帧中的直达声的期望信号值三者之间的映射关系的矩阵。
3.根据权利要求2所述的方法,其特征在于,所述解混模型通过以下方式对所述期望信号值进行估算:
基于所述当前信号帧的上一信号帧对应的所述解混矩阵计算所述当前信号帧中的直达声的第一期望信号值;
基于所述第一期望信号值更新所述解混矩阵;
基于更新后的所述解混矩阵计算所述当前信号帧中的直达声的第二期望信号值,并将所述第二期望信号值作为所述去除混响后的信号值。
4.根据权利要求3所述的方法,其特征在于,所述基于所述当前信号帧的上一信号帧对应的所述解混矩阵求取所述当前信号帧中的直达声的第一期望信号值,包括:
根据所述当前信号帧的信号值、所述历史信号帧的信号值以及所述当前信号帧的上一信号帧对应的所述解混矩阵确定所述第一期望信号值。
6.根据权利要求3所述的方法,其特征在于,所述基于所述第一期望信号值更新所述第一子解混矩阵,包括:
通过所述第一期望信号值更新加权协方差矩阵;
基于更新后的所述加权协方差矩阵更新所述解混矩阵。
7.根据权利要求3所述的方法,其特征在于,所述基于更新后的所述解混矩阵计算所述当前信号帧中的直达声的第二期望信号值,包括:
根据所述当前信号帧的信号值、所述历史信号帧的信号值以及更新后的所述解混矩阵确定所述第二期望信号值。
8.一种音频信号处理装置,其特征在于,包括:
获取模块,被配置为获取声音信号;
处理模块,被配置为将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型能够根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值;
输出模块,被配置为获得所述解混模型输出的去除混响后的声音信号。
9.一种音频信号处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取声音信号;
将所述声音信号中的各信号帧输入解混模型,其中,所述解混模型是将信号帧中的直达声与混响作为独立声源进行设定的用于去除信号帧中的混响的计算模型,针对所述声音信号中的任一非首个信号帧,所述解混模型能够根据当前信号帧的信号值以及在所述当前信号帧之前的历史信号帧的信号值计算出对所述当前信号帧去除混响后的信号值;
获得所述解混模型输出的去除混响后的声音信号。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649720.0A CN113362841B (zh) | 2021-06-10 | 2021-06-10 | 音频信号处理方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649720.0A CN113362841B (zh) | 2021-06-10 | 2021-06-10 | 音频信号处理方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113362841A true CN113362841A (zh) | 2021-09-07 |
CN113362841B CN113362841B (zh) | 2023-05-02 |
Family
ID=77533641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110649720.0A Active CN113362841B (zh) | 2021-06-10 | 2021-06-10 | 音频信号处理方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362841B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006011104A1 (en) * | 2004-07-22 | 2006-02-02 | Koninklijke Philips Electronics N.V. | Audio signal dereverberation |
JP2006121588A (ja) * | 2004-10-25 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | エコー抑圧方法、この方法を実施する装置、プログラムおよびその記録媒体 |
CN102750956A (zh) * | 2012-06-18 | 2012-10-24 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN111161751A (zh) * | 2019-12-25 | 2020-05-15 | 声耕智能科技(西安)研究院有限公司 | 复杂场景下的分布式麦克风拾音***及方法 |
CN111462770A (zh) * | 2020-01-09 | 2020-07-28 | 华中科技大学 | 一种基于lstm的后期混响抑制方法及*** |
CN112750461A (zh) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音通信优化方法、装置、电子设备及可读存储介质 |
CN112863537A (zh) * | 2021-01-04 | 2021-05-28 | 北京小米松果电子有限公司 | 一种音频信号处理方法、装置及存储介质 |
-
2021
- 2021-06-10 CN CN202110649720.0A patent/CN113362841B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006011104A1 (en) * | 2004-07-22 | 2006-02-02 | Koninklijke Philips Electronics N.V. | Audio signal dereverberation |
JP2006121588A (ja) * | 2004-10-25 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | エコー抑圧方法、この方法を実施する装置、プログラムおよびその記録媒体 |
CN102750956A (zh) * | 2012-06-18 | 2012-10-24 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
CN111161751A (zh) * | 2019-12-25 | 2020-05-15 | 声耕智能科技(西安)研究院有限公司 | 复杂场景下的分布式麦克风拾音***及方法 |
CN111462770A (zh) * | 2020-01-09 | 2020-07-28 | 华中科技大学 | 一种基于lstm的后期混响抑制方法及*** |
CN112750461A (zh) * | 2020-02-26 | 2021-05-04 | 腾讯科技(深圳)有限公司 | 语音通信优化方法、装置、电子设备及可读存储介质 |
CN112863537A (zh) * | 2021-01-04 | 2021-05-28 | 北京小米松果电子有限公司 | 一种音频信号处理方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
陈建荣等: "基于麦克风阵列的混响消减处理", 《电声技术》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113362841B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108510987B (zh) | 语音处理方法及装置 | |
CN109871896B (zh) | 数据分类方法、装置、电子设备及存储介质 | |
EP3032821B1 (en) | Method and device for shooting a picture | |
CN111128221B (zh) | 一种音频信号处理方法、装置、终端及存储介质 | |
CN107967459B (zh) | 卷积处理方法、装置及存储介质 | |
CN108154093B (zh) | 人脸信息识别方法及装置、电子设备、机器可读存储介质 | |
CN107341509B (zh) | 卷积神经网络的训练方法、装置及可读存储介质 | |
CN107403144B (zh) | 嘴巴定位方法及装置 | |
CN105631803A (zh) | 滤镜处理的方法和装置 | |
CN108629814B (zh) | 相机调整方法及装置 | |
CN113362848B (zh) | 音频信号处理方法、装置及存储介质 | |
CN107239758B (zh) | 人脸关键点定位的方法及装置 | |
CN107730443B (zh) | 图像处理方法、装置及用户设备 | |
CN110533006B (zh) | 一种目标跟踪方法、装置及介质 | |
CN112201267A (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN113488066B (zh) | 音频信号处理方法、音频信号处理装置及存储介质 | |
CN113362841B (zh) | 音频信号处理方法、装置和存储介质 | |
CN115512116A (zh) | 图像分割模型优化方法、装置、电子设备及可读存储介质 | |
CN105678220A (zh) | 人脸关键点定位处理方法和装置 | |
CN112863537B (zh) | 一种音频信号处理方法、装置及存储介质 | |
CN113223543B (zh) | 语音增强方法、装置和存储介质 | |
CN112434714A (zh) | 多媒体识别的方法、装置、存储介质及电子设备 | |
CN107992893B (zh) | 压缩图像特征空间的方法及装置 | |
CN108154092B (zh) | 人脸特征预测方法及装置 | |
CN112884813A (zh) | 图像处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |