CN109166590B - 一种基于空域相关性的二维时频掩模估计建模方法 - Google Patents
一种基于空域相关性的二维时频掩模估计建模方法 Download PDFInfo
- Publication number
- CN109166590B CN109166590B CN201810955158.2A CN201810955158A CN109166590B CN 109166590 B CN109166590 B CN 109166590B CN 201810955158 A CN201810955158 A CN 201810955158A CN 109166590 B CN109166590 B CN 109166590B
- Authority
- CN
- China
- Prior art keywords
- frequency
- time
- frequency point
- sound source
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000007476 Maximum Likelihood Methods 0.000 claims abstract description 13
- 230000007704 transition Effects 0.000 claims description 44
- 238000001228 spectrum Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000003491 array Methods 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 abstract description 5
- 238000012546 transfer Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于空域相关性的二维时频掩模估计建模方法,包括:针对麦克风阵列采集到的语音信号;计算某时频点下某对麦克风之间相位差以及被目标声源支配情况下相位差;由两相位差定义频点到目标声源的距离;采用类正态分布法计算此频点被目标声源支配的概率;将频点被目标声源支配的转移概率在时间、频率维度进行独立展开、分析;进行空域相关性时频交织建模;表示出此二维交织模型的整体参数集;表示出全局概率密度函数,将建模问题转换为按极大似然准则估计整体参数集,并精确估计语音源的掩模。该方法以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,准确估计语音源的掩模,得到很好的语音分离效果。
Description
技术领域
本发明涉及语音信号分离处理技术领域。尤其涉及一种基于空域相关性的二维时频掩模估计建模方法。
背景技术
时频掩模是语音分离常用的手段目标,时频掩模表征语音信号在时频域内存在与否的状态矩阵。理想时频掩模保留了混合信号中由目标语音主导的时频分量,去除由噪声主导的时频点分量,从而实现目标语音信号和噪声信号的主要成分的分离。
常见的时频掩模有理想二值掩模和理想浮值掩模,前者的状态矩阵中的每个元素取值仅为0或1,表示各时频点上语音信号存在与否的硬性判决;后者采用0和模为1的单位复数表示语音存在与否。理想二值掩模为硬判决掩模分离,在很大程度上容易造成频谱丢失;理想浮值掩模则考虑了空域信息对于提高语音的感知质量的重要作用。研究表明空域信息对于提高语音的感知质量具有重要作用,但是理想浮值掩模的学习难度也相对较大,目前尚未广泛应用到监督性语音分离中。
目前大部分时频掩模估计方法也只是考虑了单个频点上的支配情况,根据单个频点的空域信息判断时频点被哪个声源支配。由于语音频谱存在二维相关性,它使得相邻频点支配声源之间也存在某种相似性,而传统的方法忽略了这种相似性。
空域信息是指示目标语音源的基本标签且空域信息散布在各对麦克风接收信号的频域相位差上。因此,它可以在频域指示目标源的能量分布状况。基于空域相关性的时频掩膜估计方法充分利用了空域信息,通过将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,精确估计语音源的掩模。
发明内容
本发明的目的在于克服现有时频掩膜技术中忽略了空域相关性的缺陷,试图以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,从而可以更加精确的估计出语音源的掩模。
为了实现上述目的,本发明提出了一种基于空域相关性的二维时频掩模估计建模方法,包括:
步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;
步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;
步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克风的数量;
步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差;
步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;
步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;
步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;
步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;
步骤九、根据以上二维交织建模表示出模型的整个参数集;
步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;
步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。
上述技术方案中,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:
在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差ψl,m为:
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克风上的相位差组成一个向量集,以此表示声源的空域特征。
上述技术方案中,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差包括:
在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
m表示麦克风的序号;ωf表示角频率;T=2π/ωf。
上述技术方案中,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括:
求取上面步骤中相位差绝对值的平方和,然后进行累加,最后再除以总项数得到均值;此均值类似于正态分布中的均值μ;
求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为:
其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。参数l为帧号;Xl,f,γ表示入射方向为γ的第l帧,第f个频点信号的对数幅度谱;m表示麦克风的序号;ψl,m表示相位差;rm表示第m对麦克风之间的间距;表示周期为T的第m个麦克风到第一个麦克风的单位矢量;γ表示声源的入射方向;c表示速度。
上述技术方案中,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:
根据步骤五得到的频点到目标声源的距离得到,频点被目标声源支配的概率P(Xl,f|dl,f=1)为:
其中,σ表示标准差;l为帧号;f为频点序号;xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离。
上述技术方案中,在步骤七中,所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链,在时间维度和频率维度进行分解分析;
该马尔可夫链的时间转移概率λf,l是一个22矩阵,将其元素λf,l(i,j)表示为:
λf,l(i,j)=p(dl,f=j|dl,f=i)
f为频点序号;l为帧号;将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
cg,l(h,j)=p(dl,f=j|dl,f=h)
dl,f=1表示被目标声源支配的频点状态;g为频率子带的间隔;i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2。上述技术方案中,在步骤八中,所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔。
上述技术方案中,在步骤九中,所述根据以上二维交织建模表示出模型的整个参数集Λl为:
Λl={λ1,l,...λF,l,c1,l,...,cD,l}
λF,l表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率。
上述技术方案中,在步骤十中,所述计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集Λl;
Λl表示从序列Xl中获取的模型参数估计值;
对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为:
其次,p(Xl|Sl,Λl)表示给定状态矩阵Sl和参数集Λl时的情况下观察值序列Xl的似然度,表示为:
其中Xl={X1,X2,…Xl}表示一个因果窗内L个样本,L表示样本数量,f为频点序号,定义f=1,2,…,F,F表示频点序号的最大值;t表示除去L个样本后的帧数;l为帧号;xf,t表示观察值序列xl的状态序列;st,t表示状态矩阵sl的状态序列;λf,l表示参数集Λl的状态序列;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列Xl={X1,X2,…Xl};
建立一个隐马尔科夫模型Sl={S1,S2,…Sl};
其中Sl∈{0,1是其对应的状态序列,Sl=1,Sl=0分别表示的是第l帧语音的存在和缺失,对应语音和噪声两个状态;
其中的b(xf,t|t,t,λf,l)表示的是频点被目标声源支配的概率:
然后,p(Sl|Λl)是表示状态序列Sl出现的先验概率的概率,xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;σ表示尺度参数;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离,高斯分量表示为:
i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2,d也表示为频点信号,定义d=1,2,…,D,af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。
最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集Λl,
上述技术方案中,在步骤十一中,所述将参数集的估计过程等价为以模型为基础的分类过程,将Sl表示为:
Xl表示观察序列;Sl表示状态矩阵;Λl表示从序列Xl中获取的模型参数估计值;将参数集的估计过程将参数集的过程使用等价原则等价为以模型为基础的分类过程,因此得到了语音掩膜的最佳估计。
本发明的积极效果和优点在于:
1.通过求取各对麦克风接收信号的频域相位差,得到麦克风阵列空域信息,而空域信息对于提高语音的感知质量具有重要作用。
2.本方法提出了一种基于空域相关性的二维时频掩模估计建模方法。将麦克风阵列的相位差即空域信息,频点被支配的状态转移概率的时间维度转移概率和频率维度转移概率三者综合一起运算,得到面向空域相关性的二维时频掩膜建模方法,最终实现空域掩膜的准确估计。
附图说明
图1为本发明的一种基于空域相关性的二维时频掩模估计建模方法的流程框图;
1表示:将通过麦克风阵列接收到的声源信号转换成数字声音信号;
2表示:将混合语音信号通过子带滤波器处理分解为不同的时频单元;
3表示:计算时频点给定情况下麦克风信号相位差;
4表示:计算假设频点被目标声源支配下的相位差;
5表示:根据两相位差定义频点到目标声源的距离;
6表示:计算频点被目标声源支配的概率;
7表示:将支配转移概率的马尔可夫链在时间、频率两维度分解分析;
8表示:进行二维相关建模;
9表示:表示出模型参数集;
10表示:计算全局概率密度,将建模问题实现为按极大似然准则估计整体参数集;
11表示:将参数集的估计过程等价为以模型为基础的分类过程。
图2为发明方法中基于使用马尔科夫模型交织而成的二维网格建模频谱的空域相关性的方法。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步详细描述。
参考图1,本发明的方法包括以下步骤:
步骤一,通过使用麦克风阵列将接收到的声音信号转换为数字信号;
所述的麦克风阵列包括K对麦克风;
步骤二,将混合数字声音信号使用Gammatone多子带滤波器组进行***处理,分解为不同的时频单元,具体包括:
首先,确定Gammatone滤波器的个数M,确定每个滤波器的中心频率,使用公式gm(t)=tn-1exp(-2πbmt)cos(2πfmt+φm)U(t),1≤m≤M;
其中n为滤波器的阶数,fm是滤波器的中心频率,φm为相位,bm为等效带宽,M为滤波器个数,U(t)为阶跃函数。
其次,计算得到滤波器冲击响应gi(n)(i=1,2,…,M),采样频率为8KHZ时M可取18),并获得滤波器参数。
步骤三,给定l时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差ψl,m为:
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克风上的相位差组成一个向量集,以此表示声源的空域特征。
步骤四,求取某个时频点被目标声源完全支配的情况下得到相位差包括:
在l时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
步骤五,根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括:
求取上面步骤中相位差绝对值的平方和,然后进行累加,最后再除以总项数得到均值;此均值类似于正态分布中的均值μ;
求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为:
其中F(·)函数表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。参数l为帧号;Xl,f,γ表示入射方向为γ的第l帧,第f个频点信号的对数幅度谱;m表示麦克风的序号;ψl,m表示相位差;rm表示第m对麦克风之间的间距;表示周期为T的第m个麦克风到第一个麦克风的单位矢量;γ表示声源的入射方向;c表示速度。
步骤六,定义频点被目标声源支配的概率包括:
将麦克风间的相位差ψl,m等价于正态分布中x;
根据类似正态分布分析定义频点被目标声源支配的概率p(Xl,f|dl,f=1)为:
其中,其中σ表示标准差;l为帧号;f为频点序号;xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离。
步骤七,将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
由于频点只有被目标声源和被噪声支配的两个状态;
定义频点被目标声源支配的状态用dl,f=1来表示,被噪声支配的概率用dl,f=0表示;
频点被目标声源支配的概率在步骤六中已计算出,且频点在这两个状态之间来回切换,因此将该马尔可夫链在时间维度和频率维度分别表示出转移概率函数为;
该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:
λf,l(i,j)=p(dl,f=j|dl,f=i)
f为频点序号;l为帧号;将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
cg,l(h,j)=p(dl,f=j|dl,f=h)
dl,f=1表示被目标声源支配的频点状态;g为频率子带的间隔;i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2。
步骤八,根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图,参考图2,具体实施步骤如下所示:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔;
步骤九,所述根据以上二维交织建模表示出模型的整个参数集Λl为:
Λl={λ1,l,...λF,l,c1,l,...,cD,l}
λF,l表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率;
步骤十,计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集Λl;
Λl表示从序列Xl中获取的模型参数估计值;
对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为:
其次,p(Xl|Sl,Λl)表示给定状态矩阵Sl和参数集Λl时的情况下观察值序列Xl的似然度,表示为:
其中Xl={X1,X2,…Xl}表示一个因果窗内L个样本;L表示样本数量,f为频点序号,定义f=1,2,…,F,F表示频点序号的最大值;t表示除去L个样本后的帧数;l为帧号;xf,t表示观察值序列xl的状态序列;st,t表示状态矩阵sl的状态序列;λf,l表示参数集Λl的状态序列;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列Xl={X1,X2,…Xl};
建立一个隐马尔科夫模型Sl={S1,S2,…Sl};
其中Sl∈{0,1}是其对应的状态序列,Sl=1,Sl=0分别表示的是第l帧语音的存在和缺失,对应语音和噪声两个状态;
其中的b(xf,t|st,t,λf,l)表示的是频点被目标声源支配的概率:
然后,p(Sl|Λl)是表示状态序列Sl出现的先验概率的概率,xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;σ表示尺度参数;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离,高斯分量表示为:
i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2,d也表示为频点信号,定义d=1,2,…,D,af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。
最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集Λl。
Claims (10)
1.一种基于空域相关性的二维时频掩模估计建模方法,包括:
步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;
步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;
步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克风的数量;
步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差;
步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;
步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;
步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;
步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;
步骤九、根据以上二维交织建模表示出模型的整个参数集;
步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;
步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。
4.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括:
求取上面步骤中相位差绝对值的平方和,然后进行累加,最后再除以总项数得到均值;此均值类似于正态分布中的均值μ;
求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为:
6.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤七中,所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链,在时间维度和频率维度进行分解分析;
该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:
λf,l(i,j)=p(dl,f=j|dl,f=i)
将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
cg,l(h,j)=p(dl,f=j|dl,f=h)
f为频点序号;l为帧号;dl,f=1表示被目标声源支配的频点状态;g为频率子带的间隔;i,j,h均表示为2×2矩阵元素的索引,其取值均为1或2。
7.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤八中,所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔。
8.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤九中,所述根据以上二维交织建模表示出模型的整个参数集Λl为:
Λl={λ1,l,...λF,l,c1,l,...,cD,l}
λF,l表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率。
9.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤十中,所述计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集Λl;
Λl表示从序列Xl中获取的模型参数估计值;
对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为:
其次,p(Xl|Sl,Al)表示给定状态矩阵Sl和参数集Λl时的情况下
观察值序列Xl的似然度,表示为:
其中Xl={X1,X2,...Xl}表示一个因果窗内L个样本,L表示样本数量,f为频点序号,定义f=1,2,…,F,F表示频点序号的最大值;t表示除去L个样本后的帧数;l为帧号;xf,t表示观察值序列xl的状态序列;St,t表示状态矩阵Sl的状态序列;λf,l表示参数集Λl的状态序列;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列xl={X1,X2,...xl};
建立一个隐马尔科夫模型Sl={S1,S2,...Sl};
其中Sl∈{0,1}是其对应的状态序列,Sl=1,Sl=0分别表示的是第l帧语音的存在和缺失,对应语音和噪声两个状态;
其中的b(xf,t|st,t,λf,l)表示的是频点被目标声源支配的概率:
然后,p(Sl|Al)是表示状态序列Sl出现的先验概率的概率,xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f=1表示被目标声源支配的频点状态;σ表示尺度参数;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离,高斯分量表示为:
i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2,d也表示为频点信号,定义d=1,2,…,D,af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集Λl,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810955158.2A CN109166590B (zh) | 2018-08-21 | 2018-08-21 | 一种基于空域相关性的二维时频掩模估计建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810955158.2A CN109166590B (zh) | 2018-08-21 | 2018-08-21 | 一种基于空域相关性的二维时频掩模估计建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109166590A CN109166590A (zh) | 2019-01-08 |
CN109166590B true CN109166590B (zh) | 2020-06-30 |
Family
ID=64896292
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810955158.2A Active CN109166590B (zh) | 2018-08-21 | 2018-08-21 | 一种基于空域相关性的二维时频掩模估计建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109166590B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859769B (zh) * | 2019-01-30 | 2021-09-17 | 西安讯飞超脑信息科技有限公司 | 一种掩码估计方法及装置 |
CN110970046B (zh) * | 2019-11-29 | 2022-03-11 | 北京搜狗科技发展有限公司 | 一种音频数据处理的方法及装置、电子设备、存储介质 |
CN111179920B (zh) * | 2019-12-31 | 2023-01-24 | 中国科学院声学研究所 | 一种端到端远场语音识别方法及*** |
CN113378971B (zh) * | 2021-06-28 | 2024-05-28 | 燕山大学 | 近红外光谱的分类模型训练方法、***及分类方法、*** |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10313875B3 (de) * | 2003-03-21 | 2004-10-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Analysieren eines Informationssignals |
US7415117B2 (en) * | 2004-03-02 | 2008-08-19 | Microsoft Corporation | System and method for beamforming using a microphone array |
CN100466061C (zh) * | 2005-08-15 | 2009-03-04 | 华为技术有限公司 | 一种宽带波束形成方法和装置 |
CN103873977B (zh) * | 2014-03-19 | 2018-12-07 | 惠州Tcl移动通信有限公司 | 基于多麦克风阵列波束成形的录音***及其实现方法 |
CN108269583B (zh) * | 2017-01-03 | 2021-07-30 | 中国科学院声学研究所 | 一种基于时间延迟直方图的语音分离方法 |
-
2018
- 2018-08-21 CN CN201810955158.2A patent/CN109166590B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109166590A (zh) | 2019-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109166590B (zh) | 一种基于空域相关性的二维时频掩模估计建模方法 | |
CN105654963B (zh) | 频谱校正及数据密度聚类法语音欠定盲识别方法和装置 | |
CN106887238B (zh) | 一种基于改进独立向量分析算法的声信号盲分离方法 | |
CN110010148B (zh) | 一种低复杂度的频域盲分离方法及*** | |
CN108364659B (zh) | 基于多目标优化的频域卷积盲信号分离方法 | |
CN103854660B (zh) | 一种基于独立成分分析的四麦克语音增强方法 | |
CN109884591B (zh) | 一种基于麦克风阵列的多旋翼无人机声信号增强方法 | |
CN109584903A (zh) | 一种基于深度学习的多人语音分离方法 | |
Wang et al. | Deep learning assisted time-frequency processing for speech enhancement on drones | |
CN108091345A (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN105580074B (zh) | 信号处理***和方法 | |
Quan et al. | Multi-channel narrow-band deep speech separation with full-band permutation invariant training | |
Wang et al. | Pseudo-determined blind source separation for ad-hoc microphone networks | |
CN109658944B (zh) | 直升机声信号增强方法及装置 | |
CN114822584A (zh) | 一种基于积分改进广义互相关的传动装置信号分离方法 | |
Sigg et al. | Nonnegative CCA for audiovisual source separation | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN113093106A (zh) | 一种声源定位方法及*** | |
CN114613384B (zh) | 一种基于深度学习多输入语音信号波束形成信息互补方法 | |
Cobos et al. | Two-microphone separation of speech mixtures based on interclass variance maximization | |
CN108269583B (zh) | 一种基于时间延迟直方图的语音分离方法 | |
CN110865375A (zh) | 一种水中目标检测方法 | |
Jeyasingh et al. | Real-time multi source speech enhancement based on sound source separation using microphone array | |
Cheng et al. | Improving multimodal speech enhancement by incorporating self-supervised and curriculum learning | |
CN110956978B (zh) | 一种基于欠定卷积混叠模型的稀疏盲分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |