CN109166590B - 一种基于空域相关性的二维时频掩模估计建模方法 - Google Patents

一种基于空域相关性的二维时频掩模估计建模方法 Download PDF

Info

Publication number
CN109166590B
CN109166590B CN201810955158.2A CN201810955158A CN109166590B CN 109166590 B CN109166590 B CN 109166590B CN 201810955158 A CN201810955158 A CN 201810955158A CN 109166590 B CN109166590 B CN 109166590B
Authority
CN
China
Prior art keywords
frequency
time
frequency point
sound source
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810955158.2A
Other languages
English (en)
Other versions
CN109166590A (zh
Inventor
许春冬
龙清华
应冬文
许瑞龙
周静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Buddhist Tzu Chi General Hospital
Original Assignee
Buddhist Tzu Chi General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Buddhist Tzu Chi General Hospital filed Critical Buddhist Tzu Chi General Hospital
Priority to CN201810955158.2A priority Critical patent/CN109166590B/zh
Publication of CN109166590A publication Critical patent/CN109166590A/zh
Application granted granted Critical
Publication of CN109166590B publication Critical patent/CN109166590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于空域相关性的二维时频掩模估计建模方法,包括:针对麦克风阵列采集到的语音信号;计算某时频点下某对麦克风之间相位差以及被目标声源支配情况下相位差;由两相位差定义频点到目标声源的距离;采用类正态分布法计算此频点被目标声源支配的概率;将频点被目标声源支配的转移概率在时间、频率维度进行独立展开、分析;进行空域相关性时频交织建模;表示出此二维交织模型的整体参数集;表示出全局概率密度函数,将建模问题转换为按极大似然准则估计整体参数集,并精确估计语音源的掩模。该方法以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,准确估计语音源的掩模,得到很好的语音分离效果。

Description

一种基于空域相关性的二维时频掩模估计建模方法
技术领域
本发明涉及语音信号分离处理技术领域。尤其涉及一种基于空域相关性的二维时频掩模估计建模方法。
背景技术
时频掩模是语音分离常用的手段目标,时频掩模表征语音信号在时频域内存在与否的状态矩阵。理想时频掩模保留了混合信号中由目标语音主导的时频分量,去除由噪声主导的时频点分量,从而实现目标语音信号和噪声信号的主要成分的分离。
常见的时频掩模有理想二值掩模和理想浮值掩模,前者的状态矩阵中的每个元素取值仅为0或1,表示各时频点上语音信号存在与否的硬性判决;后者采用0和模为1的单位复数表示语音存在与否。理想二值掩模为硬判决掩模分离,在很大程度上容易造成频谱丢失;理想浮值掩模则考虑了空域信息对于提高语音的感知质量的重要作用。研究表明空域信息对于提高语音的感知质量具有重要作用,但是理想浮值掩模的学习难度也相对较大,目前尚未广泛应用到监督性语音分离中。
目前大部分时频掩模估计方法也只是考虑了单个频点上的支配情况,根据单个频点的空域信息判断时频点被哪个声源支配。由于语音频谱存在二维相关性,它使得相邻频点支配声源之间也存在某种相似性,而传统的方法忽略了这种相似性。
空域信息是指示目标语音源的基本标签且空域信息散布在各对麦克风接收信号的频域相位差上。因此,它可以在频域指示目标源的能量分布状况。基于空域相关性的时频掩膜估计方法充分利用了空域信息,通过将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,精确估计语音源的掩模。
发明内容
本发明的目的在于克服现有时频掩膜技术中忽略了空域相关性的缺陷,试图以空域信息为特征,将时间和频率两个维度上的信息交织在一起,发展一种二维相关模型,从而可以更加精确的估计出语音源的掩模。
为了实现上述目的,本发明提出了一种基于空域相关性的二维时频掩模估计建模方法,包括:
步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;
步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;
步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克风的数量;
步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差;
步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;
步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;
步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;
步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;
步骤九、根据以上二维交织建模表示出模型的整个参数集;
步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;
步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。
上述技术方案中,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:
在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差ψl,m为:
Figure GDA0002490241720000021
其中∠(.)表示求取复数相位的操作,m表示麦克风的索引;l为帧号;m1和m2分别表示第1对和第2对麦克风;
Figure GDA0002490241720000022
Figure GDA0002490241720000023
分别表示第m1和m2个麦克风第l帧的对数幅度谱;
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克风上的相位差组成一个向量集,以此表示声源的空域特征。
上述技术方案中,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差包括:
在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
通过几何关系推导出此条件下的麦克风之间相位差
Figure GDA0002490241720000031
为:
Figure GDA0002490241720000032
其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,
Figure GDA0002490241720000033
表示周期为T的第k个麦克风到第一个麦克风之间的单位矢量;l为帧号;
m表示麦克风的序号;ωf表示角频率;T=2π/ωf
上述技术方案中,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括:
将一般时频点和被完全支配频点相位差进行取绝对值操作;“一般时频点”表示其相位差为ψl,m
Figure GDA0002490241720000034
的频点;“被完全支配的频点”表示其相位差为
Figure GDA0002490241720000035
Figure GDA0002490241720000036
的频点;
求取上面步骤中相位差绝对值的平方和,然后进行累加,最后再除以总项数得到均值;此均值类似于正态分布中的均值μ;
求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为:
Figure GDA0002490241720000037
其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。参数l为帧号;Xl,f,γ表示入射方向为γ的第l帧,第f个频点信号的对数幅度谱;m表示麦克风的序号;ψl,m表示相位差;rm表示第m对麦克风之间的间距;
Figure GDA0002490241720000038
表示周期为T的第m个麦克风到第一个麦克风的单位矢量;γ表示声源的入射方向;c表示速度。
上述技术方案中,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:
根据步骤五得到的频点到目标声源的距离得到,频点被目标声源支配的概率P(Xl,f|dl,f=1)为:
Figure GDA0002490241720000039
其中,σ表示标准差;l为帧号;f为频点序号;xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离。
上述技术方案中,在步骤七中,所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链,在时间维度和频率维度进行分解分析;
该马尔可夫链的时间转移概率λf,l是一个22矩阵,将其元素λf,l(i,j)表示为:
λf,l(i,j)=p(dl,f=j|dl,f=i)
f为频点序号;l为帧号;将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
cg,l(h,j)=p(dl,f=j|dl,f=h)
dl,f=1表示被目标声源支配的频点状态;g为频率子带的间隔;i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2。上述技术方案中,在步骤八中,所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔。
上述技术方案中,在步骤九中,所述根据以上二维交织建模表示出模型的整个参数集Λl为:
Λl={λ1,l,...λF,l,c1,l,...,cD,l}
λF,l表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率。
上述技术方案中,在步骤十中,所述计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集Λl
Λl表示从序列Xl中获取的模型参数估计值;
对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为:
Figure GDA0002490241720000051
其次,p(Xl|Sll)表示给定状态矩阵Sl和参数集Λl时的情况下观察值序列Xl的似然度,表示为:
Figure GDA0002490241720000052
其中Xl={X1,X2,…Xl}表示一个因果窗内L个样本,L表示样本数量,f为频点序号,定义f=1,2,…,F,F表示频点序号的最大值;t表示除去L个样本后的帧数;l为帧号;xf,t表示观察值序列xl的状态序列;st,t表示状态矩阵sl的状态序列;λf,l表示参数集Λl的状态序列;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列Xl={X1,X2,…Xl};
建立一个隐马尔科夫模型Sl={S1,S2,…Sl};
其中Sl∈{0,1是其对应的状态序列,Sl=1,Sl=0分别表示的是第l帧语音的存在和缺失,对应语音和噪声两个状态;
其中的b(xf,t|t,tf,l)表示的是频点被目标声源支配的概率:
Figure GDA0002490241720000053
然后,p(Sll)是表示状态序列Sl出现的先验概率的概率,xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;σ表示尺度参数;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离,高斯分量表示为:
Figure GDA0002490241720000061
i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2,d也表示为频点信号,定义d=1,2,…,D,af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。
最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集Λl
其依据表示为
Figure GDA0002490241720000062
上述技术方案中,在步骤十一中,所述将参数集的估计过程等价为以模型为基础的分类过程,将Sl表示为:
Figure GDA0002490241720000063
Xl表示观察序列;Sl表示状态矩阵;Λl表示从序列Xl中获取的模型参数估计值;将参数集的估计过程将参数集的过程使用等价原则等价为以模型为基础的分类过程,因此得到了语音掩膜的最佳估计。
本发明的积极效果和优点在于:
1.通过求取各对麦克风接收信号的频域相位差,得到麦克风阵列空域信息,而空域信息对于提高语音的感知质量具有重要作用。
2.本方法提出了一种基于空域相关性的二维时频掩模估计建模方法。将麦克风阵列的相位差即空域信息,频点被支配的状态转移概率的时间维度转移概率和频率维度转移概率三者综合一起运算,得到面向空域相关性的二维时频掩膜建模方法,最终实现空域掩膜的准确估计。
附图说明
图1为本发明的一种基于空域相关性的二维时频掩模估计建模方法的流程框图;
1表示:将通过麦克风阵列接收到的声源信号转换成数字声音信号;
2表示:将混合语音信号通过子带滤波器处理分解为不同的时频单元;
3表示:计算时频点给定情况下麦克风信号相位差;
4表示:计算假设频点被目标声源支配下的相位差;
5表示:根据两相位差定义频点到目标声源的距离;
6表示:计算频点被目标声源支配的概率;
7表示:将支配转移概率的马尔可夫链在时间、频率两维度分解分析;
8表示:进行二维相关建模;
9表示:表示出模型参数集;
10表示:计算全局概率密度,将建模问题实现为按极大似然准则估计整体参数集;
11表示:将参数集的估计过程等价为以模型为基础的分类过程。
图2为发明方法中基于使用马尔科夫模型交织而成的二维网格建模频谱的空域相关性的方法。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步详细描述。
参考图1,本发明的方法包括以下步骤:
步骤一,通过使用麦克风阵列将接收到的声音信号转换为数字信号;
所述的麦克风阵列包括K对麦克风;
步骤二,将混合数字声音信号使用Gammatone多子带滤波器组进行***处理,分解为不同的时频单元,具体包括:
首先,确定Gammatone滤波器的个数M,确定每个滤波器的中心频率,使用公式gm(t)=tn-1exp(-2πbmt)cos(2πfmt+φm)U(t),1≤m≤M;
其中n为滤波器的阶数,fm是滤波器的中心频率,φm为相位,bm为等效带宽,M为滤波器个数,U(t)为阶跃函数。
其次,计算得到滤波器冲击响应gi(n)(i=1,2,…,M),采样频率为8KHZ时M可取18),并获得滤波器参数。
然后,将含噪语音x(n)用这M个Gammatone滤波器进行分离,得到M个带通语音
Figure GDA0002490241720000071
最后,将每个带通语音
Figure GDA0002490241720000072
经过分帧、短时傅里叶变换得到不同的时频单元。
步骤三,给定l时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差ψl,m为:
Figure GDA0002490241720000073
其中∠(.)表示求取复数相位的操作,m表示麦克风的索引;l为帧号;m1和m2分别表示第1对和第2对麦克风;
Figure GDA0002490241720000081
Figure GDA0002490241720000082
分别表示第m1和m2个麦克风第l帧的对数幅度谱;
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克风上的相位差组成一个向量集,以此表示声源的空域特征。
步骤四,求取某个时频点被目标声源完全支配的情况下得到相位差包括:
在l时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
通过几何关系推导出此条件下的麦克风之间相位差
Figure GDA0002490241720000083
为:
Figure GDA0002490241720000084
其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,
Figure GDA0002490241720000085
表示周期为T的第k个麦克风到第一个麦克风之间的单位矢量,l为帧号;m表示麦克风的序号;ωf表示角频率;T=2π/ωf
步骤五,根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括:
将一般情况时频点和被完全支配频点相位差进行取绝对值操作;“一般时频点”表示其相位差为ψl,m
Figure GDA0002490241720000086
的频点;“被完全支配的频点”表示其相位差为
Figure GDA0002490241720000087
Figure GDA0002490241720000088
的频点;
求取上面步骤中相位差绝对值的平方和,然后进行累加,最后再除以总项数得到均值;此均值类似于正态分布中的均值μ;
求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为:
Figure GDA0002490241720000089
其中F(·)函数表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。参数l为帧号;Xl,f,γ表示入射方向为γ的第l帧,第f个频点信号的对数幅度谱;m表示麦克风的序号;ψl,m表示相位差;rm表示第m对麦克风之间的间距;
Figure GDA00024902417200000810
表示周期为T的第m个麦克风到第一个麦克风的单位矢量;γ表示声源的入射方向;c表示速度。
步骤六,定义频点被目标声源支配的概率包括:
联想分析正态分布
Figure GDA0002490241720000091
中,当x趋近于μ时,概率密度函数f(x)取得最大值;
将麦克风间的相位差ψl,m等价于正态分布中x;
频点被目标声源支配情况下的相位差
Figure GDA0002490241720000092
等价于正态分布中的μ;
根据类似正态分布分析定义频点被目标声源支配的概率p(Xl,f|dl,f=1)为:
Figure GDA0002490241720000093
其中,其中σ表示标准差;l为帧号;f为频点序号;xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离。
步骤七,将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
由于频点只有被目标声源和被噪声支配的两个状态;
定义频点被目标声源支配的状态用dl,f=1来表示,被噪声支配的概率用dl,f=0表示;
频点被目标声源支配的概率在步骤六中已计算出,且频点在这两个状态之间来回切换,因此将该马尔可夫链在时间维度和频率维度分别表示出转移概率函数为;
该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:
λf,l(i,j)=p(dl,f=j|dl,f=i)
f为频点序号;l为帧号;将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
cg,l(h,j)=p(dl,f=j|dl,f=h)
dl,f=1表示被目标声源支配的频点状态;g为频率子带的间隔;i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2。
步骤八,根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图,参考图2,具体实施步骤如下所示:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔;
步骤九,所述根据以上二维交织建模表示出模型的整个参数集Λl为:
Λl={λ1,l,...λF,l,c1,l,...,cD,l}
λFl表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率;
步骤十,计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集Λl
Λl表示从序列Xl中获取的模型参数估计值;
对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为:
Figure GDA0002490241720000101
其次,p(Xl|Sll)表示给定状态矩阵Sl和参数集Λl时的情况下观察值序列Xl的似然度,表示为:
Figure GDA0002490241720000102
其中Xl={X1,X2,…Xl}表示一个因果窗内L个样本;L表示样本数量,f为频点序号,定义f=1,2,…,F,F表示频点序号的最大值;t表示除去L个样本后的帧数;l为帧号;xf,t表示观察值序列xl的状态序列;st,t表示状态矩阵sl的状态序列;λf,l表示参数集Λl的状态序列;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列Xl={X1,X2,…Xl};
建立一个隐马尔科夫模型Sl={S1,S2,…Sl};
其中Sl∈{0,1}是其对应的状态序列,Sl=1,Sl=0分别表示的是第l帧语音的存在和缺失,对应语音和噪声两个状态;
其中的b(xf,t|st,tf,l)表示的是频点被目标声源支配的概率:
Figure GDA0002490241720000111
然后,p(Sll)是表示状态序列Sl出现的先验概率的概率,xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;σ表示尺度参数;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离,高斯分量表示为:
Figure GDA0002490241720000112
i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2,d也表示为频点信号,定义d=1,2,…,D,af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。
最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集Λl
其依据表示为
Figure GDA0002490241720000113
步骤十一,所述将参数集的估计过程等价为以模型为基础的分类过程,将Sl表示为:
Figure GDA0002490241720000114
Xl表示观察序列;Sl表示状态矩阵;Λl表示从序列Xl中获取的模型参数估计值;将参数集的估计过程使用等价原则等价为以模型为基础的分类过程最终得到了语音掩膜的最佳估计
Figure GDA0002490241720000115

Claims (10)

1.一种基于空域相关性的二维时频掩模估计建模方法,包括:
步骤一、将通过麦克风阵列接收到的声源信号转换为数字信号处理,所述的麦克风阵列包括K对麦克风;
步骤二、将混合语音信号通过子带滤波器处理分解为不同的时频单元;
步骤三、计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差,所述M等于K(K-1)/2,K表示阵列拥有麦克风的数量;
步骤四、计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差;
步骤五、根据以上步骤三、步骤四两种情况下计算出的两个相位差定义频点到目标声源的距离;
步骤六、采用类比于正态分布的方法定义频点被目标声源支配的概率;
步骤七、将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率;
步骤八、根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图;
步骤九、根据以上二维交织建模表示出模型的整个参数集;
步骤十、计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集;
步骤十一、将参数集的估计过程等价为以模型为基础的分类过程。
2.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤三中,所述计算在给定相同时间和相同频点情况下M对麦克风阵列之间的相位差的操作包括:
在给定t时刻和f频点上,由第p个和第q个麦克风组成的第m(m=1,2,…,M)对麦克风的相位差ψl,m为:
Figure FDA0002490241710000011
其中∠(.)表示求取复数相位的操作,m表示麦克风的索引;l为帧号;m1和m2分别表示第1对和第2对麦克风;
Figure FDA0002490241710000012
Figure FDA0002490241710000013
分别表示第m1和m2个麦克风第l帧的对数幅度谱;
在阵列中共有K对麦克风,则对于某个给定的时频点,总共有M=K(K-1)/2对麦克风上的相位差组成一个向量集,以此表示声源的空域特征。
3.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤四中,所述计算在假设某频点被目标声源支配的情况下,M对麦克风之间的相位差包括:
在t时刻和f频点相同的情况下,假设此时频点完全被目标声源所支配;
通过几何关系推导出此条件下的麦克风之间相位差
Figure FDA0002490241710000021
为:
Figure FDA0002490241710000022
其中,三维单位矢量γ表示声源的入射方向,rk表示声源的间距,c表示声速,
Figure FDA0002490241710000023
表示周期为T的第k个麦克风到第一个麦克风之间的单位矢量;l为帧号;m表示麦克风的序号;ωf表示角频率;T=2π/ωf
4.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤五中根据步骤三、步骤四求出的两个相位差定义频点到目标声源的距离L(Xl,f,γ)包括:
将一般时频点和被完全支配频点相位差进行取绝对值操作;“一般时频点”表示其相位差为ψl,m
Figure FDA0002490241710000024
的频点;“被完全支配的频点”表示其相位差为
Figure FDA0002490241710000025
Figure FDA0002490241710000026
的频点;
求取上面步骤中相位差绝对值的平方和,然后进行累加,最后再除以总项数得到均值;此均值类似于正态分布中的均值μ;
求得新定义的(l,f)频点到目标声源的距离L(Xl,f,γ)为:
Figure FDA0002490241710000027
其中F(·)表示将周期为2π的变量调整到[-π,π]之间的函数,ωf表示角频率。参数l为帧号;Xl,f,γ表示入射方向为γ的第l帧,第f个频点信号的对数幅度谱;m表示麦克风的序号;ψl,m表示相位差;rm表示第m对麦克风之间的间距;
Figure FDA0002490241710000028
表示周期为T的第m个麦克风到第一个麦克风的单位矢量;γ表示声源的入射方向;c表示速度。
5.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤六中,所述采用类比于正态分布的方法定义频点被目标声源支配的概率包括:
根据步骤五得到的频点到目标声源的距离得到,频点被目标声源支配的概率P(Xl,f|dl,f=1)为:
Figure FDA0002490241710000031
其中,σ表示标准差;l为帧号;f为频点序号;xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f表示权利要求3中被目标声源支配的频点;γ表示声源的入射方向;L(Xl,fγ)表示权利要求4中频点(l,f)到目标声源的距离。
6.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤七中,所述将支配转移概率的马尔可夫链在时间维度和频率维度进行分解分析,表示出时间转移概率,频率转移概率包括:
根据频点被目标声源支配或被噪声支配的转移概率的马尔可夫链,在时间维度和频率维度进行分解分析;
该马尔可夫链的时间转移概率λf,l是一个2×2矩阵,将其元素λf,l(i,j)表示为:
λf,l(i,j)=p(dl,f=j|dl,f=i)
将该马尔可夫链沿频率方向的状态转移由频率状态转移概率cg,l表示为:
cg,l(h,j)=p(dl,f=j|dl,f=h)
f为频点序号;l为帧号;dl,f=1表示被目标声源支配的频点状态;g为频率子带的间隔;i,j,h均表示为2×2矩阵元素的索引,其取值均为1或2。
7.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤八中,所述根据时间维度状态相关特性和频率维度状态相关特性进行交织建模并画出示意图包括:
在时间维度上时间相关性仅需考虑一个单位时间间隔相邻位置上的状态;
在频率维度上频率相关性则需至少考虑2×D个频率相邻位置上的状态,超过D个单位频率间隔相邻位置上的状态则被认为不相关了;
进行二维图形绘制,横坐标代表时间也为帧序列,横向的箭头表示时间状态转移概率;
纵坐标代表频带,其中g为频率子带的间隔。
8.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤九中,所述根据以上二维交织建模表示出模型的整个参数集Λl为:
Λl={λ1,l,...λF,l,c1,l,...,cD,l}
λF,l表示时间维度上状态转移概率的参数集;
cD,l表示的是频率维度上状态转移概率的参数集;
参数集中所有的频带都共享频率状态转移概率。
9.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤十中,所述计算全局的概率密度函数,将建模问题实现为按极大似然准则估计整体参数集,进一步包括:
首先,给定一个参数集Λl
Λl表示从序列Xl中获取的模型参数估计值;
对应的观察序列Xl的概率密度函数表示为全局的概率密度函数为:
Figure FDA0002490241710000041
其次,p(Xl|Sl,Al)表示给定状态矩阵Sl和参数集Λl时的情况下
观察值序列Xl的似然度,表示为:
Figure FDA0002490241710000042
其中Xl={X1,X2,...Xl}表示一个因果窗内L个样本,L表示样本数量,f为频点序号,定义f=1,2,…,F,F表示频点序号的最大值;t表示除去L个样本后的帧数;l为帧号;xf,t表示观察值序列xl的状态序列;St,t表示状态矩阵Sl的状态序列;λf,l表示参数集Λl的状态序列;
对语音信号在每一个频率分量上提取对数幅度谱包络;
对于一个频率分量上的对数幅度谱时间序列xl={X1,X2,...xl};
建立一个隐马尔科夫模型Sl={S1,S2,...Sl};
其中Sl∈{0,1}是其对应的状态序列,Sl=1,Sl=0分别表示的是第l帧语音的存在和缺失,对应语音和噪声两个状态;
其中的b(xf,t|st,t,λf,l)表示的是频点被目标声源支配的概率:
Figure FDA0002490241710000051
然后,p(Sl|Al)是表示状态序列Sl出现的先验概率的概率,xl,f表示第l帧,第f个频点上的对数幅度谱;dl,f=1表示被目标声源支配的频点状态;σ表示尺度参数;γ表示声源的入射方向;L(Xl,f,γ)表示权利要求4中频点(l,f)到目标声源的距离,高斯分量表示为:
Figure FDA0002490241710000052
i,j,h均表示为2x2矩阵元素的索引,其取值均为1或2,d也表示为频点信号,定义d=1,2,…,D,af,l(i,j),cd,l(h,j)分别表示时间状态转移概率和频率状态转移概率。最后,将建模问题被实现为按照极大似然(Maximum Likelihood,ML)准则估计整体参数集Λl
其依据表示为
Figure FDA0002490241710000053
10.如权利要求1所述的一种基于空域相关性的二维时频掩模估计建模方法,在步骤十一中,所述将参数集的估计过程等价为以模型为基础的分类过程,将Sl表示为:
Figure FDA0002490241710000054
Xl表示观察序列;Sl表示状态矩阵;Λl表示从序列Xl中获取的模型参数估计值;
将参数集的估计过程使用等价原则等价为以模型为基础的分类过程,因此得到了语音掩膜的最佳估计。
CN201810955158.2A 2018-08-21 2018-08-21 一种基于空域相关性的二维时频掩模估计建模方法 Active CN109166590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810955158.2A CN109166590B (zh) 2018-08-21 2018-08-21 一种基于空域相关性的二维时频掩模估计建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810955158.2A CN109166590B (zh) 2018-08-21 2018-08-21 一种基于空域相关性的二维时频掩模估计建模方法

Publications (2)

Publication Number Publication Date
CN109166590A CN109166590A (zh) 2019-01-08
CN109166590B true CN109166590B (zh) 2020-06-30

Family

ID=64896292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810955158.2A Active CN109166590B (zh) 2018-08-21 2018-08-21 一种基于空域相关性的二维时频掩模估计建模方法

Country Status (1)

Country Link
CN (1) CN109166590B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859769B (zh) * 2019-01-30 2021-09-17 西安讯飞超脑信息科技有限公司 一种掩码估计方法及装置
CN110970046B (zh) * 2019-11-29 2022-03-11 北京搜狗科技发展有限公司 一种音频数据处理的方法及装置、电子设备、存储介质
CN111179920B (zh) * 2019-12-31 2023-01-24 中国科学院声学研究所 一种端到端远场语音识别方法及***
CN113378971B (zh) * 2021-06-28 2024-05-28 燕山大学 近红外光谱的分类模型训练方法、***及分类方法、***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
CN100466061C (zh) * 2005-08-15 2009-03-04 华为技术有限公司 一种宽带波束形成方法和装置
CN103873977B (zh) * 2014-03-19 2018-12-07 惠州Tcl移动通信有限公司 基于多麦克风阵列波束成形的录音***及其实现方法
CN108269583B (zh) * 2017-01-03 2021-07-30 中国科学院声学研究所 一种基于时间延迟直方图的语音分离方法

Also Published As

Publication number Publication date
CN109166590A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109166590B (zh) 一种基于空域相关性的二维时频掩模估计建模方法
CN105654963B (zh) 频谱校正及数据密度聚类法语音欠定盲识别方法和装置
CN106887238B (zh) 一种基于改进独立向量分析算法的声信号盲分离方法
CN110010148B (zh) 一种低复杂度的频域盲分离方法及***
CN108364659B (zh) 基于多目标优化的频域卷积盲信号分离方法
CN103854660B (zh) 一种基于独立成分分析的四麦克语音增强方法
CN109884591B (zh) 一种基于麦克风阵列的多旋翼无人机声信号增强方法
CN109584903A (zh) 一种基于深度学习的多人语音分离方法
Wang et al. Deep learning assisted time-frequency processing for speech enhancement on drones
CN108091345A (zh) 一种基于支持向量机的双耳语音分离方法
CN105580074B (zh) 信号处理***和方法
Quan et al. Multi-channel narrow-band deep speech separation with full-band permutation invariant training
Wang et al. Pseudo-determined blind source separation for ad-hoc microphone networks
CN109658944B (zh) 直升机声信号增强方法及装置
CN114822584A (zh) 一种基于积分改进广义互相关的传动装置信号分离方法
Sigg et al. Nonnegative CCA for audiovisual source separation
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN113093106A (zh) 一种声源定位方法及***
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
Cobos et al. Two-microphone separation of speech mixtures based on interclass variance maximization
CN108269583B (zh) 一种基于时间延迟直方图的语音分离方法
CN110865375A (zh) 一种水中目标检测方法
Jeyasingh et al. Real-time multi source speech enhancement based on sound source separation using microphone array
Cheng et al. Improving multimodal speech enhancement by incorporating self-supervised and curriculum learning
CN110956978B (zh) 一种基于欠定卷积混叠模型的稀疏盲分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant