CN110956978B - 一种基于欠定卷积混叠模型的稀疏盲分离方法 - Google Patents

一种基于欠定卷积混叠模型的稀疏盲分离方法 Download PDF

Info

Publication number
CN110956978B
CN110956978B CN201911135757.0A CN201911135757A CN110956978B CN 110956978 B CN110956978 B CN 110956978B CN 201911135757 A CN201911135757 A CN 201911135757A CN 110956978 B CN110956978 B CN 110956978B
Authority
CN
China
Prior art keywords
aliasing
underdetermined
convolution
sparse
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911135757.0A
Other languages
English (en)
Other versions
CN110956978A (zh
Inventor
解元
谢胜利
谢侃
杨俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201911135757.0A priority Critical patent/CN110956978B/zh
Publication of CN110956978A publication Critical patent/CN110956978A/zh
Application granted granted Critical
Publication of CN110956978B publication Critical patent/CN110956978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及信号处理技术领域,提出一种基于欠定卷积混叠模型的稀疏盲分离方法,包括以下步骤:获取欠定混叠语音信号;对所述欠定混叠语音信号进行短时傅里叶变换,得到频域上的稀疏混叠信号;对所述频域上的稀疏混叠信号进行数学建模,得到欠定卷积混叠模型;在所述欠定卷积混叠模型下建立稀疏代价函数,利用盲分离技术对混叠通道进行实时更新,得到估计的源信号;对所述估计的源信号进行尺度和排序处理,再利用傅里叶变换的逆运算得到时域上的完成分离的源信号。本发明利用源信号的稀疏约束以及欠定卷积混叠模型的构造,在处理真实环境下的高混响混叠信号具有更明显的优势。

Description

一种基于欠定卷积混叠模型的稀疏盲分离方法
技术领域
本发明涉及信号处理技术领域,更具体地,涉及一种基于欠定卷积混叠模型的稀疏盲分离方法。
背景技术
盲源分离(Blind source separation,BSS)是在混叠信道未知的情况下,仅仅从观测到的混叠信号中分离源信号。特别的,欠定的盲源分离问题引起了越来越多的关注,如何在源信号数目大于传感器的数目下的混叠信号中有效地分离源信号是一个极具挑战性的问题。
目前,在解决卷积混叠盲分离问题上,主要采用独立元分析方法在假设源信号之间是相互独立的条件下,进行源信号的盲分离。然而,独立元分析在处理欠定的卷积混叠盲分离问题上有一定的局限性,因为独立元分析只能处理过定的或者正定的情形,即源信号数目小于或等于传感器的数目。为了解决欠定的情况,一般结合稀疏元分析理论对源信号进行盲分离,其中,稀疏元分析理论是假设源信号满足一定的稀疏性,即假设在每个频点上只有唯一的源信号是活跃的,其他的等于零或者接近于零。然而,时域上的信号并不具有很好的稀疏性。为了满足稀疏性的假设,常规的方法是利用短时傅里叶变换,把时域信号转换到频域上进行处理。但是,在源信号恢复阶段容易导致排序歧义性问题和尺度不确定问题,从而对盲分离结果带来了严重的影响。另外,由于混响时间过长还会导致混叠过程更加复杂,已有的多数卷积盲分离算法只能解决低混响的混叠信号,但无法解决高混响的混叠情形。
发明内容
本发明为克服上述现有技术所述的欠定卷积混叠信号盲分离结果不理想的缺陷,提供一种基于欠定卷积混叠模型的稀疏盲分离方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于欠定卷积混叠模型的稀疏盲分离方法,包括以下步骤:
S1:获取欠定混叠语音信号;
S2:对所述欠定混叠语音信号进行短时傅里叶变换,得到频域上的稀疏混叠信号;
S3:对所述频域上的稀疏混叠信号进行数学建模,得到欠定卷积混叠模型;
S4:在所述欠定卷积混叠模型下建立稀疏代价函数,利用盲分离技术对混叠通道进行实时更新,得到估计的源信号;
S5:对所述估计的源信号进行尺度和排序处理,再利用傅里叶变换的逆运算得到时域上的完成分离的源信号。
本技术方案用用于在欠定卷积混叠模型下对混叠信号进行分离,对所述待分离的混叠信号进行短时傅里叶变换,将混叠信号变换到频域上,并进行数学建模,得到欠定卷积混叠模型;然后,在此模型下构建稀疏代价函数,利用稀疏盲分离技术分离源信号;再对分离的源信号进行尺度和排序处理,使得估计的源信号与真实的源信号排序上保持一致。最后,利用傅里叶变换的逆运算将频域上估计的源信号变换到时域上,得到分离后的源信号。
优选地,S1步骤中,采用在高混响的环境下,同时播放N组语音源信号,利用M个麦克风进行接收,获取欠定混叠语音信号,其中,N、M为正整数,且N>M。
优选地,S3步骤中,所述欠定卷积混叠模型的表达公式如下:
Figure BDA0002279563210000021
其中,N为源信号个数,L为卷积核的长度;hn=[h1n,h2n,...,hMn]T表示第n个源信号在时频域上的脉冲响应;对于每个频点,利用矩阵的表示形式如下:
Xf=Hf*Sf+Nf
其中,*表示卷积过程,
Figure BDA0002279563210000022
表示卷积混叠***,Sf表示源信号,Nf表示近似误差。
优选地,S4步骤中,所述稀疏代价函数的公式如下:
Figure BDA0002279563210000023
其中,||·||F表示Frobenius范数;p是常数,且0<p≤1;λ为可调节的参数。
优选地,S4步骤中,利用临近算子得到估计的源信号
Figure BDA0002279563210000024
其计算公式如下:
Figure BDA0002279563210000025
其中,(Si)+=max(0,Si)。
优选地,S5步骤中,对所述估计的源信号采用混叠阵矩阵进行列的标准化进行尺度处理,对所述估计的源信号采用方向到达角技术进行排序处理。为了避免尺度不确定性问题,本优选方案对混叠矩阵进行列的标准化;同时利用方向到达角技术弥补排序不一致问题,再利用傅里叶变换的逆运算,把频域上估计的源信号变换到时域上,从而得到分离的源信号。
与现有技术相比,本发明技术方案的有益效果是:通过构建欠定卷积混叠模型,实现更好地、更精确地描述高混响环境下的混叠信号;通过构造稀疏代价函数,利用原信号的稀疏性更好地重构源信号;利用源信号的稀疏约束以及欠定卷积混叠模型的构造,在处理真实环境下的高混响混叠信号具有更明显的优势。
附图说明
图1为实施例1的基于欠定卷积混叠模型的稀疏盲分离方法的流程图。
图2为实施例1的原始语音源信号的波形图。
图3为实施例1的混叠通道的波形图。
图4为实施例1的完成分离的源信号波形图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于欠定卷积混叠模型的稀疏盲分离方法,如图1所示,为本实施例的基于欠定卷积混叠模型的稀疏盲分离方法的流程图。
本实施例中的基于欠定卷积混叠模型的稀疏盲分离方法包括以下步骤:
S1:获取欠定混叠语音信号。
本实施例中,通过在网上公共语音数据集获取N组语音源信号,然后采用在高混响的环境下,同时播放上述获取的N组语音源信号,利用M个麦克风进行接收,获取欠定混叠语音信号,其中,N、M为正整数,且N>M。
S2:对所述欠定混叠语音信号进行短时傅里叶变换,得到频域上的稀疏混叠信号。
本实施例中,根据上述获得的稀疏混叠信号,为了保障源信号的稀疏性,通过计算机编程,在计算机上对所获得的欠定混叠语音信号进行短时傅里叶变换,把时域上的欠定混叠语音信号变换到频域上,得到更加稀疏的信号。
S3:对所述频域上的稀疏混叠信号进行数学建模,得到欠定卷积混叠模型。
本步骤中,欠定卷积混叠模型的表达公式如下:
Figure BDA0002279563210000041
其中,N为源信号个数,L为卷积核的长度;hn=[h1n,h2n,...,hMn]T表示第n个源信号在时频域上的脉冲响应;对于每个频点,利用矩阵的表示形式如下:
Xf=Hf*Sf+Nf
其中,*表示卷积过程,
Figure BDA0002279563210000042
表示卷积混叠***,Sf表示源信号,Nf表示近似误差。
S4:在所述欠定卷积混叠模型下建立稀疏代价函数,利用盲分离技术对混叠通道进行实时更新,得到估计的源信号。
本步骤中,首先建立稀疏代价函数,其中,稀疏代价函数的公式如下:
Figure BDA0002279563210000043
公式中,||·||F表示Frobenius范数;p是常数,且0<p≤1;λ为可调节的参数;
然后,利用临近算子计算得到估计的源信号
Figure BDA0002279563210000044
其计算公式如下:
Figure BDA0002279563210000045
其中,(Si)+=max(0,Si)。
S5:对所述估计的源信号
Figure BDA0002279563210000046
进行尺度和排序处理,再利用傅里叶变换的逆运算得到时域上的完成分离的源信号。
本步骤中,为了避免尺度不确定性问题,本实施例对混叠矩阵进行列的标准化;同时利用方向到达角技术弥补排序不一致的问题,再利用傅里叶变换的逆运算,把频域上估计的源信号
Figure BDA0002279563210000047
变换到时域上,从而得到分离的源信号。
进一步的,本实施例采用两组实验数据说明本实施例提出的基于欠定卷积混叠模型的稀疏盲分离方法的可行性和优越性。本实施例提出的实验数据是在Windows 10,Inter(R)Xeon(R)CPU E5-2630 [email protected],32.00GB,Matlab R2019a环境下实现的。
首先,我们测试一组三个源信号两通道的欠定卷积混叠信号,数据集来自于“SISEC2013”(http://sisec.wiki.irisa.fr/tiki-index.html),选用真实记录的混叠信号:“dev1/dev1_female3_liverec_130ms_5cm_mix”,该混叠信号是由三个语音源信号两通道混叠而成。在欠定混叠语音信号获取过程中,所采用的两个麦克风之间的距离是5cm,混响时间为130ms。为了更好的说明本发明的可行性,我们测试不同参数p值对分离结果的影响,评价标准选用公用的SDR,SIR,ISR,SAR的平均值作为参考。
实验结果如下表1所示:
表1三个语音源信号两通道的卷积混叠信号盲分离结果(dB)
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
SDR 1.28 3.18 2.52 2.82 1.96 1.44 1.97 4.19 4.90 4.18
SIR 1.02 2.96 2.04 2.65 0.77 0.11 1.38 5.52 7.74 6.39
ISR 4.12 5.97 5.72 6.13 5.17 4.90 5.61 7.72 8.56 7.89
SAR 7.51 9.84 10.53 8.48 10.24 6.80 8.23 8.79 10.85 7.51
由表1结果可知,不同的p值产生的分离结果不同,在p=0.9时盲分离结果最理想。同时,我们对比了本实施例提出的基于欠定卷积混叠模型的稀疏盲分离方法在p=0.9时的原始信号与分离信号的波形图。
如图2所示,为本实施例所采用的原始语音源信号的波形图,图3为混叠通道的波形图,图4为分离的源信号波形图。
由图可知,通过对比图2和图4,可以发现本实施例待分离的混叠信号显然能够实现分离,因此本实施例所提出的基于欠定卷积混叠模型的稀疏盲分离方法具有可行性。
本实施例还测试了一组由四个源信号三通道的欠定卷积混叠信号,数据集来自于“SISEC2013”(http://sisec.wiki.irisa.fr/tiki-index.html),选用真实记录的混叠信号:“dev3/dev3_female3_liverec_380ms_5cm_mix”。所选用的混叠信号是由四个语音源信号三通道混叠而成,在获取欠定混叠语音信号的过程中,所采用的是两个麦克风之间的距离是5cm,混响时间为380ms的高混响环境。
本实施例对比了以下现有算法:Full-rank算法、N-Regu算法、C-PALM算法,采用SDR值、SIR值对实验结果进行判断。本实施例的实验结果如下表2所示:
表2四个语音源信号三通道的卷积混叠信号盲分离结果(dB)
Figure BDA0002279563210000061
由表2结果可知,相比于其他现有的盲分离算法,本实施例提出的基于欠定卷积混叠模型的稀疏盲分离方法在分离高混响的欠定混叠信号中具有一定的优越性。
由上述实施结果可知,本实施例提出的基于欠定卷积混叠模型的稀疏盲分离方法通过构建欠定卷积混叠模型,实现更好地、更精确地描述高混响环境下的混叠信号;通过构造稀疏代价函数,利用原信号的稀疏性更好地重构源信号;针对排序歧义性问题,通过采用方向到达角的排序方案,解决排序混乱问题,从而有效地分离高混响环境下的混叠信号。本实施例充分利用源信号的稀疏约束以及欠定卷积混叠模型的构造,在处理真实环境下的高混响混叠信号具有更高的优势。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于欠定卷积混叠模型的稀疏盲分离方法,包括以下步骤:
S1:获取欠定混叠语音信号;
S2:对所述欠定混叠语音信号进行短时傅里叶变换,得到频域上的稀疏混叠信号;
S3:对所述频域上的稀疏混叠信号进行数学建模,得到欠定卷积混叠模型;所述欠定卷积混叠模型的表达公式如下:
Figure FDA0003930123800000011
其中,N为源信号个数,L为卷积核的长度;hn=[h1n,h2n,...,hMn]T表示第n个源信号在时频域上的脉冲响应;对于每个频点,利用矩阵的表示形式如下:
Xf=Hf*Sf+Nf
其中,*表示卷积过程,
Figure FDA0003930123800000012
表示卷积混叠***,Sf表示源信号,Nf表示近似误差;
S4:在所述欠定卷积混叠模型下建立稀疏代价函数,利用盲分离技术对混叠通道进行实时更新,得到估计的源信号;所述稀疏代价函数的公式如下:
Figure FDA0003930123800000013
其中,||·||F表示Frobenius范数;p为常数,且0<p≤1;λ为可调节的参数;
S5:对所述估计的源信号进行尺度和排序处理,再利用傅里叶变换的逆运算得到时域上的完成分离的源信号。
2.根据权利要求1所述的基于欠定卷积混叠模型的稀疏盲分离方法,其特征在于:所述S1步骤中,采用在高混响的环境下,同时播放N组语音源信号,利用M个麦克风进行接收,获取欠定混叠语音信号,其中,N、M为正整数,且N>M。
3.根据权利要求1所述的基于欠定卷积混叠模型的稀疏盲分离方法,其特征在于:所述S4步骤中,利用临近算子得到估计的源信号
Figure FDA0003930123800000014
其计算公式如下:
Figure FDA0003930123800000015
其中,(Sf)+=max(0,Sf)。
4.根据权利要求3所述的基于欠定卷积混叠模型的稀疏盲分离方法,其特征在于:所述S5步骤中,对所述估计的源信号采用混叠阵矩阵进行列的标准化进行尺度处理,对所述估计的源信号采用方向到达角技术进行排序处理。
CN201911135757.0A 2019-11-19 2019-11-19 一种基于欠定卷积混叠模型的稀疏盲分离方法 Active CN110956978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911135757.0A CN110956978B (zh) 2019-11-19 2019-11-19 一种基于欠定卷积混叠模型的稀疏盲分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911135757.0A CN110956978B (zh) 2019-11-19 2019-11-19 一种基于欠定卷积混叠模型的稀疏盲分离方法

Publications (2)

Publication Number Publication Date
CN110956978A CN110956978A (zh) 2020-04-03
CN110956978B true CN110956978B (zh) 2022-12-16

Family

ID=69977729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911135757.0A Active CN110956978B (zh) 2019-11-19 2019-11-19 一种基于欠定卷积混叠模型的稀疏盲分离方法

Country Status (1)

Country Link
CN (1) CN110956978B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230223036A1 (en) * 2020-05-15 2023-07-13 Harman International Industries, Incorporated Efficient blind source separation using topological approach

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101043114B1 (ko) * 2009-07-31 2011-06-20 포항공과대학교 산학협력단 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치
CN101667425A (zh) * 2009-09-22 2010-03-10 山东大学 一种对卷积混叠语音信号进行盲源分离的方法
CN105355212B (zh) * 2015-10-14 2019-03-05 天津大学 一种稳健的欠定盲分离源数及混合矩阵估计方法及装置
CN109671447A (zh) * 2018-11-28 2019-04-23 广东工业大学 一种双通道欠定卷积混叠信号盲分离方法

Also Published As

Publication number Publication date
CN110956978A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN111415676B (zh) 一种基于分离矩阵初始化频点选择的盲源分离方法及***
Li et al. Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization
CN104464750B (zh) 一种基于双耳声源定位的语音分离方法
Yang et al. Under-determined convolutive blind source separation combining density-based clustering and sparse reconstruction in time-frequency domain
EP3440670B1 (en) Audio source separation
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN110709929B (zh) 处理声音数据以分离多声道信号中的声源
CN110956978B (zh) 一种基于欠定卷积混叠模型的稀疏盲分离方法
Cobos et al. Maximum a posteriori binary mask estimation for underdetermined source separation using smoothed posteriors
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN115278496A (zh) 用于麦克风阵列测量的稀疏声源辨识方法、***
Hoffmann et al. Using information theoretic distance measures for solving the permutation problem of blind source separation of speech signals
JP6448567B2 (ja) 音響信号解析装置、音響信号解析方法、及びプログラム
US20210225386A1 (en) Joint source localization and separation method for acoustic sources
JP6973254B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
CN110491408B (zh) 一种基于稀疏元分析的音乐信号欠定混叠盲分离方法
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
Zohny et al. Modelling interaural level and phase cues with Student's t-distribution for robust clustering in MESSL
CN108304855B (zh) 一种海洋环境下多潜水艇特征信号盲源分离方法
CN112185412A (zh) 一种多目标声信号混叠下的识别方法
Chen et al. Acoustic vector sensor based speech source separation with mixed Gaussian-Laplacian distributions
Mazur et al. A new clustering approach for solving the permutation problem in convolutive blind source separation
JP4714892B2 (ja) 耐高残響ブラインド信号分離装置及び方法
JP4787777B2 (ja) 信号分離装置、信号分離方法、信号分離プログラム、記録媒体
Pan et al. Blind speech extraction based on modulus diversity constraint

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant