CN115346545B - 一种基于测量域噪声相减的压缩感知语音增强方法 - Google Patents

一种基于测量域噪声相减的压缩感知语音增强方法 Download PDF

Info

Publication number
CN115346545B
CN115346545B CN202210968581.2A CN202210968581A CN115346545B CN 115346545 B CN115346545 B CN 115346545B CN 202210968581 A CN202210968581 A CN 202210968581A CN 115346545 B CN115346545 B CN 115346545B
Authority
CN
China
Prior art keywords
signal
noise
frame
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210968581.2A
Other languages
English (en)
Other versions
CN115346545A (zh
Inventor
雷雪林
雷厚涛
朱晓攀
余亭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuluo Network Technology Co ltd
Original Assignee
Hangzhou Yuluo Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuluo Network Technology Co ltd filed Critical Hangzhou Yuluo Network Technology Co ltd
Priority to CN202210968581.2A priority Critical patent/CN115346545B/zh
Publication of CN115346545A publication Critical patent/CN115346545A/zh
Application granted granted Critical
Publication of CN115346545B publication Critical patent/CN115346545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于测量域噪声相减的压缩感知语音增强方法,该方法包括:将带噪语音信号通过测量矩阵映射到测量域中,对测量域中不含语音信息的信号进行帧平均处理获得噪声估计信号,将测量域中的带噪语音信号减去噪声估计信号获得纯净语音信号,采用压缩感知算法对纯净语音信号进行重构及处理,获得增强的语音信号。本发明方法在压缩感知算法重构之前,从测量域混合(语音和噪声)信号分量中减去噪声分量,以此来减少噪声的影响从而实现了更加准确的语音信号重构。

Description

一种基于测量域噪声相减的压缩感知语音增强方法
技术领域
本发明涉及语音增强领域,特别涉及一种基于测量域噪声相减的压缩感知语音增强方法。
背景技术
自人类文明开始以来,语音一直是日常生活和工作交流的主要形式。但是在实际情境中,来自餐厅、市场和工厂等环境的附加背景噪声会对语音信号造成污染。当噪声强度较大时,还会掩盖真实的语音信号,使信息的交流变得困难。当人与人在噪声严重的环境下进行交流时,为了对抗其他声音的干扰,不得不拉近交流的距离或者提高交流的声音,这使得交流者发音器官和听觉***的负担加重。近年来,由于人工智能技术的兴起,智能***和设备的出现方便了人们的生活。语音是人与智能设备进行人机交互时最便捷、最准确的方式,但是环境中噪声会大大降低智能设备中语音识别***的性能。因此,如何降低噪声对人与人或人与***之间的干扰,从带噪语音信号中恢复出纯净信号一直都是研究的热点和重点。
语音增强技术就是针对语音通信过程中的噪声干扰问题,抑制带噪语音信号中的噪声,从而获得纯净的语音信号。作为语音信号处理领域的经典研究课题,语音增强技术已经被许多学者广泛研究。语音增强算法也从最初的单通道语音增强算法扩展到麦克风阵列增强算法,由最初的时域研究扩展到变换域研究。目前,常用的传统语音增强算法有谱减法、相位补偿算法、子空间算法、听觉掩蔽效应算法等。自压缩感知(compressed sensing)理论被提出之后,针对稀疏信号的重构算法在语音信号处理领域得到了一定的发展。大多数的信号,包括语音信号,在某个特定的变换域上都是稀疏的。利用语音信号的稀疏性,压缩感知可以通过从带噪语音中重建稀疏分量来估计纯净语音的稀疏表示。基于压缩感知技术的语音增强现已经取得一些研究成果,但是,这些方法中还存在一些问题需要解决。目前的研究大多数是针对平稳的噪声,针对非平稳的噪声,重构性能不佳。此外,当输入带噪信号的信噪比较低,即噪声能量相对较大时,该方法的重构质量下降。综上所述,针对基于压缩感知的语音增强技术,如何提高重构算法的重构性能是一个亟待解决的科学问题。
发明内容
本发明的目的在于克服压缩感知重构语音信号中的噪声干扰的问题,提出一种基于测量域噪声相减的压缩感知语音增强方法。该方法是在压缩感知算法重构之前,从测量域混合(语音和噪声)信号分量中减去噪声分量,以此来减少噪声的影响从而实现更加准确的语音信号重构。
为达到上述目的,本发明通过下述技术方案实现。
本发明提出了一种基于测量域噪声相减的压缩感知语音增强方法,该方法包括:
将带噪语音信号通过测量矩阵映射到测量域中得到测量域中的带噪语音信号,对测量域中不含语音信息的信号进行帧平均处理获得噪声估计信号,将测量域中的带噪语音信号减去噪声估计信号获得纯净语音信号,再采用压缩感知算法对纯净语音信号进行重构及处理,获得增强的语音信号。
作为上述技术方案的改进之一,所述方法包括以下步骤:
S1.将带噪语音信号通过测量矩阵映射到测量域中;
S2.对测量域的每一帧信号逐帧判断是否含有语音信息:不含语音信息的信号为静音帧,含有语音信息的信号为语音帧;
S3.对于判断得到的第一个静音帧进行帧平均处理,获得噪声估计信号;
S4.继续判断下一帧是否含有语音信息,若下一帧为静音帧,则对该静音帧与上一帧静音帧共同进行帧平均处理并更新噪声估计信号;若下一帧为语音帧,则步骤S3获得的噪声估计信号为该语音帧的噪声估计信号,转至步骤S6;
S5.重复步骤S4,直到下一帧为语音帧;
S6.对下一帧的语音帧进行噪声相减得到纯净语音帧;
S7.采用压缩感知算法对语音帧进行重构;
S8.对重构语音帧的频谱进行逆短傅里叶变化得到增强的语音帧;
S9.重复步骤S3-S8,得到完整的增强的语音信号。
作为上述技术方案的改进之一,所述步骤S1包括以下步骤:
S1-1.将带噪语音信号进行语音分割;
S1-2.将带燥语音信号进行短时傅里叶变换映射到频域中,选择测量矩阵,将目标信号通过测量矩阵映射到测量域中。
作为上述技术方案的改进之一,所述步骤S1-1中,使用Hamming窗函数对目标信号进行语音分割。
作为上述技术方案的改进之一,所述步骤S2中,采用语音活动检测技术判断测量域的每一帧信号是否含有语音信息。
作为上述技术方案的改进之一,所述步骤S3和S4中,对于语音信号,由于初始的几帧不包含语音信息,即判断为静音信号,故对初始静音帧的噪声估计信号进行估计,表达式为:
Figure BDA0003795892000000031
其中,
Figure BDA0003795892000000032
为第i次测量的噪声估计信号,f表示帧索引,NIS表示静音帧的长度,测量次数M为对于语音信号前几帧静音信号的测量次数,由测量矩阵Φ决定,Φ∈RM×N,R为实数,RM×N表示由实数构成的M行N列的矩阵,Yx(i,f)表示第i次测量第f帧噪声语音x在测量域的投影,i=1,2,......,M-1,M。
作为上述技术方案的改进之一,所述步骤S4中对噪声估计信号不断更新,以及步骤S5中得到的最终噪声估计信号,均满足下式:
Figure BDA0003795892000000033
其中,
Figure BDA0003795892000000034
为第j次测量的噪声估计信号,
Figure BDA0003795892000000035
为第j-1次测量的噪声估计信号,j=M+1,M+2,......,Yx(j,f)表示第j次测量第f帧噪声语音x在测量域的投影,NS表示静音帧的总数。
作为上述技术方案的改进之一,所述步骤S6.对下一帧的语音帧进行噪声相减得到纯净语音帧,表达式为:
Figure BDA0003795892000000036
其中,
Figure BDA0003795892000000037
表示测量域中第f帧的估计噪声信号,Yf表示测量域与f帧的估计噪声信号对应的语音帧,且
Figure BDA0003795892000000038
Figure BDA0003795892000000039
表示与测量域Yf对应的带噪语音帧,Φ表示测量矩阵,
Figure BDA00037958920000000310
表示测量域噪声相减后的纯净语音帧。
本发明与现有技术相比优点在于:
1、针对基于压缩感知的语音增强技术,如何提高重构算法的重构性能是一个亟待解决的科学问题,本申请提出了从测量域混合信号中减去噪声分量,并对如何获得噪声分量进行了合理估计,以此来较少噪声的影响从而实现更加准确的语音信号重构,提高压缩感知算法的重构性能;
2、基于测量域混合信号减去噪声分量的思想,可以有效的降低重构时噪声的干扰,实现更为准确的信号重构,因此,针对输入信号信噪比较低(噪声能量相对较大)的情况,本申请方法具有更好的重构性能。
附图说明
图1为压缩感知的数学模型;
图2为压缩感知的流程图;
图3为本发明基于测量域相减的压缩感知语音增强方法流程图;
图4为纯净语音和输入为0dB白噪声时语音的波形图,其中,图4(a)为纯净语音(原始信号)的波形图,图4(b)为输入为0dB白噪声时语音(带噪语音信号)的波形图;
图5为采用两种算法(OMP算法和本发明基于测量域噪声相减的OMP算法)输出语音的波形图,其中,图5(a)为采用压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图,图5(b)为采用本发明基于测量域噪声相减的压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图;
图6为添加不同信噪比白噪声的情况下两种算法输出的信噪比(SNR)和感知语音质量评价(PESQ)对比图,其中,图6(a)为添加不同信噪比白噪声的情况下两种算法输出的SNR对比图,图6(b)为添加不同信噪比白噪声的情况下两种算法输出的PESQ对比图;
图7为添加不同信噪比粉红噪声的情况下两种算法输出的SNR和PESQ对比图,其中,图7(a)为添加不同信噪比粉红噪声的情况下两种算法输出的SNR对比图,图7(b)为添加不同信噪比粉红噪声的情况下两种算法输出的感知语音质量评价PESQ对比图。
具体实施方式
下面结合附图给出本发明的实施流程,以详细说明本发明的技术方案。
1、压缩感知基本原理
压缩感知是一种根据信号的稀疏性而提出来的采样方法,它突破了奈奎斯特采样定理的限制,以远低于信号带宽两倍的速率进行采样,再使用优化算法可以将数据恢复出来。压缩感知的数学模型如图1所示,该模型可表示为:
y=Φx (1)
其中,x表示长度为N的一维信号向量,x∈RN;y表示测量值,为长度为M的向量,y∈RM;Φ表示测量矩阵,Φ∈RM×N。压缩感知采样方法针对的信号是稀疏的,信号在稀疏域中表示为:
x=Ψs (2)
其中,Ψ为正交稀疏基矩阵,Ψ∈RN×N;s是信号在稀疏基上的稀疏向量,s∈RN,其中有K<<N个非零值。结合公式(1)和公式(2)可得:
y=ΦΨs (3)
压缩感知的主要目的是通过公式(3)逆向求解稀疏信号s,从而恢复目标信号x。该求解问题可以转化为求解最小化l0范数的问题,即:
Figure BDA0003795892000000051
然而求解l0范数最小化的问题是一个较为困难的NP-Hard的问题,Candes和Donoho等人指出,当测量矩阵满足有限等距性质(Restricted Isometry Property,RIP)条件时,求解l0范数最小化的问题可以转化为l1最小范数下的最优化问题,其求解模型为:
Figure BDA0003795892000000052
压缩感知的流程如图2所示,目标信号经过测量矩阵映射和稀疏变换后,采用压缩感知重构算法将目标信号恢复出来。现有的压缩感知语音增强方法是以测量域中混合(语音和噪声)信号分量来估计纯净的语音信号,当噪声能量增加时,会导致信号重构的质量下降。为了提高噪声能量较大情况下的压缩感知语音增强方法的性能,本文提出了一种基于测量域噪声相减的方法,即在信号重构之前,估计并减去测量域中的噪声信号分量,以此来实现更为准确的信号重构。
2、基于测量域噪声相减的压缩感知语音增强方法
在语音信号中,假设带噪信号为x,纯净语音信号为xs,加性噪声为xn,则带噪语音信号可表示为:
x=xs+xn (6)
对等式(6)同时进行短时的傅里叶(Short-time Fourier Transform,STFT)变换得:
X=Xs+Xn (7)
其中X、Xs、Xn分别表示频域上的带噪语音信号、纯净语音信号和噪声。将信号映射到压缩感知的测量域(综合公式(2)、(3)和(7))为:
Y=ΦX=ΦXs+ΦXn=ΦΨSs+ΦΨSn=Ys+Yn (8)
其中Ys、Yn分别表示纯净语音和噪声在测量域中的向量,即Xs、Xn在测量域中的投影。由式(8)可知,在压缩感知算法进行信号重构时,选用的向量Y是测量域混合信号分量(Ys+Yn),其中噪声信号分量Yn会造成重构质量下降。由于Ys、Yn是通过在测量矩阵Φ上独立投影得来的,所以为了提高重构质量,我们可以在测量域中减去噪声分量,选择测量域纯净语音分量进行压缩感知算法重构。
基于测量域相减的压缩感知语音增强过程如图3所示,主要分为测量域映射和语音信号重构两个部分。首先,使用Hamming窗函数对目标信号进行语音分割,对于分割的每一帧信号,进行STFT变换到频域。同时,利用语音活动检测(Voice Activity Detection,VAD)技术来判断当前帧信号是否含有语音信息,并将整段信号分为语音帧和静音帧(不含语音信息)。语音活动检测(VAD)又称语音端点检测,主要利用端点识别技术将有效的语音信号和静音信号或者噪声信号进行分离,使得后续的语音识别、语义识别、语音增强等工作更加高效。常见的语音活动检测的算法有双门限法、频谱熵法、自相关法、时频方差法等,本文使用双门限法进行语音端点检测。一般情况下,VAD具有二进制输出。当特征值超过端点检测阈值,VAD的输出为1,否则,VAD的输出为0。测量域中的噪声是通过对静音语音信号进行帧平均来估计的。通常假设语音信号的前100-300ms不包含语音信息。本文假设前250ms信号为初始静音信号,则可以使用第一个NIS静音帧来估计噪声,即:
Figure BDA0003795892000000061
其中,f表示帧索引,M表示测量次数,Yx表示噪声语音x在测量域的投影。后续再检测到静音帧f(VAD(f)=0)时更新
Figure BDA0003795892000000071
因此,测量域的帧平均噪声估计可表示为:
Figure BDA0003795892000000072
其中,NS表示静音帧的总数。
在估计测量域中的噪声后,将VAD掩码函数M应用于频谱X得:
Xm=MX (11)
其中,掩码函数M为:
Figure BDA0003795892000000073
其中,b(b=1……B)是频率区间索引,f(f=1……F)是帧索引,乘法以元素的方法执行。对每个语音帧进行测量域噪声相减,如下所示:
Figure BDA0003795892000000074
其中,Yf
Figure BDA0003795892000000075
分别表示测量域中f帧的信号Y和估计噪声信号,且
Figure BDA0003795892000000076
Figure BDA0003795892000000077
表示测量域噪声相减后的f帧纯净语音信号。
在测量域进行噪声相减后,应用压缩感知正交匹配追踪算法(OrthogonalMatching Pursuit,OMP)进行信号的重构,即:
Figure BDA0003795892000000078
其中,
Figure BDA0003795892000000079
为估计稀疏信号
Figure BDA00037958920000000710
的第f帧,Ψ为稀疏基矩阵,本文选择傅里叶矩阵作作为稀疏基矩阵。则测量域噪声相减的频谱表示为:
Figure BDA00037958920000000711
其中,
Figure BDA00037958920000000712
Figure BDA00037958920000000713
分别表示第f帧的
Figure BDA00037958920000000714
和Xm。最后增强的语音信号
Figure BDA00037958920000000715
可以通过对频谱
Figure BDA00037958920000000716
进行逆短时傅里叶变换(Inverse Short-time Fourier Transform,ISTFT)得到。算法1详细的说明看基于测量域噪声相减的语音增强的过程。
Figure BDA0003795892000000081
以下结合实施例进一步说明本发明所提供的技术方案。
实施例
通过仿真与实验相结合的方法展示本申请的技术效果。
如图3所示,为本发明实施例1采用的基于测量域相减的压缩感知语音增强方法流程图。
本次实施例采用的纯净语音为NOIZEUS语音库中的男性语音,相关语句为:“Thebirch canoe slid on the smooth planks”,文件名为“sp01.wav”,时长为2.67s,采样率为8000Hz。
叠加的噪声为白噪声和粉红噪声,对噪声进行下采样为8000Hz。语音帧长N=256,帧移为128。仿真软件为MATLAB 2021b。为了验证基于测量域噪声相减的OMP算法的有效性,选用传统的OMP算法(对比)和所提出的算法对带噪语音进行语音增强。
图4为原始纯净语音和输入为0dB白噪声时语音的波形图,其中,图4(a)为纯净语音(原始信号)的波形图,图4(b)为输入为0dB白噪声时语音(带噪语音信号)的波形图。图5为OMP算法和基于测量域相减的OMP算法输出语音的波形图,其中,图5(a)为采用压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图,图5(b)为采用本发明基于测量域噪声相减的压缩感知正交匹配追踪(OMP)算法输出的语音信号波形图。语音的波形图说明,传统的OMP算法虽然能在一定程度上进行语音增强,但是对于噪声的抑制作用相对较差。本文提出的基于测量域相减的OMP算法重构出的语音更加纯净和准确。对比传统的OMP算法,所提出的算法在噪声抑制方面明显增强。
对于语音增强的结果,常用的评价指标还有输出信噪比(SNR)和感知语音质量评价(PESQ)。为了进一步的验证基于测量域噪声相减的OMP算法性能,本文分别计算了两种算法在不同信噪比下的白噪声和粉红噪声时的SNR和PESQ。图6表示分别添加-10dB、-5dB、0dB、5dB和10dB信噪比白噪声的情况下,两种算法输出的SNR和PESQ,其中,图6(a)为添加不同信噪比白噪声的情况下两种算法输出的SNR对比图,图6(b)为添加不同信噪比白噪声的情况下两种算法输出的PESQ对比图;图7表示分别添加-10dB、-5dB、0dB、5dB和10dB信噪比粉红噪声的情况下,两种算法输出的SNR和PESQ,其中,图7(a)为添加不同信噪比粉红噪声的情况下两种算法输出的SNR对比图,图7(b)为添加不同信噪比粉红噪声的情况下两种算法输出的感知语音质量评价PESQ对比图。图6、图7表明,在噪声类型不同,噪声程度不同的情况下,对比OMP算法,基于测量域相减的OMP语音增强算法重构出的语音质量更好。总体来说,本文所提出的方法具有更好降噪能力和重构性能。
从上述对本发明的具体描述可以看出,本发明方法在压缩感知算法重构之前,从测量域混合(语音和噪声)信号分量中减去噪声分量,以此来减少噪声的影响从而实现了更加准确的语音信号重构。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种基于测量域噪声相减的压缩感知语音增强方法,其特征在于,该方法包括:
将带噪语音信号通过测量矩阵映射到测量域中得到测量域中的带噪语音信号,对测量域中不含语音信息的信号进行帧平均处理获得噪声估计信号,将测量域中的带噪语音信号减去噪声估计信号获得纯净语音信号,再采用压缩感知算法对纯净语音信号进行重构及处理,获得增强的语音信号;
所述方法包括以下步骤:
S1.将带噪语音信号通过测量矩阵映射到测量域中;
S2.对测量域的每一帧信号逐帧判断是否含有语音信息:不含语音信息的信号为静音帧,含有语音信息的信号为语音帧;
S3.对于判断得到的第一个静音帧进行帧平均处理,获得噪声估计信号;
S4.继续判断下一帧是否含有语音信息,若下一帧为静音帧,则对该静音帧与上一帧静音帧共同进行帧平均处理并更新噪声估计信号;若下一帧为语音帧,则步骤S3获得的噪声估计信号为该语音帧的噪声估计信号,转至步骤S6;
S5.重复步骤S4,直到下一帧为语音帧;
S6.对下一帧的语音帧进行噪声相减得到纯净语音帧;
S7.采用压缩感知算法对语音帧进行重构;
S8.对重构语音帧的频谱进行逆短傅里叶变化得到增强的语音帧;
S9.重复步骤S3-S8,得到完整的增强的语音信号;
所述步骤S1包括以下步骤:
S1-1.将带噪语音信号进行语音分割;
S1-2.将带燥语音信号进行短时傅里叶变换映射到频域中,并基于语音活动检测的输出创建一个掩码函数,并将掩码函数应用于带噪语音信号的频谱图后,选择测量矩阵,将目标信号通过测量矩阵映射到测量域中;
所述步骤S1-1中,使用Hamming窗函数对目标信号进行语音分割。
2.根据权利要求1所述的基于测量域噪声相减的压缩感知语音增强方法,其特征在于,所述步骤S2中,采用语音活动检测技术判断测量域的每一帧信号是否含有语音信息。
3.根据权利要求2所述的基于测量域噪声相减的压缩感知语音增强方法,其特征在于,所述步骤S3和S4中,对于语音信号,由于初始的几帧不包含语音信息,即判断为静音信号,故对初始静音帧的噪声估计信号进行估计,表达式为:
Figure FDA0004070082100000021
其中,
Figure FDA0004070082100000022
为第i次测量的噪声估计信号,f表示帧索引,NIS表示静音帧的长度,测量次数M为对于语音信号前几帧静音信号的测量次数,由测量矩阵Φ决定,Φ∈RM×N,R为实数,RM ×N表示由实数构成的M行N列的矩阵,Yx(i,f)表示第i次测量第f帧噪声语音x在测量域的投影,i=1,2,......,M-1,M。
4.根据权利要求3所述的基于测量域噪声相减的压缩感知语音增强方法,其特征在于,所述步骤S4中对噪声估计信号不断更新,以及步骤S5中得到的最终噪声估计信号,均满足下式:
Figure FDA0004070082100000023
其中,
Figure FDA0004070082100000024
为第j次测量的噪声估计信号,
Figure FDA0004070082100000025
为第j-1次测量的噪声估计信号,j=M+1,M+2,......,Yx(j,f)表示第j次测量第f帧噪声语音x在测量域的投影,NS表示静音帧的总数。
5.根据权利要求4所述的基于测量域噪声相减的压缩感知语音增强方法,其特征在于,所述步骤S6.对下一帧的语音帧进行噪声相减得到纯净语音帧,表达式为:
Figure FDA0004070082100000026
其中,
Figure FDA0004070082100000027
表示测量域中第f帧的估计噪声信号,Yf表示测量域与f帧的估计噪声信号对应的语音帧,且
Figure FDA0004070082100000028
Figure FDA0004070082100000029
表示与测量域Yf对应的带噪语音帧,Φ表示测量矩阵,
Figure FDA00040700821000000210
表示测量域噪声相减后的纯净语音帧。
CN202210968581.2A 2022-08-12 2022-08-12 一种基于测量域噪声相减的压缩感知语音增强方法 Active CN115346545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210968581.2A CN115346545B (zh) 2022-08-12 2022-08-12 一种基于测量域噪声相减的压缩感知语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210968581.2A CN115346545B (zh) 2022-08-12 2022-08-12 一种基于测量域噪声相减的压缩感知语音增强方法

Publications (2)

Publication Number Publication Date
CN115346545A CN115346545A (zh) 2022-11-15
CN115346545B true CN115346545B (zh) 2023-03-21

Family

ID=83952143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210968581.2A Active CN115346545B (zh) 2022-08-12 2022-08-12 一种基于测量域噪声相减的压缩感知语音增强方法

Country Status (1)

Country Link
CN (1) CN115346545B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
KR20140031790A (ko) * 2012-09-05 2014-03-13 삼성전자주식회사 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치
CN103745727A (zh) * 2013-12-25 2014-04-23 南京邮电大学 一种含噪声语音信号压缩感知方法

Also Published As

Publication number Publication date
CN115346545A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
CN103456310B (zh) 一种基于谱估计的瞬态噪声抑制方法
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
Yong et al. Optimization and evaluation of sigmoid function with a priori SNR estimate for real-time speech enhancement
CN110767244B (zh) 语音增强方法
Borowicz et al. Signal subspace approach for psychoacoustically motivated speech enhancement
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
Odelowo et al. A study of training targets for deep neural network-based speech enhancement using noise prediction
Saleem et al. Unsupervised speech enhancement in low SNR environments via sparseness and temporal gradient regularization
Saleem et al. Deep neural network based supervised speech enhancement in speech-babble noise
CN109102823B (zh) 一种基于子带谱熵的语音增强方法
Taşmaz et al. Speech enhancement based on undecimated wavelet packet-perceptual filterbanks and MMSE–STSA estimation in various noise environments
Saleem et al. Variance based time-frequency mask estimation for unsupervised speech enhancement
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
Liu et al. Using Shifted Real Spectrum Mask as Training Target for Supervised Speech Separation.
CN115346545B (zh) 一种基于测量域噪声相减的压缩感知语音增强方法
Bavkar et al. PCA based single channel speech enhancement method for highly noisy environment
Lun et al. A novel expectation-maximization framework for speech enhancement in non-stationary noise environments
CN114566179A (zh) 一种时延可控的语音降噪方法
Jia et al. Speech enhancement using modified mmse-lsa and phase reconstruction in voiced and unvoiced speech
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
Xuhong et al. Speech enhancement using convolution neural network-based spectrogram denoising
Bulut et al. Low-Latency Single Channel Speech Dereverberation Using U-Net Convolutional Neural Networks.
Hepsiba et al. Computational intelligence for speech enhancement using deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant