CN107248414A - 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 - Google Patents

一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 Download PDF

Info

Publication number
CN107248414A
CN107248414A CN201710366412.0A CN201710366412A CN107248414A CN 107248414 A CN107248414 A CN 107248414A CN 201710366412 A CN201710366412 A CN 201710366412A CN 107248414 A CN107248414 A CN 107248414A
Authority
CN
China
Prior art keywords
frequency spectrum
multiframe
voice
multiframe frequency
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710366412.0A
Other languages
English (en)
Inventor
何亮
施梦楠
徐灿
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710366412.0A priority Critical patent/CN107248414A/zh
Publication of CN107248414A publication Critical patent/CN107248414A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法与装置,属于语音增强和非负矩阵分解领域。该方法对纯净语音、噪声、带噪语音预处理,得到短时频谱,并转换为多帧频谱;将噪声和纯净语音的多帧频谱分别转化为对应的基矩阵和系数矩阵的乘积,求出噪声的多帧频谱的基矩阵和纯净语音多帧频谱的基矩阵;将两个基矩阵合成带噪语音多帧频谱的基矩阵,并将带噪语音的多帧频谱转化为基矩阵和系数矩阵的乘积,获得带噪语音多帧频谱的系数矩阵,进而得到噪声的和增强语音的多帧频谱的初始估计;通过维纳滤波方法,获得增强语音的多帧频谱,变换为时域信号,获得最终增强语音。本发明保存了语音的特有信息,更好地还原语音,提升语音增强的效果。

Description

一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
技术领域
本发明属于语音增强和非负矩阵分解领域,特别涉及一种基于多帧频谱和非负矩阵分解的语音增强方法与装置。
背景技术
语音增强,也称为语音降噪,是对带噪语音进行处理,去除带噪语音中的噪声部分,获取带噪语音中的纯净语音部分,在改善语音质量的同时,提高语音的可懂度的语音处理技术。语音增强技术可以抑制语音通信过程中的背景噪声,提高通信质量。也可以作为语音处理***的预处理***,帮助语音处理***抵抗噪声的干扰,提升***的稳定性。在电子信息技术高速发展和成熟的今天,语音增强***应用于通讯、手机、电脑、演唱会、侦查、场景录音等各种领域。
语音增强方法的种类众多,其中一种是基于短时频谱的语音增强方法,该类方法包括维纳滤波法、谱减法和MMSE估计法等经典算法。基于短时频谱的语音增强方法实现简单,可以抑制噪声,有应用价值。短时频谱虽然满足了语音短时平稳的性质,但是忽略了语音的其它特征信息。
Tseng等人提出了基于多帧稀疏字典学习和统计准则的语音增强方法。该方法的突出贡献是在语音增强方法中使用了多帧频谱,这和传统的基于短时频谱的语音增强方法有较大的区别。在基于短时频谱的语音增强方法中,为了获得短时频谱,需要将语音分为时间长度为10ms~30ms的帧,再使用短时傅里叶变换(Short-time Fourier transform,STFT)将时域信号变换到频域。
语音的最小单位是音素,而帧的时间长度通常小于音素的时间长度。也就是说,短时频谱的帧无法覆盖语音的最小单位。单个音素具有相对固定的时间结构,一些相邻音素还具有特定的转换关系。显然,这些信息无法通过单个帧获取。
多帧频谱能够保存这些信息。多帧频谱是一种结合上下文的语音建模方式。所建立的模型有如下优势:(1)在时间连续的语音中,上下文结构影响着时频能量的分布,多帧频谱可以保存这类语音的信息;(2)多帧频谱可以获取相邻音素之间的共振峰转换和音调变化等信息。
因此,结合上下文建模的多帧频谱预计能获得更好的语音模型,从而获得更好的语音增强效果。在多帧频谱中,多帧合成的“包”替换了原来的单帧。“包”内的多帧在时间上连续,单个“包”相当于时间长度更大的帧,也可以将多帧频谱称为长时频谱。与短时频谱相比,多帧频谱保存了语音的时序动态特征和时间结构。
1999年,Lee和Seung提出了非负矩阵分解(Non-negative matrixfactorization,NMF)。NMF最初用于图像处理领域。近年来,NMF在语音增强领域也取得了较好的效果,逐渐成为一种主流的语音增强方法,受到了学者们的重视。
NMF将n×m维的非负数据矩阵V分解成W和H两个矩阵,并且满足近似相等公式:
V≈WH (1-1)
其中W是n×r维矩阵,H是r×m维矩阵,参数r满足r<nm/(n+m)。
一般将W称为V的基矩阵,将H称为V的系数矩阵。基矩阵W保存了非负数据矩阵V的数据特征,由基向量wi构成,每个基向量wi代表一个独立的特征向量。系数矩阵H是非负数据矩阵V的降维矩阵,由系数向量hi构成,每个系数向量hi对应V的一个列向量vi
NMF的主要作用是特征提取和数据降维。基矩阵W中包含了数据矩阵V的特征向量。同一类数据的具有近似的特征,因此可以利用NMF来提取一类数据的共有特征。系数矩阵H和数据矩阵V一一对应,可以看成是V降维后的结果。在同一类数据中,W不随V的改变而改变,而H随V的改变而改变。通俗地说,基矩阵包含数据的“共性”,系数矩阵代表数据的“特性”。
目前基于NMF的语音增强方法仍然是针对短时频谱进行处理,这类方法存在如下的问题:训练短时频谱无法获得多帧频谱包含的语音特有信息,恢复得到的纯净语音质量较差,语音增强效果较差。
已有的基于NMF的语音增强方法,流程如图1所示,包括训练基矩阵阶段和语音增强阶段两个阶段,包括以下步骤:
1)训练基矩阵阶段,具体包括以下步骤:
1-a)通过对训练数据预处理和快速傅里叶变换,分别得到训练数据中纯净语音的短时频谱和噪声的短时频谱;
1-b)通过NMF算法,将步骤1-a)得到的纯净语音的短时频谱和噪声的短时频谱分别转化为各自对应的基矩阵和系数矩阵的乘积;
1-c)通过计算最小广义KL散度代价函数,分别求出纯净语音短时频谱的基矩阵和噪声短时频谱的基矩阵;
2)语音增强阶段,具体包括以下步骤:
2-a)通过对带噪语音预处理和快速傅里叶变换,得到带噪语音的短时频谱;
2-b)利用步骤1-c)分别得到的的噪声短时频谱的基矩阵和纯净语音短时频谱的基矩阵,合成带噪语音短时频谱的基矩阵;
2-c)通过NMF算法,将步骤2-a)得到的带噪语音的短时频谱转化为基矩阵和系数矩阵的乘积;
2-d)利用步骤2-c)得到的结果,通过计算最小广义KL散度代价函数,并结合步骤2-b)合成得到的带噪语音短时频谱的基矩阵,求出带噪语音短时频谱的系数矩阵;
2-e)通过步骤2-d)得到带噪语音短时频谱的系数矩阵和步骤2-b)得到的带噪语音短时频谱的基矩阵,获得纯净语音和噪声的短时频谱的初始估计;
2-f)通过维纳滤波方法,获得增强语音的短时频谱;
2-g)将步骤2-f)得到的增强语音的短时频谱变换为时域信号,获得最终的增强语音。
上述步骤中,最为关键的一个步骤是NMF基矩阵求解算法,即步骤1-c)。该算法的具体过程如下:
KL散度代价函数是:经过计算,基矩阵与系数矩阵的乘积与目标非负矩阵的KL散度距离应尽量小,表达式如下:
式中,V代表语音的短时频谱,W和H分别代表短时频谱的基矩阵和系数矩阵。i,j为矩阵的行列索引。
设定W和H的初始元素为随机非负数,代入如下迭代公式:
式中,i,a,u,k为矩阵的行列索引。
经过若干次迭代计算,直至W和H收敛,非负矩阵分解完成,获得短时频谱的基矩阵。
发明内容
本发明的目的是为了解决已有技术的不足之处,提出了一种基于多帧频谱和非负矩阵分解的语音增强方法与装置。本发明将多帧频谱和非负矩阵分解应用到语音增强***上;在原有短时频谱的基础上构建多帧频谱,并利用非负矩阵分解得到增强语音,获取和保存了语音的特有中长时信息,更好地还原语音,提升语音增强的效果。
本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法,其特征在于,分为构建多帧频谱阶段、训练基矩阵阶段和语音增强阶段共三个阶段;包括以下步骤:
1)构建多帧频谱阶段;具体包括以下步骤:
1-1)对语音进行预处理,得到语音的短时频谱;预处理包括对语音进行零均值化和预加重;首先进行零均值化,为整段语音减去其均值;然后进行预加重:对零均值化后的语音进行高通滤波,并对该语音进行分帧,然后进行快速傅里叶变换;预处理完成后得到语音的短时频谱;
1-2)根据步骤1-1)得到的语音的短时频谱,按照包结构,将短时频谱转化为对应的多帧频谱;
2)训练基矩阵阶段;具体包括以下步骤:
2-1)提取噪声和纯净语音,重复步骤1),分别获取噪声的多帧频谱和纯净语音的多帧频谱;
2-2)通过非负矩阵分解NMF算法,将步骤2-1)得到的噪声的多帧频谱和纯净语音的多帧频谱分别转化为各自对应的基矩阵和系数矩阵的乘积;
2-3)通过最小广义KL散度代价函数,分别求出噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵;
3)语音增强阶段;具体包括以下步骤:
3-1)提取带噪语音,重复步骤1),获取带噪语音的多帧频谱;
3-2)利用步骤2-3)得到的噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵,合成带噪语音多帧频谱的基矩阵;
3-3)通过NMF算法,将步骤3-1)得到的带噪语音的多帧频谱转化为相应的基矩阵和系数矩阵的乘积;
3-4)利用步骤3-3)得到的带噪语音的多帧频谱的基矩阵和系数矩阵的乘积,通过最小广义KL散度代价函数,并结合步骤3-2)得到的的带噪语音多帧频谱的基矩阵,获得带噪语音的多帧频谱的系数矩阵;
3-5)通过步骤3-4)得到的带噪语音多帧频谱的系数矩阵和步骤2-3)得到的噪声的多帧频谱的基矩阵和纯净语音的的多帧频谱的基矩阵,分别获得噪声的多帧频谱和纯净语音的多帧频谱的初始估计;
3-6)利用步骤3-5)得到的噪声的多帧频谱和纯净语音的多帧频谱的初始估计,通过维纳滤波方法,获得增强语音的多帧频谱;
3-7)将步骤3-6)得到的增强语音的多帧频谱通过解除包结构变换为增强语音的短时频谱,在解除包结构的过程中,对多个包中所包含的相同帧进行求和平均;
3-8)将步骤3-7)得到的的纯净语音的短时频谱变换为时域信号,获得最终的增强语音。
一种基于本发明提出的多帧频谱和非负矩阵分解的语音增强方法的实现装置,其特征在于,包括:语音预处理模块,多帧频谱构建模块,训练多帧频谱基矩阵模块,合成带噪语音基矩阵模块,计算带噪语音系数矩阵模块,计算语音和噪声多帧频谱模块,维纳滤波模块,恢复时域信号模块和存储模块;
所述语音预处理模块用于对纯净语音和噪声以及待处理的带噪语音分帧,加窗,快速傅里叶变换,得到相应语音的短时频谱;
所述多帧频谱构建模块用于将语音预处理模块预处理后的短时频谱,转化为对应的多帧频谱;
所述训练多帧频谱基矩阵模块,用于根据多帧频谱构建模块获得的噪声的多帧频谱和纯净语音的多帧频谱,训练噪声的基矩阵和纯净语音的基矩阵;
所述合成带噪语音基矩阵模块,用于根据训练多帧频谱基矩阵模块获得的噪声的基矩阵和纯净语音的基矩阵合成带噪语音的基矩阵;
所述计算带噪语音系数矩阵模块,用于根据合成带噪语音基矩阵模块获得的带噪语音的基矩阵,采用非负矩阵分解的方法,获得带噪语音的系数矩阵;
所述计算语音和噪声多帧频谱模块,用于根据合成带噪语音基矩阵模块合成的带噪语音的基矩阵和计算带噪语音系数矩阵模块获得的带噪语音的系数矩阵,分别计算增强语音的多帧频谱和噪声的多帧频谱的初始估计;
所述维纳滤波模块,用于根据计算语音和噪声的多帧频谱模块获得的增强语音的多帧频谱和噪声的多帧频谱的初始估计,构建维纳滤波器,获得增强语音的多帧频谱;
所述恢复时域信号模块,根据维纳滤波模块获得的增强语音的多帧频谱,获得增强语音的时域信号;
所述存储模块,用于存储训练多帧频谱基矩阵模块得到的噪声的基矩阵和纯净语音的基矩阵数据,并将相应数据传给相应模块。
本发明的特点及有益效果:
本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法与装置,与传统方法相比,本发明方法将多帧频谱和非负矩阵分解应用到语音增强方法上。在原有短时频谱的基础上构建多帧频谱,并利用非负矩阵分解增强语音,获取和保存了语音的特有信息,即语音的中长时信息,更好地还原语音,提升语音增强的效果。本发明通过使用多帧频谱,可以有效提高语音质量,提升语音增强的效果。
附图说明
图1是已有的基于NMF的语音增强方法的流程框图。
图2是本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法流程框图。
具体实施方式
本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法与装置,下面结合附图及具体实施例详细说明如下。
本发明提出的一种基于多帧频谱和非负矩阵分解的语音增强方法,流程框图如图2所示,该方法分为构建多帧频谱阶段、训练基矩阵阶段和语音增强阶段共三个阶段;包括以下步骤:
1)构建多帧频谱阶段;具体包括以下步骤:
1-1)对语音进行预处理,得到语音的短时频谱;预处理包括对语音进行零均值化和预加重;首先进行零均值化,为整段语音减去其均值;然后进行预加重:对零均值化后的语音进行高通滤波,并对该语音进行分帧,然后进行快速傅里叶变换;预处理完成后得到语音的短时频谱;
进行预处理的语音对象没有要求,可以为任意语音;
1-2)根据步骤1-1)得到的语音的短时频谱,按照特定的“包”结构,将短时频谱转化为对应的多帧频谱;
2)训练基矩阵阶段;具体包括以下步骤:
2-1)提取噪声和纯净语音,重复步骤1),分别获取噪声的多帧频谱和纯净语音的多帧频谱;本发明中噪声和纯净语音来源于基础数据库。
2-2)通过NMF算法,将步骤2-1)得到的噪声的多帧频谱和纯净语音的多帧频谱分别转化为各自对应的基矩阵和系数矩阵的乘积;
2-3)通过最小广义KL散度代价函数,分别求出噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵;
3)语音增强阶段;具体包括以下步骤:
3-1)提取带噪语音,重复步骤1),获取带噪语音的多帧频谱;本实施例中带噪语音为实验室录制得到;
3-2)利用步骤2-3)得到的噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵,合成带噪语音多帧频谱的基矩阵;
3-3)通过NMF算法,将步骤3-1)得到的带噪语音的多帧频谱转化为相应的基矩阵和系数矩阵的乘积;
3-4)利用步骤3-3)得到的带噪语音的多帧频谱的基矩阵和系数矩阵的乘积,通过最小广义KL散度代价函数,并结合步骤3-2)得到的的带噪语音多帧频谱的基矩阵,获得带噪语音的多帧频谱的系数矩阵;
3-5)通过步骤3-4)得到的带噪语音多帧频谱的系数矩阵和步骤2-3)得到的噪声的多帧频谱的基矩阵和纯净语音的的多帧频谱的基矩阵,分别获得噪声的多帧频谱和纯净语音的多帧频谱的初始估计;
3-6)利用步骤3-5)得到的噪声的多帧频谱和纯净语音的多帧频谱的初始估计,通过维纳滤波方法,获得增强语音的多帧频谱;
3-7)将步骤3-6)得到的增强语音的多帧频谱通过解除包结构变换为增强语音的短时频谱,在解除包结构的过程中,对多个“包”中所包含的相同帧进行求和平均;
3-8)将步骤3-7)得到的的纯净语音的短时频谱变换为时域信号,获得最终的增强语音。
上述步骤1-2)中,根据步骤1-1)得到的语音的短时频谱,按照特定的“包”结构,将短时频谱转化为对应的多帧频谱;具体步骤如下:
1-2-1)假设语音的短时频谱的数学表达式如式(1)所示:
V=[v1,v2,……vm],V∈Rn×m (1)
式中,V代表语音的短时频谱,m是帧数,n是每帧数据的帧长,v1、v2…vm分别代表各帧短时频谱,R表示实数集,即包括所有有理数和无理数的集合。
1-2-2)采用特定的“包”结构,构建多帧频谱。所述“包”的结构有多种,(例如:不同形式的包同样适用于本方法。)本发明实施例所采用的“包”的一种具体形式如下:
式中,是构建的多帧频谱的“包”,vi-2,vi,vi+2分别表示步骤1-2-1)得到的第i-2,i,i+2帧短时频谱。
得到语音的多帧频谱的表达式如下式所示:
式中,表示多帧频谱;
上述步骤2-2)和3-3)中,所述NMF算法,具体步骤如下:
将n×m维的非负数据矩阵V分解成W和H两个矩阵,并且满足近似相等公式:
V≈WH (4)
其中,W和H分别代表基矩阵和系数矩阵。
上述步骤2-3)中,通过最小广义KL散度代价函数,分别求出噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵;具体步骤如下:
基矩阵与系数矩阵的乘积与目标非负矩阵的KL散度距离应尽量小,表达式如下:
设定W和H的初始元素为随机非负数,代入迭代公式:
经过若干次迭代计算,直至W和H收敛,非负矩阵分解完成,获得基矩阵。
上述步骤3-2)中,合成带噪语音多帧频谱的基矩阵,表达式如式(8)所示:
Wns=[Ws,Wn] (8)
其中,Wns代表带噪语音的多帧频谱的基矩阵,Ws代表纯净语音的多帧频谱的基矩阵,Wn代表噪声的多帧频谱的基矩阵。
上述步骤3-4)中,获得带噪语音的多帧频谱的系数矩阵,具体步骤如下:
基矩阵与系数矩阵的乘积与目标非负矩阵的KL散度距离应尽量小,表达式如下所示:
其中,Vns代表带噪语音多帧频谱的的非负数据矩阵;Vns和Wns已知,设定带噪语音的多帧频谱的系数矩阵Hns的初始元素为随机非负数,代入迭代公式
经过若干次迭代(本实施例为100次)计算或Hns收敛,非负矩阵分解完成,获得带噪语音多帧频谱的系数矩阵。通过公式(11),Hns分解为纯净语音的多帧频谱的系数矩阵和噪声的多帧频谱的系数矩阵。
Hns=(Hs′,Hn′) (11)
其中,Hs′代表纯净语音的多帧频谱的系数矩阵,Hn′代表噪声的多帧频谱的系数矩阵。
上述步骤3-5)中,分别获得噪声的多帧频谱和纯净语音的多帧频谱的初始估计,表达式如下:
Vs′=WsH′s (12)
Vn′=WnHn′ (13)
其中,Vs′代表纯净语音的多帧频谱的初始估计,Vn′代表噪声的多帧频谱的初始估计。s代表纯净语音,n代表噪声。Hns=(Hs′,Hn′),Hs′代表纯净语音的多帧频谱的系数矩阵,Hn′代表噪声的多帧频谱的系数矩阵。
上述步骤3-6)中,获得增强语音的多帧频谱,表达式如下:
其中,代表增强语音的多帧频谱。
采用本发明方法的一种基于多帧频谱和非负矩阵分解的语音增强装置,包括:语音预处理模块,多帧频谱构建模块,训练多帧频谱基矩阵模块,合成带噪语音基矩阵模块,计算带噪语音系数矩阵模块,计算语音和噪声多帧频谱模块,维纳滤波模块,恢复时域信号模块和存储模块共9个模块;
所述语音预处理模块用于对纯净语音和噪声以及待处理的带噪语音分帧,加窗,快速傅里叶变换(FFT),得到相应语音的短时频谱;
所述多帧频谱构建模块用于将语音预处理模块预处理后的短时频谱,转化为对应的多帧频谱;
所述训练多帧频谱基矩阵模块,用于根据多帧频谱构建模块获得的噪声的多帧频谱和纯净语音的多帧频谱,训练噪声的基矩阵和纯净语音的基矩阵;
所述合成带噪语音基矩阵模块,用于根据训练多帧频谱基矩阵模块获得的噪声的基矩阵和纯净语音的基矩阵合成带噪语音的基矩阵;
所述计算带噪语音系数矩阵模块,用于根据合成带噪语音基矩阵模块获得的带噪语音的基矩阵,采用非负矩阵分解的方法,获得带噪语音的系数矩阵;
所述计算语音和噪声多帧频谱模块,用于根据合成带噪语音基矩阵模块合成的带噪语音的基矩阵和计算带噪语音系数矩阵模块获得的带噪语音的系数矩阵,分别计算纯净语音的多帧频谱和噪声的多帧频谱的初始估计;
所述维纳滤波模块,用于根据计算语音和噪声的多帧频谱模块获得的纯净语音的多帧频谱和噪声的多帧频谱的初始估计,构建维纳滤波器,获得增强语音的多帧频谱;
所述恢复时域信号模块,根据维纳滤波模块获得的增强语音的多帧频谱,获得增强语音的时域信号;
所述存储模块,用于存储训练多帧频谱基矩阵模块得到的噪声的基矩阵和纯净语音的基矩阵数据,并将相应数据传给相应模块。
上述各模块均可用常规的数字集成电路实现。

Claims (3)

1.一种基于多帧频谱和非负矩阵分解的语音增强方法,其特征在于,分为构建多帧频谱阶段、训练基矩阵阶段和语音增强阶段共三个阶段;包括以下步骤:
1)构建多帧频谱阶段;具体包括以下步骤:
1-1)对语音进行预处理,得到语音的短时频谱;预处理包括对语音进行零均值化和预加重;首先进行零均值化,为整段语音减去其均值;然后进行预加重:对零均值化后的语音进行高通滤波,并对该语音进行分帧,然后进行快速傅里叶变换;预处理完成后得到语音的短时频谱;
1-2)根据步骤1-1)得到的语音的短时频谱,按照包结构,将短时频谱转化为对应的多帧频谱;
2)训练基矩阵阶段;具体包括以下步骤:
2-1)提取噪声和纯净语音,重复步骤1),分别获取噪声的多帧频谱和纯净语音的多帧频谱;
2-2)通过非负矩阵分解NMF算法,将步骤2-1)得到的噪声的多帧频谱和纯净语音的多帧频谱分别转化为各自对应的基矩阵和系数矩阵的乘积;
2-3)通过最小广义KL散度代价函数,分别求出噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵;
3)语音增强阶段;具体包括以下步骤:
3-1)提取带噪语音,重复步骤1),获取带噪语音的多帧频谱;
3-2)利用步骤2-3)得到的噪声的多帧频谱的基矩阵和纯净语音的多帧频谱的基矩阵,合成带噪语音多帧频谱的基矩阵;
3-3)通过NMF算法,将步骤3-1)得到的带噪语音的多帧频谱转化为相应的基矩阵和系数矩阵的乘积;
3-4)利用步骤3-3)得到的带噪语音的多帧频谱的基矩阵和系数矩阵的乘积,通过最小广义KL散度代价函数,并结合步骤3-2)得到的的带噪语音多帧频谱的基矩阵,获得带噪语音的多帧频谱的系数矩阵;
3-5)通过步骤3-4)得到的带噪语音多帧频谱的系数矩阵和步骤2-3)得到的噪声的多帧频谱的基矩阵和纯净语音的的多帧频谱的基矩阵,分别获得噪声的多帧频谱和纯净语音的多帧频谱的初始估计;
3-6)利用步骤3-5)得到的噪声的多帧频谱和纯净语音的多帧频谱的初始估计,通过维纳滤波方法,获得增强语音的多帧频谱;
3-7)将步骤3-6)得到的增强语音的多帧频谱通过解除包结构变换为增强语音的短时频谱,在解除包结构的过程中,对多个包中所包含的相同帧进行求和平均;
3-8)将步骤3-7)得到的的纯净语音的短时频谱变换为时域信号,获得最终的增强语音。
2.如权利要求1所述的方法,其特征在于,所述步骤1-2)具体步骤如下:
1-2-1)假设语音的短时频谱的数学表达式如式(1)所示:
V=[v1,v2,……vm],V∈Rn×m (1)
式中,V代表语音的短时频谱,m是帧数,n是每帧数据的帧长,v1、v2…vm分别代表各帧短时频谱,R表示实数集;
1-2-2)采用包结构,构建多帧频谱;包的一种具体形式如下:
<mrow> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>i</mi> </msub> <mo>=</mo> <mo>&amp;lsqb;</mo> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>2</mn> </mrow> </msub> <mo>;</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>;</mo> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>2</mn> </mrow> </msub> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
式中,是构建的多帧频谱的包,vi-2,vi,vi+2分别表示步骤1-2-1)得到的第i-2,i,i+2帧短时频谱;
得到语音的多帧频谱的表达式如下式所示:
<mrow> <mover> <mi>V</mi> <mo>&amp;OverBar;</mo> </mover> <mo>=</mo> <mo>&amp;lsqb;</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mn>1</mn> </msub> <mo>,</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>...</mo> <mo>,</mo> <msub> <mover> <mi>v</mi> <mo>&amp;OverBar;</mo> </mover> <mi>m</mi> </msub> <mo>&amp;rsqb;</mo> <mo>,</mo> <mover> <mi>V</mi> <mo>&amp;OverBar;</mo> </mover> <mo>&amp;Element;</mo> <msup> <mi>R</mi> <mrow> <mn>3</mn> <mi>n</mi> <mo>&amp;times;</mo> <mi>m</mi> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
式中,表示多帧频谱。
3.一种采用权利要求1所述基于多帧频谱和非负矩阵分解的语音增强方法的实现装置,其特征在于,包括:语音预处理模块,多帧频谱构建模块,训练多帧频谱基矩阵模块,合成带噪语音基矩阵模块,计算带噪语音系数矩阵模块,计算语音和噪声多帧频谱模块,维纳滤波模块,恢复时域信号模块和存储模块;
所述语音预处理模块用于对纯净语音和噪声以及待处理的带噪语音分帧,加窗,快速傅里叶变换,得到相应语音的短时频谱;
所述多帧频谱构建模块用于将语音预处理模块预处理后的短时频谱,转化为对应的多帧频谱;
所述训练多帧频谱基矩阵模块,用于根据多帧频谱构建模块获得的噪声的多帧频谱和纯净语音的多帧频谱,训练噪声的基矩阵和纯净语音的基矩阵;
所述合成带噪语音基矩阵模块,用于根据训练多帧频谱基矩阵模块获得的噪声的基矩阵和纯净语音的基矩阵合成带噪语音的基矩阵;
所述计算带噪语音系数矩阵模块,用于根据合成带噪语音基矩阵模块获得的带噪语音的基矩阵,采用非负矩阵分解的方法,获得带噪语音的系数矩阵;
所述计算语音和噪声多帧频谱模块,用于根据合成带噪语音基矩阵模块合成的带噪语音的基矩阵和计算带噪语音系数矩阵模块获得的带噪语音的系数矩阵,分别计算增强语音的多帧频谱和噪声的多帧频谱的初始估计;
所述维纳滤波模块,用于根据计算语音和噪声的多帧频谱模块获得的增强语音的多帧频谱和噪声的多帧频谱的初始估计,构建维纳滤波器,获得增强语音的多帧频谱;
所述恢复时域信号模块,根据维纳滤波模块获得的增强语音的多帧频谱,获得增强语音的时域信号;
所述存储模块,用于存储训练多帧频谱基矩阵模块得到的噪声的基矩阵和纯净语音的基矩阵数据,并将相应数据传给相应模块。
CN201710366412.0A 2017-05-23 2017-05-23 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置 Pending CN107248414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710366412.0A CN107248414A (zh) 2017-05-23 2017-05-23 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710366412.0A CN107248414A (zh) 2017-05-23 2017-05-23 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置

Publications (1)

Publication Number Publication Date
CN107248414A true CN107248414A (zh) 2017-10-13

Family

ID=60017435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710366412.0A Pending CN107248414A (zh) 2017-05-23 2017-05-23 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置

Country Status (1)

Country Link
CN (1) CN107248414A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564965A (zh) * 2018-04-09 2018-09-21 太原理工大学 一种抗噪语音识别***
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN111710343A (zh) * 2020-06-03 2020-09-25 中国科学技术大学 一种在双变换域上的单通道语音分离方法
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN113823305A (zh) * 2021-09-03 2021-12-21 深圳市芒果未来科技有限公司 一种音频中节拍器噪声抑制方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441872A (zh) * 2007-11-19 2009-05-27 三菱电机株式会社 利用受限非负矩阵分解对声学信号去噪
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN104505100A (zh) * 2015-01-06 2015-04-08 中国人民解放军理工大学 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
US9105270B2 (en) * 2013-02-08 2015-08-11 Asustek Computer Inc. Method and apparatus for audio signal enhancement in reverberant environment
CN106030705A (zh) * 2014-02-27 2016-10-12 高通股份有限公司 用于基于说话者词典的语音建模的***和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441872A (zh) * 2007-11-19 2009-05-27 三菱电机株式会社 利用受限非负矩阵分解对声学信号去噪
US9105270B2 (en) * 2013-02-08 2015-08-11 Asustek Computer Inc. Method and apparatus for audio signal enhancement in reverberant environment
CN104103277A (zh) * 2013-04-15 2014-10-15 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN106030705A (zh) * 2014-02-27 2016-10-12 高通股份有限公司 用于基于说话者词典的语音建模的***和方法
CN104505100A (zh) * 2015-01-06 2015-04-08 中国人民解放军理工大学 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HUNG-WEI TSENG ET AL: "A Single Channel Speech Enhancement Approach by Combining Statistical Criterion and Multi-Frame Sparse Dictionary Learning", 《INTERSPEECH》 *
KEVIN W. WILSON ET AL: "SPEECH DENOISING USING NONNEGATIVE MATRIX FACTORIZATION WITH PRIORS", 《2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *
张立伟等: "稀疏卷积非负矩阵分解的语音增强算法", 《数据采集与处理》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564965A (zh) * 2018-04-09 2018-09-21 太原理工大学 一种抗噪语音识别***
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN110428848A (zh) * 2019-06-20 2019-11-08 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN110428848B (zh) * 2019-06-20 2021-10-29 西安电子科技大学 一种基于公共空间语音模型预测的语音增强方法
CN111710343A (zh) * 2020-06-03 2020-09-25 中国科学技术大学 一种在双变换域上的单通道语音分离方法
CN111710343B (zh) * 2020-06-03 2022-09-30 中国科学技术大学 一种在双变换域上的单通道语音分离方法
CN113823305A (zh) * 2021-09-03 2021-12-21 深圳市芒果未来科技有限公司 一种音频中节拍器噪声抑制方法及***

Similar Documents

Publication Publication Date Title
CN107248414A (zh) 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN104392718B (zh) 一种基于声学模型阵列的鲁棒语音识别方法
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
CN103531205B (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN102800316B (zh) 基于神经网络的声纹识别***的最优码本设计方法
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
CN105957537B (zh) 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和***
CN109326302A (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
CN103474066B (zh) 基于多频带信号重构的生态声音识别方法
CN102436809B (zh) 英语口语机考***中网络语音识别方法
CN106653056A (zh) 基于lstm循环神经网络的基频提取模型及训练方法
CN110189766B (zh) 一种基于神经网络的语音风格转移方法
CN110942766A (zh) 音频事件检测方法、***、移动终端及存储介质
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN110136709A (zh) 语音识别方法及基于语音识别的视频会议***
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN104217730B (zh) 一种基于k‑svd的人工语音带宽扩展方法及装置
CN111508518A (zh) 一种基于联合字典学习和稀疏表示的单通道语音增强方法
Tan et al. Novel variations of group sparse regularization techniques with applications to noise robust automatic speech recognition
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN106356058A (zh) 一种基于多频带特征补偿的鲁棒语音识别方法
CN113066475B (zh) 一种基于生成式对抗网络的语音合成方法
CN103886859B (zh) 基于一对多码书映射的语音转换方法
Nakatani et al. Logmax observation model with MFCC-based spectral prior for reduction of highly nonstationary ambient noise
CN104392719A (zh) 一种用于语音识别***的中心子带模型自适应方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181126

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Applicant after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 Tsinghua Yuan, Haidian District, Beijing, No. 1

Applicant before: Tsinghua University

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171013