CN116052706A - 一种基于神经网络的低复杂度语音增强方法 - Google Patents
一种基于神经网络的低复杂度语音增强方法 Download PDFInfo
- Publication number
- CN116052706A CN116052706A CN202310322764.1A CN202310322764A CN116052706A CN 116052706 A CN116052706 A CN 116052706A CN 202310322764 A CN202310322764 A CN 202310322764A CN 116052706 A CN116052706 A CN 116052706A
- Authority
- CN
- China
- Prior art keywords
- layer
- data
- voice data
- output result
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000001228 spectrum Methods 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000005457 optimization Methods 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 20
- 230000002779 inactivation Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 7
- 230000007787 long-term memory Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 108700028369 Alleles Proteins 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims description 2
- 238000002790 cross-validation Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 239000012014 frustrated Lewis pair Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Noise Elimination (AREA)
Abstract
本发明公开了一种基于神经网络的低复杂度语音增强方法,包括采集噪声语音数据和纯净语音数据,生成带噪的混合语音数据,将至少部分混合语音数据作为训练集;对训练集进行特征提取,得到第一特征数据和由第一特征数据得到的第二特征数据;将第一特征数据输入相位谱优化神经网络中进行训练,得到噪声幅度估计值;将第二特征数据输入子带幅值估计神经网络中进行训练,得到幅度值掩码;进行幅值估计得到增强后的目标语音数据的幅度值,及进行相位补偿得到增强后的目标语音数据的相位角;根据增强后的幅度值和相位角进行语音重构,得到增强后的语音数据。本发明提供了一种具有低复杂度且实时高效的基于神经网络的语音增强方案。
Description
技术领域
本发明涉及语音增强技术领域,具体涉及一种基于神经网络的低复杂度语音增强方法。
背景技术
单通道语音信号是只有一路通道的语音信号,在当前不同生活环境中容易被各种平稳噪声和非平稳噪声污染,语音增强技术是对噪声信号进行抑制,以提高被污染语音的质量与可懂度的信号处理技术。
单通道语音增强方法通常分为两大类,传统的数字信号处理方法与数据驱动的神经网络处理方法。传统方法例如谱减法,其通常要对噪声进行理想假设,从带噪信号的帧内估计噪声信号,以实现增强,但面对复杂噪声环境,噪声信号无法有效估计,从而导致传统算法的局限性。
相对于传统方法,神经网络处理方法通过大量的数据训练神经网络模型参数,以优化拟合混合语音信号和纯净语音信号的非线性关系,或直接映射纯净语音信号来实现语音增强。
随着目前深度学***台的发展,用于单通道语音增强的神经网络模型增多,性能更强,但对于目前移动端或低功耗端设备的开发,复杂的神经网络无法实现。
所以,从网络模型的均衡性能,参数,计算复杂度等方面考虑,需要设计一种开发复杂度低,性能优良,适用于目前移动端或低功耗端设备使用的神经网络算法。
发明内容
本发明的目的在于提供一种具有低复杂度且实时高效的基于神经网络的语音增强方法。
为实现上述目的,一方面,本发明提出了一种基于神经网络的低复杂度语音增强方法,包括:
S100,采集噪声语音数据和纯净语音数据,根据所述噪声语音数据和纯净语音数据生成带噪的混合语音数据,将至少部分所述混合语音数据作为训练集;
S200,对所述训练集进行特征提取,得到第一特征数据和由所述第一特征数据得到的第二特征数据,所述第一特征数据为所述混合语音数据的幅度谱;
S300,将所述第一特征数据输入相位谱优化神经网络中进行训练,得到相位补偿算法所需的噪声幅度估计值,将所述第二特征数据输入子带幅值估计神经网络中进行训练,得到带噪的混合语音数据的幅度值掩码,所述子带幅值估计神经网络包括依次相层连的第一全连接层、第一门控循环层、第二门控循环层、第三门控循环层、转置卷积层和第二全连接层,所述第二特征数据输入至第一全连接层,依次经所述第一门控循环层、第二门控循环层、第三门控循环层、转置卷积层和第二全连接层训练处理后,由所述第二全连接层输出所述幅度值掩码;
S400,根据所述幅度值掩码和所述第一特征数据进行所述混合语音数据的幅值估计,得到增强后的目标语音数据的幅度值,及根据所述噪声幅度估计值和相位补偿算法进行所述目标语音数据的相位修正,得到增强后的目标语音数据的相位角;
S500,根据增强后的所述目标语音数据的幅度值和所述目标语音数据相位角进行语音重构,得到增强后的语音数据。
在一优选实施例中,所述S100包括:
S101,设置所需的带噪的混合语音数据的不同信噪比;
S102,将所述噪声语音数据与纯净语音数据按照所述不同信噪比混合生成所需的带噪的所述混合语音数据,并将所述混合语音数据按照一定比例划分出所述训练集。
在一优选实施例中,所述S200包括:
S201,对所述训练集的所述混合语音数据进行预处理,得到第一特征数据;
S202,对所述第一特征数据进行滤波和归一化处理,得到第二特征数据。
在一优选实施例中,所述S201中,所述预处理包括对所述混合语音数据进行分帧处理,对分帧后的每帧数据加窗处理,并对加窗后的数据做短时傅里叶变换得到短时傅里叶变换频谱,将所述短时傅里叶变换频谱取模值,得到所述第一特征数据。
在一优选实施例中,所述S202包括:
S2021,对所述第一特征数据的平方通过梅尔刻度的滤波器滤波后得到梅尔频谱;
S2022,对所述梅尔频谱取对数后并进行归一化处理,得到所述第二特征数据。
在一优选实施例中,所述S300中,所述相位谱优化神经网络包括依次相层连的第一长短期记忆单元层、第二长短期记忆单元层和第三全连接层,所述第一特征数据输入至第一长短期记忆单元层,依次经所述第二长短期记忆单元层和第三全连接层训练处理后,由所述第三全连接层输出所述噪声幅度估计值。
在一优选实施例中,所述S300中,所述子带幅值估计神经网络的训练过程包括:
所述第一全连接层将所述第二特征数据送入tanh激活函数中,得到的结果作为所述第一全连接层的第一输出结果,所述第一全连接层配置为输入特征数为40,输出特征数为40;
将所述第一输出结果输入所述第一门控循环层中,所述第一门控循环层将其输出送入第一随机失活中,得到的结果与所述第一输出结果在频率维度堆叠,作为所述第一门控循环层的第二输出结果,所述第一门控循环层的单元数为64;
将所述第二输出结果输入所述第二门控循环层中,所述第二门控循环层将其输出送入第二随机失活中,得到的结果与所述第一输出结果在频率维度堆叠,作为所述第二门控循环层的第三输出结果,所述第二门控循环层的单元数为64;
将所述第三输出结果输入所述第三门控循环层中,所述第三门控循环层将其输出送入第三随机失活中,得到的结果作为所述第三门控循环层的第四输出结果,所述第三门控循环层的单元数为128;
将所述第四输出结果输入所述转置卷积层中,所述转置卷积层将其输入BatchNorm层中,再通过ReLU激活函数激活后,得到的结果作为所述转置卷积层的第五输出结果,所述转置卷积层的卷积核个数为256,大小为1×1;
将所述第五输出结果输入到第二全连接层中,所述第二全连接层将所述第五输出结果送入sigmoid激活函数中,得到所述幅度值掩码,所述第二全连接层配置为输入特征数为256,输出特征数为257。
在一优选实施例中,所述S300中,所述相位谱优化神经网络的训练过程包括:
所述第一长短期记忆网络层将所述第一特征数据送入第四随机失活中,得到的结果作为所述第一长短期记忆网络层的第六输出结果,所述第一长短期记忆网络层配置为单元数为128;
将所述第六输出结果输入所述第二长短期记忆网络层中,所述第二长短期记忆网络层将其输出送入第五随机失活中,得到的结果作为所述第二长短期记忆网络层的第七输出结果,所述第二长短期记忆网络层的单元数为128;
将所述第七输出结果输入到第三全连接层中,所述第三全连接层将所述第七输出结果送入sigmoid激活函数中,得到所述噪声幅度估计值,所述第三全连接层配置为输入特征数为128,输出特征数为257。
在一优选实施例中,所述S400中,将所述幅度值掩码与第一特征数据等位相乘后得到增强后的所述目标语音数据的幅度值,所述幅度值表示为:
;
其中,为增强后的所述目标语音数据的幅度值,为幅度值掩码,表示第一特征数据,和分别为帧数和频率点数;
将所述噪声幅度估计值与经验值常数相乘之后与短时傅里叶变换频谱数据相加,得到补偿后频谱,取所述补偿后频谱的相位角作为增强后的所述相位角,具体可表示为:
;
其中,表示短时傅里叶变换频谱,表示噪声幅度估计值,为经验值常数,表示补偿后频谱,为增强后的相位角。
在一优选实施例中,所述S500中,根据增强后的所述幅度值和所述相位角,进行短时傅里叶逆变换,得到增强后的语音数据;
所述表示为:
;
其中,所述为增强后的所述目标语音数据的幅度值,为增强后的相位角,和分别为帧数和频率点数。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过收集噪声语音数据和纯净语音数据,整理生成训练集;对训练集数据进行特征提取,提取出更深层次的特征;之后将特征直接输入到搭建的第二级模型中进行训练,或者将特征先输入至第一级模型进行训练,得到目标一级网络模型,输入特征至第二级模型进行训练,得到目标二级网络模型;通过对混合语音进行幅值估计,或者并行对混合语音进行幅值估计与相位补偿;通过得到的幅值与相位,重构语音得到增强后的语音数据。本发明构建的网络模型结构简单,且通过提取语音更深次的特征,减少模型的参数量和计算复杂度,保证了算法性能的同时降低了算法的参数与计算复杂度,使之也可以适用于目前主流的移动端或低功耗端设备,可以在多数的嵌入式***上保证实时性,且资源消耗较小。
2、本发明采用的循环神经网络(RNN)单元,其具有在时序信号建模的强大能力,保证了神经网络的整体性能。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例提供的语音增强流程图;
图3为本发明实施例提供的语音数据相关特征提取流程图;
图4为本发明实施例提供的语音数据幅值估计相位补偿步骤流程图;
图5为本发明实施例提供的波形重构步骤流程图;
图6为本发明实施例提供是双级网络整体结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“顶”、“侧”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
结合图1和图2所示,本发明的一种基于神经网络的低复杂度语音增强方法,具体包括以下步骤:
S100,采集噪声语音数据和纯净语音数据,根据所述噪声语音数据和纯净语音数据生成带噪的混合语音数据,将至少部分所述混合语音数据作为训练集。
具体地,所述S100具体包括:
S101,设置所需的带噪的混合语音数据的不同信噪比。
具体地,本实施例中,具体设置所需混合语音的信噪比,信噪比可以具体包括-5db、-4db、-3db、-2db、-1db、0db、1db、2db、3db、4db、5db。在其他实施例中,信噪比不限于这里所设置的,可以根据具体需要进行设置。
S102,将所述噪声语音数据与纯净语音数据按照所述不同信噪比混合生成所需的带噪的所述混合语音数据,并将所述混合语音数据按照一定比例划分出所述训练集。
具体地,本实施例中,噪声语音数据与纯净语音数据按照上述的信噪比混合生成所需的混合语音数据,将生成的混合语音数据按照比例分别分为训练集、交叉验证集和测试集,本实施例中,具体按照8:1:1的比例进行划分,即80%划分为训练集,10%划分为交叉验证集,10%划分为测试集。
S200,对所述训练集进行特征提取,得到第一特征数据和由所述第一特征数据得到的第二特征数据,所述第一特征数据为所述混合语音数据的幅度谱。
具体地,结合图3所示,所述200具体包括:
S201,对所述训练集的所述混合语音数据进行预处理,得到第一特征数据。
实施时,所述预处理具体包括对所述混合语音数据进行分帧处理,对分帧后的每帧数据加窗处理,并对加窗后的数据做短时傅里叶变换得到短时傅里叶变换频谱,将所述短时傅里叶变换频谱取模值,得到所述第一特征数据。本实施例中,具体对混合语音数据进行分帧处理,可设定帧长为32ms,帧移为8ms,再对分帧后的每帧数据添加汉宁窗(具体可为32ms汉宁窗),汉宁窗可表示为:
;
之后再从加窗后的数据中取出10s的语音数据做512点的短时傅里叶变换得到短时傅里叶变换(STFT)频谱,其中,和分别为帧数和频率点数,t和N分别为时间刻度和短时傅里叶变换点数。将该短时傅里叶变换频谱取模值,得到第一特征数据。
S202,对所述第一特征数据进行滤波和归一化处理,得到第二特征数据。
实施时,所述S202具体包括:
S2021,对所述第一特征数据的平方通过梅尔刻度的滤波器滤波后得到梅尔频谱。
具体地,本实施例中,设计一组梅尔(mel)刻度的三角滤波器,滤波器的个数M具体设置为40个,对上述stft频谱取模值(即上述第一特征数据)的平方后,通过梅尔刻度的三角滤波器进行滤波后,得到梅尔频谱。所得到的梅尔频谱在低频密集,高频稀疏,降低特征的维度大小,有效的减小了网络的复杂度。
梅尔刻度的三角滤波器的传递函数为:
其中:
。
其中,N为短时傅里叶点数,为采样频率,为的逆函数。
S2022,对所述梅尔频谱取对数后并进行归一化处理,得到所述第二特征数据。
具体地,对上述梅尔频谱取对数后得到梅尔谱的对数能量并进行归一化处理,具体是进行均值为0,方差为1的谱标准化处理,得到第二特征数据。具体可以表示为:
;
谱标准化公式为:,u,v分别为的均值与方差。
S300,将所述第一特征数据输入相位谱优化神经网络中进行训练,得到相位补偿算法所需的噪声幅度估计值,将所述第二特征数据输入子带幅值估计神经网络中进行训练,得到带噪的混合语音数据的幅度值掩码,所述子带幅值估计神经网络包括依次相层连的第一全连接层、第一门控循环层、第二门控循环层、第三门控循环层、转置卷积层和第二全连接层,所述第二特征数据输入至第一全连接层,依次经所述第一门控循环层、第二门控循环层、第三门控循环层、转置卷积层和第二全连接层训练处理后,由所述第二全连接层输出所述幅度值掩码。
具体地,所述相位谱优化神经网络包括依次层连的第一长短期记忆网络层、第二长短期记忆网络层和第三全连接层,所述第一特征数据输入至所述第一长短期记忆网络层,依次经所述第二长短期记忆网络层和第三全连接层训练处理后,由所述第三全连接层输出所述噪声幅度估计值。
实施时,步骤S300中,如图6所示,相位谱优化神经网络(PSONN)包含两层层长短期记忆层(LSTM层)、一层全连接层,分别定义为第一长短期记忆层、第二长短期记忆层、第三全连接层,且第一长短期记忆层、第二长短期记忆层和第三全连接层依次级联。
其中,相位谱优化神经网络的训练过程包括:
将提取的第一特征数据(也就是混合语音数据的幅度谱)输入第一层的第一长短期记忆网络层中,第一长短期记忆网络层其输出送入第四随机失活(如dropout(0.25))中,得到的结果作为第一长短期记忆网络层的第六输出结果,所述第一长短期记忆网络层配置为单元数为128。
将所述第六输出结果输入第二层的所述第二长短期记忆网络层中,所述第二长短期记忆网络层将其输出送入第五随机失活(具体如dropout(0.25))中,得到的结果作为所述第二长短期记忆网络层的第七输出结果,所述第二长短期记忆网络层的单元数为128;
将所述第七输出结果输入到第三层的第三全连接层中,所述第三全连接层将其输出送入sigmoid激活函数中,得到所述幅度值,所述第三全连接层配置为输入特征数为128,输出特征数为257。
相位谱优化神经网络的损失函数采用幅度值均方误差(MSE)并通过Adam算法和早停法优化模型,学习率采用动态学习率,初始学习率为0.001,交叉验证集损失值三次无变化学习率减半,早停法设置交叉验证集损失值十次未变换模型停止训练。
损失函数可表示为:。
其中,表示子带幅值估计神经网络输出的混合语音数据的幅度值,表示混合语音数据的原幅度值。Adam参数设置为:,,,。
实施时,步骤S300中,如图6所示,子带幅值估计神经网络(SAENN)包含三层门控循环层(GRU层)、两层全连接层和一层转置卷积层,分别定义为第一门控循环层、第二门控循环层、第三门控循环层、第一全连接层、第二全连接层和转置卷积层,且第一全连接层、第一门控循环层、第二门控循环层、第三门控循环层、转置卷积层和第二全连接层依次级联。且中间增加两次堆叠,一次是第二层的输出与第一层的输出在频率维度堆叠输出,一次是第三层的输出与第一层的输出在频率维度堆叠输出。
其中,子带幅值估计神经网络的训练过程具体包括:
将提取的所述第二特征数据输入第一全连接层,所述第一全连接层将其输出送入tanh激活函数中,得到的结果作为所述第一全连接层的第一输出结果。其中,所述第一全连接层配置为输入特征数为40,输出特征数为40。
将第一层输出的所述第一输出结果输入所述第一门控循环层中,所述第一门控循环层将其输出送入第一随机失活(具体为dropout(0.3))中,得到的结果与所述第一输出结果在频率维度堆叠,作为所述第一门控循环层的输出,定义为第二输出结果,所述第一门控循环层的单元数为64。
将第二层输出的所述第二输出结果输入所述第二门控循环层中,所述第二门控循环层将其输出送入第二随机失活(具体为dropout(0.3))中,得到的结果与所述第一输出结果在频率维度堆叠,作为所述第二门控循环层的输出,定义为第三输出结果,所述第二门控循环层的单元数为64。
将第三层输出的所述第三输出结果输入所述第三门控循环层中,所述第三门控循环层将其输出送入第三随机失活(具体为dropout(0.3))中,得到的结果作为所述第三门控循环层的第四输出结果,所述第三门控循环层的单元数为128。
将第四层输出的所述第四输出结果输入所述转置卷积层中,所述转置卷积层将其输入Batch Norm层中,再通过ReLU激活函数激活后,得到的结果作为所述转置卷积层的第五输出结果,所述转置卷积层的卷积核个数为256,大小为1×1。
将第五层输出的所述第五输出结果输入到第二全连接层中,所述第二全连接层将所述第五输出结果送入sigmoid激活函数中,得到所述幅度值掩码,所述第二全连接层配置为输入特征数为256,输出特征数为257。
子带幅值估计神经网络的损失函数采用掩码均方误差(MSE)和尺度不变负信噪比(SI-NSNR)函数共同组成,并通过Adam算法和早停法优化模型,学习率采用动态学习率,初始学习率为0.001,交叉验证集损失值三次无变化学习率减半,早停法设置交叉验证集损失值十次未变换模型停止训练。
损失函数可表示为:
其中:
。
其中,表示子带幅值估计神经网络输出的幅度值掩码,表示理想比例掩码值,具体表示为:
;
;
,。
其中,,分别为纯净语音信号能量和混合语音信号能量,为增强后的语音信号数据,s为纯净语音信号。
Adam参数设置为:,,,。
S400,根据所述幅度值掩码和所述第一特征数据进行所述目标语音数据的幅值估计,得到增强后的所述目标语音数据的幅度值,及根据所述噪声幅度估计值通过相位补偿算法进行相位补偿,得到增强后的所述目标语音数据的相位角。
具体地,结合图4所示,采用上述子带幅值估计神经网络,根据所述幅度值掩码和所述第一特征数据进行所述目标语音数据的幅值估计,得到增强后的所述目标语音数据的幅度值。具体地,本实施例中,将所述幅度值掩码与第一特征数据等位相乘后得到增强后的所述混合语音数据的幅度值,所述幅度值表示为:
;
其中,为增强后的所述目标语音数据的幅度值,为幅度值掩码,表示第一特征数据,表示等位相乘。另外,根据所述噪声幅度估计值通过相位补偿算法进行相位补偿,得到增强后的所述目标语音数据的相位角。本实施例中,将所述噪声幅度估计值与经验值常数相乘之后与短时傅里叶变换频谱相加,得到补偿后频谱,取所述补偿后频谱的相位角作为增强后的所述相位角,具体可表示为:
;
其中,表示短时傅里叶变换频谱,表示噪声幅度估计值,为经验值常数,可取值为2.15,表示补偿后频谱,表示取相位角函数,为增强后的相位角。
S500,根据增强后的所述幅度值和所述相位角进行语音重构,得到增强后的语音数据。
具体地,结合图5所示,本实施例中,根据增强后的所述幅度值和所述相位角,进行短时傅里叶逆变换,还原得到增强后的语音数据;
所述具体表示为:
。
本发明实施例使用PESQ(语音质量的感知评估)和STOI(短时客观可懂度)两种方法来评估语音增强的技术效果,同时计算模型参数量(Parameters)与FLOPs(浮点运算数)来评估模型整体复杂度。其中,语音质量的感知评估PESQ是一种客观的、全参考的语音质量评估方法。短时客观可懂度STOI是衡量语音可懂度的常用指标之一,参数量Parameters可用来衡量模型所需内存占用情况,浮点运算数FLOPs是用来衡量模型的计算复杂度。
为分析不同模型在同款处理器上的复杂度和不同模型语音增强的性能效果,选取-5dB、0dB、5dB信噪比的测试集上,对本发明的低复杂度双级网络模型(PSONN+SAENN)和DTLN(实时语音降噪模型)网络模型进行验证,其模型复杂度对比如下表1所示,语音增强效果如下表2所示。
由表1和表2可以看出,本发明实施例的双级网络模型参量值与FLOPs对比现有DTLN网络模型均有明显的下降。同时依据性能指标可以看出,本发明实施例的双级网络性能在-5dB信噪比时性能对比DTLN网络模型,PESQ值与STOI值都有略微提升,在0dB信噪比时,PESQ值持平,STOI值有提升,在5dB信噪比时PESQ有提升,STOI值持平,可以得出,本发明在低的网络参数和计算力的情况下,依旧可以保持良好的语音增强性能。
本发明的优点在于,1、本发明通过收集噪声语音数据和纯净语音数据,整理生成训练集;对训练集数据进行特征提取,提取出不同层次的特征;将特征先输入至第一级模型进行训练,得到目标一级网络模型,输入特征至第二级模型进行训练,得到目标二级网络模型;通过并行对目标语音进行幅值估计与相位补偿得到增强后的幅值与相位;通过得到的幅值与相位,重构语音得到增强后的语音数据。本发明构建的网络模型结构简单,且通过提取语音更深次的特征,减少模型的参数量和计算复杂度,保证了算法性能的同时降低了算法的参数与计算复杂度,使之也可以适用于目前主流的移动端或低功耗端设备,可以在多数的嵌入式***上保证实时性,且资源消耗较小。2、本发明采用的循环神经网络(RNN)单元,其具有在时序信号建模的强大能力,保证了神经网络的整体性能。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,即可将任意多个实施例进行组合,从而获得应对不同应用场景的需求,均在本申请的保护范围内,在此不再一一赘述。
需要说明的是,以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于神经网络的低复杂度语音增强方法,其特征在于,所述方法包括:
S100,采集噪声语音数据和纯净语音数据,根据所述噪声语音数据和纯净语音数据生成带噪的混合语音数据,将至少部分所述混合语音数据作为训练集;
S200,对所述训练集进行特征提取,得到第一特征数据和由所述第一特征数据得到的第二特征数据,所述第一特征数据为所述混合语音数据的幅度谱;
S300,将所述第一特征数据输入相位谱优化神经网络中进行训练,得到相位补偿算法所需的噪声幅度估计值,将所述第二特征数据输入子带幅值估计神经网络中进行训练,得到带噪的混合语音数据的幅度值掩码,所述子带幅值估计神经网络包括依次相层连的第一全连接层、第一门控循环层、第二门控循环层、第三门控循环层、转置卷积层和第二全连接层,所述第二特征数据输入至第一全连接层,依次经所述第一门控循环层、第二门控循环层、第三门控循环层、转置卷积层和第二全连接层训练处理后,由所述第二全连接层输出所述幅度值掩码;
S400,根据所述幅度值掩码和所述第一特征数据进行目标语音数据的幅值估计,得到增强后的目标语音数据的幅度值,及根据所述噪声幅度估计值和相位补偿算法进行所述目标语音数据的相位修正,得到增强后的目标语音数据的相位角;
S500,根据增强后的所述目标语音数据的幅度值和所述目标语音数据相位角进行语音重构,得到增强后的语音数据。
2.如权利要求1所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S100包括:
S101,设置所需的带噪的混合语音数据的不同信噪比;
S102,将所述噪声语音数据与纯净语音数据按照所述不同信噪比混合生成所需的带噪的所述混合语音数据,并将所述混合语音数据按照一定比例划分出所述训练集。
3.如权利要求1所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S200包括:
S201,对所述训练集的所述混合语音数据进行预处理,得到第一特征数据;
S202,对所述第一特征数据进行滤波和归一化处理,得到第二特征数据。
4.如权利要求3所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S201中,所述预处理包括对所述混合语音数据进行分帧处理,对分帧后的每帧数据加窗处理,并对加窗后的数据做短时傅里叶变换得到短时傅里叶变换频谱,将所述短时傅里叶变换频谱取模值,得到所述第一特征数据。
5.如权利要求3所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S202包括:
S2021,对所述第一特征数据的平方通过梅尔刻度的滤波器滤波后得到梅尔频谱;
S2022,对所述梅尔频谱取对数后并进行归一化处理,得到所述第二特征数据。
6.如权利要求1所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S300中,所述相位谱优化神经网络包括依次相层连的第一长短期记忆单元层、第二长短期记忆单元层和第三全连接层,所述第一特征数据输入至第一长短期记忆单元层,依次经所述第二长短期记忆单元层和第三全连接层训练处理后,由所述第三全连接层输出所述噪声幅度估计值。
7.如权利要求1所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S300中,所述子带幅值估计神经网络的训练过程包括:
所述第一全连接层将所述第二特征数据送入tanh激活函数中,得到的结果作为所述第一全连接层的第一输出结果,所述第一全连接层配置为输入特征数为40,输出特征数为40;
将所述第一输出结果输入所述第一门控循环层中,所述第一门控循环层将其输出送入第一随机失活中,得到的结果与所述第一输出结果在频率维度堆叠,作为所述第一门控循环层的第二输出结果,所述第一门控循环层的单元数为64;
将所述第二输出结果输入所述第二门控循环层中,所述第二门控循环层将其输出送入第二随机失活中,得到的结果与所述第一输出结果在频率维度堆叠,作为所述第二门控循环层的第三输出结果,所述第二门控循环层的单元数为64;
将所述第三输出结果输入所述第三门控循环层中,所述第三门控循环层将其输出送入第三随机失活中,得到的结果作为所述第三门控循环层的第四输出结果,所述第三门控循环层的单元数为128;
将所述第四输出结果输入所述转置卷积层中,所述转置卷积层将其输入Batch Norm层中,再通过ReLU激活函数激活后,得到的结果作为所述转置卷积层的第五输出结果,所述转置卷积层的卷积核个数为256,大小为1×1;
将所述第五输出结果输入到第二全连接层中,所述第二全连接层将所述第五输出结果送入sigmoid激活函数中,得到所述幅度值掩码,所述第二全连接层配置为输入特征数为256,输出特征数为257。
8.如权利要求6所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S300中,所述相位谱优化神经网络的训练过程包括:
所述第一长短期记忆网络层将所述第一特征数据送入第四随机失活中,得到的结果作为所述第一长短期记忆网络层的第六输出结果,所述第一长短期记忆网络层配置为单元数为128;
将所述第六输出结果输入所述第二长短期记忆网络层中,所述第二长短期记忆网络层将其输出送入第五随机失活中,得到的结果作为所述第二长短期记忆网络层的第七输出结果,所述第二长短期记忆网络层的单元数为128;
将所述第七输出结果输入到第三全连接层中,所述第三全连接层将所述第七输出结果送入sigmoid激活函数中,得到所述噪声幅度估计值,所述第三全连接层配置为输入特征数为128,输出特征数为257。
9.如权利要求1所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S400中,
将所述幅度值掩码与第一特征数据等位相乘后得到增强后的所述目标语音数据的幅度值,所述幅度值表示为:
;
其中,为增强后的所述目标语音数据的幅度值,为幅度值掩码,表示第一特征数据,和分别为帧数和频率点数;
将所述噪声幅度估计值与经验值常数相乘之后与短时傅里叶变换频谱数据相加,得到补偿后频谱,取所述补偿后频谱的相位角作为增强后的所述相位角,具体可表示为:
;
其中,表示短时傅里叶变换频谱,表示噪声幅度估计值,为经验值常数,表示补偿后频谱,为增强后的相位角。
10.如权利要求1所述的一种基于神经网络的低复杂度语音增强方法,其特征在于,所述S500中,根据增强后的所述幅度值和所述相位角,进行短时傅里叶逆变换,得到增强后的语音数据;
所述表示为:
;
其中,所述为增强后的所述目标语音数据的幅度值,为增强后的相位角,和分别为帧数和频率点数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310322764.1A CN116052706B (zh) | 2023-03-30 | 2023-03-30 | 一种基于神经网络的低复杂度语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310322764.1A CN116052706B (zh) | 2023-03-30 | 2023-03-30 | 一种基于神经网络的低复杂度语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116052706A true CN116052706A (zh) | 2023-05-02 |
CN116052706B CN116052706B (zh) | 2023-06-27 |
Family
ID=86133494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310322764.1A Active CN116052706B (zh) | 2023-03-30 | 2023-03-30 | 一种基于神经网络的低复杂度语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052706B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665693A (zh) * | 2023-07-28 | 2023-08-29 | 合肥朗永智能科技有限公司 | 一种基于人工智能的语音增强方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735213A (zh) * | 2018-05-29 | 2018-11-02 | 太原理工大学 | 一种基于相位补偿的语音增强方法及*** |
CN111508514A (zh) * | 2020-04-10 | 2020-08-07 | 江苏科技大学 | 基于补偿相位谱的单通道语音增强算法 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与*** |
CN114005457A (zh) * | 2021-11-09 | 2022-02-01 | 西安邮电大学 | 一种基于幅度估计与相位重构的单通道语音增强方法 |
CN114242099A (zh) * | 2021-12-15 | 2022-03-25 | 南京邮电大学 | 基于改进相位谱补偿和全卷积神经网络的语音增强算法 |
WO2022161277A1 (zh) * | 2021-01-29 | 2022-08-04 | 北京沃东天骏信息技术有限公司 | 语音增强方法、模型训练方法以及相关设备 |
CN115171714A (zh) * | 2022-06-21 | 2022-10-11 | 深圳市北科瑞声科技股份有限公司 | 一种语音增强方法、装置、电子设备及存储介质 |
CN115497492A (zh) * | 2022-08-24 | 2022-12-20 | 珠海全视通信息技术有限公司 | 一种基于全卷积神经网络的实时语音增强方法 |
-
2023
- 2023-03-30 CN CN202310322764.1A patent/CN116052706B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108735213A (zh) * | 2018-05-29 | 2018-11-02 | 太原理工大学 | 一种基于相位补偿的语音增强方法及*** |
CN111508514A (zh) * | 2020-04-10 | 2020-08-07 | 江苏科技大学 | 基于补偿相位谱的单通道语音增强算法 |
CN112331224A (zh) * | 2020-11-24 | 2021-02-05 | 深圳信息职业技术学院 | 轻量级时域卷积网络语音增强方法与*** |
WO2022161277A1 (zh) * | 2021-01-29 | 2022-08-04 | 北京沃东天骏信息技术有限公司 | 语音增强方法、模型训练方法以及相关设备 |
CN114005457A (zh) * | 2021-11-09 | 2022-02-01 | 西安邮电大学 | 一种基于幅度估计与相位重构的单通道语音增强方法 |
CN114242099A (zh) * | 2021-12-15 | 2022-03-25 | 南京邮电大学 | 基于改进相位谱补偿和全卷积神经网络的语音增强算法 |
CN115171714A (zh) * | 2022-06-21 | 2022-10-11 | 深圳市北科瑞声科技股份有限公司 | 一种语音增强方法、装置、电子设备及存储介质 |
CN115497492A (zh) * | 2022-08-24 | 2022-12-20 | 珠海全视通信息技术有限公司 | 一种基于全卷积神经网络的实时语音增强方法 |
Non-Patent Citations (2)
Title |
---|
张存远: "基于相位谱重构联合幅度谱估计的语音增强算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 7, pages 26 - 38 * |
鲍长春 等: "基于深度神经网络的单通道语音增强方法回顾", 《信号处理》, vol. 35, no. 12, pages 1931 - 1941 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665693A (zh) * | 2023-07-28 | 2023-08-29 | 合肥朗永智能科技有限公司 | 一种基于人工智能的语音增强方法 |
CN116665693B (zh) * | 2023-07-28 | 2023-10-03 | 合肥朗永智能科技有限公司 | 一种基于人工智能的语音增强方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116052706B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085249B (zh) | 基于注意力门控的循环神经网络的单通道语音增强方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
RU2507608C2 (ru) | Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик | |
CN102982801B (zh) | 一种用于鲁棒语音识别的语音特征提取方法 | |
CN110428849B (zh) | 一种基于生成对抗网络的语音增强方法 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN105741849A (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
CN103871421A (zh) | 一种基于子带噪声分析的自适应降噪方法与*** | |
CN116052706B (zh) | 一种基于神经网络的低复杂度语音增强方法 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与*** | |
CN111192598A (zh) | 一种跳变连接深度神经网络的语音增强方法 | |
Islam et al. | Speech enhancement based on student $ t $ modeling of Teager energy operated perceptual wavelet packet coefficients and a custom thresholding function | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
CN116013344A (zh) | 一种多种噪声环境下的语音增强方法 | |
US20020062211A1 (en) | Easily tunable auditory-based speech signal feature extraction method and apparatus for use in automatic speech recognition | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
Bhat et al. | Smartphone based real-time super gaussian single microphone speech enhancement to improve intelligibility for hearing aid users using formant information | |
CN112750451A (zh) | 一种提升语音听感的降噪方法 | |
CN111816208A (zh) | 一种语音分离质量评估方法、装置及计算机存储介质 | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN113393852B (zh) | 语音增强模型的构建方法及***、语音增强方法及*** | |
CN115312073A (zh) | 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |