CN113053407A - 一种针对多说话人的单通道语音分离方法及*** - Google Patents
一种针对多说话人的单通道语音分离方法及*** Download PDFInfo
- Publication number
- CN113053407A CN113053407A CN202110173700.0A CN202110173700A CN113053407A CN 113053407 A CN113053407 A CN 113053407A CN 202110173700 A CN202110173700 A CN 202110173700A CN 113053407 A CN113053407 A CN 113053407A
- Authority
- CN
- China
- Prior art keywords
- voice
- neural network
- deep neural
- separation
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 202
- 238000013528 artificial neural network Methods 0.000 claims abstract description 111
- 238000012549 training Methods 0.000 claims abstract description 50
- 230000007246 mechanism Effects 0.000 claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000005236 sound signal Effects 0.000 claims description 31
- 238000011478 gradient descent method Methods 0.000 claims description 18
- 230000001902 propagating effect Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 4
- 230000003111 delayed effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供针对多说话人的单通道语音分离方法,其包括:构建语音分离深度神经网络;获取第一编码、第二编码和第三编码;通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号;对语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络;将待测试语音样本输入到训练后的语音分离深度神经网络中,获取待测试语音样本中多个语音分离信号。本发明通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据,相比原有方法可有效提高语音输出的准确性,降低语音的失真率,提高可懂度。同时,本发明还提供了针对多说话人的单通道语音分离***。
Description
技术领域
本发明涉及语音信号处理领域,本发明具体涉及一种针对多说话人的单通道语音分离方法及***。
背景技术
随着高端智能设备如智能耳机、助听器、会议记录器等快速发展,语音交互作为人机互动最便捷的方式得到越来越广泛的研究。在语音信号处理领域,语音分离技术作为连接前端和后端的纽带,不仅可以过滤掉噪声等因素的干扰,还可以提取语音识别等技术需要的关键信息,因此起到至关重要的作用。但目前的算法中,当待分离的语音中含有较大的噪声或伴随混响时,分离的效果大打折扣。语音分离算法中研究和应用最广泛的是单通道语音分离技术。单通道语音分离技术主要利用单个麦克风采集的信号,借助目标语音和干扰信号之间的时频域声学和统计特性的差异进行建模,相比多通道语音分离任务,硬件要求和成本较低,运算量较小,但是难度更高。
近些年神经网络和深度学习技术得到快速发展,语音分离算法已采用深度学习的计算模式。基于深度学习的语音分离方法的基本思想是:建立语音分离模型,从混合语音中提取特征参数,然后通过网络训练寻找特征参数与各个目标语音信号的特征参数之间的映射关系,之后任意输入的混合信号都可以通过训练后的模型输出各个目标语音的信号,从而实现语音分离。早些年研究人员多在频域上研究分离算法,最近,时域的端到端分离算法由于可避免频域中的相位估算误差问题,得到广泛研究。目前时域语音分离算法主要包含:Cov-TasNet、BLSTM-TasNet和FurcaNeXt等。这些算法多应用在纯语音混合的数据中,但当数据中混合了噪声和混响等干扰时,效果都会在一定程度上下降。分析其中一个原因是,这些算法多是仅直接将混合信号输入到网络模型中进行训练,这样训练出的网络对提高分离准确度的帮助有限。
发明内容
本发明的目的一方面提供了针对多说话人的单通道语音分离方法,其通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据,相比原有方法可有效提高语音输出的准确性,降低语音的失真率,提高可懂度。
本发明的目的另一方面提供了针对多说话人的单通道语音分离***,其通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据,相比原有***可有效提高语音输出的准确性,降低语音的失真率,提高可懂度。
本发明的第一个方面,提供了一种针对多说话人的单通道语音分离方法,其包括:
步骤S101,构建语音分离深度神经网络。语音分离深度神经网络包括:输入层、输出层及多个输出通道。输出通道数量对应混合音频中的说话人数。语音分离网络包括:混合音频信号编码器、音素信息编码器、注意力机制模块和综合解码器。
步骤S102,将混合音频样本信号输入到混合音频信号编码器的输入端,经两层延时卷积网络编码混合音频样本信号,获取第一编码。
将每个目标说话人语音音素串联输入到音素编码器的输入端,经两层延时卷积网络编码每个目标说话人语音音素,提取高维特征获取第二编码。
注意力机制模块通过内部的打分机制获取第一编码和第二编码的评分,通过第一编码和第二编码的评分获取注意力权重值。通过注意力权重值获取加权后的第一编码。通过加权后的第一编码和第二编码获取第三编码。
综合解码器,通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号。
步骤S103,每个目标说话人干净音频作为语音分离深度神经网络的训练目标。训练语音分离深度神经网络。使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络。
步骤S104,将待测试语音样本输入到训练后的语音分离深度神经网络中,经语音分离深度神经网络处理,从多个输出通道获取待测试语音样本中多个语音分离信号。将待测试语音样本中多个语音分离信号作为每个目标说话人的语音分离结果信号。
本发明针对多说话人的单通道语音分离方法的一种实施方式中,混合音频信号编码器和音素信息编码器分别包括两个隐藏层。解码器包括2个隐藏层。注意力机制模块包括一个隐藏层。
本发明针对多说话人的单通道语音分离方法的另一种实施方式中,步骤S102中还包括:
对语音样本数据库中的语音样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合获取多个混合音频样本信号。每个混合音频样本信号的长度为4s。
获取每个混合音频样本信号对应的目标说话人干净音频和语音音素。
本发明针对多说话人的单通道语音分离方法的另一种实施方式中,步骤S103中还包括,随机初始化语音分离深度神经网络的参数。
本发明针对多说话人的单通道语音分离方法的再一种实施方式中,使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练的步骤还包括:前向传播阶段。
前向传播阶段包括:对语音分离深度神经网络中神经元节点之间的权重和偏置进行初始化。前向传播语音分离深度神经网络。在语音分离深度神经网络的前向传播过程中,通过激活函数来增加各层之间的非线性关系,以能够生成输入与输出结果间的非线性映射。
本发明针对多说话人的单通道语音分离方法的再一种实施方式中,步骤S103中,使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练的步骤包括:
步骤S1031,计算语音分离深度神经网络的输出层损失函数的梯度。损失函数为公式1:
其中,starget是语音提取的目标。enoise是估计的噪音,由估计的语音和混合语音的差值求得。
步骤S1032,获取语音分离深度神经网络中网络层数l=L-1,L-2,…,2时每一层所对应的梯度。
步骤S1033,根据输出层损失函数的梯度及每一层所对应的梯度更新整个网络的权重和偏置。
本发明的第二个方面,提供了一种针对多说话人的单通道语音分离***,其包括:
构建网络单元,其配置为构建语音分离深度神经网络。语音分离深度神经网络包括:输入层、输出层及多个输出通道。输出通道数量对应混合音频中的说话人数。语音分离网络包括:混合音频信号编码器、音素信息编码器、注意力机制模块和综合解码器。
网络配置单元,其配置为将混合音频样本信号输入到混合音频信号编码器的输入端,经两层延时卷积网络编码混合音频样本信号,获取第一编码。
将每个目标说话人语音音素串联输入到音素编码器的输入端,经两层延时卷积网络编码每个目标说话人语音音素,提取高维特征获取第二编码。
注意力机制模块通过内部的打分机制获取第一编码和第二编码的评分,通过第一编码和第二编码的评分获取注意力权重值。通过注意力权重值获取加权后的第一编码。通过加权后的第一编码和第二编码获取第三编码。
综合解码器,通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号。
训练单元,其配置为每个目标说话人干净音频作为语音分离深度神经网络的训练目标。训练语音分离深度神经网络。使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络。和
分离单元,其配置为将待测试语音样本输入到训练后的语音分离深度神经网络中,经语音分离深度神经网络处理,从多个输出通道获取待测试语音样本中多个语音分离信号。将待测试语音样本中多个语音分离信号作为每个目标说话人的语音分离结果信号。
本发明针对多说话人的单通道语音分离***的一种实施方式中,网络配置单元还配置为:
对语音样本数据库中的语音样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合获取多个混合音频样本信号。每个混合音频样本信号的长度为4s。
获取每个混合音频样本信号对应的目标说话人干净音频和语音音素。
本发明针对多说话人的单通道语音分离***的另一种实施方式中,训练单元还配置为随机初始化语音分离深度神经网络的参数。
本发明针对多说话人的单通道语音分离***的另一种实施方式中,训练单元中使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练的步骤还包括:前向传播阶段。
前向传播阶段包括:对语音分离深度神经网络中神经元节点之间的权重和偏置进行初始化。前向传播语音分离深度神经网络。在语音分离深度神经网络的前向传播过程中,通过激活函数来增加各层之间的非线性关系,以能够生成输入与输出结果间的非线性映射。
下文将以明确易懂的方式,结合附图对针对多说话人的单通道语音分离方法及***的特性、技术特征、优点及其实现方式予以进一步说明。
附图说明
图1是用于说明在本发明一种实施方式中,针对多说话人的单通道语音分离方法的流程示意图。
图2是用于说明在本发明一种实施方式中,语音分离网络的组成示意图。
图3是用于说明在本发明一种实施方式中,多说话人的单通道语音分离***的组成示意图。
图4是用于说明在本发明一种实施方式中,语音分离深度神经网络的组成示意图。
图5a是用于说明在本发明一种实施方式中,混合音频信号编码器的部分层结构示意图。
图5b是用于说明在本发明一种实施方式中,音素信息编码器的部分层结构示意图。
图6是用于说明在本发明一种实施方式中,注意力机制模块的部分层结构示意图
图7是用于说明在本发明又一种实施方式中,综合解码器的部分层结构示意图。
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,在各图中相同的标号表示结构相同或结构相似但功能相同的部件。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁,各图中只示意性地表示出了与本示例性实施例相关的部分,它们并不代表其作为产品的实际结构及真实比例。
发明的第一个方面,提供了一种针对多说话人的单通道语音分离方法,如图1所示,其包括:
步骤S101,构建语音分离深度神经网络。
本步骤中,构建语音分离深度神经网络。语音分离深度神经网络包括:输入层、输出层及多个输出通道。输出通道数量对应混合音频中的说话人数。如图2所示,语音分离网络包括:混合音频信号编码器101、音素信息编码器201、注意力机制模块301和综合解码器401。
步骤S102,获取多个输出通道的语音分离信号。
本步骤中,将混合音频样本信号输入到混合音频信号编码器101的输入端,经两层延时卷积网络编码混合音频样本信号,获取第一编码。
将每个目标说话人语音音素串联输入到音素编码器的输入端,经两层延时卷积网络编码每个目标说话人语音音素,提取高维特征获取第二编码。
注意力机制模块301通过内部的打分机制获取第一编码和第二编码的评分,通过第一编码和第二编码的评分获取注意力权重值。通过注意力权重值获取加权后的第一编码。通过加权后的第一编码和第二编码获取第三编码。
综合解码器401,通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号。
步骤S103,获得训练后的语音分离深度神经网络。
本步骤中,每个目标说话人干净音频作为语音分离深度神经网络的训练目标。训练语音分离深度神经网络。使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络。
步骤S104,获取多个语音分离信号。
本步骤中,将待测试语音样本输入到训练后的语音分离深度神经网络中,经语音分离深度神经网络处理,从多个输出通道获取待测试语音样本中多个语音分离信号。将待测试语音样本中多个语音分离信号作为每个目标说话人的语音分离结果信号。
本发明一种针对多说话人的单通道语音分离方法相比现有的单通道语音分离算法能更进一步的提取每个说话人的语音特征,有效去除对应目标说话人以外的信号,从而提高算法分离的准确度,降低语音的失真率,有效的提高了分离后各语音的可懂度。通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据,相比原有方法可有效提高语音输出的准确性,降低语音的失真率,提高可懂度。
本发明针对多说话人的单通道语音分离方法的一种实施方式中,混合音频信号编码器101和音素信息编码器201分别包括两个隐藏层。解码器包括2个隐藏层。注意力机制模块301包括一个隐藏层。
本发明针对多说话人的单通道语音分离方法的另一种实施方式中,步骤S102中还包括:
对语音样本数据库中的语音样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合获取多个混合音频样本信号。每个混合音频样本信号的长度为4s。
获取每个混合音频样本信号对应的目标说话人干净音频和语音音素。
本发明针对多说话人的单通道语音分离方法的另一种实施方式中,步骤S103中还包括,随机初始化语音分离深度神经网络的参数。
本发明针对多说话人的单通道语音分离方法的再一种实施方式中,使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练的步骤还包括:前向传播阶段。
前向传播阶段包括:对语音分离深度神经网络中神经元节点之间的权重和偏置进行初始化。前向传播语音分离深度神经网络。在语音分离深度神经网络的前向传播过程中,通过激活函数来增加各层之间的非线性关系,以能够生成输入与输出结果间的非线性映射。
本发明针对多说话人的单通道语音分离方法的再一种实施方式中,步骤S103中,使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练的步骤包括:
步骤S1031,计算语音分离深度神经网络的输出层损失函数的梯度。损失函数为公式1:
其中,starget是语音提取的目标。enoise是估计的噪音,由估计的语音和混合语音的差值求得。
步骤S1032,获取语音分离深度神经网络中网络层数l=L-1,L-2,…,2时每一层所对应的梯度。
步骤S1033,根据输出层损失函数的梯度及每一层所对应的梯度更新整个网络的权重和偏置。
本发明的第二个方面,提供了一种针对多说话人的单通道语音分离***,如图3所示,针对多说话人的单通道语音分离***包括:构建网络单元10、网络配置单元20、训练单元30和分离单元40。
构建网络单元10,其配置为构建语音分离深度神经网络。语音分离深度神经网络包括:输入层、输出层及多个输出通道。输出通道数量对应混合音频中的说话人数。语音分离网络包括:混合音频信号编码器101、音素信息编码器201、注意力机制模块301和综合解码器401。
网络配置单元20,其配置为将混合音频样本信号输入到混合音频信号编码器101的输入端,经两层延时卷积网络编码混合音频样本信号,获取第一编码。
将每个目标说话人语音音素串联输入到音素编码器的输入端,经两层延时卷积网络编码每个目标说话人语音音素,提取高维特征获取第二编码。
注意力机制模块301通过内部的打分机制获取第一编码和第二编码的评分,通过第一编码和第二编码的评分获取注意力权重值。通过注意力权重值获取加权后的第一编码。通过加权后的第一编码和第二编码获取第三编码。
综合解码器401,通过解卷积层解码第一编码及第三编码获取多个输出通道的语音分离信号。
训练单元30,其配置为每个目标说话人干净音频作为语音分离深度神经网络的训练目标。训练语音分离深度神经网络。使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络。
分离单元40,其配置为将待测试语音样本输入到训练后的语音分离深度神经网络中,经语音分离深度神经网络处理,从多个输出通道获取待测试语音样本中多个语音分离信号。将待测试语音样本中多个语音分离信号作为每个目标说话人的语音分离结果信号。
本发明针对多说话人的单通道语音分离***的一种实施方式中,网络配置单元20还配置为:
对语音样本数据库中的语音样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合获取多个混合音频样本信号。每个混合音频样本信号的长度为4s。
获取每个混合音频样本信号对应的目标说话人干净音频和语音音素。
本发明针对多说话人的单通道语音分离***的另一种实施方式中,训练单元30还配置为随机初始化语音分离深度神经网络的参数。
本发明针对多说话人的单通道语音分离***的另一种实施方式中,训练单元30中使用损失函数通过梯度下降法来反向传播更新权重和偏置,对语音分离深度神经网络有监督的训练的步骤还包括:前向传播阶段。
前向传播阶段包括:对语音分离深度神经网络中神经元节点之间的权重和偏置进行初始化。前向传播语音分离深度神经网络。在语音分离深度神经网络的前向传播过程中,通过激活函数来增加各层之间的非线性关系,以能够生成输入与输出结果间的非线性映射。
在本发明的针对多说话人的单通道语音分离方法的另一种优选的实施方式中,本发明的目的是针对多说话人的单通道语音分离技术提出一种音素时域卷积语音分离方法。该算法相比现有的单通道语音分离算法能更进一步的提取每个说话人的语音特征,有效去除对应目标说话人以外的信号,从而提高算法分离的准确度,降低语音的失真率,有效的提高了分离后各语音的可懂度。
本发明提出的算法由混合音频信号编码器、音素信息编码器、综合解码器和注意力机制模块构成。
具体操作流程包括:
第一部分:对训练语音样本进行预处理,并输入到网络输入端;
第二部分:使用损失函数对深度神经网络进行训练,以获得深度神经网络模型;
第三部分:将待测试语音样本输入到训好的网络模型中进行语音分离,得到测试结果。
第一部分具体包括:
1.1、对数据库样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合,同时保存每个混合音频对应的目标说话人干净音频和语音音素。每个样本的长度为4s。
1.2、将混合音频信号输入到混合音频信号编码器的输入端,将每个目标语音对应音素串联输入到音素编码器的输入端,对应说话人的干净语音音频作为神经网络的训练目标。
第二部分包括:
2.1、对深度神经网络参数进行随机初始化;
2.2、根据2.1初始化后的参数,对深度神经网络进行有监督的训练,即使用损失函数通过梯度下降法来反向传播更新权重和偏置,以获得深度神经网络模型。
上述2.1中包括前向传播阶段和反向传播阶段。
前向传播阶段包括:对网络神经元节点之间的权重和偏置进行初始化;深度神经网络进行前向传播。
神经网络在前向传播过程中,可使用激活函数来增加网络之间的非线性关系,最后能够生成输入与输出结果间的非线性映射。
反向传播阶段包括:
<1>计算深度神经网络的损失函数;
<2>通过梯度下降法更新深度神经网络的参数。
整个网络的损失函数为公式2:
其中,starget是语音提取的目标;enoise是估计的噪音,由估计的语音和混合语音的差值求得。
网络将使用梯度下降法对其中的参数进行交替更新:
a、构建语音分离网络。它是一个多输出的网络,输出的通道数与混合音频中的说话人数目有关。整个网络由四个模块组成,包括:混合音频信号编码器、音素信息编码器、综合解码器和注意力机制模块。网络除了输入层、输出层外,混合音频信号编码器和音素信息编码器分别含有两个隐藏层,解码器含有2个隐藏层。注意力机制含有一个隐藏层。。
b、计算网络输出层损失函数的梯度;
c、计算网络层数l=L-1,L-2,…,2时每一层所对应的梯度;
d、更新整个网络的权重和偏置。
混合音频信号编码器部分:将混合音频y输入到网络输入端,然后经两层延时卷积网络对信号进行编码,得到G={g0,…,gN-1}。N为此编码器第二层网络对应的输出长度。
音素信息编码器部分:将每个混合音频的目标语音对应的音素串联为p输入到此模块的输入端,然后经两层延时卷积网络编码,提取高维特征得到H={h0,…,hM-1}。M为此编码器第二层网络对应的输出长度。
注意力机制模块部分:同时接收混合音频信号编码器和音素信息编码器的输出G和H,通过内部的打分机制对所有的hm和gn进行计算,得到公式3:
这样注意力权重αn,m就可以通过一个softmax算符得到公式4:
综合解码器部分:将混合音频信号编码器的输出与注意力机制模块的加权输出相乘后的结果cn输入到解码器中,即公式5:
然后通过网络的解卷积层解码即可得到对应的多通道语音分离信号。
第三部分中的语音测试操作为:将待测试语音样本输入到训练后的网络模型中,经计算可得到每路语音对应的估计信号,即每一个说话人的语音分离结果。
通过分离网络的音素附加输入和注意力机制可增加网络对语音信号分离的依据,相比原有方法可有效提高语音输出的准确性,降低语音的失真率,提高可懂度。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图4所示,本发明提供了一种音素时域卷积语音分离算法,这里以两个说话人的语音分离为例。主要包括以下内容:
第一部分:对训练语音样本进行预处理,并输入到网络输入端;
第二部分:使用损失函数对深度神经网络进行训练,以获得深度神经网络模型;
第三部分:将待测试语音样本输入到训好的网络模型中进行语音分离,得到测试结果。
以下将对每个部分做详细说明。
其中第一部分具体包括:
1-1、对数据库样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合得到y,同时保存每个混合音频对应的目标说话人干净音频xi(i=1,2,…,N)和语音音素pi。每个样本的长度为4s。
1-2、将混合音频信号y作为输入到混合音频信号编码器的输入端,将每个目标语音对应音素串联为p输入到音素编码器的输入端,对应说话人的干净语音音频xi作为神经网络的训练目标。
第二部分具体包括:
(1)对深度神经网络参数进行随机初始化;
(2)根据(1)初始化后的参数,对深度神经网络进行有监督的训练,即使用损失函数通过梯度下降法来反向传播更新权重和偏置,以获得深度神经网络模型。
上述(2)中包括前向传播阶段和反向传播阶段。
前向传播阶段包括:对网络神经元节点之间的权重和偏置进行初始化;深度神经网络进行前向传播。
神经网络在前向传播过程中,可使用激活函数来增加网络之间的非线性关系,最后能够生成输入与输出结果间的非线性映射。
反向传播阶段包括:
<1>计算深度神经网络的损失函数;
<2>通过梯度下降法更新深度神经网络的参数。
整个网络的损失函数为公式6:
其中,starget是语音提取的目标;enoise是估计的噪音,由估计的语音和混合语音的差值求得。
网络将使用梯度下降法对其中的参数进行交替更新:
a、构建语音分离网络。它是一个多输出的网络,输出的通道数与混合音频中的说话人数目有关。整个网络由四个模块组成(图4)包括:混合音频信号编码器101(图5a)、音素信息编码器201(图5b)、综合解码器401(图7)和注意力机制模块301(图6)。网络除了输入层、输出层外,混合音频信号编码器和音素信息编码器分别含有两个隐藏层,综合解码器含有2个隐藏层。注意力机制含有一个隐藏层。综合解码器401输出第一分离的语音分离信号、第二分离的语音分离信号,......。
b、计算网络输出层损失函数的梯度;
c、计算网络层数l=L-1,L-2,…,2时每一层所对应的梯度;
d、更新整个网络的权重和偏置。
混合音频信号编码器部分:将混合音频y输入到网络输入端,然后经两层延时卷积网络对信号进行编码,得到G={g0,…,gN-1}。N为此编码器第二层网络对应的输出长度。
音素信息编码器部分:将每个混合音频的目标语音对应的音素串联为p输入到此模块的输入端,然后经两层延时卷积网络编码,提取高维特征得到H={h0,…,hM-1}。M为此编码器第二层网络对应的输出长度。
注意力机制模块部分:同时接收混合音频信号编码器和音素信息编码器的输出G和H,通过内部的打分机制对所有的hm和gn进行计算,得到公式7:
这样注意力权重αn,m就可以通过一个softmax算符得到公式8:
综合解码器部分:将混合音频信号编码器的输出与注意力机制模块的加权输出相乘后的结果cn输入到解码器中,即公式9:
然后通过网络的解卷积层进行解码即可得到对应的多个通道语音分离信号。
第三部分中的语音测试操作为:将待测试语音样本输入到训练后的网络模型中,经计算可得到每路语音对应的估计信号,即每一个说话人的语音分离结果。
应当理解,虽然本说明书是按照各个实施方式中描述的,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (10)
1.一种针对多说话人的单通道语音分离方法,其特征在于,其包括:
步骤S101,构建语音分离深度神经网络;所述语音分离深度神经网络包括:输入层、输出层及多个输出通道;所述输出通道数量对应混合音频中的说话人数;所述语音分离网络包括:混合音频信号编码器、音素信息编码器、注意力机制模块和综合解码器;
步骤S102,将混合音频样本信号输入到混合音频信号编码器的输入端,经两层延时卷积网络编码所述混合音频样本信号,获取第一编码;
将每个目标说话人语音音素串联输入到音素编码器的输入端,经两层延时卷积网络编码所述每个目标说话人语音音素,提取高维特征获取第二编码;
所述注意力机制模块通过内部的打分机制获取所述第一编码和所述第二编码的评分,通过所述第一编码和所述第二编码的评分获取注意力权重值;通过所述注意力权重值获取加权后的所述第一编码;通过所述加权后的所述第一编码和所述第二编码获取第三编码;
所述综合解码器,通过解卷积层解码所述第一编码及所述第三编码获取所述多个输出通道的语音分离信号;
步骤S103,每个目标说话人干净音频作为所述语音分离深度神经网络的训练目标;训练所述语音分离深度神经网络;使用损失函数通过梯度下降法来反向传播更新权重和偏置,对所述语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络;
步骤S104,将待测试语音样本输入到所述训练后的语音分离深度神经网络中,经所述语音分离深度神经网络处理,从所述多个输出通道获取待测试语音样本中多个语音分离信号;将所述待测试语音样本中多个语音分离信号作为每个目标说话人的语音分离结果信号。
2.根据权利要求1所述的针对多说话人的单通道语音分离方法,其特征在于,所述混合音频信号编码器和所述音素信息编码器分别包括两个隐藏层;所述解码器包括2个隐藏层;所述注意力机制模块包括一个隐藏层。
3.根据权利要求1所述的针对多说话人的单通道语音分离方法,其特征在于,所述步骤S102中还包括:
对语音样本数据库中的语音样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合获取多个混合音频样本信号;每个混合音频样本信号的长度为4s;
获取每个混合音频样本信号对应的目标说话人干净音频和语音音素。
4.根据权利要求1所述的针对多说话人的单通道语音分离方法,其特征在于,所述步骤S103中还包括,随机初始化所述语音分离深度神经网络的参数。
5.根据权利要求1或4所述的针对多说话人的单通道语音分离方法,其特征在于,所述使用损失函数通过梯度下降法来反向传播更新权重和偏置,对所述语音分离深度神经网络有监督的训练的步骤还包括:前向传播阶段;
所述前向传播阶段包括:对语音分离深度神经网络中神经元节点之间的权重和偏置进行初始化;前向传播所述语音分离深度神经网络;在所述语音分离深度神经网络的前向传播过程中,通过激活函数来增加各层之间的非线性关系,以能够生成输入与输出结果间的非线性映射。
7.一种针对多说话人的单通道语音分离***,其特征在于,其包括:
构建网络单元,其配置为构建语音分离深度神经网络;所述语音分离深度神经网络包括:输入层、输出层及多个输出通道;所述输出通道数量对应混合音频中的说话人数;所述语音分离网络包括:混合音频信号编码器、音素信息编码器、注意力机制模块和综合解码器;网络配置单元,其配置为将混合音频样本信号输入到混合音频信号编码器的输入端,经两层延时卷积网络编码所述混合音频样本信号,获取第一编码;
将每个目标说话人语音音素串联输入到音素编码器的输入端,经两层延时卷积网络编码所述每个目标说话人语音音素,提取高维特征获取第二编码;
所述注意力机制模块通过内部的打分机制获取所述第一编码和所述第二编码的评分,通过所述第一编码和所述第二编码的评分获取注意力权重值;通过所述注意力权重值获取加权后的所述第一编码;通过所述加权后的所述第一编码和所述第二编码获取第三编码;
所述综合解码器,通过解卷积层解码所述第一编码及所述第三编码获取所述多个输出通道的语音分离信号;
训练单元,其配置为每个目标说话人干净音频作为所述语音分离深度神经网络的训练目标;训练所述语音分离深度神经网络;使用损失函数通过梯度下降法来反向传播更新权重和偏置,对所述语音分离深度神经网络有监督的训练,以获得训练后的语音分离深度神经网络;和
分离单元,其配置为将待测试语音样本输入到所述训练后的语音分离深度神经网络中,经所述语音分离深度神经网络处理,从所述多个输出通道获取待测试语音样本中多个语音分离信号;将所述待测试语音样本中多个语音分离信号作为每个目标说话人的语音分离结果信号。
8.根据权利要求7所述的针对多说话人的单通道语音分离***,其特征在于,所述网络配置单元还配置为:
对语音样本数据库中的语音样本信号在8kHz下重采样,并对多个目标说话人与噪声及混响数据在信噪比-2.5dB到2.5dB之间做随机的音频混合获取多个混合音频样本信号;每个混合音频样本信号的长度为4s;
获取每个混合音频样本信号对应的目标说话人干净音频和语音音素。
9.根据权利要求7所述的针对多说话人的单通道语音分离***,其特征在于,所述训练单元还配置为随机初始化所述语音分离深度神经网络的参数。
10.根据权利要求7或9所述的针对多说话人的单通道语音分离***,其特征在于,所述训练单元中使用损失函数通过梯度下降法来反向传播更新权重和偏置,对所述语音分离深度神经网络有监督的训练的步骤还包括:前向传播阶段;
所述前向传播阶段包括:对语音分离深度神经网络中神经元节点之间的权重和偏置进行初始化;前向传播所述语音分离深度神经网络;在所述语音分离深度神经网络的前向传播过程中,通过激活函数来增加各层之间的非线性关系,以能够生成输入与输出结果间的非线性映射。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110173700.0A CN113053407B (zh) | 2021-02-06 | 2021-02-06 | 一种针对多说话人的单通道语音分离方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110173700.0A CN113053407B (zh) | 2021-02-06 | 2021-02-06 | 一种针对多说话人的单通道语音分离方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113053407A true CN113053407A (zh) | 2021-06-29 |
CN113053407B CN113053407B (zh) | 2024-06-14 |
Family
ID=76508902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110173700.0A Active CN113053407B (zh) | 2021-02-06 | 2021-02-06 | 一种针对多说话人的单通道语音分离方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113053407B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744719A (zh) * | 2021-09-03 | 2021-12-03 | 清华大学 | 一种语音提取方法、装置及设备 |
CN113744753A (zh) * | 2021-08-11 | 2021-12-03 | 清华大学苏州汽车研究院(相城) | 一种多人语音分离方法及语音分离模型的训练方法 |
CN113782006A (zh) * | 2021-09-03 | 2021-12-10 | 清华大学 | 一种语音提取方法、装置及设备 |
CN113782045A (zh) * | 2021-08-30 | 2021-12-10 | 江苏大学 | 一种多尺度时延采样的单通道语音分离方法 |
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309343A (zh) * | 2019-06-28 | 2019-10-08 | 南京大学 | 一种基于深度哈希的声纹检索方法 |
CN110634502A (zh) * | 2019-09-06 | 2019-12-31 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
KR102066264B1 (ko) * | 2018-07-05 | 2020-01-14 | 서울대학교산학협력단 | 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템 |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及*** |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
-
2021
- 2021-02-06 CN CN202110173700.0A patent/CN113053407B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102066264B1 (ko) * | 2018-07-05 | 2020-01-14 | 서울대학교산학협력단 | 딥 뉴럴 네트워크를 이용한 음성 인식 방법 및 시스템 |
CN110309343A (zh) * | 2019-06-28 | 2019-10-08 | 南京大学 | 一种基于深度哈希的声纹检索方法 |
CN110634502A (zh) * | 2019-09-06 | 2019-12-31 | 南京邮电大学 | 基于深度神经网络的单通道语音分离算法 |
CN111899757A (zh) * | 2020-09-29 | 2020-11-06 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及*** |
CN112331218A (zh) * | 2020-09-29 | 2021-02-05 | 北京清微智能科技有限公司 | 一种针对多说话人的单通道语音分离方法和装置 |
Non-Patent Citations (1)
Title |
---|
李涛;曹辉;郭乐乐;: "深度神经网络的语音深度特征提取方法", 声学技术, no. 04 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744753A (zh) * | 2021-08-11 | 2021-12-03 | 清华大学苏州汽车研究院(相城) | 一种多人语音分离方法及语音分离模型的训练方法 |
CN113744753B (zh) * | 2021-08-11 | 2023-09-08 | 清华大学苏州汽车研究院(相城) | 一种多人语音分离方法及语音分离模型的训练方法 |
CN113782045A (zh) * | 2021-08-30 | 2021-12-10 | 江苏大学 | 一种多尺度时延采样的单通道语音分离方法 |
CN113782045B (zh) * | 2021-08-30 | 2024-01-05 | 江苏大学 | 一种多尺度时延采样的单通道语音分离方法 |
CN113744719A (zh) * | 2021-09-03 | 2021-12-03 | 清华大学 | 一种语音提取方法、装置及设备 |
CN113782006A (zh) * | 2021-09-03 | 2021-12-10 | 清华大学 | 一种语音提取方法、装置及设备 |
CN115116448A (zh) * | 2022-08-29 | 2022-09-27 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
CN115116448B (zh) * | 2022-08-29 | 2022-11-15 | 四川启睿克科技有限公司 | 语音提取方法、神经网络模型训练方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113053407B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113053407B (zh) | 一种针对多说话人的单通道语音分离方法及*** | |
Wang et al. | Speech emotion recognition with dual-sequence LSTM architecture | |
Zhang et al. | Deep learning for environmentally robust speech recognition: An overview of recent developments | |
Qian et al. | Very deep convolutional neural networks for noise robust speech recognition | |
Luo et al. | Ultra-lightweight speech separation via group communication | |
WO2013149123A1 (en) | Monaural speech filter | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及*** | |
JPH096386A (ja) | 状態遷移モデルの設計方法及び該状態遷移モデルを用いた音声認識装置 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
CN110047478B (zh) | 基于空间特征补偿的多通道语音识别声学建模方法及装置 | |
CN113823273B (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN111862952B (zh) | 一种去混响模型训练方法及装置 | |
Shi et al. | End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network. | |
Nakagome et al. | Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation. | |
CN112259119A (zh) | 基于堆叠沙漏网络的音乐源分离方法 | |
Sagi et al. | A biologically motivated solution to the cocktail party problem | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
Devi et al. | A novel approach for speech feature extraction by cubic-log compression in MFCC | |
CN112180318A (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN113963718B (zh) | 一种基于深度学习的语音会话分割方法 | |
Sunny et al. | Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
Fukuda et al. | Generalized knowledge distillation from an ensemble of specialized teachers leveraging unsupervised neural clustering | |
CN114023350A (zh) | 基于浅层特征重激活和多阶段混合注意力的声源分离方法 | |
CN114155883B (zh) | 基于进阶式的语音深度神经网络训练方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |