CN106847302B - 基于卷积神经网络的单通道混合语音时域分离方法 - Google Patents
基于卷积神经网络的单通道混合语音时域分离方法 Download PDFInfo
- Publication number
- CN106847302B CN106847302B CN201710084957.2A CN201710084957A CN106847302B CN 106847302 B CN106847302 B CN 106847302B CN 201710084957 A CN201710084957 A CN 201710084957A CN 106847302 B CN106847302 B CN 106847302B
- Authority
- CN
- China
- Prior art keywords
- neural network
- layer
- data
- output
- convolutional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 24
- 238000013528 artificial neural network Methods 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000011176 pooling Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 125000004122 cyclic group Chemical group 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000001612 separation test Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明涉及一种单通道混合语音的时域分离方法,一种基于卷积神经网络的单通道混合语音的时域分离方法,包括以下步骤:(1)建立用于训练的语音数据组,(2)对语音数据进行预处理,(3)获得混合的语音数据,(4)构造神经网络结构,(5)利用整理好的数据,对神经网络进行监督式训练,(6)利用训练好的神经网络进行分离测试。本发明是以时域语音信号作为卷积神经网络的输入和输出,将单通道的混合语音分离开来,从而得到两路源信号的估计。该方法不需要处理相位恢复的问题,提高了单通道语音的分离质量。
Description
技术领域
本发明涉及一种单通道混合语音的时域分离方法,更具体地说,涉及一种基于卷积神经网络的单通道混合语音时域分离方法。
背景技术
单通道盲源分离(Monaural Blind Source Separation,MBSS)是语音处理领域中一项重要技术,它能在只获得单通道混合语音信号的情况下得到两路源信号的估计。单通道语音分离技术在在语音识别、语音增强、语音鉴定等领域具有重要的应用价值。
典型的单通道语音分离包括基于非负矩阵分解(Non-negative MatrixFactorization,NMF)和基于神经网络(Neural Network)的方法。由于单通道混合语音中所包含的信息较少,因此基于非负矩阵分解的方法很难取得令人满意的分离效果。而神经网络具有较强的特征表达能力,因此基于神经网络的方法可以取得比NMF方法更好的分离效果。但是,目前基于神经网络的方法一般采用全连接网络(Full Connected NeuralNetwork,FCNN)或循环神经网络(Recurrent Neural Network,RNN),并且通常需要提取语音信号的幅度谱特征,这样并没有很好地利用到卷积神经网络本身强大的特征表达能力;同时由于使用了幅度谱特征,使得在恢复源信号的时候面临着很难处理的相位恢复问题。因此,传统的基于神经网络的分离方法在分离出的两路源信号估计之间存在互扰,分离质量有待提高。
发明内容
为了克服现有技术中存在的不足,本发明的目的是提供一种基于卷积神经网络的单通道混合语音时域分离方法。该方法是以时域语音信号作为卷积神经网络的输入和输出,其作用是将单通道的混合语音分离开来,从而得到两路源信号的估计。该方法不需要处理相位恢复的问题,提高了单通道语音分离的质量。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采用的技术方案是:基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:
步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先利用公式(1)将原始的语音数据归一化到[-1,1]的范围内,
其中,si表示第i路源信号,max(·)表示取最大值,abs(si)表示对si中的每一个元素取绝对值,yi表示归一化后的第i路源信号。然后将时域语音信号利用公式(2)进行分帧处理,帧长为N=1024,帧间重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中zi表示第i帧数据,y表示归一化后的数据;
步骤3,获得混合的语音数据,这里利用公式(3)所描述的循环移位混合的方法来扩大混合语音数据的数量,
式中,y表示输入,β表示循环移位的点数,L为y的长度;
步骤4、构造神经网络结构,构建一个适于分离的卷积神经网络(ConvolutionalNeural Network,CNN),这里所使用的卷积层(Convolutional Layer)是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元(Rectified Linear Unit),ReLU层1、2、3,每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1;最大池化Max pooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标信号target之间的误差;
步骤5、利用训练整理好的数据,即单路混合语音和源语音的对应数据对,对神经网络进行监督式训练,采用批量随机梯度下降法(Stochastic Gradient Descent,SGD)对神经网络进行优化训练。首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层神经元的输出利用公式(5)进行计算,
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
式中,r表示线性整流单元的输入,
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计后1024点代表源信号2的估计通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次误差的差值小于一个较小的阈值(如0.1)时,可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,是神经网络对两路源信号的估计,s=[s1,s2]是两路源信号的真实值,得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度和
计算梯度的更新值,
式中,和分别表示第i次和第i-1次迭代时权值参数矩阵W的更新值,和分别代表第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi和bi-1分别代表第i次和第i-1次迭代时偏置矩阵。神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语言信号进行分离测试。将待分离的单通道混合语音输入到神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗(Hamming window);再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)的每帧混合数据的两路分离结果得到两路源信号的估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
本发明有益效果是:一种基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:(1)建立用于训练的语音数据组,(2)对语音数据进行预处理,(3)获得混合的语音数据,(4)构造神经网络结构,(5)利用整理好的数据,对神经网络进行监督式训练,(6)利用训练好的神经网络进行分离测试。与已有技术相比,本发明是以时域语音信号作为卷积神经网络的输入和输出,将单通道的混合语音分离开来,从而得到两路源信号估计。该方法不需要处理相位恢复的问题,提高了单通道语音的分离质量。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的卷积神经网络结构示意图。
图3是本发明基于卷积神经网络的单通道混合语音时域分离***框图。
图4是本发明对单通道混合语音分离结果指标示意图(FA vs MC,FA vs FB,MC vsMD分别表示男女声,女女声,男男声混合的情况)。
图5是本发明对单通道混合语音分离结果的时域波形示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:
步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先将原始的语音数据利用公式(1)归一化到[-1,1]的范围内,
其中,si表示第i路源信号,max(·)表示取最大值,abs(si)表示对si中的每一个元素取绝对值,yi表示归一化后的第i路源信号,然后利用公式(2)将时域语音信号进行分帧处理,帧长为N=1024,帧间的重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中,zi表示第i帧数据,y表示归一化后的数据;
步骤3,获得混合的语音数据,这里利用公式(3)所描述的循环移位混合的方法来扩大混合语音数据的数量,
式中,y表示输入,β表示循环移位的点数,L为y的长度。
步骤4、构造神经网络结构,构建一个适用于分离的卷积神经网络ConvolutionalNeural Network,CNN,这里所使用的卷积层Convolutional Layer是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元Rectified Linear Unit,ReLU层1、2、3。每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1,最大池化Maxpooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标target之间的误差;卷积神经网络结构示意图,如图2所示。
步骤5、利用整理好的数据,即单路混合语音和源语音的对应数据对,对神经网络进行监督式训练,采用批量随机梯度下降法Stochastic Gradient Descent,SGD对神经网络进行优化训练。首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层的输出利用公式(5)进行计算,
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
式中,r表示线性整流单元的输入。
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计后1024点代表源信号2的估计通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次的误差的差值小于一个较小的阈值(如0.1)时,可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,是神经网络对两路源信号的估计,即output,s=[s1,s2]是两路源信号的真实值,即target。得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度和
计算梯度的更新值,
式中,和分别表示第i次迭代和第i-1次迭代时权值参数矩阵W的更新值,和分别表示第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语音信号进行分离测试。将待分离的单通道混合语音送入神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗(Hamming window);再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)的每帧混合数据的两路分离结果得到两路源信号的估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
Claims (1)
1.基于卷积神经网络的单通道混合语音时域分离方法,其特征在于包括以下步骤:
步骤1、建立用于训练的语音数据组,从TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先利用公式(1)将原始的语音数据归一化到[-1,1]的范围内,
其中,si表示第i路源信号,abs(si)表示对si中的每一个元素取绝对值,max(·)表示取最大值,yi表示归一化后的第i路源信号,然后利用公式(2)将时域语音信号进行分帧处理,帧长为N=1024,帧间的重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中,zi表示第i帧数据,y表示归一化后的数据;
步骤3、获得混合的语音数据,这里通过循环移位混合的方法扩大混合语音数据的数量,
式中,y表示输入,β表示循环移位的点数,L为y的长度;
步骤4、构造神经网络结构,构建一个适用于分离的卷积神经网络ConvolutionalNeural Network,CNN,这里所使用的卷积层Convolutional Layer是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1和2和3,最大池化层1和2和3,全连接层1和2及线性整流单元Rectified Linear Unit,ReLU层1和2和3;每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1;最大池化Max pooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性的输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标target之间的误差;
步骤5、利用整理好的数据,即单路混合语音和源信号的对应数据,对神经网络进行监督式训练,采用批量随机梯度下降法Stochastic Gradient Descent,SGD对神经网络进行优化训练,首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源信号数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层的输出利用公式(5)进行计算,
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
式中,r表示线性整流单元的输入,
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计后1024点代表源信号2的估计通过计算output和target之间的欧式距离作为神经网络本次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次的误差的差值小于阈值0.1时可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,是神经网络对两路源信号的估计,即output,s=[s1,s2]是两路源信号的真实值,即target,得到神经网络本次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度和
计算梯度的更新值,
式中,和分别表示第i次和第i-1次迭代时权值参数矩阵W的更新值,和分别代表第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi和bi-1分别代表第i次和第i-1次迭代时偏置矩阵,神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语音信号进行分离测试,将待分离的单通道混合语音输入到神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896点;然后,在每一帧上加汉明窗Hamming window;再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)得到的待分离的混合信号每一帧对应的两路源信号进行估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710084957.2A CN106847302B (zh) | 2017-02-17 | 2017-02-17 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710084957.2A CN106847302B (zh) | 2017-02-17 | 2017-02-17 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106847302A CN106847302A (zh) | 2017-06-13 |
CN106847302B true CN106847302B (zh) | 2020-04-14 |
Family
ID=59127645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710084957.2A Expired - Fee Related CN106847302B (zh) | 2017-02-17 | 2017-02-17 | 基于卷积神经网络的单通道混合语音时域分离方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106847302B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107680611B (zh) * | 2017-09-13 | 2020-06-16 | 电子科技大学 | 基于卷积神经网络的单通道声音分离方法 |
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN110070887B (zh) * | 2018-01-23 | 2021-04-09 | 中国科学院声学研究所 | 一种语音特征重建方法及装置 |
CN108520753B (zh) * | 2018-02-26 | 2020-07-24 | 南京工程学院 | 基于卷积双向长短时记忆网络的语音测谎方法 |
CN108630226A (zh) * | 2018-05-08 | 2018-10-09 | 上海极歌企业管理咨询中心(有限合伙) | 无人停车库运维安全的人工智能检测方法及装置 |
CN108647635A (zh) * | 2018-05-09 | 2018-10-12 | 黑龙江大学 | 基于均分循环补足接收模型的单通道图像盲提取方法 |
CN109036454A (zh) * | 2018-06-06 | 2018-12-18 | 安徽继远软件有限公司 | 基于dnn的说话人无关单通道录音分离的方法和*** |
CN109086686B (zh) * | 2018-07-12 | 2022-09-30 | 西安电子科技大学 | 基于自适应动量因子的时变信道下的盲源分离方法 |
CN109036459B (zh) * | 2018-08-22 | 2019-12-27 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法、装置、计算机设备、计算机存储介质 |
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及*** |
CN109841226B (zh) * | 2018-08-31 | 2020-10-16 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
CN109326299B (zh) * | 2018-11-14 | 2023-04-25 | 平安科技(深圳)有限公司 | 基于全卷积神经网络的语音增强方法、装置及存储介质 |
CN109960755B (zh) * | 2019-02-20 | 2021-03-05 | 浙江工业大学 | 一种基于动态迭代快速梯度的用户隐私保护方法 |
CN110010144A (zh) * | 2019-04-24 | 2019-07-12 | 厦门亿联网络技术股份有限公司 | 语音信号增强方法及装置 |
CN111863014A (zh) * | 2019-04-26 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种音频处理方法、装置、电子设备和可读存储介质 |
CN110598677B (zh) * | 2019-10-08 | 2021-01-26 | 电子科技大学 | 一种用于自动调制识别的时空多通道深度学习*** |
CN110763685B (zh) * | 2019-10-22 | 2020-12-08 | 陕西源杰半导体技术有限公司 | Dfb半导体激光器芯片表面缺陷的人工智能检测方法及其装置 |
CN111128230B (zh) * | 2019-12-31 | 2022-03-04 | 广州市百果园信息技术有限公司 | 语音信号重建方法、装置、设备和存储介质 |
CN111326168B (zh) * | 2020-03-25 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 语音分离方法、装置、电子设备和存储介质 |
CN111583948B (zh) * | 2020-05-09 | 2022-09-27 | 南京工程学院 | 一种改进的多通道语音增强***和方法 |
CN111899757B (zh) * | 2020-09-29 | 2021-01-12 | 南京蕴智科技有限公司 | 针对目标说话人提取的单通道语音分离方法及*** |
CN112259120B (zh) * | 2020-10-19 | 2021-06-29 | 南京硅基智能科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112509593B (zh) * | 2020-11-17 | 2024-03-08 | 北京清微智能科技有限公司 | 一种语音增强网络模型、单通道的语音增强方法及*** |
CN115188389B (zh) * | 2021-04-06 | 2024-04-05 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN113116363A (zh) * | 2021-04-15 | 2021-07-16 | 西北工业大学 | 一种基于表面肌电信号判断手部疲劳度方法 |
CN113271272B (zh) * | 2021-05-13 | 2022-09-13 | 侯小琪 | 一种基于残差神经网络的单通道时频混叠信号盲分离方法 |
CN113259283B (zh) * | 2021-05-13 | 2022-08-26 | 侯小琪 | 一种基于循环神经网络的单通道时频混叠信号盲分离方法 |
CN117649860A (zh) * | 2024-01-30 | 2024-03-05 | 中密控股股份有限公司 | 一种往复压缩机关键部位摩擦磨损状态识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
CN103456312A (zh) * | 2013-08-29 | 2013-12-18 | 太原理工大学 | 一种基于计算听觉场景分析的单通道语音盲分离方法 |
CN104464727A (zh) * | 2014-12-11 | 2015-03-25 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
CN105070301A (zh) * | 2015-07-14 | 2015-11-18 | 福州大学 | 单通道音乐人声分离中的多种特定乐器强化分离方法 |
CN105489227A (zh) * | 2014-10-06 | 2016-04-13 | 奥迪康有限公司 | 包括低延时声源分离单元的听力装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9666183B2 (en) * | 2015-03-27 | 2017-05-30 | Qualcomm Incorporated | Deep neural net based filter prediction for audio event classification and extraction |
-
2017
- 2017-02-17 CN CN201710084957.2A patent/CN106847302B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101366078A (zh) * | 2005-10-06 | 2009-02-11 | Dts公司 | 从单音音频信号分离音频信源的神经网络分类器 |
CN103456312A (zh) * | 2013-08-29 | 2013-12-18 | 太原理工大学 | 一种基于计算听觉场景分析的单通道语音盲分离方法 |
CN105489227A (zh) * | 2014-10-06 | 2016-04-13 | 奥迪康有限公司 | 包括低延时声源分离单元的听力装置 |
CN104464727A (zh) * | 2014-12-11 | 2015-03-25 | 福州大学 | 一种基于深度信念网络的单通道音乐的歌声分离方法 |
CN105070301A (zh) * | 2015-07-14 | 2015-11-18 | 福州大学 | 单通道音乐人声分离中的多种特定乐器强化分离方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106847302A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106847302B (zh) | 基于卷积神经网络的单通道混合语音时域分离方法 | |
CN107590565B (zh) | 一种构建建筑能耗预测模型的方法及装置 | |
JP6890607B2 (ja) | 自動多閾値特徴フィルタリング方法及び装置 | |
CN108566257B (zh) | 一种基于反向传播神经网络的信号恢复方法 | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN109657945B (zh) | 一种基于数据驱动的工业生产过程故障诊断方法 | |
WO2023019601A1 (zh) | 基于结构优化算法的复值神经网络的信号调制识别方法 | |
CN108875771B (zh) | 一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法 | |
CN108958217A (zh) | 一种基于深度学习的can总线报文异常检测方法 | |
CN107832787A (zh) | 基于双谱自编码特征的雷达辐射源识别方法 | |
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
CN109150775B (zh) | 自适应噪声环境动态变化的鲁棒性在线信道状态估计方法 | |
CN109902697B (zh) | 多目标检测方法、装置及移动终端 | |
CN112464713A (zh) | 一种基于深度学习的通信辐射源射频指纹识别方法 | |
CN108171119B (zh) | 基于残差网络的sar图像变化检测方法 | |
CN114998958B (zh) | 一种基于轻量化卷积神经网络的人脸识别方法 | |
CN114580498A (zh) | 一种无线通信场景下高通信效率的联邦学习方法 | |
CN114268388B (zh) | 一种在大规模mimo中基于改进gan网络的信道估计方法 | |
CN110690930B (zh) | 信源数量检测方法及装置 | |
CN112085055A (zh) | 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法 | |
CN112884059A (zh) | 一种融合先验知识的小样本雷达工作模式分类方法 | |
CN108806723A (zh) | 婴儿语音识别方法及装置 | |
CN110726898A (zh) | 一种配电网故障类型识别方法 | |
CN112305379A (zh) | 一种用于gis绝缘缺陷的模式识别方法及*** | |
CN109145738B (zh) | 基于加权非凸正则化和迭代重约束低秩表示的动态视频分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200414 Termination date: 20210217 |