CN106847302B - 基于卷积神经网络的单通道混合语音时域分离方法 - Google Patents

基于卷积神经网络的单通道混合语音时域分离方法 Download PDF

Info

Publication number
CN106847302B
CN106847302B CN201710084957.2A CN201710084957A CN106847302B CN 106847302 B CN106847302 B CN 106847302B CN 201710084957 A CN201710084957 A CN 201710084957A CN 106847302 B CN106847302 B CN 106847302B
Authority
CN
China
Prior art keywords
neural network
layer
data
output
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710084957.2A
Other languages
English (en)
Other versions
CN106847302A (zh
Inventor
张鹏
马晓红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201710084957.2A priority Critical patent/CN106847302B/zh
Publication of CN106847302A publication Critical patent/CN106847302A/zh
Application granted granted Critical
Publication of CN106847302B publication Critical patent/CN106847302B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明涉及一种单通道混合语音的时域分离方法,一种基于卷积神经网络的单通道混合语音的时域分离方法,包括以下步骤:(1)建立用于训练的语音数据组,(2)对语音数据进行预处理,(3)获得混合的语音数据,(4)构造神经网络结构,(5)利用整理好的数据,对神经网络进行监督式训练,(6)利用训练好的神经网络进行分离测试。本发明是以时域语音信号作为卷积神经网络的输入和输出,将单通道的混合语音分离开来,从而得到两路源信号的估计。该方法不需要处理相位恢复的问题,提高了单通道语音的分离质量。

Description

基于卷积神经网络的单通道混合语音时域分离方法
技术领域
本发明涉及一种单通道混合语音的时域分离方法,更具体地说,涉及一种基于卷积神经网络的单通道混合语音时域分离方法。
背景技术
单通道盲源分离(Monaural Blind Source Separation,MBSS)是语音处理领域中一项重要技术,它能在只获得单通道混合语音信号的情况下得到两路源信号的估计。单通道语音分离技术在在语音识别、语音增强、语音鉴定等领域具有重要的应用价值。
典型的单通道语音分离包括基于非负矩阵分解(Non-negative MatrixFactorization,NMF)和基于神经网络(Neural Network)的方法。由于单通道混合语音中所包含的信息较少,因此基于非负矩阵分解的方法很难取得令人满意的分离效果。而神经网络具有较强的特征表达能力,因此基于神经网络的方法可以取得比NMF方法更好的分离效果。但是,目前基于神经网络的方法一般采用全连接网络(Full Connected NeuralNetwork,FCNN)或循环神经网络(Recurrent Neural Network,RNN),并且通常需要提取语音信号的幅度谱特征,这样并没有很好地利用到卷积神经网络本身强大的特征表达能力;同时由于使用了幅度谱特征,使得在恢复源信号的时候面临着很难处理的相位恢复问题。因此,传统的基于神经网络的分离方法在分离出的两路源信号估计之间存在互扰,分离质量有待提高。
发明内容
为了克服现有技术中存在的不足,本发明的目的是提供一种基于卷积神经网络的单通道混合语音时域分离方法。该方法是以时域语音信号作为卷积神经网络的输入和输出,其作用是将单通道的混合语音分离开来,从而得到两路源信号的估计。该方法不需要处理相位恢复的问题,提高了单通道语音分离的质量。
为了实现上述发明目的,解决已有技术中存在的问题,本发明采用的技术方案是:基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:
步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先利用公式(1)将原始的语音数据归一化到[-1,1]的范围内,
Figure BDA0001227083510000021
其中,si表示第i路源信号,max(·)表示取最大值,abs(si)表示对si中的每一个元素取绝对值,yi表示归一化后的第i路源信号。然后将时域语音信号利用公式(2)进行分帧处理,帧长为N=1024,帧间重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中zi表示第i帧数据,y表示归一化后的数据;
步骤3,获得混合的语音数据,这里利用公式(3)所描述的循环移位混合的方法来扩大混合语音数据的数量,
Figure BDA0001227083510000022
其中,x表示循环移位后的输出,
Figure BDA0001227083510000023
表示将W个向量串连起来,W等于L/τ,L表示原始语音信号s的长度,τ表示循环移位的点数长度,Ψ表示循环移位算子,利用公式(4)进行描述,
Figure BDA0001227083510000024
式中,y表示输入,β表示循环移位的点数,L为y的长度;
步骤4、构造神经网络结构,构建一个适于分离的卷积神经网络(ConvolutionalNeural Network,CNN),这里所使用的卷积层(Convolutional Layer)是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元(Rectified Linear Unit),ReLU层1、2、3,每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1;最大池化Max pooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标信号target之间的误差;
步骤5、利用训练整理好的数据,即单路混合语音和源语音的对应数据对,对神经网络进行监督式训练,采用批量随机梯度下降法(Stochastic Gradient Descent,SGD)对神经网络进行优化训练。首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层神经元的输出利用公式(5)进行计算,
Figure BDA0001227083510000031
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
Figure BDA0001227083510000041
式中,r表示线性整流单元的输入,
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计
Figure BDA00012270835100000412
后1024点代表源信号2的估计
Figure BDA00012270835100000413
通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次误差的差值小于一个较小的阈值(如0.1)时,可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
Figure BDA0001227083510000042
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,
Figure BDA0001227083510000043
是神经网络对两路源信号的估计,s=[s1,s2]是两路源信号的真实值,得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度
Figure BDA00012270835100000410
Figure BDA00012270835100000411
Figure BDA0001227083510000044
Figure BDA0001227083510000045
计算梯度的更新值,
Figure BDA0001227083510000046
Figure BDA0001227083510000047
式中,
Figure BDA0001227083510000048
Figure BDA0001227083510000049
分别表示第i次和第i-1次迭代时权值参数矩阵W的更新值,
Figure BDA0001227083510000051
Figure BDA0001227083510000052
分别代表第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
Figure BDA0001227083510000053
Figure BDA0001227083510000054
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi和bi-1分别代表第i次和第i-1次迭代时偏置矩阵。神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语言信号进行分离测试。将待分离的单通道混合语音输入到神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗(Hamming window);再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)的每帧混合数据的两路分离结果得到两路源信号的估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
Figure BDA0001227083510000055
式中,
Figure BDA0001227083510000056
代表输出中第j帧包含t点的帧,T代表包含时域点t的帧的个数,
Figure BDA0001227083510000057
代表最终得到的估计值,当每个点的重叠都处理完后,将相邻帧依次首尾相接,从而获得了源信号的估计
Figure BDA0001227083510000058
至此,分离完成。
本发明有益效果是:一种基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:(1)建立用于训练的语音数据组,(2)对语音数据进行预处理,(3)获得混合的语音数据,(4)构造神经网络结构,(5)利用整理好的数据,对神经网络进行监督式训练,(6)利用训练好的神经网络进行分离测试。与已有技术相比,本发明是以时域语音信号作为卷积神经网络的输入和输出,将单通道的混合语音分离开来,从而得到两路源信号估计。该方法不需要处理相位恢复的问题,提高了单通道语音的分离质量。
附图说明
图1是本发明方法步骤流程图。
图2是本发明中的卷积神经网络结构示意图。
图3是本发明基于卷积神经网络的单通道混合语音时域分离***框图。
图4是本发明对单通道混合语音分离结果指标示意图(FA vs MC,FA vs FB,MC vsMD分别表示男女声,女女声,男男声混合的情况)。
图5是本发明对单通道混合语音分离结果的时域波形示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1所示,基于卷积神经网络的单通道混合语音时域分离方法,包括以下步骤:
步骤1、建立用于训练的语音数据组,从一个标准数据库,例如,TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先将原始的语音数据利用公式(1)归一化到[-1,1]的范围内,
Figure BDA0001227083510000061
其中,si表示第i路源信号,max(·)表示取最大值,abs(si)表示对si中的每一个元素取绝对值,yi表示归一化后的第i路源信号,然后利用公式(2)将时域语音信号进行分帧处理,帧长为N=1024,帧间的重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中,zi表示第i帧数据,y表示归一化后的数据;
步骤3,获得混合的语音数据,这里利用公式(3)所描述的循环移位混合的方法来扩大混合语音数据的数量,
Figure BDA0001227083510000071
其中,x表示循环移位后的输出,
Figure BDA0001227083510000072
表示将W个向量串连起来,W等于L/τ,L表示原始语音信号s的长度,τ表示循环移位的点数长度,Ψ表示循环移位算子,利用公式(4)进行描述,
Figure BDA0001227083510000073
式中,y表示输入,β表示循环移位的点数,L为y的长度。
步骤4、构造神经网络结构,构建一个适用于分离的卷积神经网络ConvolutionalNeural Network,CNN,这里所使用的卷积层Convolutional Layer是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1、2、3,最大池化层1、2、3,全连接层1、2及线性整流单元Rectified Linear Unit,ReLU层1、2、3。每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1,最大池化Maxpooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标target之间的误差;卷积神经网络结构示意图,如图2所示。
步骤5、利用整理好的数据,即单路混合语音和源语音的对应数据对,对神经网络进行监督式训练,采用批量随机梯度下降法Stochastic Gradient Descent,SGD对神经网络进行优化训练。首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源语音数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层的输出利用公式(5)进行计算,
Figure BDA0001227083510000081
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
Figure BDA0001227083510000082
式中,r表示线性整流单元的输入。
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计
Figure BDA0001227083510000083
后1024点代表源信号2的估计
Figure BDA0001227083510000084
通过计算output和target之间的欧式距离作为神经网络该次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次的误差的差值小于一个较小的阈值(如0.1)时,可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
Figure BDA0001227083510000091
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,
Figure BDA0001227083510000092
是神经网络对两路源信号的估计,即output,s=[s1,s2]是两路源信号的真实值,即target。得到神经网络该次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度
Figure BDA00012270835100000914
Figure BDA00012270835100000915
Figure BDA0001227083510000093
Figure BDA0001227083510000094
计算梯度的更新值,
Figure BDA0001227083510000095
Figure BDA0001227083510000096
式中,
Figure BDA0001227083510000097
Figure BDA0001227083510000098
分别表示第i次迭代和第i-1次迭代时权值参数矩阵W的更新值,
Figure BDA0001227083510000099
Figure BDA00012270835100000910
分别表示第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
Figure BDA00012270835100000911
Figure BDA00012270835100000912
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi
Figure BDA00012270835100000913
分别代表第i次和第i-1次迭代时偏置矩阵。神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语音信号进行分离测试。将待分离的单通道混合语音送入神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896(7/8);然后,在每一帧上加汉明窗(Hamming window);再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)的每帧混合数据的两路分离结果得到两路源信号的估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
Figure BDA0001227083510000101
式中,
Figure BDA0001227083510000102
代表输出中第j帧包含t点的帧,T代表包含时域点t的帧的个数,
Figure BDA0001227083510000103
代表最终得到的估计值,当每个点的重叠都处理完后,将相邻帧依次首尾相接,从而获得了源信号的估计
Figure BDA0001227083510000104
至此,分离完成。

Claims (1)

1.基于卷积神经网络的单通道混合语音时域分离方法,其特征在于包括以下步骤:
步骤1、建立用于训练的语音数据组,从TSP语音数据库中随机选取大量语音数据,并分为两组,其中80%语音数据作为训练数据,余下20%作为测试数据;
步骤2、对语音数据进行预处理,首先利用公式(1)将原始的语音数据归一化到[-1,1]的范围内,
Figure FDA0002265254350000011
其中,si表示第i路源信号,abs(si)表示对si中的每一个元素取绝对值,max(·)表示取最大值,yi表示归一化后的第i路源信号,然后利用公式(2)将时域语音信号进行分帧处理,帧长为N=1024,帧间的重叠为H,这里H=N/2,
zi={y(1+(N-H)*(i-1)),...,y((N-H)*(i-1)+N)} (2)
其中,zi表示第i帧数据,y表示归一化后的数据;
步骤3、获得混合的语音数据,这里通过循环移位混合的方法扩大混合语音数据的数量,
Figure FDA0002265254350000012
其中,x表示循环移位后的输出,
Figure FDA0002265254350000013
表示将W个向量串连起来,W等于L/τ,L表示原始语音信号s的长度,τ表示循环移位的点数,Ψ表示循环移位算子,通过公式(4)进行描述,
Figure FDA0002265254350000014
式中,y表示输入,β表示循环移位的点数,L为y的长度;
步骤4、构造神经网络结构,构建一个适用于分离的卷积神经网络ConvolutionalNeural Network,CNN,这里所使用的卷积层Convolutional Layer是一维卷积层,其卷积核是一维的,该卷积神经网络包括数据载入层、卷积层1和2和3,最大池化层1和2和3,全连接层1和2及线性整流单元Rectified Linear Unit,ReLU层1和2和3;每一层的具体参数以及连接顺序依次为:数据载入层用于读取批量帧语音混合数据和对应的源数据,并提供给后面的层输入;卷积层1,卷积核的长度为75,卷积核的个数为96个;线性整流单元层1;最大池化Max pooling层1,池化的核长度为2,池化步长为2;卷积层2,卷积核的长度为55,卷积核的个数为128个;线性整流单元层2;最大池化层2,池化的核长度为2,池化步长为2;卷积层3,卷积核的长度为27,卷积核的个数为128个;线性整流单元层3;最大池化层3,池化的核长度为2,池化步长为2;全连接层1,节点数为2048,激活函数为反正切函数tanh;全连接层2,节点数为2048,没有激活函数即为线性的输出,该层为输出层;误差层,利用欧式距离计算网络输出信号output与目标target之间的误差;
步骤5、利用整理好的数据,即单路混合语音和源信号的对应数据,对神经网络进行监督式训练,采用批量随机梯度下降法Stochastic Gradient Descent,SGD对神经网络进行优化训练,首先对卷积层的神经网络参数采用均值为0,方差为0.1的高斯分布进行随机初始化,设置迭代的最大次数为MaxIter=40000、优化的学习率为α=0.01、学习动量为μ=0.95,然后依次迭代执行前向传播子步骤(a)和后向传播子步骤(b);
(a)、数据载入层读取批量数据,这里每一批为256帧的混合语音数据和对应的源信号数据对,分别记为mix和target,其中mix通过整个神经网络后得到输出记为output,神经网络中的卷积层的输出利用公式(5)进行计算,
Figure FDA0002265254350000021
式中,x表示神经元的输出,m表示滤波器核,z表示卷积层的输入,b表示神经元偏置,M表示滤波器核的长度,a(·)表示激活函数,即线性整流单元,其计算通过公式(6)进行描述,
Figure FDA0002265254350000031
式中,r表示线性整流单元的输入,
最后经过全连接层之后得到神经网络的输出output,是一个长度为2048的向量,其中前1024点代表源信号1的估计
Figure FDA0002265254350000032
后1024点代表源信号2的估计
Figure FDA0002265254350000033
通过计算output和target之间的欧式距离作为神经网络本次计算的误差,与前一次迭代计算的误差进行比较,当相邻两次的误差的差值小于阈值0.1时可判断为收敛,若收敛或者已达到预先设置的最大迭代次数,则停止迭代,网络已经训练好,可用于测试,若未收敛,则执行后向传播子步骤(b);
(b)、经过子步骤(a)的前向传播后,得到了神经网络的输出output,可以计算output与target之间的误差,并通过公式(7)进行描述,
Figure FDA0002265254350000034
式中,W代表神经网络的权值参数矩阵,b代表神经网络的偏置参数矩阵,J(W,b)表示网络输出output与target之间的误差,
Figure FDA0002265254350000035
是神经网络对两路源信号的估计,即output,s=[s1,s2]是两路源信号的真实值,即target,得到神经网络本次迭代的误差后,利用链式法则逐层计算误差相对于神经网络参数W,b的梯度
Figure FDA0002265254350000036
Figure FDA0002265254350000037
Figure FDA0002265254350000038
Figure FDA0002265254350000039
计算梯度的更新值,
Figure FDA00022652543500000310
Figure FDA00022652543500000311
式中,
Figure FDA00022652543500000312
Figure FDA00022652543500000313
分别表示第i次和第i-1次迭代时权值参数矩阵W的更新值,
Figure FDA0002265254350000041
Figure FDA0002265254350000042
分别代表第i次和第i-1次迭代时偏置矩阵b的更新值,μ代表优化的学习动量,α代表优化的学习率,然后对神经网络的参数W和b利用公式(12)和(13)进行更新,
Figure FDA0002265254350000043
Figure FDA0002265254350000044
其中Wi和Wi-1分别表示第i次和第i-1次迭代时权值参数矩阵,bi和bi-1分别代表第i次和第i-1次迭代时偏置矩阵,神经网络参数更新后,在新的参数下执行前向传播子步骤(a);
步骤6、在经过步骤5对神经网络训练完成后,将神经网络的参数保存起来,即可利用训练好的神经网络对单通道混合语音信号进行分离测试,将待分离的单通道混合语音输入到神经网络中,在神经网络的输出端即可得到对源信号的估计,具体包括以下子步骤:
(a)、将待分离的单通道混合信号分帧,帧长与训练时的帧长相同,即为1024点,同时每一帧的帧移为128点,即相邻两帧之间的帧间重叠为896点;然后,在每一帧上加汉明窗Hamming window;再将预处理后的待分离混合信号的一帧送到神经网络的输入端,神经网络的输出端得到该帧单路混合数据的分离结果,重复本步骤,直至所有帧的混合信号都分离完毕,然后进行子步骤(b);
(b)、由子步骤(a)得到的待分离的混合信号每一帧对应的两路源信号进行估计,因为相邻两帧之间包含一定的重叠,所以要对重叠的部分按公式(14)进行取均值处理,
Figure FDA0002265254350000045
式中,
Figure FDA0002265254350000046
代表输出中第j帧包含t点的帧,T代表包含时域点t的帧的个数,
Figure FDA0002265254350000047
代表最终得到的估计值,当每个点的重叠都处理完后,将相邻帧依次首尾相接,从而获得了源信号的估计
Figure FDA0002265254350000048
至此,分离完成。
CN201710084957.2A 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法 Expired - Fee Related CN106847302B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710084957.2A CN106847302B (zh) 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710084957.2A CN106847302B (zh) 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法

Publications (2)

Publication Number Publication Date
CN106847302A CN106847302A (zh) 2017-06-13
CN106847302B true CN106847302B (zh) 2020-04-14

Family

ID=59127645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710084957.2A Expired - Fee Related CN106847302B (zh) 2017-02-17 2017-02-17 基于卷积神经网络的单通道混合语音时域分离方法

Country Status (1)

Country Link
CN (1) CN106847302B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107680611B (zh) * 2017-09-13 2020-06-16 电子科技大学 基于卷积神经网络的单通道声音分离方法
CN107993071A (zh) * 2017-11-21 2018-05-04 平安科技(深圳)有限公司 电子装置、基于声纹的身份验证方法及存储介质
CN110070887B (zh) * 2018-01-23 2021-04-09 中国科学院声学研究所 一种语音特征重建方法及装置
CN108520753B (zh) * 2018-02-26 2020-07-24 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN108630226A (zh) * 2018-05-08 2018-10-09 上海极歌企业管理咨询中心(有限合伙) 无人停车库运维安全的人工智能检测方法及装置
CN108647635A (zh) * 2018-05-09 2018-10-12 黑龙江大学 基于均分循环补足接收模型的单通道图像盲提取方法
CN109036454A (zh) * 2018-06-06 2018-12-18 安徽继远软件有限公司 基于dnn的说话人无关单通道录音分离的方法和***
CN109086686B (zh) * 2018-07-12 2022-09-30 西安电子科技大学 基于自适应动量因子的时变信道下的盲源分离方法
CN109036459B (zh) * 2018-08-22 2019-12-27 百度在线网络技术(北京)有限公司 语音端点检测方法、装置、计算机设备、计算机存储介质
CN108847244A (zh) * 2018-08-22 2018-11-20 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 基于mfcc和改进bp神经网络的声纹识别方法及***
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
CN109326299B (zh) * 2018-11-14 2023-04-25 平安科技(深圳)有限公司 基于全卷积神经网络的语音增强方法、装置及存储介质
CN109960755B (zh) * 2019-02-20 2021-03-05 浙江工业大学 一种基于动态迭代快速梯度的用户隐私保护方法
CN110010144A (zh) * 2019-04-24 2019-07-12 厦门亿联网络技术股份有限公司 语音信号增强方法及装置
CN111863014A (zh) * 2019-04-26 2020-10-30 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN110598677B (zh) * 2019-10-08 2021-01-26 电子科技大学 一种用于自动调制识别的时空多通道深度学习***
CN110763685B (zh) * 2019-10-22 2020-12-08 陕西源杰半导体技术有限公司 Dfb半导体激光器芯片表面缺陷的人工智能检测方法及其装置
CN111128230B (zh) * 2019-12-31 2022-03-04 广州市百果园信息技术有限公司 语音信号重建方法、装置、设备和存储介质
CN111326168B (zh) * 2020-03-25 2023-08-22 合肥讯飞数码科技有限公司 语音分离方法、装置、电子设备和存储介质
CN111583948B (zh) * 2020-05-09 2022-09-27 南京工程学院 一种改进的多通道语音增强***和方法
CN111899757B (zh) * 2020-09-29 2021-01-12 南京蕴智科技有限公司 针对目标说话人提取的单通道语音分离方法及***
CN112259120B (zh) * 2020-10-19 2021-06-29 南京硅基智能科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN112509593B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 一种语音增强网络模型、单通道的语音增强方法及***
CN115188389B (zh) * 2021-04-06 2024-04-05 京东科技控股股份有限公司 基于神经网络的端到端语音增强方法、装置
CN113116363A (zh) * 2021-04-15 2021-07-16 西北工业大学 一种基于表面肌电信号判断手部疲劳度方法
CN113271272B (zh) * 2021-05-13 2022-09-13 侯小琪 一种基于残差神经网络的单通道时频混叠信号盲分离方法
CN113259283B (zh) * 2021-05-13 2022-08-26 侯小琪 一种基于循环神经网络的单通道时频混叠信号盲分离方法
CN117649860A (zh) * 2024-01-30 2024-03-05 中密控股股份有限公司 一种往复压缩机关键部位摩擦磨损状态识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366078A (zh) * 2005-10-06 2009-02-11 Dts公司 从单音音频信号分离音频信源的神经网络分类器
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN105070301A (zh) * 2015-07-14 2015-11-18 福州大学 单通道音乐人声分离中的多种特定乐器强化分离方法
CN105489227A (zh) * 2014-10-06 2016-04-13 奥迪康有限公司 包括低延时声源分离单元的听力装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9666183B2 (en) * 2015-03-27 2017-05-30 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101366078A (zh) * 2005-10-06 2009-02-11 Dts公司 从单音音频信号分离音频信源的神经网络分类器
CN103456312A (zh) * 2013-08-29 2013-12-18 太原理工大学 一种基于计算听觉场景分析的单通道语音盲分离方法
CN105489227A (zh) * 2014-10-06 2016-04-13 奥迪康有限公司 包括低延时声源分离单元的听力装置
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN105070301A (zh) * 2015-07-14 2015-11-18 福州大学 单通道音乐人声分离中的多种特定乐器强化分离方法

Also Published As

Publication number Publication date
CN106847302A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106847302B (zh) 基于卷积神经网络的单通道混合语音时域分离方法
CN107590565B (zh) 一种构建建筑能耗预测模型的方法及装置
JP6890607B2 (ja) 自動多閾値特徴フィルタリング方法及び装置
CN108566257B (zh) 一种基于反向传播神经网络的信号恢复方法
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN109657945B (zh) 一种基于数据驱动的工业生产过程故障诊断方法
WO2023019601A1 (zh) 基于结构优化算法的复值神经网络的信号调制识别方法
CN108875771B (zh) 一种基于稀疏高斯伯努利受限玻尔兹曼机和循环神经网络的故障分类模型及方法
CN108958217A (zh) 一种基于深度学习的can总线报文异常检测方法
CN107832787A (zh) 基于双谱自编码特征的雷达辐射源识别方法
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN109150775B (zh) 自适应噪声环境动态变化的鲁棒性在线信道状态估计方法
CN109902697B (zh) 多目标检测方法、装置及移动终端
CN112464713A (zh) 一种基于深度学习的通信辐射源射频指纹识别方法
CN108171119B (zh) 基于残差网络的sar图像变化检测方法
CN114998958B (zh) 一种基于轻量化卷积神经网络的人脸识别方法
CN114580498A (zh) 一种无线通信场景下高通信效率的联邦学习方法
CN114268388B (zh) 一种在大规模mimo中基于改进gan网络的信道估计方法
CN110690930B (zh) 信源数量检测方法及装置
CN112085055A (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
CN112884059A (zh) 一种融合先验知识的小样本雷达工作模式分类方法
CN108806723A (zh) 婴儿语音识别方法及装置
CN110726898A (zh) 一种配电网故障类型识别方法
CN112305379A (zh) 一种用于gis绝缘缺陷的模式识别方法及***
CN109145738B (zh) 基于加权非凸正则化和迭代重约束低秩表示的动态视频分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200414

Termination date: 20210217