CN107680611B - 基于卷积神经网络的单通道声音分离方法 - Google Patents

基于卷积神经网络的单通道声音分离方法 Download PDF

Info

Publication number
CN107680611B
CN107680611B CN201710821803.7A CN201710821803A CN107680611B CN 107680611 B CN107680611 B CN 107680611B CN 201710821803 A CN201710821803 A CN 201710821803A CN 107680611 B CN107680611 B CN 107680611B
Authority
CN
China
Prior art keywords
layer
neural network
convolutional
sound signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710821803.7A
Other languages
English (en)
Other versions
CN107680611A (zh
Inventor
段惠萍
梁瀚明
张新月
方俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710821803.7A priority Critical patent/CN107680611B/zh
Publication of CN107680611A publication Critical patent/CN107680611A/zh
Application granted granted Critical
Publication of CN107680611B publication Critical patent/CN107680611B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于卷积神经网络的单通道声音分离方法,属于声音信号处理、人工智能技术领域。本发明首先提出了基于卷积神经网络的单通道声音分离方法的处理框架,该框架由短时傅里叶变换、卷积神经网络、时频掩膜、逆短时傅里叶变换组成。其中卷积神经网络包含卷积层、池化层、融合层以及上采样层。本发明利用卷积神经网络擅长于挖掘二维数据空间特征的特性,在神经网络层数方面,增加模型的层数;在神经网络结构方面,本发明提出一个包含编码阶段和解码阶段的卷积神经网络结构。在单通道声音分离领域,本发明较之基线模型在分离指标上得到了极大提升,同时大大降低了神经网络参数的数目。

Description

基于卷积神经网络的单通道声音分离方法
技术领域
本发明属于声音信号处理、人工智能技术领域,具体涉及单通道声音分离方法。
背景技术
单通道声音分离问题是指从单通道混合声音信号中分离出混合前的原始声音信号。在卡拉OK游戏中,声音分离算法能够从音乐中分离出伴奏;在助听器中,从混合信号中分离出人声能够提高声音的可懂度;在语音识别算法中,从混合信号中分离出人声能够降低语音识别的错字率,因此单通道声音分离有极其重要的研究和实用价值。
卷积神经网络于20世纪90年代提出,直到2012年在ImageNet大规模图像识别竞赛获得成功,卷积神经网络才被广泛应用到图像、语音等各个领域。在图像数据中,局部图像往往具有很高的相关性,能够构成可鉴别的基本图案。卷积神经网络充分利用了这一特性,每一层只与前一层一小块神经元链接。局部连接大大降低了神经网络参数的数量,并具有更好的泛化性能。声音信号经过短时傅里叶变换以后得到时频图,时频图也是一种类似于图像的二维数据,因此同样可以使用卷积神经网络来实现单通道声音分离。
在单通道语音分离领域,最常用的方法是非负矩阵分解和稳健主成分分析。基于非负矩阵分解的方法会假设声音信号的时频图是低秩的;基于稳健主成分分析的方法会假设一种原始声音信号的时频图是低秩的,另一种原始声音信号的时频图是稀疏的。然而在真实的复杂环境中,这些假设并不完全准确。
发明内容
本发明的发明目的在于:针对上述存在的问题,提供一种基于卷积神经网络的声音分离方法,来提升声音分离的效果,以解决当前实际应用场景下声音分离的问题。
本发明首先提出了一个全新的基于卷积神经网络的声音分离框架,此框架能够充分利用声音信号在时频图中的重复性。
本发明提出的声音分离方法,采用上述基于卷积神经网络的框架,首先对声音信号进行预处理得到时频图,使用时频图构建训练数据,然后训练卷积神经网络模型,最后通过卷积神经网络模型预测原始声音信号的时频图,从预测的原始声音信号的时频图中恢复出原始声音信号。具体包括3个过程:构建训练数据、训练卷积神经网络、使用已训练模型进行分离。
本发明的基于卷积神经网络的声音分离方法,包括下列步骤:
步骤1、构建训练数据:
101:对每一原始声音信号进行短时傅里叶变换得到原始声音信号时频图S(t,f),其中t表示时间,f表示频率;
102:对原始声音信号进行混合得到混合声音信号,并对混合声音信号进行短时傅里叶变换得到混合声音信号时频图Y(t,f);
103:由原始声音信号时频图和混合声音信号时频图构建理想二值掩膜:
Figure BDA0001406492460000021
步骤2、训练卷积神经网络模型:
201:构建用于单声道声音分离的卷积神经网络模型,所述卷积神经网络模型从输入层INPUT开始,依次经过卷积层CONV1_1,卷积层CONV1_2,池化层POOL1,卷积层CONV2_1,卷积层CONV2_2,池化层POOL2,卷积层CONV3_1,卷积层CONV3_2,池化层POOL3,卷积层CONV4_1,卷积层CONV4_2,上采样层UP5、融合层CONCAT5、卷积层CONV5_1、卷积层CONV5_2、上采样层UP6、融合层CONCAT6、卷积层CONV6_1、卷积层CONV6_2、上采样层UP7、融合层CONCAT7、卷积层CONV7_1、卷积层CONV7_2和卷积层CONV_8,且融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加,融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加,融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加;
202:设置训练参数,其中训练参数包括模型学习优化方式、学习率及最大迭代次数;例如模型学习优化方式采用Adam优化,初始学习率设置为0.001,若交叉验证集分数在5次迭代内不下降,则学习率下降为0.1倍,最大迭代次数设置为100。
203:将混合声音信号时频图Y(t,f)幅度输入卷积神经网络模型,前向传播计算交叉墒损失;
204:将交叉墒损失反向传播更新神经元权重,其初始值为预设值;
205:重复步骤203和204,直至模型收敛,得到训练好的卷积神经网络模型,保存最后一次更新的模型参数。
模型收敛的条件为达到最大迭代次数或损失收敛,其中认定损失收敛的条件为交叉验证集分数在10个epoch内没有下降。epoch表示使用训练集中的全部训练样本训练1次。
步骤3、使用训练好的卷积神经网络模型进行声音分离处理:
301:对待分离的混合声音信号进行短时傅里叶变换得到待分离的混合声音信号时频图;
302:将待分离的混合声音信号时频图幅度输入训练好的卷积神经网络模型,输出估计时频掩膜;
303:使用估计时频掩膜和待分离的混合声音信号时频图合成估计的原始声音信号时频图;
304:对估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。
本发明无需对时频图的特征做出任何假设,只需要足够的训练数据就能够学习出合适的神经元权重。相比于普通的全连接神经网络,卷积神经网络充分利用了时频图在时间轴和频率轴上的重复性,具有参数更少、泛化性能更强的特点。
综上所述,由于采用了上述技术方案,本发明的有益效果是:模型训练数据少,仅使用105分钟的音频作为训练数据;分离速度快,例如在3.4GHz两核的CPU上,分离60秒的音频仅需20秒。
附图说明
图1一种基于卷积神经网络单声道声音分离方法的流程图;
图2本发明提出的卷积神经网络模型结构图;
图3对比不同声音分离方法的GNSDR,其中图(a)为不同声音分离方法的人声GNSDR;(b)为不同声音分离方法的伴奏GNSDR。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,将本发明用于人声与伴奏分离时,其具体处理步骤如下:
1、构建训练数据:
训练本发明提出的卷积神经网络模型所使用的数据集是iKala数据集。iKala数据集包含252段长度为30秒的中文流行歌曲片段,每一个片段包含两个声道,左声道为人声,右声道为伴奏。首先将人声信号与伴奏信号进行一比一混合得到混合声音信号。然后分别对人声信号、伴奏信号和混合声音信号进行短时傅里叶变换得到相应的时频图。最后由人声信号时频图、伴奏信号时频图和混合声音信号时频图构建理想二值掩膜。
2、搭建卷积神经网络模型:
利用深度学习框架Keras,搭建本发明提出的卷积神经网络模型,如图2所示。此模型由卷积层、池化层、融合层和上采样层组成;
其中,输入层的大小为1024×8×1;
卷积层CONV1_1~CONV7_2(即除卷积层CONV8外的所有卷积层)的卷积方式和卷积核尺寸均相同:卷积核大小为5×3,卷积核的个数为32,滑动步长为1,边缘填充为1;卷积层CONV8的卷积核大小为1×1,卷积核的个数为1,滑动步长为1,边缘填充为0;
池化层POOL1和POOL2均为:最大值池化,池化核大小为4×2,滑动步长为4×2,边缘填充为0;池化层POOL3为:最大值池化,池化核大小为2×1,滑动步长为2×1,边缘填充为0;
上采样层UP5:最近邻上采样,大小为2×1;上采样层UP6和UP7为:最近邻上采样,上采样因子为4×2;
融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加,融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加,融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加。
3、训练卷积神经网络模型:
训练数据前向传播并计算交叉熵损失,将损失反向传播并更新模型参数。重复前向传播与反向传播直至模型收敛,认定模型收敛的条件是交叉验证集分数在10个epoch内不下降。训练完成后,模型参数保存到文件中。
4、使用已训练模型进行分离:
首先搭建卷积神经网络模型并加载训练好的模型参数。然后对待分离的混合声音信号进行短时傅里叶变换得到时频图,将待分离的混合声音信号时频图幅度输入到卷积神经网络模型得到估计的二值掩膜。将估计的二值掩膜与带分离的混合声音信号时频图相乘得到估计的原始声音信号时频图。最后将估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。
5、在iKala数据集上对本发明的模型进行评估:
评估所使用的指标是BSS-EVAL所定义的三个评价指标:信号失真比(SDR)、信号干扰比(SIR)和信号伪影比(SAR),其中SIR反映模型抑制干扰的能力,SAR反映模型对引入的误差的抑制能力,SDR反映模型的整体分离性能。信号失真比、信号干扰比和信号伪影比均为越大越好。评估结果如下表1所示,可以看出本发明所提出的卷积神经网络模型性能优越。
为了衡量本发明的分离方法在整个数据集上的分离效果,对每一首歌曲的评价指标进行加权求和,权重为歌曲的长度。最终的评价指标为全局归一化SDR(GNSDR)、全局SIR(GSIR)、全局SAR(GSAR),具体如表1所示。
表1、本发明方法在iKala数据集上,人声与伴奏分离的评价指标(dB)
Figure BDA0001406492460000051
其中RP1为文献“Rafii Z,Pardo B.REpeating Pattern Extraction Technique(REPET):A Simple Method for Music/Voice Separation[J].IEEE Transactions onAudio Speech&Language Processing,2012,21(1):73-84.”中提出的分离方式;IIY4为文献“Huang P S,Chen S D,Smaragdis P,et al.Singing-voice separation frommonaural recordings using robust principal component analysis[C]//IEEEInternational Conference on Acoustics,Speech and Signal Processing.IEEE,2012:57-60.”中提出的分离方式;LCP2为文献“Luo Y,Chen Z,Hershey J R,et al.DeepClustering and Conventional Networks for Music Separation:Stronger Together[J].2016.”中提出的分离方式;MC3为文献“Chandna P,Miron M,Janer J,etal.Monoaural Audio Source Separation Using Deep Convolutional Neural Networks[J].2017:258-266”中提出的分离方式。
图3为对应表1的柱状图,其中图(a)为不同声音分离方法的人声GNSDR;(b)为不同声音分离方法的伴奏GNSDR。。
综上,本发明方法利用了卷积神经网络善于挖掘二维数据空间特征的特性,在iKala数据集上取得了很高的信号失真比。相比于传统的声音分离方法,本发明方法利用了卷积神经网络结构,充分拟合输入数据的特征,同时具有很好的泛化性能,在非训练数据上也有很好的效果。与基于全连接神经网络的方法相比,基于卷积神经网络的方法具有更少的参数,在训练的过程中不容易出现过拟合。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (3)

1.基于卷积神经网络的单通道声音分离方法,其特征在于,包括下列步骤:
步骤1、构建训练数据:
101:对每一原始声音信号进行短时傅里叶变换得到原始声音信号时频图S(t,f);
102:对原始声音信号进行混合得到混合声音信号,并对混合声音信号进行短时傅里叶变换得到混合声音信号时频图Y(t,f);
103:由原始声音信号时频图和混合声音信号时频图构建理想二值掩膜:
Figure FDA0002403757510000011
步骤2、训练卷积神经网络模型:
201:构建用于单声道声音分离的卷积神经网络模型,所述卷积神经网络模型从输入层INPUT开始,依次经过卷积层CONV1_1,卷积层CONV1_2,池化层POOL1,卷积层CONV2_1,卷积层CONV2_2,池化层POOL2,卷积层CONV3_1,卷积层CONV3_2,池化层POOL3,卷积层CONV4_1,卷积层CONV4_2,上采样层UP5、融合层CONCAT5、卷积层CONV5_1、卷积层CONV5_2、上采样层UP6、融合层CONCAT6、卷积层CONV6_1、卷积层CONV6_2、上采样层UP7、融合层CONCAT7、卷积层CONV7_1、卷积层CONV7_2和卷积层CONV_8,且融合层CONCAT5将上采样层UP5的输出与卷积层CONV3_2的输出进行特征图叠加,融合层CONCAT6将上采样层UP6的输出与卷积层CONV2_2的输出进行特征图叠加,融合层CONCAT7将上采样层UP7的输出与卷积层CONV1_2的输出进行特征图叠加;
其中,输入层的大小为1024×8×1;
除卷积层CONV_8外,所有卷积层的卷积核尺寸和卷积方式相同:卷积核大小为5×3,卷积核的个数为32,滑动步长为1,边缘填充为1;卷积层CONV_8的卷积核大小为1×1,卷积核的个数为1,滑动步长为1,边缘填充为0;
池化层POOL1和POOL2的池化方式和池化核尺寸相同:池化核大小为4×2,最大值池化,滑动步长为4×2,边缘填充为0;池化层POOL3为:最大值池化,池化核大小为2×1,滑动步长为2×1,边缘填充为0;
上采样层UP5~UP7的采样方式均为最近邻上采样,其中上采样层UP6和UP7的上采样因子均为4×2,上采样层UP5的上采样因子为2×1;
202:设置训练参数;所述训练参数包括模型学习优化方式、学习率及最大迭代次数;
203:将混合声音信号时频图Y(t,f)幅度输入卷积神经网络模型,前向传播计算交叉墒损失;
204:将交叉墒损失反向传播更新神经元权重,其中神经元权重的初始值为预设值;
205:重复步骤203和204,直至模型收敛,得到训练好的卷积神经网络模型;
步骤3、使用训练好的卷积神经网络模型进行声音分离处理:
301:对待分离的混合声音信号进行短时傅里叶变换得到待分离的混合声音信号时频图;
302:将待分离的混合声音信号时频图幅度输入训练好的卷积神经网络模型,输出估计时频掩膜;
303:使用估计时频掩膜和待分离的混合声音信号时频图合成估计的原始声音信号时频图;
304:对估计的原始声音信号时频图进行逆短时傅里叶变换得到估计的原始声音信号。
2.如权利要求1所述的方法,其特征在于,模型学习优化方式采用Adam优化,初始学习率设置为0.001,若交叉验证集分数在5次迭代内不下降,则学习率下降为0.1倍,最大迭代次数设置为100。
3.如权利要求1所述的方法,其特征在于,模型收敛的条件为达到最大迭代次数或损失收敛,其中,认定损失收敛的条件为交叉验证集分数在10个epoch内没有下降,epoch表示使用训练集中的全部训练样本训练1次。
CN201710821803.7A 2017-09-13 2017-09-13 基于卷积神经网络的单通道声音分离方法 Active CN107680611B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710821803.7A CN107680611B (zh) 2017-09-13 2017-09-13 基于卷积神经网络的单通道声音分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710821803.7A CN107680611B (zh) 2017-09-13 2017-09-13 基于卷积神经网络的单通道声音分离方法

Publications (2)

Publication Number Publication Date
CN107680611A CN107680611A (zh) 2018-02-09
CN107680611B true CN107680611B (zh) 2020-06-16

Family

ID=61135588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710821803.7A Active CN107680611B (zh) 2017-09-13 2017-09-13 基于卷积神经网络的单通道声音分离方法

Country Status (1)

Country Link
CN (1) CN107680611B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830854A (zh) * 2018-03-22 2018-11-16 广州多维魔镜高新科技有限公司 一种图像分割方法及存储介质
CN108766440B (zh) 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
JP7243052B2 (ja) * 2018-06-25 2023-03-22 カシオ計算機株式会社 オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム
CN109036460B (zh) * 2018-08-28 2020-01-07 百度在线网络技术(北京)有限公司 基于多模型神经网络的语音处理方法和装置
CN109461447B (zh) * 2018-09-30 2023-08-18 厦门快商通信息技术有限公司 一种基于深度学习的端到端说话人分割方法及***
CN109410968B (zh) * 2018-11-15 2022-12-09 电子科技大学 一种高效的歌曲中人声起始位置检测方法
CN109614943A (zh) * 2018-12-17 2019-04-12 电子科技大学 一种用于盲源分离的特征提取方法
CN109801644B (zh) 2018-12-20 2021-03-09 北京达佳互联信息技术有限公司 混合声音信号的分离方法、装置、电子设备和可读介质
CN109671446B (zh) * 2019-02-20 2020-07-14 西华大学 一种基于绝对听觉阈值的深度学习语音增强方法
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110120227B (zh) * 2019-04-26 2021-03-19 天津大学 一种深度堆叠残差网络的语音分离方法
CN110503940B (zh) * 2019-07-12 2021-08-31 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
CN112309428B (zh) * 2019-07-30 2024-03-19 微软技术许可有限责任公司 获得歌声检测模型
CN110619887B (zh) * 2019-09-25 2020-07-10 电子科技大学 一种基于卷积神经网络的多说话人语音分离方法
CN111128211B (zh) * 2019-12-02 2022-04-12 云知声智能科技股份有限公司 一种语音分离方法及装置
CN111341341B (zh) * 2020-02-11 2021-08-17 腾讯科技(深圳)有限公司 音频分离网络的训练方法、音频分离方法、装置及介质
CN111370032B (zh) * 2020-02-20 2023-02-14 厦门快商通科技股份有限公司 语音分离方法、***、移动终端及存储介质
CN111312224B (zh) * 2020-02-20 2023-04-21 北京声智科技有限公司 语音分割模型的训练方法、装置和电子设备
CN112259118A (zh) * 2020-10-19 2021-01-22 成都明杰科技有限公司 单声道人声与背景音乐分离方法
CN112233675B (zh) * 2020-10-22 2023-10-27 中科南京智能技术研究院 一种基于分离卷积神经网络的语音唤醒方法及***
TWI768676B (zh) * 2021-01-25 2022-06-21 瑞昱半導體股份有限公司 音頻處理方法及音頻處理裝置以及非暫態計算機可讀取媒體
CN113447570A (zh) * 2021-06-29 2021-09-28 同济大学 一种基于车载声学传感的无砟轨道病害检测方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1941494A2 (en) * 2005-10-06 2008-07-09 DTS Licensing Limited Neural network classifier for seperating audio sources from a monophonic audio signal
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置
CN106024005A (zh) * 2016-07-01 2016-10-12 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN106653048A (zh) * 2016-12-28 2017-05-10 上海语知义信息技术有限公司 基于人声模型的单通道声音分离方法
CN106782504A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1941494A2 (en) * 2005-10-06 2008-07-09 DTS Licensing Limited Neural network classifier for seperating audio sources from a monophonic audio signal
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置
CN104464727A (zh) * 2014-12-11 2015-03-25 福州大学 一种基于深度信念网络的单通道音乐的歌声分离方法
CN106024005A (zh) * 2016-07-01 2016-10-12 腾讯科技(深圳)有限公司 一种音频数据的处理方法及装置
CN106653048A (zh) * 2016-12-28 2017-05-10 上海语知义信息技术有限公司 基于人声模型的单通道声音分离方法
CN106782504A (zh) * 2016-12-29 2017-05-31 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106847302A (zh) * 2017-02-17 2017-06-13 大连理工大学 基于卷积神经网络的单通道混合语音时域分离方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Deep learning for monaural speech separation";Po-Sen Huang;《IEEE International Conference on Acoustics, Speech and Signal Processing》;20141231;全文 *
"On the improvement of singing voice separation for monaural recordings using the MIR-1K dataset";Chao Ling Hsu;《IEEE Transactions on Audio Speech& Language Processing》;20091231;全文 *
"REpeating Pattern Extraction Technique(REPET): A Simple Method for Music/Voice Separation";Rafii Z;《IEEE Transactions on Audio Speech& Language Processing》;20121231;第21卷(第1期);全文 *
"Singing-voice separation from monaural recordings using robust principal component analysis";Huang P S;《IEEE International Conference on Acoustics, Speech and Signal Processing》;20121231;全文 *

Also Published As

Publication number Publication date
CN107680611A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107680611B (zh) 基于卷积神经网络的单通道声音分离方法
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN109841226B (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN109859767B (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、***及存储介质
CN111816156B (zh) 基于说话人风格特征建模的多对多语音转换方法及***
US20160189730A1 (en) Speech separation method and system
CN110136731A (zh) 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
CN112989107B (zh) 音频分类和分离方法、装置、电子设备以及存储介质
CN109410917A (zh) 基于改进型胶囊网络的语音数据分类方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及***
Venkataramani et al. Adaptive front-ends for end-to-end source separation
CN112309411B (zh) 相位敏感的门控多尺度空洞卷积网络语音增强方法与***
CN112259119B (zh) 基于堆叠沙漏网络的音乐源分离方法
Hasannezhad et al. PACDNN: A phase-aware composite deep neural network for speech enhancement
CN113850246A (zh) 基于对偶一致网络的声源定位与声源分离的方法和***
CN114267372A (zh) 语音降噪方法、***、电子设备和存储介质
Rybicka et al. Spine2Net: SpineNet with Res2Net and Time-Squeeze-and-Excitation Blocks for Speaker Recognition.
CN114613387A (zh) 语音分离方法、装置、电子设备与存储介质
CN113241092A (zh) 基于双注意力机制和多阶段混合卷积网络声源分离方法
Raj et al. Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients
CN116013339A (zh) 一种基于改进crn的单通道语音增强方法
CN113707172B (zh) 稀疏正交网络的单通道语音分离方法、***、计算机设备
CN112562702B (zh) 基于循环帧序列门控循环单元网络的语音超分辨率方法
CN113724727A (zh) 基于波束形成的长短时记忆网络语音分离算法
CN115881157A (zh) 音频信号的处理方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant