CN110321810A - 单通道信号双路分离方法、装置、存储介质及处理器 - Google Patents
单通道信号双路分离方法、装置、存储介质及处理器 Download PDFInfo
- Publication number
- CN110321810A CN110321810A CN201910515889.XA CN201910515889A CN110321810A CN 110321810 A CN110321810 A CN 110321810A CN 201910515889 A CN201910515889 A CN 201910515889A CN 110321810 A CN110321810 A CN 110321810A
- Authority
- CN
- China
- Prior art keywords
- time
- road
- single channel
- target
- signal data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 44
- 230000000873 masking effect Effects 0.000 claims abstract description 133
- 238000000034 method Methods 0.000 claims abstract description 119
- 238000013507 mapping Methods 0.000 claims abstract description 104
- 238000013528 artificial neural network Methods 0.000 claims abstract description 26
- 238000013136 deep learning model Methods 0.000 claims description 51
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000013135 deep learning Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000004088 simulation Methods 0.000 claims description 9
- 230000006403 short-term memory Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 9
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 37
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000002156 mixing Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明公开了一种单通道信号双路分离方法、装置、存储介质及处理器。其中,方法包括步骤:建立一多路神经网络学习模型,该模型包括目标映射路、时频掩蔽路和全连接层,目标映射路采用目标映射方法对单通道信号数据进行分离,并行的,时频掩蔽路采用时频掩蔽方法对单通道信号数据进行分离;目标映射路和时频掩蔽路分离后输出的数据通过全连接层汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。本发明兼容了时频掩蔽方法和目标映射方法各自的优点,并在一定程度上弥补了其缺陷,在同样不考虑信号数据相位的情况下,模型泛化性能较好。
Description
技术领域
本发明属于盲源分离(Blind Source Separation,BSS)研究领域,早期主要应用于信号处理领域,又名为盲信号分离,特别涉及一种单通道信号双路分离方法、装置、存储介质及处理器。
背景技术
目前大多是将信号数据的分离过程看作一个监督性学习问题,进而利用深度学习网络模型实现。基于深度学习的盲源分离一般性框架主要分为“深度学习模型训练”和“单通道数据分离”两个阶段:
(1)训练阶段:利用深度学习模型提取训练数据的特征,学习未分离的源信号数据和已由人工分离的标签信号数据的非线性关系;
(2)分离阶段:把训练好的模型用于混合信号数据分离,最后把分离出的信号数据重新整合塑造成完整的信号数据。
采用深度学习方法的关键是计算目标的设计,这会直接反映到代价函数的设置,对深度学习模型的各项性能有重大的影响。目前,对于单通道信号数据分离任务,主流的计算目标主要有目标映射和时频掩蔽:
(1)目标映射:在训练过程中直接学习源数据与标签数据的映射关系;在测试和验证过程中输出估计的目标数据,是监督性学习问题最直接、最广泛的计算目标设置方法,其代价函数设置为:
其中yi为所需的目标信号数据,xi是单通道带噪混合信号数据,是通过深度学习模型得到的目标信号数据的估计。进行单通道信号数据分离时,该方法使深度学习模型直接学习目标信号数据和单通道带噪信号数据之间的映射关系。其主要特点有:①不需要先验知识;②不需要经过复杂的数据处理、特征提取过程;③不存在物理理论上的缺陷。
但单通道带噪混合信号数据具有噪声随机性和不可预测性,与目标信号数据的关系不直接、不明确,这类方法的主要缺点是:①模型估计难度大;②模型训练速度缓慢;③模型泛化效果差。
(2)时频掩弊:是假定目标信号数据和单通道带噪混合信号数据在不同时频上存在着一定的比例关系,即时频掩蔽,在训练过程中通过特殊的数据处理、特征提取过程,学习源数据与标签数据的时频掩蔽关系;在测试和验证过程中输出估计的时频掩蔽比例关系,进而得到估计的目标信号数据。
进行单通道信号数据分离时,该方法使深度学习模型分析目标信号数据和单通道带噪信号数据在不同时频上存在的比例关系,对于语音信号数据分离具有较好的表现效果。其主要特点有:①模型估计难度较小;②模型训练速度较快;③模型泛化效果较好。
但在真实环境中,这类方法的主要缺点是:目标信号数据难以预测范围,并且经常出现因目标信号数据和噪声信号数据的相位不相等而导致的物理干涉现象。
因此,针对上述问题,需要提供一种基于深度学习的单通道信号双路分离方法、装置,以及实现上述方法或者应用上述装置的存储介质及处理器。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,借鉴多路神经网络思想、时频掩蔽方法以及目标映射方法,提供一种基于深度学习的单通道信号双路分离方法、装置,其兼容了时频掩蔽方法和目标映射方法各自的优点,并在一定程度上弥补了其缺陷,具有收敛速度快、分离结果准确的优点。
本发明的另一个目的在于提供一种存储介质,其上存储有计算机程序,该程序运行时执行所述单通道信号双路分离方法。
本发明的另一个目的在于提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述单通道信号双路分离方法。
本发明的目的通过以下的技术方案实现:单通道信号双路分离方法,包括步骤:
建立一多路神经网络学习模型,该模型包括目标映射路、时频掩蔽路和全连接层,目标映射路采用目标映射方法对单通道信号数据进行分离,并行的,时频掩蔽路采用时频掩蔽方法对单通道信号数据进行分离;目标映射路和时频掩蔽路分离后输出的数据通过全连接层汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。
优选的,目标映射路采用目标映射方法对单通道信号数据进行分离时,在目标映射深度学习模型之后设计连接一个映射层,映射层采用relu族激活函数模拟目标映射方法,建立目标映射深度学习模型输出的信号数据与单通道带噪混合信号数据之间的映射关系,得到该目标映射路估计的目标信号数据。
优选的,时频掩蔽路采用时频掩蔽方法对单通道信号数据进行分离时,在时频掩蔽深度学习模型之后设计连接一个掩蔽层,时频掩蔽深度学习模型对单通道带噪混合信号数据进行分离,掩蔽层采用sigmoid激活函数模拟时频掩蔽方法,建立时频掩蔽深度学习模型输出的信号数据与单通道带噪混合信号数据之间的时频掩蔽比例
更进一步的,为平衡两路对于整体模型的权重和输出数据的分布差异,预先在时频掩蔽路模拟输出目标信号数据特征的估计,即以进行处理,xi表示单通道带噪混合信号数据,然后与目标映射路在全连接层汇合。
作为一种优选方式,目标映射深度学习模型、时频掩蔽深度学习模型均采用卷积神经网络CNN实现。
作为一种优选方式,目标映射深度学习模型、时频掩蔽深度学习模型均采用长短时记忆循环神经网络LSTM实现。
作为一种优选方式,目标映射深度学习模型、时频掩蔽深度学习模型均采用双向长短时记忆循环神经网络BLSTM实现。
单通道信号双路分离装置,包括:
一多路神经网络学习模型模块,该模块包括目标映射路、时频掩蔽路和全连接层,其中:
目标映射路,用于采用目标映射方法对单通道信号数据进行分离,
时频掩蔽路,用于采用时频掩蔽方法对单通道信号数据进行分离;
全连接层汇合模块,用于将目标映射路和时频掩蔽路分离后输出的数据汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。
优选的,所述目标映射路包括目标映射深度学习模型和映射层,映射层采用relu族激活函数模拟目标映射方法,建立目标映射深度学习模型输出的信号数据与单通道带噪混合信号数据之间的映射关系,得到该目标映射路估计的目标信号数据。
优选的,所述时频掩蔽路包括时频掩蔽深度学习模型和掩蔽层,掩蔽层采用sigmoid激活函数模拟时频掩蔽方法,建立时频掩蔽深度学习模型输出的信号数据与单通道带噪混合信号数据之间的时频掩蔽比例预先在时频掩蔽路模拟输出目标信号数据特征的估计,即以进行处理,xi表示单通道带噪混合信号数据,然后与目标映射路在全连接层汇合。
本发明针对单通道信号,通过并行采用目标映射方法和时频掩蔽方法分别进行分离,然后对分离后输出的数据通过全连接层汇合,总体训练收敛速度介乎于时频掩蔽方法和目标映射方法之间,比时频掩蔽方法慢,但比目标映射方法快,不存在时频掩蔽方法的理论缺陷,性能表现均比时频掩蔽方法和目标映射方法要好;时频掩蔽路扮演着“加速器”的角色,而目标映射路则扮演着“提升器”的角色。在同样不考虑信号数据相位的情况下,模型泛化性能较好。
附图说明
图1是本发明方法的流程图。
图2是本发明方法全连接层汇合处的处理过程示意图。
图3是对双路汇合处理的全连接操作看作半连接操作的示意图。
图4是实施例1中深度学习模型均采用CNN实现的流程图。
图5是实施例1中深度学习模型均采用LSTM实现的流程图。
图6是实施例1中深度学习模型均采用BLSTM实现的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
针对单通道信号的数据分离,现有技术中分别采用目标映射和时频掩蔽均具有各自的缺陷,为此,本发明借鉴多路神经网络思想,提出一种综合上述两种方法的单通道信号双路分离方法。
多路神经网络的主要特点在于不存在多个模型,也不需要预先训练,而是在单个模型的基础上设计多个具有不同模型结构和数据处理逻辑的独立分支,且常在各个支路之后加上全连接层以汇合,并最终通过反向传播BP算法进行整个模型各个分支的统一整体训练。其特点在于多支路、合并训练、支路汇合。多路神经网络的主要思想是将单一或多元模态数据通过多路处理以扩充数据维度和增大模型处理粒度,最终达到提高模型学习效率和性能的目的。相较于传统单路神经网络仅可处理单一维度、单一模态数据的特点,多路神经网络既可处理多模态数据,又可用以扩充数据的观察维度,通常具有更好的数据处理能力和性能表现。因为多路神经网络的支路看似独立,但在反向传播整体训练的时候会由于汇合处理而产生实际的相互影响,可以达到互补的效果。本发明提出的单通道信号双路分离方法,可将目标映射方法和时频掩蔽方法两者优势互补,以获得更好的性能。
参见图1,本发明基于深度学习的单通道信号双路分离方法可分为训练阶段和分离阶段,下面结合附图对各个阶段进行具体的说明。
一、训练阶段
在训练阶段,将方法主要分为3个部分,分别是目标映射路、时频掩蔽路和全连接层汇合。
所述目标映射路中包括目标映射深度学习模型,以及设置在目标映射深度学习模型之后的映射层。目标映射深度学习模型可以是多样的,如DNN、CNN、RNN等,映射层采用relu族函数(如Relu、Leaky Relu、PRelu、ELU)模拟目标映射方法,实现由上一步目标映射深度学习模型所得的信号数据yi与单通道带噪混合信号数据xi之间的映射关系yi=f(xi),从而得出该路估计的目标信号数据。
所述时频掩蔽路中包括时频掩蔽深度学习模型,以及设置在时频掩蔽深度学习模型之后的掩蔽层。时频掩蔽深度学习模型同样也可以是多样的,现有的时频掩蔽函数有多种,如维纳滤波掩蔽方法(Wiener Filter Mask,WFM)、理想二值掩蔽方法(Ideal BinaryMask,IBM)以及理想浮值掩蔽方法(Ideal Ratio Mask,IRM)等,公式如下:
其中C是混合源信号的个数,|si,ft|是第i个源信号在(f,t)时频单元上的能量值。
而对于不同的时频掩蔽函数,其代价函数有不同的设置方法,但一般可将其概括为:
其中yi为所需的目标信号数据,mi为目标时频掩蔽,为深度学习模型输出的估计时频掩蔽,M′为掩蔽恢复函数。两式的差异在于以时频掩蔽还是以信号数据来计算估计差。
时频掩蔽路中的掩蔽层,用以模拟时频掩蔽方法,使其可间接学习目标信号数据与单通道带噪混合信号数据之间的时频掩蔽关系。
由于时频掩蔽需要将输出限制为一定范围如[0,1],掩蔽层可采用sigmoid激活函数:
但是,与时频掩蔽路不同,目标映射路是不需要将输出数据限制在一定范围内的,而如果直接将时频掩蔽路和目标映射路进行汇合处理,会使得两路分别输出的数据分布差异过大(时频掩蔽路输出范围为[0,1],而目标映射路输出范围为[0,+∞])。若从模型角度来看,这会造成时频掩蔽路和目标映射路的权重不均衡(时频掩蔽路权重过小而目标映射路权重过大),以致于对模型的学习产生严重影响。
因此,为平衡两路对于整体模型的权重和输出数据的分布差异,需要预先在时频掩蔽路模拟输出目标信号数据特征的估计,即以进行处理,才可最终与目标映射路汇合。
由于目标映射路和时频掩蔽路均以各自的独立逻辑模拟输出目标信号数据的估计,输出的数据一般不相同;且两路汇合之后的数据量是单路数据量的两倍,与目标数据规格并不一致。因此需要将两支路输出的数据通过全连接层汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。图2展示了通过全连接层汇合两路并整理数据规格的过程。可利用下式将前述的双路汇合处理过程抽象表达:
其中是估计目标信号数据的第i个特征数据;i和Wi′分别为目标映射路、时频掩蔽路的全连接操作的权重,b为全连接操作的偏置;X和X′分别为目标映射路、时频掩蔽路的n×1输出数据,则为将两路输出数据的拼接操作。另外,f是全连接层的激活函数,在双路汇合处理的全连接层中可不设置,但和目标映射路的映射层操作一样,考虑到信号数据又常以短时傅里叶变换幅度谱作为特征,因此双路汇合处理的全连接层一般可采用relu族激活函数。
和目标映射方法一样,双路分离方法最终输出的是估计的目标信号数据特征,代价函数设置为:
本发明所提出的上述方法是建立在深度学习之上的,是取目标映射方法、时频掩蔽方法二者之长的方案,因此可以从深度学习的角度进行假说演绎,进而证明本方法的科学性和合理性。
为简化双路分离方法的描述,可对双路汇合处理的全连接操作看作半连接操作,如图3所示,可利用下式抽象表达:
由于使用了relu族激活函数,可再次简化为:
对偏置b进行省略:
由此,可将估计目标信号数据的第i个特征数据看作为目标映射路和时频掩蔽路输出的对应数据各自的权重乘积之和。
从理论分析,在训练过程中,支路权重更新是有规律的。对于时频掩蔽方法,其训练速度比目标映射方法较快,因此在模型训练前期,其输出比目标映射路更接近目标信号数据y,如下式:
其中,Xt和Xt-1分别为目标映射路本次训练迭代和上一次训练迭代的输出,X′t和X′t-1分别为时频掩蔽映射路本次训练迭代和上一次训练迭代的输出,y为目标信号数据。
然而,时频掩蔽方法是存在理论缺陷的,若物理干涉影响过大,在训练后期,时频掩蔽路由于将数据限制在一定范围而无法得到有效训练,但目标映射路是不存在此理论缺陷的,此时仍然可以继续训练,因此其输出比时频掩蔽路更接近y,如下式:
从深度学习反向传播机制来看,输出越接近y的独立支路,其权重应当更大。因此在训练前期,时频掩蔽路的权重较大,在训练后期,目标映射路的权重较大。若以训练迭代T划分模型训练的前期和后期,即0<t<T为训练前期,而t>T为训练后期,可以表示为:
通过上述理论分析,可以得知,本发明在模型训练前期,时频掩蔽路训练速度较快,其权重比目标映射路较大,模型输出的估计目标信号数据误差不断减少;在模型训练后期,时频掩蔽路无法得到有效训练,但目标映射路仍然可以继续训练,其权重比时频掩蔽路较大,模型输出的估计目标信号数据误差仍然不断减少。本发明方法总体训练收敛速度介乎于时频掩蔽方法和目标映射方法之间,比时频掩蔽方法慢,但比目标映射方法快,不存在时频掩蔽方法的理论缺陷,性能表现均比时频掩蔽方法和目标映射方法要好;时频掩蔽路扮演着“加速器”的角色,而目标映射路则扮演着“提升器”的角色。
二、分离阶段
对于待分离的混合信号数据,在进行数据提取/数据处理后,分别将数据输入到上述已经训练好的目标映射支路进行目标映射分离,输入到已经训练好的时频掩蔽路进行时频掩蔽分离,然后经全连接层汇合后,得到目标信号数据特征,进而可用于后续的目标信号数据波形重构。
在一个实施例中,无论是目标映射深度学习模型还是时频掩蔽深度学习模型,均采用卷积神经网络CNN实现。流程如图4所示,由于建立在反向传播BP算法和神经感知机(Neocogniron)的基础上,采用了权值共享策略,卷积神经网络的复杂度相较于其他神经网络而言大大降低,训练参数也大大减少,性能显著。
在另一个实施例中,无论是目标映射深度学习模型还是时频掩蔽深度学习模型,均采用长短时记忆循环神经网络LSTM实现。循环神经网络又名递归神经网络,是MichaelI.Jordan和Jeffrey Elman分别于1986年、1990年提出的。本实施例方法流程如图5所示,LSTM以“门”结构改进了循环神经网络RNN的长序依赖问题,保留RNN在前馈连接的处理单元内部加入内部反馈连接的操作,使RNN神经元在当前时刻的输出状态可以在之后时刻再次输入到该神经元,以实现时间域上的神经网络训练。
在另一个实施例中,无论是目标映射深度学习模型还是时频掩蔽深度学习模型,均采用双向长短时记忆循环神经网络BLSTM实现。流程如图6所示,BLSTM是两个单向长短时记忆循环神经网络LSTM的组合,每个单向的LSTM分别关联历史输入信息和未来输入信息,最终在输出层将两个单向LSTM的输出数据连接起来。
在公开数据集环境和实际应用环境中,利用本发明所提出的双路分离方法分别实现基于CNN、LSTM以及BLSTM的单通道信号数据双路分离模型,通过与目标映射方法、时频掩蔽方法的对比实验验证和测试双路分离方法的有效性和实际应用性能。
本实施例所述双路分离方法采用短时傅里叶变换方法进行特征提取,采用窗长和窗移步长分别为256个采样点、128个采样点的汉明(Hamming)窗对采样率为16KHz的单通道信号数据进行时频分解,得到短时傅里叶系数,并对STFFT系数取模操作(|STFT|)得到短时傅里叶变换幅度谱(SFFT-magnitude)。其中,汉明窗如下式:
另外,考虑到信号数据的连续性,把当前帧连同前两帧和后两帧的特征共同输入到模型。
本实验基于CNN、LSTM以及BLSTM分别实现目标映射方法、时频掩蔽(IRM)方法以及双路方法的单通道信号数据分离模型进行对比实验。表1是对比实验各模型的基本信息。
表1对比实验模型基本信息
基于TIMIT语料库和NOISEX-92噪声集,利用上述9个模型进行训练。表2给出了在训练过程中执行“提前终止”策略时的训练完整迭代次数。可以看出,单通道信号数据双路分离方法(LSTM-TB、BLSTM-TB、CNN-TB)的模型训练收敛速度较快,处于目标映射方法和时频掩蔽方法之间。
表2各模型“提前终止”时的训练完整迭代次数
模型 | LSTM-IRM | LSTM-MP | LSTM-TB |
训练迭代次数 | 14 | 159 | 44 |
模型 | BLSTM-IRM | BLSTM-MP | BLSTM-TB |
训练迭代次数 | 15 | 129 | 117 |
模型 | CNN-IRM | CNN-MP | CNN-TB |
训练迭代次数 | 13 | 110 | 68 |
表3是在匹配噪声信号数据下基于LSTM实现的各方法模型性能对比结果。表中给出了LSTM-IRM、LSTM-MP、LSTM-TB在混合信噪比为-6dB、-4dB、-2dB、0、2dB、4dB、6dB情况下所分离出的估计目标信号数据的SDR、SAR、SNR性能对比情况。可以看出,使用LSTM-TB分离出的估计目标信号数据的SDR值比LSTM-IRM、LSTM-MP平均高1.4000、1.1250;SNR值比LSTM-IRM、LSTM-MP平均高3.4883、0.4333;SAR值比LSTM-MP平均高1.3133。
表3匹配噪声数据下基于LSTM的各方法模型性能对比
表4是在匹配噪声信号数据下基于BLSTM实现的各方法模型性能对比结果。表中给出了BLSTM-IRM、BLSTM-MP、BLSTM-TB在混合信噪比为-6dB、-4dB、-2dB、0、2dB、4dB、6dB情况下所分离出的估计目标信号数据的SDR、SAR、SNR性能对比情况。可以看出,使用BLSTM-TB分离出的估计目标信号数据的SDR值比BLSTM-IRM、BLSTM-MP平均高1.2617、1.2567;SNR值比BLSTM-IRM、BLSTM-MP平均高2.9633、0.5883;SAR值比BLSTM-IRM、BLSTM-MP平均高0.1050、1.4233。
表4匹配噪声数据下基于BLSTM的各方法模型性能对比
表5是在匹配噪声信号数据下基于CNN实现的各方法模型性能对比结果。表中给出了CNN-IRM、CNN-MP、CNN-TB在混合信噪比为-6dB、-4dB、-2dB、0、2dB、4dB、6dB情况下所分离出的估计目标信号数据的SDR、SAR、SNR性能对比情况。可以看出,使用CNN-TB分离出的估计目标信号数据的SDR值比CNN-IRM、CNN-MP平均高1.0517、1.6117;SNR值比CNN-IRM、CNN-MP平均高2.8000、0.8850;SAR值比CNN-MP平均高1.7767。
表5匹配噪声数据下基于CNN的各方法模型性能对比
表6是在非匹配噪声信号数据下基于LSTM实现的各方法模型性能对比结果。表中给出了LSTM-IRM、LSTM-MP、LSTM-TB在混合信噪比为-6dB、-4dB、-2dB、0、2dB、4dB、6dB情况下所分离出的估计目标信号数据的SDR、SAR、SNR性能对比情况。可以看出,使用LSTM-TB分离出的估计目标信号数据的SDR值比LSTM-IRM、LSTM-MP平均高0.6917、1.1183;SNR值比LSTM-IRM、LSTM-MP平均高1.9933、0.5167;SAR值比LSTM-MP平均高1.2717。
表6非匹配噪声数据下基于LSTM的各方法模型性能对比
表7是在非匹配噪声信号数据下基于BLSTM实现的各方法模型性能对比结果。表中给出了BLSTM-IRM、BLSTM-MP、BLSTM-TB在混合信噪比为-6dB、-4dB、-2dB、0、2dB、4dB、6dB情况下所分离出的估计目标信号数据的SDR、SAR、SNR性能对比情况。可以看出,使用BLSTM-TB分离出的估计目标信号数据的SDR值比BLSTM-IRM、BLSTM-MP平均高0.9017、0.7733;SNR值比BLSTM-IRM、BLSTM-MP平均高1.5400、0.0933;SAR值比BLSTM-IRM、BLSTM-MP平均高0.4100、1.0050。
表7非匹配噪声数据下基于BLSTM的各方法模型性能对比
表8是在非匹配噪声信号数据下基于CNN实现的各方法模型性能对比结果。表中给出了CNN-IRM、CNN-MP、CNN-TB在混合信噪比为-6dB、-4dB、-2dB、0、2dB、4dB、6dB情况下所分离出的估计目标信号数据的SDR、SAR、SNR性能对比情况。可以看出,使用CNN-TB分离出的估计目标信号数据的SDR值比CNN-IRM、CNN-MP平均高0.6667、0.7300;SNR值比CNN-IRM平均高1.0633;SAR值比CNN-IRM、CNN-MP平均高0.3467、1.1367。
表8非匹配噪声数据下基于CNN的各方法模型性能对比
从以上实验结果对比,可以知道,在公开数据集的环境下,基于LSTM、BLSTM、CNN实现的双路分离方法,无论在匹配噪声信号数据还是非匹配噪声信号数据情况下,均比目标映射方法和时频掩蔽方法具有更好的性能。
实施例2
本实施例提供一种单通道信号双路分离装置,其对应于实施例1所述的分离方法,该装置包括一多路神经网络学习模型模块,该模块包括目标映射路、时频掩蔽路和全连接层,其中:
一多路神经网络学习模型模块,该模块包括目标映射路、时频掩蔽路和全连接层,其中:
目标映射路,用于采用目标映射方法对单通道信号数据进行分离,
时频掩蔽路,用于采用时频掩蔽方法对单通道信号数据进行分离;
全连接层汇合模块,用于将目标映射路和时频掩蔽路分离后输出的数据汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。
其中,目标映射路包括目标映射深度学习模型,以及设置在目标映射深度学习模型之后的映射层。映射层采用relu族函数模拟目标映射方法,实现由上一步目标映射深度学习模型所得的信号yi与单通道带噪混合信号数据xi之间的映射关系yi=f(xi),从而得出该路估计的目标信号数据。
其中,时频掩蔽路包括时频掩蔽深度学习模型,以及设置在时频掩蔽深度学习模型之后的掩蔽层。掩蔽层采用sigmoid激活函数模拟时频掩蔽方法,实现由上一步时频掩蔽深度学习模型所得的信号数据mi与单通道带噪混合信号数据xi之间的时频掩蔽比例
为平衡两路对于整体模型的权重和输出数据的分布差异,需要预先在时频掩蔽路模拟输出目标信号数据特征的估计,即以进行处理,才可最终与目标映射路汇合。
全连接层汇合模块用于将两支路输出的数据通过全连接层汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。
本实施例中,目标映射模块中的目标映射深度学习模型和时频掩蔽模块中的时频掩蔽深度学习模型,均可采用实施例1中的卷积神经网络CNN,或者实施例2中的长短时记忆循环神经网络LSTM,或者实施例3中的双向长短时记忆循环神经网络BLSTM。
实施例3
本实施例提供一种存储介质,其上存储有计算机程序,该程序运行时,可执行实施例1所述的时序生理数据分类方法。
实施例4
本实施例提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行实施例1所述的时序生理数据分类方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.单通道信号双路分离方法,其特征在于,包括步骤:
建立一多路神经网络学习模型,该模型包括目标映射路、时频掩蔽路和全连接层,目标映射路采用目标映射方法对单通道信号数据进行分离,并行的,时频掩蔽路采用时频掩蔽方法对单通道信号数据进行分离;目标映射路和时频掩蔽路分离后输出的数据通过全连接层汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。
2.根据权利要求1所述的单通道信号双路分离方法,其特征在于,目标映射路采用目标映射方法对单通道信号数据进行分离时,在目标映射深度学习模型之后设计连接一个映射层,映射层采用relu族激活函数模拟目标映射方法,建立目标映射深度学习模型输出的信号数据与单通道带噪混合信号数据之间的映射关系,得到该目标映射路估计的目标信号数据。
3.根据权利要求1所述的单通道信号双路分离方法,其特征在于,时频掩蔽路采用时频掩蔽方法对单通道信号数据进行分离时,在时频掩蔽深度学习模型之后设计连接一个掩蔽层,时频掩蔽深度学习模型对单通道带噪混合信号数据进行分离,掩蔽层采用sigmoid激活函数模拟时频掩蔽方法,建立时频掩蔽深度学习模型输出的信号数据与单通道带噪混合信号数据之间的时频掩蔽比例预先在时频掩蔽路模拟输出目标信号数据特征的估计,即以进行处理,xi表示单通道带噪混合信号数据,然后与目标映射路在全连接层汇合。
4.根据权利要求1所述的单通道信号双路分离方法,其特征在于,目标映射深度学习模型、时频掩蔽深度学习模型均采用卷积神经网络CNN实现。
5.根据权利要求1所述的单通道信号双路分离方法,其特征在于,目标映射深度学习模型、时频掩蔽深度学习模型均采用长短时记忆循环神经网络LSTM实现。
6.根据权利要求1所述的单通道信号双路分离方法,其特征在于,目标映射深度学习模型、时频掩蔽深度学习模型均采用双向长短时记忆循环神经网络BLSTM实现。
7.单通道信号双路分离装置,其特征在于,包括:
一多路神经网络学习模型模块,该模块包括目标映射路、时频掩蔽路和全连接层,其中:
目标映射路,用于采用目标映射方法对单通道信号数据进行分离,
时频掩蔽路,用于采用时频掩蔽方法对单通道信号数据进行分离;
全连接层汇合模块,用于将目标映射路和时频掩蔽路分离后输出的数据汇合,并整理为目标数据的规格,进而输出估计的目标信号数据特征。
8.根据权利要求7所述的单通道信号双路分离装置,其特征在于,所述目标映射路包括目标映射深度学习模型和映射层,映射层采用relu族激活函数模拟目标映射方法,建立目标映射深度学习模型输出的信号数据与单通道带噪混合信号数据之间的映射关系,得到该目标映射路估计的目标信号数据;
所述时频掩蔽路包括时频掩蔽深度学习模型和掩蔽层,掩蔽层采用sigmoid激活函数模拟时频掩蔽方法,建立时频掩蔽深度学习模型输出的信号数据与单通道带噪混合信号数据之间的时频掩蔽比例预先在时频掩蔽路模拟输出目标信号数据特征的估计,即以进行处理,xi表示单通道带噪混合信号数据,然后与目标映射路在全连接层汇合。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序运行时执行如权利要求1-6任一项所述的单通道信号双路分离方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-6任一项所述的单通道信号双路分离方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910515889.XA CN110321810A (zh) | 2019-06-14 | 2019-06-14 | 单通道信号双路分离方法、装置、存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910515889.XA CN110321810A (zh) | 2019-06-14 | 2019-06-14 | 单通道信号双路分离方法、装置、存储介质及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110321810A true CN110321810A (zh) | 2019-10-11 |
Family
ID=68119589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910515889.XA Pending CN110321810A (zh) | 2019-06-14 | 2019-06-14 | 单通道信号双路分离方法、装置、存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321810A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126199A (zh) * | 2019-12-11 | 2020-05-08 | 复旦大学 | 基于回波测量数据的信号特征提取与数据挖掘方法 |
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN112259118A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 单声道人声与背景音乐分离方法 |
CN112289338A (zh) * | 2020-10-15 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 信号处理方法及装置、计算机设备以及可读存储介质 |
CN113053400A (zh) * | 2019-12-27 | 2021-06-29 | 武汉Tcl集团工业研究院有限公司 | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
CN114464206A (zh) * | 2022-04-11 | 2022-05-10 | 中国人民解放军空军预警学院 | 一种单通道盲源分离方法及*** |
CN114500189A (zh) * | 2022-01-24 | 2022-05-13 | 华南理工大学 | 一种可见光通信直接预均衡方法、***、装置及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100130328A (ko) * | 2009-06-03 | 2010-12-13 | 충북대학교 산학협력단 | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 |
CN106933649A (zh) * | 2016-12-21 | 2017-07-07 | 华南师范大学 | 基于移动平均和神经网络的虚拟机负载预测方法及*** |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
-
2019
- 2019-06-14 CN CN201910515889.XA patent/CN110321810A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100130328A (ko) * | 2009-06-03 | 2010-12-13 | 충북대학교 산학협력단 | Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 |
CN106933649A (zh) * | 2016-12-21 | 2017-07-07 | 华南师范大学 | 基于移动平均和神经网络的虚拟机负载预测方法及*** |
CN109841226A (zh) * | 2018-08-31 | 2019-06-04 | 大象声科(深圳)科技有限公司 | 一种基于卷积递归神经网络的单通道实时降噪方法 |
Non-Patent Citations (1)
Title |
---|
张晖: ""基于深度学习的语音分离研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126199A (zh) * | 2019-12-11 | 2020-05-08 | 复旦大学 | 基于回波测量数据的信号特征提取与数据挖掘方法 |
CN113053400A (zh) * | 2019-12-27 | 2021-06-29 | 武汉Tcl集团工业研究院有限公司 | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
CN113053400B (zh) * | 2019-12-27 | 2024-06-07 | 武汉Tcl集团工业研究院有限公司 | 音频信号降噪模型的训练方法、音频信号降噪方法及设备 |
CN111583954A (zh) * | 2020-05-12 | 2020-08-25 | 中国人民解放军国防科技大学 | 一种说话人无关单通道语音分离方法 |
CN112289338A (zh) * | 2020-10-15 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 信号处理方法及装置、计算机设备以及可读存储介质 |
CN112289338B (zh) * | 2020-10-15 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 信号处理方法及装置、计算机设备以及可读存储介质 |
CN112259118A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 单声道人声与背景音乐分离方法 |
CN114500189A (zh) * | 2022-01-24 | 2022-05-13 | 华南理工大学 | 一种可见光通信直接预均衡方法、***、装置及介质 |
CN114464206A (zh) * | 2022-04-11 | 2022-05-10 | 中国人民解放军空军预警学院 | 一种单通道盲源分离方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321810A (zh) | 单通道信号双路分离方法、装置、存储介质及处理器 | |
CN109993280B (zh) | 一种基于深度学习的水下声源定位方法 | |
CN110728360B (zh) | 一种基于bp神经网络的微能源器件能量识别方法 | |
CN107169527B (zh) | 基于协同深度学习的医学图像分类方法 | |
CN107194404B (zh) | 基于卷积神经网络的水下目标特征提取方法 | |
CN107703486B (zh) | 一种基于卷积神经网络cnn的声源定位方法 | |
CN106782602B (zh) | 基于深度神经网络的语音情感识别方法 | |
CN109620152B (zh) | 一种基于MutiFacolLoss-Densenet的心电信号分类方法 | |
CN111709315A (zh) | 一种基于领域适配的水声目标辐射噪声识别方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认*** | |
CN105488466B (zh) | 一种深层神经网络和水声目标声纹特征提取方法 | |
CN108197648A (zh) | 一种基于lstm深度学习模型的水电机组故障诊断方法与*** | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN108231086A (zh) | 一种基于fpga的深度学习语音增强器及方法 | |
CN111723701A (zh) | 一种水中目标识别方法 | |
CN104463194A (zh) | 一种人车分类方法及装置 | |
CN113158964A (zh) | 一种基于残差学习和多粒度特征融合的睡眠分期方法 | |
CN114897023B (zh) | 一种基于水声目标敏感差异特征提取的水声目标辨识方法 | |
CN109344751B (zh) | 一种车内噪声信号的重构方法 | |
Li et al. | Automatic modulation classification based on bispectrum and CNN | |
CN110096976A (zh) | 基于稀疏迁移网络的人体行为微多普勒分类方法 | |
CN108805206A (zh) | 一种用于模拟电路故障分类的改进型lssvm建立方法 | |
CN113109782B (zh) | 一种直接应用于雷达辐射源幅度序列的分类方法 | |
CN112862084B (zh) | 基于深度迁移融合学习的交通流量预测方法 | |
Gang et al. | Time series prediction using wavelet process neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |
|
RJ01 | Rejection of invention patent application after publication |