CN109661705B

CN109661705B - 声源分离装置和方法以及程序

Info

Publication number: CN109661705B
Application number: CN201780053674.XA
Authority: CN
Inventors: 高桥直也; 光藤祐基; 斯特凡·乌利希; 迈克尔·伊南科尔; 托马斯·坎普
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2016-09-09
Filing date: 2017-08-25
Publication date: 2023-06-16
Anticipated expiration: 2037-08-25
Also published as: US20190208320A1; EP3511937A4; JPWO2018047643A1; US10924849B2; JP6981417B2; WO2018047643A1; CN109661705A; EP3511937A1; EP3511937B1

Abstract

本技术涉及能够实现更高分离性能的声源分离装置、方法和程序。该声源分离装置包括组合单元，该组合单元将预定声源的第一声源分离信号与声源的第二声源分离信号组合，第一声源分离信号由第一声源分离***从混合声音信号中分离出来，第二声源分离信号由第二声源分离***从混合声音信号中分离出来，在预定时间单位内，第二声源分离***的分离性能不同于第一声源分离***；并且输出通过所述组合获得的声源分离信号。本技术可应用于声源分离装置。

Description

声源分离装置和方法以及程序

技术领域

本技术涉及声源分离装置、方法和程序，尤其涉及能够实现更高分离性能的声源分离装置、方法和程序。

背景技术

传统上已知声源分离技术，其中从包括来自多个声源的声音的混合声音信号中提取目标声源的声音信号。

作为这种声源分离技术，例如，提出了使用深度神经网络(DNN)的基于多通道维纳滤波器(MWF)的声源分离技术(参见例如非专利文献1)。

在该声源分离技术中，通过DNN对混合声音信号进行振幅谱估计，以确定每个声源的振幅谱的估计值，并且通过最小均方误差方法从这些估计值和混合声音信号中确定目标声源的源信号。

引文目录

非专利文献

非专利文献1：A.A.Nugraha、A.Liutkus和E.Vincent，"Multichannel musicseparation with deep neural networks."欧洲信号处理会议(EUSIPCO)。2016年。

发明内容

本发明要解决的问题

然而，在上述技术中，难以以足够高的分离性能将目标声源的源信号与混合声音信号分离。

例如，对于使用DNN的基于MWF的声源分离技术，随着DNN输出误差的降低，声源分离性能提高。然而，由于学习数据有限，并且由于问题复杂，DNN的学习通常是困难的，因此作为DNN的输出获得的振幅谱包括误差。这是分离性能恶化的原因之一。

本技术是考虑到这种情况而设计的，并且能够实现更高的分离性能。

问题的解决方案

根据本技术的一个方面的声源分离装置包括组合单元，该组合单元将预定声源的第一声源分离信号与声源的第二声源分离信号组合，第一声源分离信号由第一声源分离***从混合声音信号中分离出来，第二声源分离信号由第二声源分离***从混合声音信号中分离出来，在预定时间单位内，第二声源分离***分离性能不同于第一声源分离***；并且输出通过组合获得的声源分离信号。

组合单元可以被配置为基于组合参数将第一声源分离信号与第二声源分离信号线性组合。

声源分离装置还可以包括组合参数确定单元，其基于是相对于第一声源分离信号获得的声源信号的概率和是相对于第二声源分离信号获得的声源信号的概率来确定组合参数。

分离性能可以是SIR、SAR、SDR或ISR。

第一声源分离***的分离性能和第二声源分离***的分离性能之间的量值关系可以被配置成随时间变化。

第一声源分离***可以与第二声源分离***相同。

第一声源分离***可以是FNN、RNN和NMF中的任何一种，第二声源分离***可以是FNN、RNN和NMF中的任何一种。

根据本技术的一个方面的声源分离方法或程序包括以下步骤：将预定声源的第一声源分离信号与声源的第二声源分离信号组合，第一声源分离信号由第一声源分离***从混合声音信号中分离出来，第二声源分离信号由第二声源分离***从混合声音信号中分离出来，在预定时间单位内，第二声源分离***的分离性能不同于第一声源分离***；并且输出通过组合获得的声源分离信号。

根据本技术的一个方面，将预定声源的第一声源分离信号与声源的第二声源分离信号组合，第一声源分离信号由第一声源分离***从混合声音信号中分离出来，第二声源分离信号由第二声源分离***从混合声音信号中分离出来，在预定时间单位内，第二声源分离***的分离性能不同于第一声源分离***；并且输出通过组合获得的声源分离信号。

本发明的效果

根据本技术的一个方面，可以实现更高的分离性能。

应当注意，这里描述的效果不一定受到限制，并且可以是本公开中描述的任何一种效果。

附图说明

图1是示出声源分离的图。

图2是示出声源分离装置的配置示例的图。

图3是示出振幅谱估计单元的配置示例的图。

图4是示出声源分离装置的配置示例的图。

图5是示出组合参数和分离性能的图。

图6是示出声源分离处理的流程图。

图7是示出声源分离装置的配置示例的图。

图8是示出声源分离处理的流程图。

图9是示出声源分离装置的配置示例的图。

图10是示出声源分离装置的配置示例的图。

图11是示出计算机的配置示例的图。

具体实施方式

下面将参照附图描述应用本技术的实施例。

<第一实施例>

<关于现有技术>

例如，关于声源分离，通常每个声源如图1所示被分离。

在该示例中，声音获取空间中存在J个声源s₁至s_J。当由包括I个麦克风的麦克风阵列11获取来自J个声源中的每一个的声音时，获得I通道(I维)混合声音信号x，该混合声音信号x包括用于I个麦克风中的每一个，换句话说，用于I个通道中的每一个的声音获取信号x₁至x_I。

当以这种方式获得的I通道混合声音信号x被输入声源分离器12时，声源分离器12对输入的混合声音信号x进行声源分离。

随后，作为估计声源s₁至s_J中的每一个的声音信号的结果，获得源信号^s₁至^s_J。例如，源信号^s₁是I通道信号(I维向量)，其包括针对I个通道中的每一个获得的声源s₁的声音信号。

作为在声源分离器12中执行的声源分离技术，例如，使用DNN的基于MWF的声源分离技术是已知的。

这里，将描述使用DNN的基于MWF的声源分离技术。应当注意，在下文中，每个信号由短期傅立叶变换(STFT)域表示。

例如，假设I通道混合声音信号表示为x(k,m)，其中k是频率区间，m是时间帧，并且作为J个声源中的第j个声源s_j(其中1≤j≤J)的声音信号的源信号表示为s_j(k,m)。混合声音信号x(k,m)和源信号s_j(k,m)每个都包括I个通道中的每一个的复谱。

在这种情况下，在MWF中，信号模型假设如下等式(1)。

[等式1]

应当注意，在等式(1)中，z(k,m)表示复高斯噪声，v_j(k,m)表示功率谱密度，R_j(k,m)表示空间相关矩阵。此外，N_C(0,ν_j(k,m)R_j(k,m))表示复数的高斯概率密度分布。

在等式(1)中，除了目标第j个声源s_j之外的声源的源信号s_j′(k,m)之和是复高斯噪声z(k,m)。从这样的等式(1)可以看出，混合声音信号x(k,m)表示为目标声源s_j的源信号s_j(k,m)和复高斯噪声z(k,m)的总和。

此外，假设源信号s_j(k,m)彼此独立，目标声源s_j的源信号s_j(k,m)可以通过最小均方误差方法从混合声音信号x(k,m)中估计。这里，最小均方误差的估计值^s_j,MWF(k,m)，换句话说，通过最小均方误差方法的源信号s_j(k,m)的估计值可以通过由以下等式(2)表示的计算来确定。应该注意的是，^s_j,MWF(k,m)是一个信号，它包括I个通道中每一个的复谱。

[等式2]

其中，

MWF由该等式(2)计算。然而，为了通过等式(2)确定作为实际源信号s_j(k,m)的估计值的源信号^s_j,MWF(k,m)，有必要为J个声源中的每一个确定功率谱密度ν_j(k,m)和空间相关矩阵R_j(k,m)。

关于使用DNN的基于MWF的声源分离技术，假设空间相关矩阵R_j(k,m)是时间不变的，换句话说，假设每个声源的位置不随时间变化，功率谱密度ν_j(k,m)和空间相关矩阵R_j(k,m)由DNN确定。

更具体地，假设DNN的输出是{^s₁(k,m),...,^s_J(k,m)}，功率谱密度ν_j(k,m)和空间相关矩阵R_j(k,m)分别由以下等式(3)和(4)确定。

[等式3]

[等式4]

应当注意，在等式(3)中，^ν_j(k,m)表示功率谱密度ν_j(k,m)的估计值，而在等式(4)中，^R_j(k)表示空间相关矩阵R_j(k,m)的估计值。特别地，这里假设空间相关矩阵R_j(k,m)是恒定的，而与帧m无关。因此，通过估计获得的空间相关矩阵被表示为^R_j(k)，索引m被省略。

此外，在等式(3)和(4)中，作为DNN的输出的^s_j(k,m)是包括I个通道中的每一个的振幅谱的信号，并且是来自声源s_j的声音的振幅谱的估计值。

在使用DNN的基于MWF的声源分离技术中，如上所述确定目标声源的源信号^s_j,MWF(k,m)。

在这种情况下，作为DNN的输出的振幅谱^s_j(k,m)越接近原始源信号s_j(k,m)，估计误差就越小。然而，由于学习数据有限，并且由于问题复杂，DNN的学习通常是困难的，因此作为DNN的输出获得的振幅谱包括误差。这是声源分离的分离性能恶化的原因之一。

在上述基于MWF的声源分离技术中，DNN可以用长短期记忆(LSTM)代替。作为估计振幅谱的结果，可以获得特性不同于DNN特性的估计结果。然而，LSTM的学习仍然是困难的，并且由于作为估计结果获得的振幅谱包括误差，所以难以实现足够高的分离性能。

因此，通过组合声源分离器，换句话说，通过组合声源分离***，本技术能够实现比每个声源分离器的分离性能更高的分离性能，其中每个声源分离器具有相同水平的分离性能，但是具有不同时间特性的输出。

这里，输出的时间特性的不同意味着声源分离***对声源信号的估计结果，更具体地说，例如，分离性能，诸如干扰水平(强度)、伪像水平和噪声水平，根据时间而不同。

尤其是，在本技术中组合的多个声源分离***例如如下。

换句话说，在单个声源分离***中，声源的分离性能在预定时间单位如帧单位中不同，换句话说，分离性能如干扰水平(强度)、伪像水平和噪声水平在预定时间单位中变化。顺便提及，更具体地，作为声源的分离性能，例如，可以使用源干扰比(SIR)、源伪像比(SAR)、信号失真比(SDR)、源图像空间失真比(ISR)等。

被组合的多个声源分离***被认为是在预定时间单位如帧单位中声源分离性能彼此不同的***。换句话说，某个声源分离***和另一个声源分离***之间的分离性能不同，而且，这些声源分离***的分离性能之间的关系在预定的时间单位中变化(不同)。

更详细地，例如，组合的多个声源分离***是这样的声源分离***，其中当以预定时间单位检查时，分离性能的振幅关系随时间变化。

更具体地，假设例如第一声源分离***和第二声源分离***被组合。在这种情况下，当在第一声源分离***和第二声源分离***中的每一个中对任意混合声音信号进行声源分离时，分离性能以预定时间单位变化。此外，具有更高分离性能的特定声源分离***根据时间(一天中的时间)而不同。例如，虽然第一声源分离***的分离性能在某一时间高于第二声源分离***，但是第二声源分离***的分离性能在另一时间高于第一声源分离***的分离性能。换句话说，第一声源分离***和第二声源分离***之间的分离性能的量值关系根据帧等而不同。

<声源分离装置的配置示例>

图2示出了应用本技术的声源分离装置的配置示例。

图2所示的声源分离装置41包括振幅谱估计单元51-1至51-N、组合单元52和分离信号生成单元53。在声源分离装置41中，振幅谱估计单元51-1至51-N和分离信号生成单元53被提供混合声音信号x(k,m)。

根据彼此不同的振幅谱估计算法，换句话说，通过彼此不同的声源分离***，振幅谱估计单元51-1至51-N通过从混合声音信号x(k,m)估计来确定振幅谱^s_j(k,m)，并将振幅谱^s_j(k,m)提供给组合单元52。换句话说，振幅谱^s_j(k,m)从混合声音信号x(k,m)中分离出来，作为各个声源的声源分离信号。

应当注意，在不特别需要区分振幅谱估计单元51-1至51-N的情况下，下文中，振幅谱估计单元51-1至51-N仅被称为振幅谱估计单元51。这些振幅谱估计单元51是振幅谱估计器。

组合单元52组合从N个振幅谱估计单元51提供的振幅谱^s_j(k,m)以形成一个最终振幅谱^s_j(k,m)，并将最终振幅谱^s_j(k,m)提供(输出)给分离信号生成单元53。

基于从组合单元52提供的所提供的混合声音信号x(k,m)和振幅谱^s_j(k,m)，分离信号生成单元53执行将相位添加到目标声源的振幅谱^s_j(k,m)的处理，从而计算并输出目标声源的源信号的估计值。

这里，作为振幅谱估计单元51中的振幅谱估计算法，可以使用例如包括卷积神经网络(CNN)和残差网络(ResNet)的前馈型神经网络(前馈神经网络(FNN))、递归型神经网络(递归神经网络(RNN))、密集连接卷积网络(DenseNet)、非负矩阵因子化(NMF)等。此外，上述网络可以以任意精度实现，包括二进制网络。

此外，作为振幅谱估计单元51中的振幅谱估计算法，例如如图3所示，可以采用基于频带不同的算法和网络。

在图3所示的示例中，振幅谱估计单元51包括频带源谱估计单元71-1至71-3以及全频带源谱估计单元72。

包括各个频率区间k的混合声音信号x(k,m)的混合声音谱的一部分或全部频带的信号被提供给频带源谱估计单元71-1至71-3。

频带源谱估计单元71-1至71-3接收混合声音谱的一部分或全部频带的信号作为输入，并且根据彼此不同的频带源谱估计算法来估计包括各个频带k的振幅谱^s_j(k,m)在内的源谱的一部分或全部频带的信号。

例如，频带源谱估计单元71-1至71-3接收混合声音谱的各个频带作为输入，这些频带彼此不同，并且估计源谱的各个频带的信号，这些频带彼此不同。

频带源谱估计单元71-1至71-3将通过估计获得的源谱的一部分或全部频带的信号作为频带谱提供给全频带源谱估计单元72。

应当注意，在不特别需要区分频带源谱估计单元71-1至71-3的情况下，在下文中，频带源谱估计单元71-1至71-3仅被称为频带源谱估计单元71。

全频带源谱估计单元72基于所提供的混合声音谱和从各个频带源谱估计单元71-1至71-3提供的频带谱，生成各个频率区间的振幅谱k^s_j(k,m)。换句话说，全频带源谱估计单元72根据全频带源谱估计算法，对从每个频带源谱估计单元71提供的频带谱进行积分，并输出各个频率区间的振幅谱k^s_j(k,m)作为通过积分获得的所有频带的源谱。

应当注意，例如，DNN可以用作每个频带源谱估计单元71中的频带源谱估计算法，或者用作全频带源谱估计单元72中的全频带源谱估计算法。

一般来说，谱模式因频带而不同。例如，在低频带中，声音具有相对较长的延续长度，并且有许多声音各自具有音调。同时，在高频带中，表现出快速衰减并且没有音调的噪声声音可能会出现在更高的频率上。因此，为了掌握这种在频带基础上的不同特性，有可能更容易在基于频带估计源谱。此外，基于频带选择最合适的模型尺寸和算法能够实现更高的性能和效率。

因此，振幅谱估计单元51基于频带估计源谱，并且将这些估计结果集成为最终源谱，从而能够更有效和更高精度地估计源谱。

顺便提及，关于每个振幅谱估计单元51中的振幅谱估计算法，在学习模型彼此不同的情况下，例如，可以组合DNN等。换句话说，即使在相同声源分离***(振幅谱估计算法)(例如，DNN等)的情况下，在它们的学习模型不同并且输出特性彼此不同的情况下，即使这些声源分离***被组合，分离性能也可以增强。

作为彼此不同的振幅谱估计算法的组合的示例，换句话说，作为声源分离***的组合的示例，认为例如DNN和LSTM被组合。

DNN对振幅谱的估计在抑制目标声源以外的声音，换句话说，抑制非目标声音方面更为优越。然而，伪像往往很大。

同时，LSTM作为一种在时间方向上具有组合的递归型神经网络(RNN)，对振幅谱的估计在时间方面表现出稳定的性能。然而，非目标声音的泄漏往往很大。

以这种方式，通过组合声源分离***DNN和LSTM来执行声源分离，使得能够以更高的精度估计振幅谱，从而增强声源分离性能，其中DNN和LSTM在时间上具有不同的输出特性。换句话说，组合彼此不同的振幅谱估计器能够以更高的精度估计振幅谱，从而以更高的精度获得目标声源的信号。

通过组合振幅谱估计算法特性(例如分离信号中的干扰水平等)不同的振幅谱估计器，即使在一种振幅谱估计算法不能实现足够分离性能的帧的情况下，也存在通过另一种振幅谱估计算法可以实现足够分离性能的情况。因此，将这些振幅谱估计算法组合起来，就有可能从整体上增强声源分离性能。

同时，例如，即使组合了多种振幅谱估计算法，其中诸如干扰水平之类的分离性能的振幅关系在任何时候都不改变，也难以期望分离性能的改善。

下面将描述DNN和LSTM组合为在时间方面输出特性不同的多个声源分离***的情况作为具体示例。

在DNN和LSTM被组合为声源分离***的情况下，图2所示的声源分离装置41如图4所示配置。应当注意，在图4中，相同的附图标记用于表示与图2中所示的部件相对应的部件，因此将省略其描述。

图4所示的声源分离装置41包括DNN单元81、LSTM单元82、组合单元52和分离信号生成单元53。在该示例中，DNN单元81和LSTM单元82对应于图2所示的振幅谱估计单元51。

换句话说，DNN单元81是基于通过预先学习获得的DNN的振幅谱估计器。DNN单元81基于所提供的混合声音信号x(k,m)执行振幅谱估计，并将合成的振幅谱^s_j(k,m)提供给组合单元52。

在下文中，特别是由DNN单元81获得的振幅谱^s_j(k,m)也被称为振幅谱^s_j,DNN(k,m)。

LSTM单元82是基于通过预先学习获得的LSTM的振幅谱估计器。LSTM单元82基于所提供的混合声音信号x(k,m)执行振幅谱估计，并将合成的振幅谱^s_j(k,m)提供给组合单元52。

在下文中，由特别是LSTM单元82获得的振幅谱^s_j(k,m)也被称为振幅谱^s_j,LSTM(k,m)。

组合单元52将从DNN单元81提供的振幅谱^s_j,DNN(k,m)与从LSTM单元82提供的振幅谱^s_j,LSTM(k,m)组合以形成一个最终振幅谱^s_j(k,m)，并将最终振幅谱^s_j(k,m)提供给分离信号生成单元53。

应当注意，任何方法都可以用作振幅谱组合方法；例如，可以使用线性组合、人工神经网络(ANN)组合等。例如，在由ANN执行组合的情况下，在ANN参数学习时，可以仅学习用于组合的ANN，或者可以执行包括低层DNN和LSTM的学习。

下面将假设振幅谱被线性组合来描述组合单元52。例如，在振幅谱被线性组合的情况下，组合单元52计算下面的等式(5)以确定振幅谱^s_j(k,m)作为组合结果。

[等式5]

^s_j(k,m)＝λ^s_j,LSTM(k,m)+(1-λ)^s_j,DNN(k,m)...(5)

应当注意，λ表示等式(5)中的组合参数。该组合参数λ是预定的固定值，并且指示线性组合时振幅谱^s_j,LSTM(k,m)的权重。

基于从组合单元52提供的所提供的混合声音信号x(k,m)和振幅谱^s_j(k,m)，分离信号生成单元53通过估计来计算目标声源的源信号，并输出源信号。

例如，分离信号生成单元53基于振幅谱^s_j(k,m)计算上述等式(3)和(4)，从而确定J个声源中的每一个的功率谱密度^ν_j(k,m)和空间相关矩阵^R_j(k)。

此外，基于功率谱密度^ν_j(k,m)和空间相关矩阵^R_j(k)，并且基于混合声音信号x(k,m)，分离信号生成单元53计算上述等式(2)，并且通过MWF计算作为目标声源的估计分离声音谱的源信号^s_j,MWF(k,m)。

应当注意，当计算等式(2)时，功率谱密度^ν_j(k,m)和空间相关矩阵^R_j(k)被代入等式(2)，作为功率谱密度ν_j(k,m)和空间相关矩阵R_j(k,m)。

通过将相位添加到没有相位的振幅谱^s_j(k,m)来执行这种等式(2)的计算，以便确定具有相位的复谱。在这种情况下，以最小化均方误差的方式确定要添加的相位。

此外，这里将描述通过MWF计算源信号^s_j,MWF(k,m)的示例。然而，在分离信号生成单元53中，目标声源的源信号可以基于混合声音信号x(k,m)和振幅谱^s_j(k,m)由DNN等确定。

如上所述，在振幅谱由DNN和LSTM估计并且随后对估计结果进行线性组合以由MWF计算源信号^s_j,MWF(k,m)的情况下，已经检查到实现了高分离性能，例如如图5所示。顺便提及，在图5中，垂直轴表示信号失真比(SDR)，水平轴表示组合参数λ的值。

在图5所示的示例中，包括人声、鼓、其他和低音的声音的声音信号被用作混合声音信号，并且执行声源分离。

曲线L11至L14分别表示当假设组合参数λ的值范围为0至1时，提取人声、鼓、其他和低音信号作为源信号时获得的SDR的大小。另外，曲线L15表示曲线L11至L14的平均值。

从曲线L11至L15可以理解，与组合参数λ＝0(换句话说，仅使用DNN)的情况和组合参数λ＝1(换句话说，仅使用LSTM)的情况相比，在执行组合的情况下，例如，在组合参数λ＝0.5(换句话说，DNN和LSTM的输出在相同水平上混合)的情况下，获得更大的SDR。换句话说，揭示了获得更高的分离性能。

这里，将描述用于学习用于从混合声音信号x(k,m)获得源声源的振幅谱^s_j,DNN(k,m)的DNN和用于从混合声音信号x(k,m)获得源声源的振幅谱^s_j,LSTM(k,m)的LSTM的学习方法。

在DNN和LSTM的学习中，网络的输入是混合声音信号的振幅谱|x(k,m)|，并且教师数据是源声音，也就是说，目标声源的声音的振幅谱|s_j(k,m)|。

网络假设非线性函数是f(,θ)，网络参数θ要求最小化非线性函数和声源振幅谱之间的平方误差。这里，应该最小化的目标函数L由以下等式(6)表示。

[等式6]

当振幅谱由DNN和LSTM估计时，混合声音信号x(k,m)，更详细地说，混合声音信号x(k,m)的振幅谱，被代入以这种方式获得的非线性函数f(|x(k,m)|,θ)，从而确定振幅谱^s_j,DNN(k,m)和振幅谱^s_j,LSTM(k,m)。

<声源分离处理说明>

接下来，将描述图4所示的声源分离装置41的操作。

换句话说，下面将参照图6所示的流程图描述声源分离装置41的声源分离处理。

在步骤S11中，DNN单元81基于所提供的混合声音信号x(k,m)估计DNN的振幅谱，并将所得的振幅谱^s_j,DNN(k,m)提供给组合单元52。

例如，在步骤S11中，将混合声音信号x(k,m)代入通过DNN学习获得的非线性函数f(|x(k,m)|,θ)，从而计算振幅谱^s_j,DNN(k,m)。

在步骤S12中，LSTM单元82基于所提供的混合声音信号x(k,m)估计LSTM的振幅谱，并将所得的振幅谱^s_j,LSTM(k,m)提供给组合单元52。

例如，在步骤S12中，将混合声音信号x(k,m)代入通过LSTM学习获得的非线性函数f(|x(k,m)|,θ)，从而计算振幅谱^s_j,LSTM(k,m)。

在步骤S13中，组合单元52将从DNN单元81提供的振幅谱^s_j,DNN(k,m)与从LSTM单元82提供的振幅谱^s_j,LSTM(k,m)组合，并将得到的振幅谱^s_j(k,m)提供给分离信号生成单元53。例如，在步骤S13中，执行上述等式(5)的计算，并且通过线性组合来计算振幅谱^s_j(k,m)。

在步骤S14中，分离信号生成单元53基于从组合单元52提供的混合声音信号x(k,m)和振幅谱^s_j(k,m)，通过估计来计算目标声源的源信号^s_j,MWF(k,m)，然后输出源信号^s_j,MWF(k,m)。随后，声源分离处理结束。

例如，在步骤S14中，等式(3)和(4)的计算由振幅谱^s_j(k,m)执行，并且根据这些计算结果和混合声音信号x(k,m)执行等式(2)的计算，从而计算源信号^s_j,MWF(k,m)。

如上所述，声源分离装置41通过特性彼此不同的声源分离***DNN和LSTM来估计振幅谱，并且基于通过组合这些估计结果获得的振幅谱来计算目标声源的源信号。

结果，可以稳定地实现高分离性能，而与声源的特性无关。换句话说，可以减少噪声、非目标声音的泄漏、伪像等，从而能够实现更高的分离性能。尤其是，声源分离装置41能够通过组合计算成本低的多个振幅谱估计算法来实现更高的分离性能。

此外，即使振幅谱估计单元51的一部分发生故障，例如，在DNN单元81、LSTM单元82等中发生故障，也可以改变在组合单元52中动态组合的振幅谱，因此可以稳健地执行声源分离。

<第二实施例>

<声源分离装置的配置示例>

顺便提及，上面已经描述了通过在组合单元52中使用预定组合参数λ来线性组合振幅谱的情况。然而，组合参数λ可以动态确定。

在这种情况下，例如，在输入LSTM优越的混合声音信号x(k,m)的情况下，组合参数λ被设置为大值，以便在组合时对LSTM获得的振幅谱赋予更大的权重。作为这种配置的结果，振幅谱的估计精度进一步提高，因此声源分离性能可以增强。

以这种方式，在动态确定组合参数λ的情况下，例如如图7所示配置声源分离装置41。应当注意，在图7中，相同的附图标记用于表示与图4中所示的部件相对应的部件，因此将省略其描述。

图7所示的声源分离装置41的配置与图4所示的声源分离装置41的配置的不同之处在于，新设置了组合参数确定单元111。除上述以外的配置与图4所示的声源分离装置41的配置相同。

换言之，图7所示的声源分离装置41包括DNN单元81、LSTM单元82、组合参数确定单元111、组合单元52和分离信号生成单元53。

DNN单元81通过使用作为通过预先学习获得的鉴别器的分离性能评估函数D^DNN(y)，计算DNN单元81的振幅谱估计性能，换句话说，计算目标声源的信号的分离性能的评估值D^DNN，并将估计性能提供给组合参数确定单元111。

通过使用作为通过预先学习获得的鉴别器的分离性能评估函数D^LSTM(y)，LSTM单元82计算LSTM单元82的振幅谱估计性能，换句话说，计算目标声源的信号的分离性能的评估值D^LSTM，并将估计性能提供给组合参数确定单元111。

组合参数确定单元111基于从DNN单元81提供的评估值D^DNN和从LSTM单元82提供的评估值D^LSTM来确定组合参数λ，并将组合参数λ提供给组合单元52。

应当注意，在不特别需要区分分离性能评估函数D^DNN(y)和分离性能评估函数D^LSTM(y)的情况下，在下文中，分离性能评估函数D^DNN(y)和分离性能评估函数D^LSTM(y)仅被称为分离性能评估函数D(y)。

通过使用从组合参数确定单元11提供的组合参数λ，组合单元52将从DNN单元81提供的振幅谱^s_j,DNN(k,m)和从LSTM单元82提供的振幅谱^s_j,LSTM(k,m)组合，并将获得的振幅谱^s_j(k,m)提供给分离信号生成单元53。

在图7所示的声源分离装置41中，每个声源分离***，换句话说，分离性能评估函数D(y)，其是评估每个振幅谱估计算法中的分离性能的函数，通过诸如DNN学习来预先确定，并且保存在DNN单元81和LSTM单元82中。此外，组合参数确定单元111被控制为使得振幅谱估计算法具有更大的权重，振幅谱估计算法的分离性能更高。

这里，将描述由DNN配置的分离性能评估函数D(y)的示例。

在这种情况下，例如，分离性能评估函数D(y)可以被配置为学习这样的鉴别器，即在实际声源的声音的源信号s_j(k,m)被代入分离性能评估函数D(y)作为自变量y的情况下，输出1，并且在声源分离之后的振幅谱，换句话说，源信号s_j(k,m)的估计值被代入分离性能评估函数D(y)作为自变量y的情况下，输出0。

这种分离性能评估函数D(y)的成本函数L由以下等式(7)表示。

[等式7]

应当注意，在等式(7)中，^s_j表示源信号s_j(k,m)的振幅谱的估计值。因此，例如，如果分离性能评估函数D(y)是分离性能评估函数D^DNN(y)，则等式(7)的^s_j变成振幅谱^s_j,DNN(k,m)。此外，例如，如果分离性能评估函数D(y)是分离性能评估函数D^LSTM(y)，则等式(7)的^s_j成为振幅谱^s_j,LSTM(k,m)。

此外，在该示例中，分离性能评估函数D(y)是DNN，并且其最终输出层由下式(8)所示的sigmoid函数表示。

[等式8]

D(y)＝sigmoid(a)...(8)

应当注意，等式(8)中的a表示对最终输出层的输入，换句话说，是前一层的输出。

从定义来看，分离性能评估函数D(y)是(0，1)，换句话说，表示后验概率，其中值的范围从0到1，并且其中自变量y是源信号s_j(k,m)的振幅谱。

换句话说，作为分离性能评估函数D(y)的输出的评估值D^DNN或评估值D^LSTM指示已经输入的振幅谱^s_j,DNN(k,m)或振幅谱^s_j,LSTM(k,m)，是源信号s_j(k,m)的振幅谱的概率。

换句话说，评估值D^DNN指示作为相对于振幅谱^s_j,DNN(k,m)获得的目标声源的信号的概率，并且评估值D^LSTM指示作为相对于振幅谱^s_j,LSTM(k,m)获得的目标声源的信号的概率。

因此，随着作为分离性能评估函数D(y)的输出的评估值的增加，振幅谱的估计精度变高，并且估计误差减小。

DNN单元81和LSTM单元82保持如上所述预先学习的分离性能评估函数D^DNN(y)和分离性能评估函数D^LSTM(y)。

此外，组合参数确定单元111通过例如从由DNN单元81获得的评估值D^DNN和由LSTM单元82获得的评估值D^LSTM计算以下等式(9)来计算组合参数λ。

[等式9]

应当注意，当确定组合参数λ时，可以通过等式(9)来计算组合参数λ，或者可以通过使用阈值处理或评估值的量值关系来确定组合参数λ。

例如，如果评估值D^DNN和评估值D^LSTM之中的较大值是预定阈值或更大，则对应于高于或等于阈值的评估值的振幅谱的权重被确定为1，如果不是，则组合参数λ可以由等式(9)确定。

因此，在这种情况下，例如，在评估值D^DNN大于评估值D^LSTM，同时评估值D^DNN是阈值或更大的情况下，组合参数λ＝0，并且振幅谱^s_j,DNN(k,m)被确定为振幅谱^s_j(k,m)而没有任何改变。

此外，例如，在预定帧数期间一个评估值持续大于另一个评估值的情况下，对应于一个评估值的振幅谱的权重被确定为1，如果不是，则组合参数λ可以由等式(9)确定。

如果如上所述基于评估值D^DNN和评估值D^LSTM来确定组合参数λ，则可以提高振幅谱的估计精度，因此可以进一步提高声源的分离性能。

尤其是，在该实施例中，即使当DNN和LSTM之中的一个振幅谱估计算法发生故障时，也不需要再次手动确定组合参数λ，因此可以稳健地执行声源分离。

此外，基于振幅谱估计算法计算评估值并且根据这些评估值计算组合参数λ的技术也可以应用于三个或更多振幅谱估计算法组合的情况。

<声源分离处理说明>

随后，将参照图8所示的流程图描述图7所示的声源分离装置41的声源分离处理。应当注意，步骤S41的处理类似于图6中的步骤S11的处理，因此将省略其描述。

在步骤S42中，DNN单元81将在步骤S41中获得的振幅谱^s_j,DNN(k,m)代入分离性能评估函数D^DNN(y)，以计算DNN的振幅谱估计的评估值D^DNN，并将评估值D^DNN提供给组合参数确定单元111。

在计算评估值D^DNN之后，然后执行步骤S43的处理。然而，步骤S43的处理类似于图6中的步骤S12的处理，因此将省略其描述。

在步骤S44中，LSTM单元82将在步骤S43中获得的振幅谱^s_j,LSTM(k,m)代入分离性能评估函数D^LSTM(y)，以通过LSTM计算振幅谱估计的评估值D^LSTM，并将评估值D^LSTM提供给组合参数确定单元111。

在步骤S45中，组合参数确定单元111基于从DNN单元81提供的评估值D^DNN和从LSTM单元82提供的评估值D^LSTM来确定组合参数λ，并将组合参数λ提供给分离信号生成单元53。

例如，组合参数确定单元111通过计算上述等式(9)来计算组合参数λ。

在计算组合参数λ之后，然后执行步骤S46和步骤S47的处理，并且声源分离处理结束。然而，这些处理类似于图6中的步骤S13和步骤S14的处理，因此将省略其描述。

如上所述，声源分离装置41通过特性彼此不同的声源分离***DNN和LSTM来估计振幅谱，并且基于估计结果的评估值来确定组合参数。此外，声源分离装置41基于获得的组合参数组合通过估计获得的振幅谱，并计算目标声源的源信号。这能够实现更高的分离性能。

<第三实施例>

<声源分离装置的配置示例>

此外，在以上描述中，已经解释了在组合多个振幅谱之后确定源信号的示例。然而，最终源信号可以通过为多个振幅谱估计算法中的每一个确定源信号，然后组合这些源信号来确定。

在这种情况下，声源分离装置被例如如图9所示配置。应当注意，在图9中，相同的附图标记用于表示与图2中所示的部件相对应的部件，因此将省略其描述。

图9所示的声源分离装置141包括振幅谱估计单元51-1至51-N、分离信号生成单元151-1至151-N和组合单元152。

分离信号生成单元151-1至151-N各自基于从振幅谱估计单元51-1至51-N提供的振幅谱和提供的混合声音信号x(k,m)计算目标声源的源信号的估计值，并且各自将估计值提供给组合单元152。

例如，分离信号生成单元151-1至151-n中的每一个计算上述等式(2)至(4)，并且因此计算源信号^s_j,MWF(k,m)。

组合单元152组合从分离信号生成单元151-1至151-N提供的源信号，然后输出所获得的源信号作为最终源信号。

例如，组合单元152可以通过线性组合来组合源信号，换句话说，通过确定线性和，或者可以通过其他方法来执行组合，例如通过ANN来组合源信号。应当注意，在执行线性组合的情况下，与上述第二实施例中的情况一样，可以动态地确定组合参数。

如上所述，即使通过基于振幅谱估计算法，换句话说，基于声源分离***生成源信号，然后通过组合这些源信号以获得最终的源信号，也可以实现与上述声源分离装置41一样的高分离性能。

<第四实施例>

<声源分离装置的配置示例>

此外，用于估计源信号的方法不限于基于MWF的声源分离技术。可以采用任何其他技术。

例如，可以组合多个声源分离***，每个声源分离***通过估计从混合声音信号x(k,m)中直接确定源信号。在这种情况下，声源分离装置例如如图10所示配置。应当注意，在图10中，相同的附图标记用于表示与图9所示的部件相对应的部件，因此将省略其描述。

图10所示的声源分离装置181包括声源谱估计单元191-1至191-N以及组合单元152。

根据彼此不同的复谱估计算法，换句话说，通过彼此不同的声源分离***，源谱估计单元191-1至191-N各自根据所提供的混合声音信号x(k,m)计算源信号s_j(k,m)的估计值，并且各自将估计值提供给组合单元152。换句话说，将源信号s_j(k,m)的估计值从混合声音信号x(k,m)中分离出来，作为每个声源的声源分离信号。从源谱估计单元191-1至191-N中的每一个输出的源信号是源信号s_j(k,m)的估计值，其包括相应I个通道的复谱。

应当注意，在不特别需要区分源谱估计单元191-1至191-N的情况下，在下文中，源谱估计单元191-1至191-N仅被称为源谱估计单元191。

源谱估计单元191中的每一个保持例如已经学会从混合声音信号x(k,m)估计源信号s_j(k,m)的DNN和LSTM。通过使用这些DNN和LSTM来估计源信号。

因此，例如，当由DNN和LSTM估计源信号时，通过将混合声音信号x(k,m)代入通过学习获得的非线性函数来确定源信号s_j(k,m)的估计值。

应当注意，在多个源谱估计单元191中的每一个中执行的用于估计源信号的估计技术，换句话说，声源分离***的组合，不限于DNN和LSTM。CNN、ResNet、NMF等可以被组合。此外，在组合单元152中执行线性组合的情况下，可以像第二实施例中的情况一样动态地确定组合参数。

<计算机配置示例>

顺便提及，上述一系列处理可以由硬件执行，也可以由软件执行。在该系列处理由软件执行的情况下，配置软件的程序安装在计算机中。这里，计算机包括内置于专用硬件中的计算机，以及能够通过安装各种程序来执行各种功能的计算机，例如通用计算机等。

图11是示出通过程序执行上述一系列处理的计算机的硬件配置的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。

输入输出接口505进一步连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509和驱动器510连接到输入-输出接口505。

输入单元506包括键盘、鼠标、麦克风、图像拾取元件等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动可装卸记录介质511，诸如磁盘、光盘、磁光盘或半导体存储器。

在如上所述配置的计算机中，CPU 501通过输入输出接口505和总线504将例如存储在记录单元508中的程序加载到RAM 503中，然后执行该程序，从而执行上述一系列处理。

由计算机(CPU 501)执行的程序可以通过被记录在例如诸如包装介质的可装卸记录介质511中来提供。此外，该程序可以通过诸如局域网、互联网和数字卫星广播之类的有线或无线传输介质提供。

在计算机中，通过将可装卸记录介质511安装到驱动器510，可以将程序通过输入输出接口505安装在记录单元508中。此外，该程序可以由通信单元509通过有线或无线传输介质接收，并且可以安装在记录单元508中。此外，程序可以预先安装在ROM 502或记录单元508中。

应当注意，由计算机执行的程序可以是按照本说明书中描述的次序按时间顺序执行处理的程序，或者可以是并行地或在所需的定时执行处理的程序，例如，当进行呼叫时。

此外，本技术的实施例不限于上述实施例。可以在不偏离本技术要点的范围内进行各种修改。

例如，本技术可以被配置为云计算，其中一种功能通过由多个装置通过网络协同共享来处理。

此外，上述流程图中解释的每个步骤由一个装置执行。然而，每个步骤可以通过由多个装置共享来执行。

此外，在一个步骤包括多个处理的情况下，一个步骤中包括的多个处理由一个装置执行。然而，多个处理可以通过由多个装置共享来执行。

此外，在本说明书中描述的效果将被解释为仅仅是说明性的，而不是限制性的，并且可以产生其他效果。

此外，本技术可以具有以下配置。

(1)

一种声源分离装置，其包括：

组合单元，其将预定声源的第一声源分离信号和所述声源的第二声源分离信号组合，所述第一声源分离信号通过第一声源分离***从混合声音信号中分离出来，所述第二声源分离信号通过第二声源分离***从所述混合声音信号中分离出来，在预定时间单位内，所述第二声源分离***与所述第一声源分离***的分离性能不同，并且输出通过所述组合获得的声源分离信号。

(2)

根据(1)所述的声源分离装置，其中

所述组合单元基于组合参数线性组合所述第一声源分离信号和第二声源分离信号。

(3)

根据(2)所述的声源分离装置，还包括

组合参数确定单元，其基于是相对于所述第一声源分离信号获得的声源信号的概率和是相对于所述第二声源分离信号获得的声源信号的概率来确定所述组合参数。

(4)

根据(1)至(3)中任一项所述的声源分离装置，其中

所述分离性能是SIR、SAR、SDR或ISR。

(5)

根据(1)至(4)中任一项所述的声源分离装置，其中

所述第一声源分离***的分离性能和所述第二声源分离***的分离性能之间的量值关系随时间变化。

(6)

根据(1)至(5)中任一项所述的声源分离装置，其中

所述第一声源分离***与所述第二声源分离***相同。

(7)

根据(1)至(5)中任一项所述的声源分离装置，其中

所述第一声源分离***是FNN、RNN和NMF中的任一个，所述第二声源分离***是FNN、RNN和NMF中的任一个。

(8)

一种声源分离方法，其包括以下步骤：

将预定声源的第一声源分离信号与所述声源的第二声源分离信号组合，所述第一声源分离信号由第一声源分离***从混合声音信号中分离出来，所述第二声源分离信号由第二声源分离***从混合声音信号中分离出来，在预定时间单位内，所述第二声源分离***的分离性能不同于所述第一声源分离***；并且输出通过所述组合获得的声源分离信号。

(9)

一种用于使计算机执行处理的程序，所述处理包括以下步骤：

参考符号列表

41 声源分离装置

51-1至51-n、51 振幅谱估计单元

52 组合单元

53 分离信号生成单元

81 DNN单元

82 LSTM单元

111 组合参数确定单元。

Claims

1. 一种声源分离装置，其包括：

组合单元，其基于组合参数，将预定声源的第一声源分离信号和所述声源的第二声源分离信号组合，所述第一声源分离信号通过第一声源分离***从混合声音信号中分离出来，所述第二声源分离信号通过第二声源分离***从所述混合声音信号中分离出来，在预定时间单位内，所述第二声源分离***与所述第一声源分离***的分离性能不同；并且输出通过所述组合获得的声源分离信号，其中

所述第一声源分离***的分离性能和所述第二声源分离***的分离性能之间的量值关系随时间变化，其中

所述分离性能涉及图像空间失真比ISR的水平，其中

对于所述组合单元的所述组合参数是相对于所述量值关系确定的，其中

所述第一声源分离***包括深度神经网络DNN，所述第二声源分离***包括长短期记忆LSTM。

2.根据权利要求1所述的声源分离装置，其中

所述组合单元基于组合参数线性组合所述第一声源分离信号和所述第二声源分离信号。

3.根据权利要求2所述的声源分离装置，还包括：

4.根据权利要求1所述的声源分离装置，其中

所述分离性能是SIR、SAR、SDR或ISR。

5.根据权利要求1所述的声源分离装置，其中

所述第一声源分离***与所述第二声源分离***相同。

6.根据权利要求1所述的声源分离装置，其中

7. 一种声源分离方法，其包括以下步骤：

基于组合参数，将预定声源的第一声源分离信号与所述声源的第二声源分离信号组合，所述第一声源分离信号由第一声源分离***从混合声音信号中分离出来，所述第二声源分离信号由第二声源分离***从混合声音信号中分离出来，在预定时间单位内，所述第二声源分离***的分离性能不同于所述第一声源分离***；并且输出通过所述组合获得的声源分离信号，其中

所述分离性能涉及图像空间失真比ISR的水平，其中

对于组合单元的所述组合参数是相对于所述量值关系确定的，其中

8.一种计算机可读存储介质，其存储有程序，其用于使计算机执行根据权利要求7所述的方法。