CN115762557A

CN115762557A - 用于语音分离的自监督训练预测器的训练方法及***

Info

Publication number: CN115762557A
Application number: CN202211406633.3A
Authority: CN
Inventors: 钱彦旻; 李晨达; 曲博文
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-07

Abstract

本发明实施例提供一种用于语音分离的自监督训练预测器的训练方法及***。该方法包括：利用预训练模型分别提取各单人声源语音的自监督训练特征；提取自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征，将各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签；将由各单人声源语音生成的训练混合语音输入至自监督训练预测器，得到各单人声源语音的估计特征；基于估计特征以及与各单人声源语音对应的训练标签确定的损失函数对自监督训练预测器进行训练。本发明实施例训练自监督训练预测器并应用于语音分离模型中，使自监督训练特征的精度提升，提高了语音分离***的性能，模型参数和计算复杂度都有所降低。

Description

用于语音分离的自监督训练预测器的训练方法及***

技术领域

本发明涉及智能语音领域，尤其涉及一种用于语音分离的自监督训练预测器的训练方法及***。

背景技术

对于单个说话人的语音识别，已经可以达到较高的识别精度，然而对于鸡尾酒会问题，例如，当多个说话人一起说话时，对应每个说话人的语音识别率就会降低。

为了提升多个说话人一起说话时语音识别的精度，现有技术通常会使用到无监督预训练模型。

大规模无监督预训练模型通过大量的无标注数据，使用基于遮掩-预测的准则进行了自监督训练。训练过程中模型尝试对语音信号的上下文信息进行建模，从而学习到较强的深层嵌入特征。大规模预无监督训练模型在多种下游语音任务中取得了不错的效果。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

大多数预训练模型都是使用主要由单说话人语音组成的数据集进行训练的，但语音分离输入通常是涉及多个说话者的语音混合。直接利用单人语音的预训练特征在语音分离任务中的效果不佳。

大多数预训练模型的训练数据集主要由单说话人语音组成，但语音分离输入通常是涉及多个说话人的语音混合。直接利用单人语音的预训练特征在语音分离任务中的效果不佳。将预训练模型应用于语音分离任务需要考虑和优化的另一个问题是模型的复杂性和计算成本。大多数预训练模型是针对一般下游任务设计的，使用大规模数据集进行训练。对于语音分离任务来说，其模型的规模可能过于庞大，带来的计算成本可能过于昂贵。

发明内容

为了至少解决现有技术中对于语音分离任务使用预训练模型复杂性和成本较高的问题。

第一方面，本发明实施例提供一种用于语音分离的自监督训练预测器的训练方法，包括：

利用预训练模型分别提取各单人声源语音的自监督训练特征；

提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征，将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签；

将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器，得到各单人声源语音的估计特征；

基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练，得到训练的自监督训练预测器。

第二方面，本发明实施例提供一种用于语音分离的自监督训练预测器的训练***，包括：

特征提取程序模块，用于利用预训练模型分别提取各单人声源语音的自监督训练特征；

训练标签确定程序模块，用于提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征，将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签；

估计特征确定程序模块，用于将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器，得到各单人声源语音的估计特征；

训练程序模块，用于基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练，得到训练的自监督训练预测器。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音分离的自监督训练预测器的训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的用于语音分离的自监督训练预测器的训练方法的步骤。

本发明实施例的有益效果在于：设计了自监督训练预测器并进行训练，可以直接从语音混合中提取单个说话人的自监督训练特征。将自监督训练预测器应用于语音分离模型中，预测单个说话人的自监督训练特征的精度提升，整体提高了语音分离***的性能，并且相较于直接利用混合语音训练的语音分离***，本方法所需要的模型参数和计算复杂度都有所降低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的流程图；

图2是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的Wav2vec 2.0的浅层和深层特征示意图；

图3是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的结构示意图；

图4是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的带有自监督训练特征嵌入的语音分离模型示意图；

图5是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的STOI和SDR用于LibriMix数据集上的语音分离结果示意图；

图6是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的不同嵌入的预测精度示意图；

图7是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的累加运算率以及模型大小示意图；

图8是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的用于LibriMix数据集上的语音分离的STOI和SDR示意图；

图9是本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练***的结构示意图；

图10为本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练的电子设备的实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练方法的流程图，包括如下步骤：

S11：利用预训练模型分别提取各单人声源语音的自监督训练特征；

S12：提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征，将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签；

S13：将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器，得到各单人声源语音的估计特征；

S14：基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练，得到训练的自监督训练预测器。

在本实施方式中，为了避免语音分离任务中预训练模型过大的问题，本方法提出了一种轻量级的方法来利用从预先训练的大规模SSL(self-supervised learning，自监督训练)模型中提取的知识进行训练。本方法训练了自监督训练预测器，直接从多个说话人的混合语音中提取单个说话人的自监督训练估计特征，将自监督训练估计特征用于语音分离模型中，进而提高语音分离性能的同时减少了所需的计算复杂度。

对于步骤S11，需要利用预训练模型为本方法的自监督训练预测器提供未标记的单人声源的原始音频的自监督训练特征。作为一种实施方式，预训练模型可以选用无监督预训练模型，例如wav2vec 2.0。其中，Wav2vec2.0是一个SSL(self-supervised learning，自监督训练)模型，其使用大量未标记的原始音频进行预训练。该模型由特征编码器网络和与量化模块相结合的上下文网络组成。编码器网络通过多层时域CNN(ConvolutionalNeural Networks，卷积神经网络)将原始音频长时间映射为潜在的语音表示。上下文网络具有与Transformer相同的体系结构。它从基本特性中学习高级上下文化表示。在特征输出之前，编码器网络将其发送到上下文网络，经过量化模块，该模块使用乘积量化将基本语音单元特征离散到具有多个码本的有限潜在语音单元集。进而可以通过预训练模型提取各单人声源语音的自监督训练特征。

对于步骤S12，在现有技术中，通过上下文网络确定的上下文表示嵌入被用于下游任务(例如，具体家电、汽车、消费电子、金融、物流、房产、政务、医疗这种具体领域的识别)。然而，含有上下文表示的深度嵌入在语音分离中是否有效还没有得到很好的研究。在本方法中，考虑了来自Wav2vec2.0模型的两种不同的嵌入。具体的，基于时域卷积神经网络模型提取所述自监督训练特征中用于语音表示的浅层特征；基于Transformer提取所述自监督训练特征中用于上下文信息的深层特征。在本实施方式中，如图2所示第一个是由时域CNN和量化模块提取的基本嵌入。将其命名为浅层特征。另一种是由Transformer提取的高级上下文化嵌入，称为深层特征。其中，浅层特征与深层特征是卷积神经网络的专有术语。对于Wav2vec 2.0中的浅层特征和深层特征的选择，有以下几点考虑。一方面，浅层特征由时域CNN提取，而不经过深度上下文网络处理；它们有一个相对较小的接受域，并与语音输入保持一致。提取的浅层特征更倾向于声学特征。另一方面，深层特征则由上下文网络处理。深度特征可以被认为更倾向于上下文相关的特征。深度特征中的每一帧都与Transformer中的自注意机制关注整个输入序列。在Wav2vec 2.0的模型中，浅层特征采用码本进行量化，使浅层特征离散化，而深层特征是连续的。为了更完整的比较，还使用量化模块来获得离散的深度特征。进而将得到的浅层特征以及深层特征确定为自监督训练预测器的训练标签。

对于步骤S13，由于Wav2vec 2.0(以及其他大多数可用的预训练SSL模型)是使用主要由单个说话人语音组成的数据集进行训练的，因此在语音分离任务中直接从语音混合中提取SSL特征可能不是最佳的。因此，本方法设计了自监督训练预测器来估计每个说话人的SSL特征嵌入。目标是使用特征预测器从预训练的大规模SSL模型中提取知识。更进一步的，SSL特征是通过语音混合而不是干净的输入来估计的。该自监督训练预测器使用从并行纯净语音中提取的oracle SSL特征进行训练。自监督训练预测器包括：用于提取时域语音信号的时域卷积神经网络以及用于上下文建模的双路循环神经网络，具体如图3所示。

自监督训练预测器由以下几个部分组成，第一部分是编码器，它是一个多层卷积网络，将输入的时域混合语音编码成隐藏特征。第二部分是对得到的特征进行分离处理。根据待估计的深层或浅层特征，分离器设计一个TCN(temporal convolution network，时间卷积网络)。与现有技术的预训练Wav2vec 2.0模型相比，本方法的自监督训练预测器更小，需要更少的计算成本。在下述具体实验可以得到详细的比较。自监督训练预测器还包括一个简单的线性投影层。在连续特征预测中，线性投影层产生与oracle SSL特征具有相同维数的估计特征。在离散特征预测中，可以利用softmax算法得到码本中各类的概率，进而预测出各单人声源语音的估计特征。

对于步骤S14，在得到各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签后，采用交叉熵损失(Cross Entropy loss,CE)对离散特征进行分类训练。例如，使用估计特征与训练标签(也就是从纯净语音中提取的oracle SSL特征)之间的均方误差(MSE)作为损失函数进行置换性不变训练。可以训练到均方误差收敛时停止训练。

作为一种实施方式，在得到训练的自监督训练预测器之后，所述方法还包括：

将接收到的包含多个说话人的混合语音输入至语音分离模型，其中，所述语音分离包括：编码器、语音分离器、解码器；

所述编码器对所述混合语音编码，得到混合语音深层特征，并利用所述自监督训练预测器确定所述混合语音中每个说话人的自监督训练估计特征，基于所述每个说话人的自监督训练估计特征以及所述混合语音深层特征确定融合特征；

所述语音分离器确定出所述融合特征中每个说话人的特征编码；

所述解码器对所述特征编码进行解码，得到所述混合语音中每个说话人的分离语音。

在本实施方式中，考虑到将本方法训练的自监督训练预测器适用于语音分离任务，使用了The Conv-TasNet全卷积时域音频分离网络，作为语音分离的主干。其中，Conv-TasNet使用一个线性编码器来生成一个语音波形的表示，该波形是为分离单个说话人而优化的。通过对编码器输出应用一组加权函数(掩码)来实现说话人分离。然后，使用线性解码器将修改后的编码器表示反转回波形。该掩模是使用由叠加的一维扩展卷积块组成的时间卷积网络(TCN)来实现的，该网络允许在保持较小模型尺寸的同时对语音信号的长期相关性进行建模。搭载本方法自监督训练预测器的改进语音分离模型在Conv-TasNet的基础上增加了训练的自监督训练预测器进一步提取更深度的自监督训练特征，也避免了利用混合语音对现有的语音分离模型直接训练而造成的较高复杂性和计算成本。如图4所示，基于自监督训练预测器的语音分离模型包括编码器、语音分离器和解码器。编码器是一个时域卷积层，将时域音频映射到特征嵌入空间。分离器是一个序列建模网络，用于处理每个目标说话人的编码嵌入和分离特征的估计。解码器是一个转置卷积层，用于将处理后的特征映射为时域目标语音信号。可以将基于自监督训练预测器的语音分离模型应用于各类型的智能设备中，例如，智能音箱、智能电视、智能车机等，在配备有智能音箱或智能电视或智能车机的场景中，通常会存在多个说话人同时说话的情况。例如，两名用户正在看电视，智能电视中播放的歌曲唤起了用户的曾经的回忆，便聊了起来。这时这首歌曲要结束，其中一名用户又想连着听另一首歌，便再两人聊天的过程中，向智能电视说出“播放某某歌曲”。此时，智能电视接收到包含多个说话人的混合语音，将该混合语音输入至本方法的语音分离模型中。

基于自监督训练预测器的语音分离模型收到混合语音后，基于自监督训练预测器估计的自监督训练特征在时间维度上重新采样，以具有与TasNet编码器输出相同的采样率。然后将用于多个说话人的自监督训练特征与TasNet编码器的输出连接起来得到融合特征。融合特征由线性层投影并输入TCN分离器，得到每个说话人的特征编码。并通过解码器对每个说话人的特征编码进行解码，得到每个说话人的分离语音。

通过该实施方式可以看出，设计了自监督训练预测器并进行训练，可以直接从语音混合中提取单个说话人的自监督训练特征。将自监督训练预测器应用于语音分离模型中，预测单个说话人的自监督训练特征的精度提升，整体提高了语音分离***的性能，并且相较于直接利用混合语音训练的语音分离***，本方法所需要的模型参数和计算复杂度都有所降低。

对本方法进行试验说明，分别对训练后的自监督训练预测器，以及搭载自监督训练预测器的语音分离模型进行了分析。可以使用公开的LibriMix数据集来评估本方法，LibriMix数据集是语音分离中广泛使用的参考数据集。此外，该数据集还提供了双说话人混合和三说话人混合的两个主要数据集。本方法选择了双说话人16k min Libri2Mix数据集(带噪声的版本)。

对于自监督训练预测器，在实验中，采用多层卷积网络进行特征提取。选择与Wav2Vec2.0模型相同的特征提取网络，使用7层一维卷积神经网络，通道数设置为512，卷积核大小分别为(10,3,3,3,3,3,2,2)，步长分别为(5,2,2,2,2)。

特征提取完成后，利用TCN网络进行特征估计。对于浅层特征，卷积堆栈的重复数为浅层特征嵌入1次，深层特征嵌入4次，每个重复包含8次卷积。对于这两个预测器，每个卷积块中的单元数为512，剩余连接瓶颈维数(bottleneck dimension)为256。对于离散嵌入，将256维特征投影成两个320维特征，并以交叉熵作为损失函数进行训练。对于连续嵌入，预测效果通过预测特征与实际特征的均方误差来估计。

对于语音分离模型，选择Conv-TasNet模型作为分离模型，所用参数配置如下：编码器使用256通道的一维卷积网络，卷积核长度为40，卷积步长为20来编码语音特征。分离层采用时间卷积网络，共4个卷积块，每个卷积块包含8个卷积层，瓶颈维数设为256维，隐层维数设为256维。解码器需要重构语音，因此它使用与编码器相同的配置。

使用已有的“Oracle”标签确定为自监督训练的上限，分析了利用Wav2Vec 2.0提取的三种不同特征对语音分离基线实验的改进。第一个是从语音混合中直接提取的SSL特征。后两个是从并行清洁语音源中提取的SSL特征。实验结果如图5所示，其中，STOI(Short-Time Objective Intelligibility，短时客观可懂度)；SDR(Source to distortionratio，信源失真比)；SI-SNR为时域损失函数。可以发现，使用Wav2Vec 2.0从单说话人清洁语音中提取嵌入，比基线模型提高了近3dB，其中深度特征在SDR指标方面的改进最大，提高了2.79dB。同时，浅模型在SDR度量上提高了2.63dB，与深度模型的效果极为接近。然而，当通过wav2vec 2.0模型直接从混合语音中提取特征时，几乎没有增强，所以这个预训练模型不能直接应用于分离。

从纯净语音中提取的SSL特征在语音分离任务中发挥着强大的作用。但是，现有的技术无法直接实现。因此，本方法需要一个单个说话人的自监督训练预测器来从混合语音中提取SSL特征。

分别使用上述离散预测器和连续预测器对预训练模型提取的浅层特征嵌入和深层特征嵌入进行预测，预测精度如图6所示。对于离散浅层特征，使用两个320大小的码本对预测结果进行分类，最优预测准确率为42.5％；而对于深层连续特征，预测效果不能通过预测精度来判断，只能通过均方误差并排观察。为了可视化深层特征的预测精度，减少过拟合的发生，还使用相同大小的码本对预训练模型中提取的深度连续特征进行离散化，得到深度离散特征，并训练离散预测器进行预测，通过调整模型参数，最优预测精度为17.3％。

还分析了现有预训练模型和本方法自监督训练预测器的乘法累积运算(mac)和可训练参数的个数(Number of trainable parameters)，如图7可以看出，本方法自监督训练预测器中浅层特征嵌入的参数数量减少到原模型的3.0％，mac减少到原模型的30.0％。虽然深层特征嵌入的减少程度不如浅层特征嵌入，但参数数量也减少到原模型的10.0％，mac数量减少到原模型的19.0％。本方法自监督训练预测器更轻量，参数更少，计算量更低。

在训练搭载自监督训练预测器的分离模型时，采用课程学习的方法来提高模型的性能。实验还使用预测嵌入浅层的离散特征、深层的连续特征和深层的离散特征进行了实验。Oracle和预测嵌入被整合到不同类型的预训练嵌入中。

如图8列出了这些类型模型的度量分析。其中，O代表oracle SSL的并行纯净语音特征；P代表从语音混合中预测SSL特征；SSL-tr是在模型训练中的自监督训练特征；SSL-tt:测试中的自监督训练特征。以现有的Conv-TasNet分离模型作为基准，搭载自监督训练预测器的分离模型只融合浅层的离散特征时给出了更好的分离结果，SDR提高了0.55dB。在加入Oracle嵌入辅助训练后，浅层离散特征嵌入几乎没有改进，而深层连续特征的SDR可以获得0.67dB的改进。结果表明，采用搭载自监督训练预测器的分离模型可以显著提高时域语音分离效果。

总的来说，本方法设计了用于语音分离的自监督训练预测器，并对其训练，使其可以从混合语音中提取的单个说话人的SSL特征，这些预测的SSL特性可以有效地提高语音分离模型的性能。并且基于自监督训练预测器的语音分离模型比现有的原始模型消耗的计算资源要少得多。

如图9所示为本发明一实施例提供的一种用于语音分离的自监督训练预测器的训练***的结构示意图，该***可执行上述任意实施例所述的用于语音分离的自监督训练预测器的训练方法，并配置在终端中。

本实施例提供的一种用于语音分离的自监督训练预测器的训练***10包括：特征提取程序模块11，训练标签确定程序模块12，估计特征确定程序模块13和训练程序模块14。

其中，特征提取程序模块11用于利用预训练模型分别提取各单人声源语音的自监督训练特征；训练标签确定程序模块12用于提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征，将所述各单人声源语音的浅层特征以及深层特征确定为自监督训练预测器的训练标签；估计特征确定程序模块13用于将由所述各单人声源语音生成的训练混合语音输入至所述自监督训练预测器，得到各单人声源语音的估计特征；训练程序模块14用于基于所述各单人声源语音的估计特征以及与所述各单人声源语音对应的训练标签确定的损失函数对所述自监督训练预测器进行训练，得到训练的自监督训练预测器。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的用于语音分离的自监督训练预测器的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的用于语音分离的自监督训练预测器的训练方法。

图10是本申请另一实施例提供的用于语音分离的自监督训练预测器的训练方法的电子设备的硬件结构示意图，如图10所示，该设备包括：

一个或多个处理器1010以及存储器1020，图10中以一个处理器1010为例。用于语音分离的自监督训练预测器的训练方法的设备还可以包括：输入装置1030和输出装置1040。

处理器1010、存储器1020、输入装置1030和输出装置1040可以通过总线或者其他方式连接，图10中以通过总线连接为例。

存储器1020作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的用于语音分离的自监督训练预测器的训练方法对应的程序指令/模块。处理器1010通过运行存储在存储器1020中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于语音分离的自监督训练预测器的训练方法。

存储器1020可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储数据等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器1020可选包括相对于处理器1010远程设置的存储器，这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置1030可接收输入的数字或字符信息。输出装置1040可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器1020中，当被所述一个或者多个处理器1010执行时，执行上述任意方法实施例中的用于语音分离的自监督训练预测器的训练方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的用于语音分离的自监督训练预测器的训练方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于语音分离的自监督训练预测器的训练方法，包括：

2.根据权利要求1所述的方法，其中，所述自监督训练预测器包括：

用于提取时域语音信号的时域卷积神经网络以及用于上下文建模的双路循环神经网络。

3.根据权利要求1所述的方法，其中，所述提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征包括：

基于时域卷积神经网络模型提取所述自监督训练特征中用于语音表示的浅层特征；

基于Transformer提取所述自监督训练特征中用于上下文信息的深层特征。

4.根据权利要求1所述的方法，其中，所述预训练模型包括：Wav2vec无监督预训练模型。

5.根据权利要求1所述的方法，其中，在得到训练的自监督训练预测器之后，所述方法还包括：

6.一种用于语音分离的自监督训练预测器的训练***，包括：

7.根据权利要求6所述的***，其中，所述自监督训练预测器包括：

8.根据权利要求6所述的***，其中，所述提取所述自监督训练特征中用于语音表示的浅层特征以及用于上下文信息的深层特征包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。