CN115116448B

CN115116448B - 语音提取方法、神经网络模型训练方法、装置及存储介质

Info

Publication number: CN115116448B
Application number: CN202211037918.4A
Authority: CN
Inventors: 刘文璟; 谢川; 谭斌; 展华益
Original assignee: Sichuan Qiruike Technology Co Ltd
Current assignee: Sichuan Qiruike Technology Co Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-15
Anticipated expiration: 2042-08-29
Also published as: CN115116448A

Abstract

本发明公开了一种语音提取方法、神经网络模型训练方法、装置及存储介质，该方法包括：采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据；将待提取的多说话人混叠的语音数据输入语音编码网络，获取混叠语音的时间序列表征；将目标说话人的声纹注册语音数据输入说话人编码网络，获取目标说话人的声纹特征；将混叠语音的时间序列表征和目标说话人的声纹特征同时输入说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；将提取出的目标说话人语音时间序列表征输入的语音解码网络，还原目标说话人的时域语音信号。本发明能够精确有效地从多说话人的混叠语音中提取出目标说话人的语音。

Description

语音提取方法、神经网络模型训练方法、装置及存储介质

技术领域

本发明涉及语音分离技术领域，尤其涉及一种语音提取方法、神经网络模型训练方法、装置及存储介质。

背景技术

鸡尾酒会问题最早是由英国认知科学家 Cherry于1953 年在研究选择注意机制时提出的一个著名问题，该问题尝试探明在受到其他说话人或者噪音干扰的情况下人类理解目标说话人言语这一过程背后的逻辑基础，从而建模出能够过滤出目标说话人信号的智能机器。通俗地描述, 鸡尾酒会问题关注人类在复杂听觉环境下的一种听觉选择能力。在这种情况下，人可以很容易地将注意力集中在某一个感兴趣的声音刺激上并忽略其他背景声音，而计算听觉模型却受噪音影响严重。如何设计一个能够灵活适应鸡尾酒会环境的听觉模型是计算听觉领域的一个重要问题，在语音识别、说话人识别、语音分离等一系列重要任务上都具有非常重要的研究意义和应用价值。

随着人工智能的蓬勃发展，以鸡尾酒会问题为代表的语音分离在深度学习的普及下获得了巨大的进展。然而在大部分实际场景中，目前的语音分离技术受到说话人数量、噪声干扰以及模型的泛化性等限制，所展现出的性能表现并不尽如人意。目标说话人语音提取技术则是通过获取额外的声纹特征线索并在其引导下对指定的目标说话人语音进行定向提取，不会受到说话人数量的限制，同时模型的泛化性以及对噪声环境的鲁棒性也较强，适用于家庭、会议等能够获取目标说话人注册语音的应用场景。

早期的目标说话人语音提取技术使用了说话人自适应的方法，通过辅助网络将目标说话人声纹注册语音的幅度谱特征转换为自适应层的权重参数，再通过对自适应层的各子层输出进行加权求获得自适应层的输出，从而使语音模型对说话人进行自适应。比如CN112331181 A所提供的一种基于多说话人条件下目标说话人语音提取方法，正是基于获取自适应参数对输出进行动态调节，从而提取出目标说话人的语音。

基于深度学习的目标说话人语音提取技术是目前的主要趋势。其中大部分方案都采取在频域上进行特征处理再对时域语音信号进行重建的方法，比如CN 113990344 A提供了使用短时傅里叶变换提取语音频谱特征的一种基于声纹特征的多人语音分离方法、设备及介质。

在目标说话人语音提取的过程中，目标说话人的声纹特征向量与其语音表征之间的模态融合是一个比较关键的问题。由于两种模态的特征形态不一致，通常采取的融合方法是先通过特定变换将声纹特征向量拓展到语音表征同样的形态，再利用拼接等基于简单运算的操作进行特征融合。比如CN 105489226 A提供了采用拼接法进行说话人编码特征和语音特征融合的一种基于双路径自注意力机制的特定人语音分离方法。

当前目标说话人语音提取方法存在着以下问题：

1）、目前主流的目标说话人语音提取方法通常是在频域上进行特征处理后再对时域信号进行重建，然而这类频域方法存在着频谱相位估计不稳定的潜在问题，提取的目标说话人语音质量也会因此受到影响。

2）、声纹特征向量与语音表征的主流融合方法为拼接等基于简单运算的方法，并未充分挖掘两种模态间的相关性，并且在融合过程中各自模态特有的信息也受到了一定程度的损失。

发明内容

本发明提供了一种语音提取方法、神经网络模型训练方法、装置及存储介质，以解决现有技术中基于频域目标说话人语音提取方法效果不佳的问题以及声纹特征向量与语音表征未充分融合等相关技术中存在的问题。

本发明采用的技术方案是：

根据本发明公开的第一个方面，提供一种语音提取方法，包括：

采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据；所述多说话人混叠的语音数据中包含目标说话人语音；

将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征；

将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络，获取目标说话人的声纹特征；

将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；

将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号。

进一步的，构建所述语音编码网络的方法包括：采用一维卷积编码器或自监督预训练模型提取时间序列表征。

进一步的，构建所述说话人编码网络的方法，包括：

采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征；

采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模；

采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。

进一步的，构建所述说话人提取网络的方法，包括：

采用门控卷积融合的方法对目标说话人的声纹特征向量与相应的语音时间序列表征输入进行特征融合；

对经过特征融合后获得的时间序列表征的时间依赖关系进行建模，输出建模处理后的时间序列表征；

在说话人提取网络中将特征融合和时间依赖关系建模串联后作为一个阶段，并重复进行多个阶段的处理，仅第一个阶段的特征融合中输入混叠语音的时间序列表征，之后每个阶段特征融合所需的语音时间序列表征输入为前一阶段经时间依赖关系建模处理后的语音时间序列表征输出；

将最后阶段的语音时间序列表征输出转化为掩模与混叠语音的时间序列表征逐点相乘后提取出目标说话人语音的时间序列表征。

进一步的，在最后一个阶段中选择不执行特征融合的步骤，只进行对时间依赖关系建模的处理。

进一步的，所述门控卷积融合的方法，包括：

将时间序列表征输入与信息分支的卷积核进行零偏置的一维卷积操作，得到信息分支的输出信号；

将时间序列表征输入与门控分支的卷积核进行卷积，加上目标说话人声纹特征向量经过线性层转换得到的偏置项，再通过归一化和激活函数的处理，得到门控分支的输出信号；

将门控分支的输出信号与信息分支的输出信号进行逐点相乘后，再与时间序列表征输入通过残差连接的方式获得特征融合后的时间序列表征。

进一步的，所述对时间序列表征进行序列建模通过时间卷积网络、双路径循环神经网络或Transformers进行处理。

进一步的，所述语音解码网络通过一维反卷积层或全连接线性层实现。

根据本发明公开的第二个方面，提供一种神经网络模型训练方法，包括：

获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据；其中，所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得；

将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征；

将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码器网络，获取目标说话人的声纹特征；

将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；

将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号；

计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数，基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练，在损失函数完全收敛后结束训练过程，将训练后的预设神经网络模型确定为训练好的预设神经网络模型。

根据本发明公开的第三个方面，提供一种语音提取装置，包括：

采集模块，用于采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据；所述多说话人混叠的语音数据中包含目标说话人语音；

语音编码网络模块，用于将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征；

说话人编码网络模块，用于将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络，获取目标说话人的声纹特征；

说话人提取网络模块，用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；

语音解码网络模块，用于将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号。

根据本发明公开的第四个方面，提供一种神经网络模型训练装置，包括：

采集模块，用于获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据；其中，所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得；

语音编码网络模块，用于将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征；

说话人编码器网络模块，用于将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码器网络，获取目标说话人的声纹特征；

说话人提取网络模块，用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；

语音解码网络模块，用于将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号；

损失函数计算模块，用于计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数，基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练，在损失函数完全收敛后结束训练过程，将训练后的预设神经网络模型确定为训练好的预设神经网络模型。

根据本发明公开的第五个方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现上述第一个方面所述的语音提取方法。

本发明的有益效果是：

1）、在时域上对语音特征进行提取和编码处理，从而避免了频域方法中存在的频谱相位估计不稳定等问题所带来的潜在影响。

2）、采用门控卷积融合技术对目标说话人声纹特征和语音表征进行融合，通过全局条件建模和门控机制对两种模态的特征进行了充分的融合并有效保留了各自模态的特有信息，从而改善提取出的目标说话人语音的质量。

3）、本发明通过创新的特征融合方式充分利用了目标说话人的声纹特征线索，能够精确有效地从多说话人的混叠语音中提取出目标说话人的语音。

附图说明

图1为本发明公开的语音提取方法的步骤流程图；

图2为本发明公开的语音提取方法的结构框图；

图3为本发明公开的说话人提取网络结构框图；

图4为本发明公开的门控卷积融合方法的步骤流程图；

图5为本发明公开的门控卷积融合方法的结构框图；

图6为本发明公开的神经网络模型训练方法的步骤流程图；

图7为本发明公开的语音提取装置的结构框图；

图8为本发明公开的神经网络模型训练装置结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步详细描述，但本发明的实施方式不限于此。

实施例1：

如图1和图2所示，本实施例所提供的一种语音提取方法，包括以下步骤：

S1.1、采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据；所述多说话人混叠的语音数据中包含目标说话人语音。

具体地，以16kHz的采样率为例，采集任意长度的待提取语音片段和指定目标说话人的声纹注册语音片段。所述目标说话人的声纹注册语音是指：目标说话人的干净语音用于声纹注册。

S1.2 、将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征。

具体地，可采用至少包括一维卷积编码器或自监督预训练模型在内的方法提取时间序列表征。其中一维卷积编码器可以通过一个卷积核大小为L, 步长为L/2，输入通道数为1，输出通道数为D的一维卷积网络层(1-D CNN)和一个线性整流层（ReLU）实现。自监督预训练的方法则可采用标准配置的Wav2vec2, Hubert等开源的预训练神经网络模型对时间序列表征进行提取。

S1.3 、将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络，获取目标说话人的声纹特征。

S1.3.1、采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征。

具体地，可以直接采用S1.2中的语音编码网络对目标说话人声纹注册语音数据的时间序列表征进行提取。

S1.3.2、采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模；

具体地，可以通过堆叠多层具有残差连接的卷积网络（CNN）或双向长短时记忆网络(BiLSTM)对时间序列表征的时间依赖关系进行建模。一方面，可以采用n≥5层的卷积网络进行建模，其中第一层网络的输入和输出通道数为(D,O),中间层为(O,O),倒数第3层为(O,P),倒数第2层为(P,P)，最后一层为(P,H)。此外，除第一层和最后一层外的卷积网络均采用残差连接的方式，并且在第一层之前加入层归一化的操作。另一方面，也可以采用n层的输入维度为D及隐层维度为H的BiLSTM网络进行建模,再通过ReLU激活函数和输入维度为H的全连接层进行处理。

S1.3.3、采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。

具体地，基于自注意力机制的池化层由前馈网络和池化网络。前馈网络由两层的全连接层构成，其中输入和输出通道数分别为(H,h),(h,1)。池化网络则首先通过掩蔽(mask)的方式计算注意力系数，再利用softmax函数得到各时间节点上的概率权重后以加权平均的方式进行池化操作，最后经过全连接层和tanh激活函数处理后得到目标说话人的声纹特征向量。

如图3所示，S1.4、将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取。

S1.4.1、采用门控卷积融合的方法对目标说话人的声纹特征向量与相应的语音时间序列表征输入进行特征融合。

S1.4.2、对经过特征融合后获得的时间序列表征的时间依赖关系进行建模，输出建模处理后的时间序列表征。

具体地，至少可以采用时间卷积网络(TCN)、双路径循环神经网络(Dual-pathRNN)或Transformers对时间序列表征的时间依赖关系进行建模。例如，时间卷积网络通常由堆叠的8层时域卷积网络层组成。每层时域卷积网络层先通过1×1的卷积进行特征维度变换，再采用尺寸K=3和步长S=1的卷积核沿时间维度进行一维卷积，第X层的扩张系数设置为2(X-1)；每个卷积操作前均采用层归一化和参数化线性整流激活函数进行处理，最后再通过1×1卷积将特征维度还原，输出时间序列表征的掩模，再将其与输出的掩模进行逐点相乘后得到建模处理后的时间序列表征。

S1.4.3、在多个阶段内重复上述两个步骤（S1.4.1和S1.4.2），除第一阶段输入为混叠语音的时间序列表征外，之后每个阶段特征融合所需的语音时间序列表征输入为前一阶段经建模处理后的语音时间序列表征输出。即：在说话人提取网络中将特征融合和时间依赖关系建模串联后作为一个阶段，并重复进行多个阶段的处理，仅第一个阶段的特征融合中输入混叠语音的时间序列表征，之后每个阶段特征融合所需的语音时间序列表征输入为前一阶段经时间依赖关系建模处理后的语音时间序列表征输出；

具体地，进行M=4个阶段的特征融合和时间依赖关系建模。由于融合后的特征需要经过充分表达才能获得准确的时间序列表征输出，因此在最后一个阶段中可以选择不执行特征融合的步骤，只进行对时间依赖关系建模的处理，从而增强最后两个阶段建模处理的表达能力，进而提高***的性能表现。

S1.4.4、将最后阶段的语音时间序列表征输出转化为掩模后与混叠语音的时间序列表征逐点相乘后提取出目标说话人语音的时间序列表征。

具体地，可通过1×1卷积和ReLU激活函数将最后阶段的语音时间序列表征输出转化为对掩模的估计。

S1.5、将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码器网络，还原目标说话人的时域语音信号。

具体地，所述语音解码网络可通过一维反卷积层或全连接线性层实现。其中一维反卷积层通常采用输入通道为D，输出通道为L的反卷积操作。

如图4和图5所示，本实施例对门控卷积融合方法进行了详细阐述，包括以下步骤：

S2.1、将时间序列表征输入与信息分支的卷积核进行零偏置的一维卷积操作，得到信息分支的输出信号。

具体地，一维卷积操作采用的卷积核大小为3，填充长度为1，完成卷积运算后得到信息分支的输出信号。

S2.2、将时间序列表征输入与门控分支的卷积核进行卷积，加上目标说话人声纹特征向量经过线性层转换得到的偏置项，再通过归一化和激活函数的处理，得到门控分支的输出信号；

具体地，门控分支采用有偏置项的一维卷积操作，其中卷积运算的配置与语音分支的配置相同，偏置项则由将目标说话人声纹特征向量通过基于全连接网络线性层的映射产生，再采用层归一化(layer norm)和sigmoid激活函数进行处理，得到门控分支的输出信号。

S2.3、将门控分支的输出信号与信息分支的输出信号进行逐点相乘后，再与时间序列表征输入通过残差连接的方式获得特征融合后的时间序列表征。

具体地，采用通过门控分支的输出信号对信息分支中语音信息流的传输进行控制的方式进行两种模态的特征融合。一方面，信息分支中的语音信息流保留了目标说话人语音的完整内容信息；另一方面，门控分支的输出信号则将声纹特征的线索融合进入了控制信号，通过门控的方式而非拼接等基于简单运算的直接手段去干涉信息分支中目标说话人信息的提取过程。最后通过采用残差连接的方式，加强了融合模块在深度神经网络中的收敛性。

实施例2

如图6所示，本实施例所提供的一种神经网络模型训练方法，包括以下步骤：

S3.1、获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据。其中，所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得。

具体地，对所有的语音训练样本数据以Fs=16k的采样率进行重采样操作，先将每条作为真实标签的目标说话人语音训练样本数据以及非目标说话人语音训练样本数据分割为时长为4s的语音片段，再针对每条4s的目标说话人语音片段从一个或多个非目标说话人各随机挑选出一条4s的语音片段进行匹配，并按照随机分配的一个-5dB到5dB范围内的信噪比通过幅度变换与叠加进行混合生成4s的多说话人混叠语音片段，最终将对应的多说话人的混叠语音片段和对应的目标说话人语音片段分别作为输入和真实标签，按照常用的比例划分出训练集、验证集以及测试集。需要注意的是，本实施例中用于获得混叠语音的目标说话人语音与目标说话人的声纹注册语音均来自作为真实标签的目标说话人语音训练样本数据，但训练中的目标说话人声纹注册语音需要从作为真实标签的目标说话人语音训练样本数据中选取一条跟混叠语音中用到的不一样的语音片段。

S3.2、将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征；

S3.3、将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络，获取目标说话人的声纹特征；

S3.4、将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；

S3.5、将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码器网络，还原目标说话人的时域语音信号；

S3.6、计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数，基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练，在损失函数完全收敛后结束训练过程。将所述训练后的预设神经网络模型确定为训练好的预设神经网络模型。

具体地,可以采用SI-SDR(scale-invariant signal-to-distortion ratio)作为损失函数对预设神经网络模型进行训练。训练策略选择Adam Optimizer，设置初始学习率为1e-3,最大训练迭代次数为100，当验证集的loss连续3个epoch未下降时（低于之前已经取得的最小loss），对学习率调整进行减半的操作，当连续10个epoch为下降时提前结束训练。训练结束后对模型参数进行保存。

实施例3

参见图7，本实施例提供一种语音提取装置100，包括：

采集模块110，用于采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据；所述多说话人混叠的语音数据中包含目标说话人语音；

语音编码网络模块120，用于将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征；

说话人编码网络模块130，用于将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络，获取目标说话人的声纹特征；

说话人提取网络模块140，用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；

语音解码网络模块150，用于将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号。

实施例4

参见图8，本实施例提供一种神经网络模型训练装置200，包括：

采集模块210，用于获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据；其中，所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得；

语音编码网络模块220，用于将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络，获取混叠语音的时间序列表征；

说话人编码器网络模块230，用于将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码器网络，获取目标说话人的声纹特征；

说话人提取网络模块240，用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络，对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取；

语音解码网络模块250，用于将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号；

损失函数计算模块260，用于计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数，基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练，在损失函数完全收敛后结束训练过程，将训练后的预设神经网络模型确定为训练好的预设神经网络模型。

实施例5

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现实施例1所述的语音提取方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音提取方法，其特征在于，包括：

将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号；

构建所述说话人编码网络的方法，包括：

2.根据权利要求1所述的语音提取方法，其特征在于，构建所述语音编码网络的方法包括：采用一维卷积编码器或自监督预训练模型提取时间序列表征。

3.根据权利要求1所述的语音提取方法，其特征在于，构建所述说话人提取网络的方法，包括：

4.根据权利要求3所述的语音提取方法，其特征在于，在最后一个阶段中选择不执行特征融合的步骤，只进行对时间依赖关系建模的处理。

5.根据权利要求3所述的语音提取方法，其特征在于，所述门控卷积融合的方法，包括：

6.根据权利要求3所述的语音提取方法，其特征在于，对所述时间序列表征进行序列建模通过时间卷积网络、双路径循环神经网络或Transformers进行处理。

7.根据权利要求1所述的语音提取方法，其特征在于，所述语音解码网络通过一维反卷积层或全连接线性层实现。

8.一种神经网络模型训练方法，其特征在于，包括：

将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络，获取目标说话人的声纹特征；

计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数，基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练，在损失函数完全收敛后结束训练过程，将训练后的预设神经网络模型确定为训练好的预设神经网络模型；

构建所述说话人编码网络的方法，包括：

9.一种语音提取装置，其特征在于，包括：

语音解码网络模块，用于将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络，还原目标说话人的时域语音信号；

构建所述说话人编码网络的方法，包括：

10.一种神经网络模型训练装置，其特征在于，包括：

说话人编码网络模块，用于将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络，获取目标说话人的声纹特征；

损失函数计算模块，用于计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数，基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练，在损失函数完全收敛后结束训练过程，将训练后的预设神经网络模型确定为训练好的预设神经网络模型；

构建所述说话人编码网络的方法，包括：

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现如权利要求1-7中任一项所述的语音提取方法。