CN115116448B - 语音提取方法、神经网络模型训练方法、装置及存储介质 - Google Patents

语音提取方法、神经网络模型训练方法、装置及存储介质 Download PDF

Info

Publication number
CN115116448B
CN115116448B CN202211037918.4A CN202211037918A CN115116448B CN 115116448 B CN115116448 B CN 115116448B CN 202211037918 A CN202211037918 A CN 202211037918A CN 115116448 B CN115116448 B CN 115116448B
Authority
CN
China
Prior art keywords
voice
target speaker
speaker
neural network
aliasing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211037918.4A
Other languages
English (en)
Other versions
CN115116448A (zh
Inventor
刘文璟
谢川
谭斌
展华益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Qiruike Technology Co Ltd
Original Assignee
Sichuan Qiruike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Qiruike Technology Co Ltd filed Critical Sichuan Qiruike Technology Co Ltd
Priority to CN202211037918.4A priority Critical patent/CN115116448B/zh
Publication of CN115116448A publication Critical patent/CN115116448A/zh
Application granted granted Critical
Publication of CN115116448B publication Critical patent/CN115116448B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语音提取方法、神经网络模型训练方法、装置及存储介质,该方法包括:采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据;将待提取的多说话人混叠的语音数据输入语音编码网络,获取混叠语音的时间序列表征;将目标说话人的声纹注册语音数据输入说话人编码网络,获取目标说话人的声纹特征;将混叠语音的时间序列表征和目标说话人的声纹特征同时输入说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;将提取出的目标说话人语音时间序列表征输入的语音解码网络,还原目标说话人的时域语音信号。本发明能够精确有效地从多说话人的混叠语音中提取出目标说话人的语音。

Description

语音提取方法、神经网络模型训练方法、装置及存储介质
技术领域
本发明涉及语音分离技术领域,尤其涉及一种语音提取方法、神经网络模型训练方法、装置及存储介质。
背景技术
鸡尾酒会问题最早是由英国认知科学家 Cherry于1953 年在研究选择注意机制时提出的一个著名问题,该问题尝试探明在受到其他说话人或者噪音干扰的情况下人类理解目标说话人言语这一过程背后的逻辑基础,从而建模出能够过滤出目标说话人信号的智能机器。 通俗地描述, 鸡尾酒会问题关注人类在复杂听觉环境下的一种听觉选择能力。在这种情况下,人可以很容易地将注意力集中在某一个感兴趣的声音刺激上并忽略其他背景声音,而计算听觉模型却受噪音影响严重。如何设计一个能够灵活适应鸡尾酒会环境的听觉模型是计算听觉领域的一个重要问题,在语音识别、说话人识别、语音分离等一系列重要任务上都具有非常重要的研究意义和应用价值。
随着人工智能的蓬勃发展,以鸡尾酒会问题为代表的语音分离在深度学习的普及下获得了巨大的进展。然而在大部分实际场景中,目前的语音分离技术受到说话人数量、噪声干扰以及模型的泛化性等限制,所展现出的性能表现并不尽如人意。目标说话人语音提取技术则是通过获取额外的声纹特征线索并在其引导下对指定的目标说话人语音进行定向提取,不会受到说话人数量的限制,同时模型的泛化性以及对噪声环境的鲁棒性也较强,适用于家庭、会议等能够获取目标说话人注册语音的应用场景。
早期的目标说话人语音提取技术使用了说话人自适应的方法,通过辅助网络将目标说话人声纹注册语音的幅度谱特征转换为自适应层的权重参数,再通过对自适应层的各子层输出进行加权求获得自适应层的输出,从而使语音模型对说话人进行自适应。比如CN112331181 A所提供的一种基于多说话人条件下目标说话人语音提取方法,正是基于获取自适应参数对输出进行动态调节,从而提取出目标说话人的语音。
基于深度学习的目标说话人语音提取技术是目前的主要趋势。其中大部分方案都采取在频域上进行特征处理再对时域语音信号进行重建的方法,比如CN 113990344 A提供了使用短时傅里叶变换提取语音频谱特征的一种基于声纹特征的多人语音分离方法、设备及介质。
在目标说话人语音提取的过程中,目标说话人的声纹特征向量与其语音表征之间的模态融合是一个比较关键的问题。由于两种模态的特征形态不一致,通常采取的融合方法是先通过特定变换将声纹特征向量拓展到语音表征同样的形态,再利用拼接等基于简单运算的操作进行特征融合。比如CN 105489226 A提供了采用拼接法进行说话人编码特征和语音特征融合的一种基于双路径自注意力机制的特定人语音分离方法。
当前目标说话人语音提取方法存在着以下问题:
1)、目前主流的目标说话人语音提取方法通常是在频域上进行特征处理后再对时域信号进行重建,然而这类频域方法存在着频谱相位估计不稳定的潜在问题,提取的目标说话人语音质量也会因此受到影响。
2)、声纹特征向量与语音表征的主流融合方法为拼接等基于简单运算的方法,并未充分挖掘两种模态间的相关性,并且在融合过程中各自模态特有的信息也受到了一定程度的损失。
发明内容
本发明提供了一种语音提取方法、神经网络模型训练方法、装置及存储介质,以解决现有技术中基于频域目标说话人语音提取方法效果不佳的问题以及声纹特征向量与语音表征未充分融合等相关技术中存在的问题。
本发明采用的技术方案是:
根据本发明公开的第一个方面,提供一种语音提取方法,包括:
采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据;所述多说话人混叠的语音数据中包含目标说话人语音;
将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号。
进一步的,构建所述语音编码网络的方法包括:采用一维卷积编码器或自监督预训练模型提取时间序列表征。
进一步的,构建所述说话人编码网络的方法,包括:
采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征;
采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模;
采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。
进一步的,构建所述说话人提取网络的方法,包括:
采用门控卷积融合的方法对目标说话人的声纹特征向量与相应的语音时间序列表征输入进行特征融合;
对经过特征融合后获得的时间序列表征的时间依赖关系进行建模,输出建模处理后的时间序列表征;
在说话人提取网络中将特征融合和时间依赖关系建模串联后作为一个阶段,并重复进行多个阶段的处理,仅第一个阶段的特征融合中输入混叠语音的时间序列表征,之后每个阶段特征融合所需的语音时间序列表征输入为前一阶段经时间依赖关系建模处理后的语音时间序列表征输出;
将最后阶段的语音时间序列表征输出转化为掩模与混叠语音的时间序列表征逐点相乘后提取出目标说话人语音的时间序列表征。
进一步的,在最后一个阶段中选择不执行特征融合的步骤,只进行对时间依赖关系建模的处理。
进一步的,所述门控卷积融合的方法,包括:
将时间序列表征输入与信息分支的卷积核进行零偏置的一维卷积操作,得到信息分支的输出信号;
将时间序列表征输入与门控分支的卷积核进行卷积,加上目标说话人声纹特征向量经过线性层转换得到的偏置项,再通过归一化和激活函数的处理,得到门控分支的输出信号;
将门控分支的输出信号与信息分支的输出信号进行逐点相乘后,再与时间序列表征输入通过残差连接的方式获得特征融合后的时间序列表征。
进一步的,所述对时间序列表征进行序列建模通过时间卷积网络、双路径循环神经网络或Transformers进行处理。
进一步的,所述语音解码网络通过一维反卷积层或全连接线性层实现。
根据本发明公开的第二个方面,提供一种神经网络模型训练方法,包括:
获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据;其中,所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得;
将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码器网络,获取目标说话人的声纹特征;
将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号;
计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数,基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练,在损失函数完全收敛后结束训练过程,将训练后的预设神经网络模型确定为训练好的预设神经网络模型。
根据本发明公开的第三个方面,提供一种语音提取装置,包括:
采集模块,用于采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据;所述多说话人混叠的语音数据中包含目标说话人语音;
语音编码网络模块,用于将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
说话人编码网络模块,用于将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
说话人提取网络模块,用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
语音解码网络模块,用于将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号。
根据本发明公开的第四个方面,提供一种神经网络模型训练装置,包括:
采集模块,用于获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据;其中,所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得;
语音编码网络模块,用于将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
说话人编码器网络模块,用于将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码器网络,获取目标说话人的声纹特征;
说话人提取网络模块,用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
语音解码网络模块,用于将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号;
损失函数计算模块,用于计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数,基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练,在损失函数完全收敛后结束训练过程,将训练后的预设神经网络模型确定为训练好的预设神经网络模型。
根据本发明公开的第五个方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,处理器执行所述计算机程序,实现上述第一个方面所述的语音提取方法。
本发明的有益效果是:
1)、在时域上对语音特征进行提取和编码处理,从而避免了频域方法中存在的频谱相位估计不稳定等问题所带来的潜在影响。
2)、采用门控卷积融合技术对目标说话人声纹特征和语音表征进行融合,通过全局条件建模和门控机制对两种模态的特征进行了充分的融合并有效保留了各自模态的特有信息,从而改善提取出的目标说话人语音的质量。
3)、本发明通过创新的特征融合方式充分利用了目标说话人的声纹特征线索,能够精确有效地从多说话人的混叠语音中提取出目标说话人的语音。
附图说明
图1为本发明公开的语音提取方法的步骤流程图;
图2为本发明公开的语音提取方法的结构框图;
图3为本发明公开的说话人提取网络结构框图;
图4为本发明公开的门控卷积融合方法的步骤流程图;
图5为本发明公开的门控卷积融合方法的结构框图;
图6为本发明公开的神经网络模型训练方法的步骤流程图;
图7为本发明公开的语音提取装置的结构框图;
图8为本发明公开的神经网络模型训练装置结构框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步详细描述,但本发明的实施方式不限于此。
实施例1:
如图1和图2所示,本实施例所提供的一种语音提取方法,包括以下步骤:
S1.1、采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据;所述多说话人混叠的语音数据中包含目标说话人语音。
具体地,以16kHz的采样率为例,采集任意长度的待提取语音片段和指定目标说话人的声纹注册语音片段。所述目标说话人的声纹注册语音是指:目标说话人的干净语音用于声纹注册。
S1.2 、将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征。
具体地,可采用至少包括一维卷积编码器或自监督预训练模型在内的方法提取时间序列表征。其中一维卷积编码器可以通过一个卷积核大小为L, 步长为L/2,输入通道数为1,输出通道数为D的一维卷积网络层(1-D CNN)和一个线性整流层(ReLU)实现。自监督预训练的方法则可采用标准配置的Wav2vec2, Hubert等开源的预训练神经网络模型对时间序列表征进行提取。
S1.3 、将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征。
S1.3.1、采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征。
具体地,可以直接采用S1.2中的语音编码网络对目标说话人声纹注册语音数据的时间序列表征进行提取。
S1.3.2、采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模;
具体地,可以通过堆叠多层具有残差连接的卷积网络(CNN)或双向长短时记忆网络(BiLSTM)对时间序列表征的时间依赖关系进行建模。一方面,可以采用n≥5层的卷积网络进行建模,其中第一层网络的输入和输出通道数为(D,O),中间层为(O,O),倒数第3层为(O,P),倒数第2层为(P,P),最后一层为(P,H)。此外,除第一层和最后一层外的卷积网络均采用残差连接的方式,并且在第一层之前加入层归一化的操作。另一方面,也可以采用n层的输入维度为D及隐层维度为H的BiLSTM网络进行建模,再通过ReLU激活函数和输入维度为H的全连接层进行处理。
S1.3.3、采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。
具体地,基于自注意力机制的池化层由前馈网络和池化网络。前馈网络由两层的全连接层构成,其中输入和输出通道数分别为(H,h),(h,1)。池化网络则首先通过掩蔽(mask)的方式计算注意力系数,再利用softmax函数得到各时间节点上的概率权重后以加权平均的方式进行池化操作,最后经过全连接层和tanh激活函数处理后得到目标说话人的声纹特征向量。
如图3所示,S1.4、将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取。
S1.4.1、采用门控卷积融合的方法对目标说话人的声纹特征向量与相应的语音时间序列表征输入进行特征融合。
S1.4.2、对经过特征融合后获得的时间序列表征的时间依赖关系进行建模,输出建模处理后的时间序列表征。
具体地,至少可以采用时间卷积网络(TCN)、双路径循环神经网络(Dual-pathRNN)或Transformers对时间序列表征的时间依赖关系进行建模。例如,时间卷积网络通常由堆叠的8层时域卷积网络层组成。每层时域卷积网络层先通过1×1的卷积进行特征维度变换,再采用尺寸K=3和步长S=1的卷积核沿时间维度进行一维卷积,第X层的扩张系数设置为2(X-1);每个卷积操作前均采用层归一化和参数化线性整流激活函数进行处理,最后再通过1×1卷积将特征维度还原,输出时间序列表征的掩模,再将其与输出的掩模进行逐点相乘后得到建模处理后的时间序列表征。
S1.4.3、在多个阶段内重复上述两个步骤(S1.4.1和S1.4.2),除第一阶段输入为混叠语音的时间序列表征外,之后每个阶段特征融合所需的语音时间序列表征输入为前一阶段经建模处理后的语音时间序列表征输出。即:在说话人提取网络中将特征融合和时间依赖关系建模串联后作为一个阶段,并重复进行多个阶段的处理,仅第一个阶段的特征融合中输入混叠语音的时间序列表征,之后每个阶段特征融合所需的语音时间序列表征输入为前一阶段经时间依赖关系建模处理后的语音时间序列表征输出;
具体地,进行M=4个阶段的特征融合和时间依赖关系建模。由于融合后的特征需要经过充分表达才能获得准确的时间序列表征输出,因此在最后一个阶段中可以选择不执行特征融合的步骤,只进行对时间依赖关系建模的处理,从而增强最后两个阶段建模处理的表达能力,进而提高***的性能表现。
S1.4.4、将最后阶段的语音时间序列表征输出转化为掩模后与混叠语音的时间序列表征逐点相乘后提取出目标说话人语音的时间序列表征。
具体地,可通过1×1卷积和ReLU激活函数将最后阶段的语音时间序列表征输出转化为对掩模的估计。
S1.5、将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码器网络,还原目标说话人的时域语音信号。
具体地,所述语音解码网络可通过一维反卷积层或全连接线性层实现。其中一维反卷积层通常采用输入通道为D,输出通道为L的反卷积操作。
如图4和图5所示,本实施例对门控卷积融合方法进行了详细阐述,包括以下步骤:
S2.1、将时间序列表征输入与信息分支的卷积核进行零偏置的一维卷积操作,得到信息分支的输出信号。
具体地,一维卷积操作采用的卷积核大小为3,填充长度为1,完成卷积运算后得到信息分支的输出信号。
S2.2、 将时间序列表征输入与门控分支的卷积核进行卷积,加上目标说话人声纹特征向量经过线性层转换得到的偏置项,再通过归一化和激活函数的处理,得到门控分支的输出信号;
具体地,门控分支采用有偏置项的一维卷积操作,其中卷积运算的配置与语音分支的配置相同,偏置项则由将目标说话人声纹特征向量通过基于全连接网络线性层的映射产生,再采用层归一化(layer norm)和sigmoid激活函数进行处理,得到门控分支的输出信号。
S2.3、将门控分支的输出信号与信息分支的输出信号进行逐点相乘后,再与时间序列表征输入通过残差连接的方式获得特征融合后的时间序列表征。
具体地,采用通过门控分支的输出信号对信息分支中语音信息流的传输进行控制的方式进行两种模态的特征融合。一方面,信息分支中的语音信息流保留了目标说话人语音的完整内容信息;另一方面,门控分支的输出信号则将声纹特征的线索融合进入了控制信号,通过门控的方式而非拼接等基于简单运算的直接手段去干涉信息分支中目标说话人信息的提取过程。最后通过采用残差连接的方式,加强了融合模块在深度神经网络中的收敛性。
实施例2
如图6所示,本实施例所提供的一种神经网络模型训练方法,包括以下步骤:
S3.1、获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据。其中,所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得。
具体地,对所有的语音训练样本数据以Fs=16k的采样率进行重采样操作,先将每条作为真实标签的目标说话人语音训练样本数据以及非目标说话人语音训练样本数据分割为时长为4s的语音片段,再针对每条4s的目标说话人语音片段从一个或多个非目标说话人各随机挑选出一条4s的语音片段进行匹配,并按照随机分配的一个-5dB到5dB范围内的信噪比通过幅度变换与叠加进行混合生成4s的多说话人混叠语音片段,最终将对应的多说话人的混叠语音片段和对应的目标说话人语音片段分别作为输入和真实标签,按照常用的比例划分出训练集、验证集以及测试集。需要注意的是,本实施例中用于获得混叠语音的目标说话人语音与目标说话人的声纹注册语音均来自作为真实标签的目标说话人语音训练样本数据,但训练中的目标说话人声纹注册语音需要从作为真实标签的目标说话人语音训练样本数据中选取一条跟混叠语音中用到的不一样的语音片段。
S3.2、将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
S3.3、将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
S3.4、将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
S3.5、将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码器网络,还原目标说话人的时域语音信号;
S3.6、计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数,基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练,在损失函数完全收敛后结束训练过程。将所述训练后的预设神经网络模型确定为训练好的预设神经网络模型。
具体地,可以采用SI-SDR(scale-invariant signal-to-distortion ratio)作为损失函数对预设神经网络模型进行训练。训练策略选择Adam Optimizer,设置初始学习率为1e-3,最大训练迭代次数为100,当验证集的loss连续3个epoch未下降时(低于之前已经取得的最小loss),对学习率调整进行减半的操作,当连续10个epoch为下降时提前结束训练。训练结束后对模型参数进行保存。
实施例3
参见图7,本实施例提供一种语音提取装置100,包括:
采集模块110,用于采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据;所述多说话人混叠的语音数据中包含目标说话人语音;
语音编码网络模块120,用于将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
说话人编码网络模块130,用于将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
说话人提取网络模块140,用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
语音解码网络模块150,用于将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号。
实施例4
参见图8,本实施例提供一种神经网络模型训练装置200,包括:
采集模块210,用于获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据;其中,所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得;
语音编码网络模块220,用于将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
说话人编码器网络模块230,用于将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码器网络,获取目标说话人的声纹特征;
说话人提取网络模块240,用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
语音解码网络模块250,用于将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号;
损失函数计算模块260,用于计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数,基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练,在损失函数完全收敛后结束训练过程,将训练后的预设神经网络模型确定为训练好的预设神经网络模型。
实施例5
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,处理器执行所述计算机程序,实现实施例1所述的语音提取方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种语音提取方法,其特征在于,包括:
采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据;所述多说话人混叠的语音数据中包含目标说话人语音;
将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号;
构建所述说话人编码网络的方法,包括:
采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征;
采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模;
采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。
2.根据权利要求1所述的语音提取方法,其特征在于,构建所述语音编码网络的方法包括:采用一维卷积编码器或自监督预训练模型提取时间序列表征。
3.根据权利要求1所述的语音提取方法,其特征在于,构建所述说话人提取网络的方法,包括:
采用门控卷积融合的方法对目标说话人的声纹特征向量与相应的语音时间序列表征输入进行特征融合;
对经过特征融合后获得的时间序列表征的时间依赖关系进行建模,输出建模处理后的时间序列表征;
在说话人提取网络中将特征融合和时间依赖关系建模串联后作为一个阶段,并重复进行多个阶段的处理,仅第一个阶段的特征融合中输入混叠语音的时间序列表征,之后每个阶段特征融合所需的语音时间序列表征输入为前一阶段经时间依赖关系建模处理后的语音时间序列表征输出;
将最后阶段的语音时间序列表征输出转化为掩模与混叠语音的时间序列表征逐点相乘后提取出目标说话人语音的时间序列表征。
4.根据权利要求3所述的语音提取方法,其特征在于,在最后一个阶段中选择不执行特征融合的步骤,只进行对时间依赖关系建模的处理。
5.根据权利要求3所述的语音提取方法,其特征在于,所述门控卷积融合的方法,包括:
将时间序列表征输入与信息分支的卷积核进行零偏置的一维卷积操作,得到信息分支的输出信号;
将时间序列表征输入与门控分支的卷积核进行卷积,加上目标说话人声纹特征向量经过线性层转换得到的偏置项,再通过归一化和激活函数的处理,得到门控分支的输出信号;
将门控分支的输出信号与信息分支的输出信号进行逐点相乘后,再与时间序列表征输入通过残差连接的方式获得特征融合后的时间序列表征。
6.根据权利要求3所述的语音提取方法,其特征在于,对所述时间序列表征进行序列建模通过时间卷积网络、双路径循环神经网络或Transformers进行处理。
7.根据权利要求1所述的语音提取方法,其特征在于,所述语音解码网络通过一维反卷积层或全连接线性层实现。
8.一种神经网络模型训练方法,其特征在于,包括:
获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据;其中,所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得;
将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号;
计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数,基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练,在损失函数完全收敛后结束训练过程,将训练后的预设神经网络模型确定为训练好的预设神经网络模型;
构建所述说话人编码网络的方法,包括:
采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征;
采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模;
采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。
9.一种语音提取装置,其特征在于,包括:
采集模块,用于采集待提取的多说话人混叠的语音数据和目标说话人的声纹注册语音数据;所述多说话人混叠的语音数据中包含目标说话人语音;
语音编码网络模块,用于将待提取的多说话人混叠的语音数据输入到训练好的预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
说话人编码网络模块,用于将目标说话人的声纹注册语音数据输入到训练好的预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
说话人提取网络模块,用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到训练好的预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
语音解码网络模块,用于将提取出的目标说话人语音时间序列表征输入到训练好的预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号;
构建所述说话人编码网络的方法,包括:
采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征;
采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模;
采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。
10.一种神经网络模型训练装置,其特征在于,包括:
采集模块,用于获取多说话人混叠的语音训练样本数据和目标说话人的声纹注册语音训练样本数据;其中,所述多说话人混叠的语音训练样本数据是通过将作为真实标签的目标说话人语音与随机挑选的非目标说话人语音进行混合获得;
语音编码网络模块,用于将多说话人混叠的语音训练样本数据输入到预设神经网络模型中的语音编码网络,获取混叠语音的时间序列表征;
说话人编码网络模块,用于将目标说话人的声纹注册语音训练样本数据输入到预设神经网络模型中的说话人编码网络,获取目标说话人的声纹特征;
说话人提取网络模块,用于将混叠语音的时间序列表征和目标说话人的声纹特征同时输入到预设神经网络模型中的说话人提取网络,对多说话人混叠的语音数据中属于目标说话人的语音时间序列表征进行提取;
语音解码网络模块,用于将提取出的目标说话人语音时间序列表征输入到预设神经网络模型中的语音解码网络,还原目标说话人的时域语音信号;
损失函数计算模块,用于计算预设神经网络模型提取的目标说话人语音与作为真实标签的目标说话人语音之间的损失函数,基于损失函数的梯度反向传播对预设神经网络模型的参数进行更新训练,在损失函数完全收敛后结束训练过程,将训练后的预设神经网络模型确定为训练好的预设神经网络模型;
构建所述说话人编码网络的方法,包括:
采用所述语音编码网络获取目标说话人声纹注册语音数据的时间序列表征;
采用卷积或循环神经网络对时间序列表征的时间依赖关系进行建模;
采用基于自注意力机制的池化层从建模处理后的时间序列表征中提取目标说话人的声纹特征向量。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,处理器执行所述计算机程序,实现如权利要求1-7中任一项所述的语音提取方法。
CN202211037918.4A 2022-08-29 2022-08-29 语音提取方法、神经网络模型训练方法、装置及存储介质 Active CN115116448B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211037918.4A CN115116448B (zh) 2022-08-29 2022-08-29 语音提取方法、神经网络模型训练方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211037918.4A CN115116448B (zh) 2022-08-29 2022-08-29 语音提取方法、神经网络模型训练方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115116448A CN115116448A (zh) 2022-09-27
CN115116448B true CN115116448B (zh) 2022-11-15

Family

ID=83336384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211037918.4A Active CN115116448B (zh) 2022-08-29 2022-08-29 语音提取方法、神经网络模型训练方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115116448B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117711420A (zh) * 2023-07-17 2024-03-15 荣耀终端有限公司 目标人声提取方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242499A (ja) * 1997-08-29 1999-09-07 Toshiba Corp 音声符号化/復号化方法および音声信号の成分分離方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN111243579A (zh) * 2020-01-19 2020-06-05 清华大学 一种时域单通道多说话人语音识别方法与***
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN113053407A (zh) * 2021-02-06 2021-06-29 南京蕴智科技有限公司 一种针对多说话人的单通道语音分离方法及***
CN113571074A (zh) * 2021-08-09 2021-10-29 四川启睿克科技有限公司 基于多波段结构时域音频分离网络的语音增强方法及装置
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10811000B2 (en) * 2018-04-13 2020-10-20 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for recognizing simultaneous speech by multiple speakers
US20210272573A1 (en) * 2020-02-29 2021-09-02 Robert Bosch Gmbh System for end-to-end speech separation using squeeze and excitation dilated convolutional neural networks
CN114333896A (zh) * 2020-09-25 2022-04-12 华为技术有限公司 语音分离方法、电子设备、芯片及计算机可读存储介质
CN114495973A (zh) * 2022-01-25 2022-05-13 中山大学 一种基于双路径自注意力机制的特定人语音分离方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242499A (ja) * 1997-08-29 1999-09-07 Toshiba Corp 音声符号化/復号化方法および音声信号の成分分離方法
CN110287320A (zh) * 2019-06-25 2019-09-27 北京工业大学 一种结合注意力机制的深度学习多分类情感分析模型
CN111243579A (zh) * 2020-01-19 2020-06-05 清华大学 一种时域单通道多说话人语音识别方法与***
CN111653288A (zh) * 2020-06-18 2020-09-11 南京大学 基于条件变分自编码器的目标人语音增强方法
CN112071325A (zh) * 2020-09-04 2020-12-11 中山大学 一种基于双声纹特征向量和序列到序列建模的多对多语音转换方法
CN113053407A (zh) * 2021-02-06 2021-06-29 南京蕴智科技有限公司 一种针对多说话人的单通道语音分离方法及***
CN113571074A (zh) * 2021-08-09 2021-10-29 四川启睿克科技有限公司 基于多波段结构时域音频分离网络的语音增强方法及装置
CN114329036A (zh) * 2022-03-16 2022-04-12 中山大学 一种基于注意力机制的跨模态特征融合***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SpEx: Multi-Scale Time Domain Speaker;Chenglin Xu;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20200414;第1370-1384页 *
基于深度神经网络的时域语音分离算法;丁辉;《中国优秀硕士学位论文全文数据库》;20220315(第3期);全文 *

Also Published As

Publication number Publication date
CN115116448A (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN111243620B (zh) 语音分离模型训练方法、装置、存储介质和计算机设备
Ravanelli et al. Multi-task self-supervised learning for robust speech recognition
WO2021143327A1 (zh) 语音识别方法、装置和计算机可读存储介质
CN107680611B (zh) 基于卷积神经网络的单通道声音分离方法
Feng et al. Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition
KR101807948B1 (ko) 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법
CN110767244B (zh) 语音增强方法
CN112071329A (zh) 一种多人的语音分离方法、装置、电子设备和存储介质
KR20160032536A (ko) 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
KR101807961B1 (ko) Lstm 및 심화신경망 기반의 음성 신호 처리 방법 및 장치
JP2008152262A (ja) 音声特徴ベクトル変換方法及び装置
CN110189761B (zh) 一种基于贪婪深度字典学习的单信道语音去混响方法
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及***
CN112037809A (zh) 基于多特征流结构深度神经网络的残留回声抑制方法
CN115116448B (zh) 语音提取方法、神经网络模型训练方法、装置及存储介质
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
Lin et al. Speech enhancement using forked generative adversarial networks with spectral subtraction
CN117174105A (zh) 一种基于改进型深度卷积网络的语音降噪与去混响方法
CN113823273A (zh) 音频信号处理方法、装置、电子设备及存储介质
Nakagome et al. Mentoring-Reverse Mentoring for Unsupervised Multi-Channel Speech Source Separation.
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
CN113870893A (zh) 一种多通道双说话人分离方法及***
CN113241092A (zh) 基于双注意力机制和多阶段混合卷积网络声源分离方法
Tamura et al. Improvements to the noise reduction neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant