CN111243620B

CN111243620B - 语音分离模型训练方法、装置、存储介质和计算机设备

Info

Publication number: CN111243620B
Application number: CN202010013978.7A
Authority: CN
Inventors: 王珺; 林永业; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2022-07-19
Anticipated expiration: 2040-01-07
Also published as: US20220172708A1; EP4002362B1; US11908455B2; EP4002362A4; WO2021139294A1; EP4002362A1; CN111243620A

Abstract

本申请涉及一种语音分离模型训练方法、装置、计算机可读存储介质和计算机设备，该方法包括：获取第一音频和第二音频；第一音频中包括目标音频且对应存在标注音频；第二音频中包括噪声音频；获取编码模型和提取模型，以及初始的估算模型；根据第二音频对编码模型、提取模型和估算模型进行无监督训练，调整提取模型和估算模型的模型参数；根据第一音频和第一音频对应的标注音频对编码模型和提取模型进行有监督训练，调整编码模型的模型参数；继续进行无监督训练和有监督训练，以使无监督训练和有监督训练交迭进行，直至满足训练停止条件时结束训练。本申请提供的方案可以实现降低模型训练成本。

Description

语音分离模型训练方法、装置、存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音分离模型训练方法、装置、存储介质和计算机设备。

背景技术

语音作为语言的声学表现，是人类交流信息最自然有效的方式之一。人们在进行语音交流的过程中，不可避免地会受到环境噪声或者其他说话人的干扰。这些干扰使得采集到的音频并非纯净的说话人语音。近年来，很多语音分离模型被训练出来用于从混合音频中分离目标说话人语音。然而，目前的语音分离模型通常是采用监督学习的方式进行训练，监督学习需要手工收集或标注高质量的训练样本，这样的训练过程成本昂贵。

发明内容

基于此，有必要针对现有的模型训练方式成本高的技术问题，提供一种语音分离模型训练方法、装置、存储介质和计算机设备。

一种语音分离模型训练方法，包括：

获取第一音频和第二音频；所述第一音频中包括目标音频且对应存在标注音频；所述第二音频中包括噪声音频；

获取编码模型和提取模型，以及初始的估算模型；

根据所述第二音频对所述编码模型、所述提取模型和所述估算模型进行无监督训练，调整所述提取模型和所述估算模型的模型参数；

根据所述第一音频和所述第一音频对应的标注音频对所述编码模型和所述提取模型进行有监督训练，调整所述编码模型的模型参数；

继续进行所述无监督训练和所述有监督训练，以使所述无监督训练和所述有监督训练交迭进行，直至满足训练停止条件时结束训练；

其中，所述编码模型的输出为所述提取模型的输入；所述编码模型的输出和所述提取模型的输出共同为所述估算模型的输入；所述编码模型和所述提取模型联合用于语音分离。

一种语音分离模型训练装置，包括：

获取模块，用于获取第一音频和第二音频；所述第一音频中包括目标音频且对应存在标注音频；所述第二音频中包括噪声音频；获取编码模型和提取模型，以及初始的估算模型；

第一训练模块，用于根据所述第二音频对所述编码模型、所述提取模型和所述估算模型进行无监督训练，调整所述提取模型和所述估算模型的模型参数；

第二训练模块，用于根据所述第一音频和所述第一音频对应的标注音频对所述编码模型和所述提取模型进行有监督训练，调整所述编码模型的模型参数；

交迭模块，用于继续进行所述无监督训练和所述有监督训练，以使所述无监督训练和所述有监督训练交迭进行，直至满足训练停止条件时结束训练；

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述语音分离模型训练方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述语音分离模型训练方法的步骤。

上述语音分离模型训练方法、装置、计算机可读存储介质和计算机设备，提出了一种将无监督学习和监督学习以交迭的方式结合起来的模型训练方式，在预训练的编码模型和提取模型的基础上，结合估算模型，利用无标注的训练样本无监督训练编码模型、提取模型和估算模型，优化提取模型和估算模型的模型参数；利用有标注的训练样本有监督训练编码模型和提取模型，优化编码模型的模型参数，且前述无监督训练和有监督训练交迭进行至结束训练。这样，将无监督学习所学习到的鲁棒可泛化的表征能力与监督学习所学习到的区分能力在迭代中相互优化，使得训练得到的编码模型和提取模型在语音分离时效果更佳，且模型训练过程只需要少量的有标注样本，成本大大降低。

附图说明

图1为一个实施例中语音分离模型训练方法的流程示意图；

图2为一个实施例中语音分离模型训练方法的模型结构示意图；

图3为一个实施例中非监督训练的流程示意图；

图4为一个实施例中监督训练的流程示意图；

图5为一个实施例中语音分离场景的应用环境图；

图6为一个实施例中语音分离的流程示意图；

图7为一个实施例中语音分离模型训练装置的结构框图；

图8为另一个实施例中语音分离模型训练装置的结构框图；

图9为另一个实施例中语音分离模型训练装置的结构框图；

图10为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的语音、机器学习/深度学习等技术，具体通过如下实施例进行说明。

本申请实施例中，通过无监督训练和有监督训练交迭训练结束后所得的编码模型和提取模型，可被联合用于语音分离。语音分离(Speech Separation)可以是指从混合音频中分离出目标音频。这里的混合音频可以是混有噪声的目标说话人语音，也可以是混有其他说话人语音的目标说话人语音。这里的目标音频可以是目标说话人语音。这样，语音分离可以是从混有噪声的目标说话人语音中，分离出纯净的目标说话人语音。

如图1所示，在一个实施例中，提供了一种语音分离模型训练方法。本实施例主要以该方法应用于计算机设备来举例说明。该计算机设备可以是终端或者服务器。参照图1，该语音分离模型训练方法具体包括如下步骤：

S102，获取第一音频和第二音频；第一音频中包括目标音频且对应存在标注音频；第二音频中包括噪声音频。

其中，第一音频和第二音频都是用作模型训练数据的音频。目标音频是作为目标从第一音频中分离出的音频。标注音频是用作模型训练标签的音频。包括目标音频的第一音频的标注音频是纯净的目标音频。第一音频为混合音频，其中还可以包括噪声音频。噪声音频是相对目标音频的概念，除目标音频外的声音信号为噪声音频。目标音频具体可以是说话人的语音或者弹奏乐器的旋律等。噪声音频具体可以是干扰声音、环境声音或者非目标的语音或者旋律等。

举例说明，声音采集装置在远场采集目标说话人的说话声时，周围有环境声音以及其他说话人的说话声。那么，采集到的音频中包括目标说话人的语音，环境声音信号以及其他说话人的语音等；则可将采集到的音频作为第一音频，第一音频中包括的目标音频即为目标说话人的语音，第一音频中包括的噪声音频为环境声音信号以及其他说话人的语音等。

由于，第一音频中包括了目标音频和噪声音频，并对应存在标注音频，这样计算机设备可采用第一音频和对应的标注音频来有监督地训练模型。

第二音频可以是单音频也可以是混合音频。当第二音频为单音频时，第二音频为纯净的噪声音频。当第二音频为纯净的噪声音频时，该噪声音频为背景音频或者干扰音频。可以认为，背景音频和干扰音频不含说话人声音。当第二音频为混合音频时，第二音频中包括目标音频和噪声音频。

由于，第二音频中包括噪声音频，且不存在标注音频，这样计算机设备可采用第二音频来无监督地训练模型。

在一个具体的实施例中，第一音频和第二音频为单通道音频；第一音频为包括目标音频的混合音频；第一音频的标注音频为纯净的目标音频；第二音频包括纯净的噪声音频和包括噪声音频的混合音频。

具体地，第一音频和第二音频均为单个麦克风采集的音频，也就是单通道音频。第一音频为混合音频，其中包括目标音频。第一音频的标注音频为纯净的目标音频。第二音频可以为纯净的噪声音频也可为包括噪声音频的混合音频。

举例说明，目标音频为目标说话人语音，噪声音频为如火车站或者商场等公众场所的环境声音，第一音频为远场录制说话人语音的音频，第一音频的标注语音可以是近场录制说话人语音的音频。第二音频可以是远场录制说话人语音的音频，也可以是没有说话人说话时录制的背景声音。

在一个具体的实施例中，计算机设备可将纯净的目标说话人的语音，与其他说话人的语音混合，或者与环境背景声音混合，得到第一音频；这样可以将纯净的目标说话人的语音作为混合得到的第一音频的标注音频。这里纯净的目标说话人的语音，可以是在安静环境中录制，也可以是由近场麦克风录制。

在一个具体的实施例中，计算机设备可同时采用远场麦克风和近场麦克风采集目标说话人语音，将远场麦克风采集到的音频作为第一音频，将近场麦克风采集到的音频作为第一音频的标注音频。可以理解，远场麦克风距离目标说话人较远，可以认为远场麦克风在采集声音时不仅采集到了目标说话人的语音，还采集到了环境背景声音和/或其他说话人的语音，即认为远场麦克风采集到的是包含了目标说话人语音的混合音频，可作为第一音频。近场麦克风距离目标说话人较近，如在目标说话人嘴边，可以认为近场麦克风采集到的是纯净的目标说话人的语音，即可作为第一音频的标注音频。

S104，获取编码模型和提取模型，以及初始的估算模型；其中，编码模型的输出为提取模型的输入；编码模型的输出和提取模型的输出共同为估算模型的输入；编码模型和提取模型共同用于语音分离。

其中，编码模型(Encoder)是用于将低维数据映射到高维数据的机器学习模型。这里的低维数据的维度低于高维数据的维度，所以分别称为低维数据和高维数据。提取模型(Abstractor)是用于根据输入构建抽象表征的机器学习模型。估算模型(Estimator)是用于估算两个输入之间互信息的机器学习模型。

举例说明，参考图2，编码模型(Encoder)、提取模型(Abstractor)和估算模型(Estimator)之间的连接关系具体可以为：编码模型的输出为提取模型的输入；编码模型的输出和提取模型的输出共同为估算模型的输入。编码模型的输入为标注的混合信号和未标注的混合信号(labeled&unlabeled Speech)、纯净的噪声信号(Noises)的时频点。编码模型将输入域的时频点映射到嵌入空间(Embedding space)，得到嵌入空间的嵌入特征；提取模型再从嵌入特征中提取目标说话人语音的抽象特征(abstract feature)。估算模型的输出为互信息估计量。

编码模型和提取模型共同用于语音分离。即，编码模型和提取模型共同用于从混合音频中分离出目标音频。编码模型和提取模型为语音分离模型的组成部分，语音分离模型包括编码模型和提取模型。

可以理解，在大多数实际采用语音增强、分离的工业应用中，带标注的音频往往只能覆盖很小一部分的应用场景，而大量的数据则是无标注的。除了训练数据获取效率的问题外，仅仅依靠有标注的数据进行监督学习还存在鲁棒性和泛化性方面的问题。例如，一个仅仅采用监督学习对一个有干扰的说话环境中习得的语音特征，往往不能适用于另一种背景噪声环境。这样，在本申请提供的实施例中，计算机设备可利用大量无标注的音频和估算模型，利用无监督学习的表征能力的鲁棒性和可泛化性，来优化监督学习的区分能力；并利用监督学习的区分能力，来优化无监督学习的表征能力。监督训练所学习到的区分能力是区分出混合音频中的目标音频。

计算机设备可获取初始的编码模型、提取模型以及估算模型，对这些模型进行后续的训练，使得训练所得编码模型和提取模型能够联合应用于语音分离。

在一个实施例中，计算机设备可采用有标注的音频有监督地预训练编码模型和提取模型，具体的预训练过程可参考后续实施例中的描述。这样，计算机设备即可获取预训练所得的编码模型和提取模型，以及初始的估算模型；从而对这些模型进行后续的训练，使得模型的精度更高。

在一个具体的实施例中，编码模型(Encoder)和提取模型(Abstractor)具体可以采用双向长短时记忆(Bi-directional Long Short-Term Memory，BiLSTM)结构、长短时记忆(Long Short-Term Memory，BiLSTM)结构、卷积神经网络(Convolutional NeuralNetworks，CNN)结构或者其他网络结果相结合的模型。其他网络结构，例如时延网络结构或者闸控卷积神经网络等。本申请不具体限定模型类型和拓扑结构，可以替换为各种其它有效的新型的模型结构。估算模型(Estimator)可采用特征矩阵计算两个输入之间的内积。

S106，根据第二音频对编码模型、提取模型和估算模型进行无监督训练，调整提取模型和估算模型的模型参数。

其中，无监督训练也可以称为无监督学习，是机器学习模型基于无标注的样本数据进行学习的方式。

在一个实施例中，根据第二音频对编码模型、提取模型和估算模型进行无监督训练，调整提取模型和估算模型的模型参数，包括：通过编码模型对第二音频的音频特征进行编码，得到第二音频的嵌入特征；通过提取模型对第二音频的嵌入特征进行提取，得到第二音频所包括目标音频的抽象特征；通过估算模型，对第二音频的嵌入特征和第二音频所包括目标音频的抽象特征进行处理，得到第二音频和第二音频所包括目标音频的抽象特征之间的互信息估算特征；根据互信息估算特征构建无监督训练损失函数；固定编码模型的模型参数，按照最小化无监督训练损失函数的方向调整提取模型和估算模型的模型参数。

其中，音频特征是将音频的物理信息进行处理得到的数据。物理信息比如频谱信息等。音频特征具体可以是时频特征、Gammatone功率谱特征、频谱幅度特征或者梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征等，其中Gammatone是模拟人耳耳蜗滤波后的特征等。

在一个实施例中，计算机设备可对第二音频进行短时傅里叶变换，得到第二音频的时频点；获取这些时频点所构成的时频特征作为第二音频的音频特征。

具体地，计算机设备可对第二音频进行短时傅里叶变换(Short-time FourierTransform,STFT)，得到第二音频的短时傅里叶谱

其中，T表示时间维度的帧数量，F表示频率维度的频带数量，R表示实数。

在本申请实施例中，将第二音频的短时傅里叶谱作为编码模型的输入数据(训练样本)。那么，由一组无标注的第二音频得到的一组无标注训练样本可以表示为：{X⁽¹⁾,X⁽²⁾,...,X^(L)∈χ}。则每个训练样本可以是输入空间的一组时频点：{x＝X_t,f}_{t＝1,...,T；f＝1,...,F}。其中，X_t,f可以表示为第t帧中第f个频带的时频点。这些时频点所构成的时频特征具体可以是维度为T×F的实数矩阵。

对于目标音频和噪声音频混合的混合音频，该混合音频的时频点X可以认为是目标音频的时频点x与噪声音频的时频点e混合而成。比如，X＝x+e。

另外，由纯净的噪声音频得到的一组无监督的训练样本可以表示为：{X^(L+1),X^(L ⁺²⁾,...,X^(L+U)∈χ}。

在一个具体的实施例中，音频的采样率为16kHz，即每秒16k个采样点。短时傅里叶变换采用25msSTFT窗长、10ms窗移以及257个频带数量。也就是说，在对音频进行分帧时，帧长25ms，窗移10ms，以此得到帧数量T，且F＝257。

在一个实施例中，计算机设备可通过编码模型将低维的音频特征映射到高维的嵌入空间(Embedding Space)，得到嵌入(Embedding)特征。

具体地，计算机设备可将对第二音频进行短时傅里叶变换得到的第二音频的时频点矩阵(时频特征)输入编码模型。编码模型对输入进行非线性运算，将输入嵌入到D维度的嵌入空间，得到第二音频在嵌入空间的嵌入特征。

例如，继续参考图2，编码模型Encoder：

其中，θ为编码模型的模型参数，D为嵌入空间的维度，E_θ表示将输入域χ映射到高维的嵌入空间ν的运算过程。由输入空间的一组时频点所构成的时频特征映射得到的嵌入特征是维度为T×F×D的实数矩阵。

需要说明的是，输入域

表示音频的短时傅里叶谱，T表示时间维度的帧数量，F表示频率维度的频带数量。编码模型的输入是属于输入域的一组时频点(T╳F)，这组时频点也可按帧划分为T个小组，每小组时频点(1╳F)，也就是音频各帧的时频点。那么，输出域的嵌入特征υ也可以是包括音频各帧对应的嵌入特征υ_t，即第二音频的各帧各自对应一个嵌入特征。

在一个具体的实施例中，编码模型可以是4层的BiLSTM结构，每个隐层的节点数为600。BiLSTM结构后接全连接层，将600维的隐向量映射到257*40维的高维Embedding空间。其中，257是STFT频带数量，即T；40为嵌入空间维度，即D。

在一个实施例中，通过提取模型对第二音频的嵌入特征进行提取，得到第二音频所包括目标音频的抽象特征，包括：通过提取模型的第一隐层对第二音频的嵌入特征进行处理，得到第二音频的时频点为目标音频的时频点的预测概率；通过提取模型的第二隐层，按时序地对时频点的嵌入特征与时频点的预测概率进行运算，构建第二音频所包括目标音频的全局的抽象特征。

其中，隐层是网络模型中的一种术语，是相对于输入层和输出层的中间层。隐层中包括对网络模型训练得到的模型参数。这里提取模型的隐层是相对于提取模型的输入层和提取模型的输出层的中间层。可以将提取模型的输入层和输出层之间的所有中间层统称为隐层，也可以对这些中间层进行划分，即多于一层隐层，如第一隐层或者第二隐层。提取模型的隐层可包括多于一个网络结构。每个网络结构可以包括一层或者多于一层网络层。这里可以将提取模型的隐层当作“黑盒”进行理解和描述。

具体地，提取模型的第一隐层对第二音频的嵌入特征进行处理，可以得到第二音频各个时频点被预测为目标音频的时频点的预测概率。提取模型的第二隐层再按时序地对各个时频点的嵌入特征与各个时频点的预测概率进行运算，可以构建出第二音频所包括目标音频的全局的抽象特征。

例如，继续参考图2，提取模型Abstractor：

其中，

为提取模型的模型参数。

表示将嵌入特征υ转换成概率矩阵p，再根据嵌入特征υ和概率矩阵p运算得到抽象特征c的运算过程。p是维度为T×F的实数矩阵。c为维度为D×1或1×D的实数向量。

需要说明的是，编码模型的输入是属于输入域的一组时频点(T╳F)，p是维度为T×F的实数矩阵。那么，p可以为T╳F个时频点各自对应的预测概率组成的概率矩阵。该预测概率表示时频点被预测为目标音频的时频点的概率。

在一个具体的实施例中，提取模型可通过以下公式计算全局的抽象特征：

其中，c∈C,为第二音频所包括目标音频的全局的抽象特征；υ∈v，为嵌入特征；p∈P，为预测概率，t表示帧索引，f表示频带索引。

表示元素点乘。

在一个实施例中，提取模型可对式(1)乘以二值阈值矩阵，以减少低能量噪声的影响，如下所示：

其中，w∈R^TF表示下述二值阈值矩阵：

需要说明的是，为了表示的简洁，本申请实施例提供的公式中省略了c和υ的Embedding维度索引下标。

举例说明，如图3所示，在无监督训练阶段，第二音频的时频点{x＝X_t,f}_{t＝1...,T；f＝1...,F}输入编码(Encoder)模型，输出第二音频各帧对应的嵌入特征{υ_t}_t＝1...,T，{υ_t}_t＝1...,T输入提取(Abstractor)模型得到中间结果，第二音频的各时频点对应的预测概率{p_t,f}_{t＝1...,T；f＝1...,F}，并输出第二音频的全局的抽象特征c。{υ_t}_t＝1...,T与c共同输入估算(Estimator)模型，即可基于估算(Estimator)模型的输出构建无监督损失函数(Unsupervised Loss)。

在一个具体的实施例中，提取模型具体可以采用一种自回归模型，基于本地Embedding特征(第二音频当前帧的嵌入特征)按时序地构出建全局的抽象特征(可能是长时的，即时间分辨率更低)；或者，提取模型也可以采用一种复发性(Recurrent)模型或者一种摘要函数，基于本地Embedding特征构建出全局的抽象特征。

在一个具体的实例中，提取模型Abstractor包括一个全连接层，将257*40维的隐向量映射到600维，然后输入到一个2层的BiLSTM，每个隐层的结点数为600。

在本实施例中，提取模型通过无监督学习从嵌入特征中提取全局的、跨越长时稳定的、“慢”(低时域分辨率)的抽象特征，能够更准确地描述第二音频中隐藏的目标音频的特征，从而后续利用提取模型进行语音分离时更加准确。

需要说明的是，编码模型是将所有输入信息编码到嵌入特征中，而提取模型则仅仅是对输入数据中隐藏的目标信息进行抽象特征的提取，即对第二音频所包括目标音频的抽象特征进行提取。

在一个实施例中，计算机设备可通过估算模型根据第二音频的嵌入特征与第二音频所包括目标音频的抽象特征，估计第二音频与第二音频所包括目标音频的抽象特征的互信息估算特征。

其中，互信息估算特征是与互信息相关的特征。互信息(Mutual Information)是一种信息度量，可以看作是一个变量中包含的关于另一个变量的信息量。可以理解，互信息通常是无法被精确估计出来的，互信息估算特征在本实施例中可以表示为对第二音频与第二音频所包括目标音频的抽象特征之间互信息的一种估量。

具体地，估算模型可将第二音频的嵌入特征与第二音频所包括目标音频的抽象特征联合后进行运算，得到第二音频和第二音频所包括目标音频的抽象特征的互信息估算特征。这里的联合具体可以是拼接，即将第二音频的嵌入特征与第二音频所包括目标音频的抽象特征之间拼接。

例如，继续参考图2，估算模型Estimator：

其中，ω为估算模型的模型参数，T_ω表示估算第二音频与第二音频所包括目标音频的抽象特征c之间的互信息估算特征MI的运算过程，具体地，

其中，g表示将嵌入特征ν和抽象特征c联合在一起的函数，MI为实数。

在一个具体的实施例中，估算模型Estimator具体采用了一个加权矩阵ω∈R^40×40用于计算内积：T_ω(ν,c)＝c^Tωc。

在本实施例中，借助估算模型来估算混合音频与混合音频所包括目标音频的抽象特征之间的互信息，继而可以基于互信息的物理意义，来根据该互信息构建非监督学习的损失函数，从而可以利用构建的损失函数来进行模型训练。

在一个实施例中，根据互信息估算特征构建无监督训练损失函数，包括：根据各时频点的预测概率，划分出预测为正样本的第一时频点；获取作为负样本的第二时频点；第二时频点取自纯净的噪声音频的时频点所服从的噪声提议分布；根据第一时频点对应的互信息估算特征与第二时频点对应的互信息估算特征，构建无监督训练损失函数。

需要说明的是，通常情况下，语音分离任务可以看作是二分类任务。也就是将待分离音频的时频点分类为正样本，即目标音频的时频点；或分类为负样本，即不为目标音频的时频点。在本申请实施例中，可以预先设置概率阈值。当时频点的预测概率达到或者超过该概率阈值时，则将该时频点划分为正样本。

另外，纯净的噪声音频的时频点服从噪声提议分布。可以理解，对于一个无法直接采样的概率分布p(x)，可以通过构造一个常用的概率分布q(x)，使得对于所有的x满足k*q(x)>p(x)；之后再使用拒绝采样方法，对p(x)进行采样，这个q(x)被称为提议分布(proposal distribution)。那么，噪声提议分布可以看作是噪声音频所服从的概率分布的提议分布。计算机设备则可从该噪声提议分布中获取作为负样本的第二时频点。继而根据第一时频点对应的互信息估算特征与第二时频点对应的互信息估算特征，构建无监督训练损失函数。

在一个具体的实施例中，无监督训练损失函数的公式如下所示：

其中，f_Θ(x,c)＝exp(T_ω(E_θ(x),c))；

表示第二音频所包括目标音频的抽象表征。x表示被预测为正样本的时频点，这些时频点的分布

表示x与c的联合分布。计算机设备可将提取模型的中间输出，即各时频点的预测概率p作为p(x,c)的估计值。x'表示提取自纯净的噪声音频的提议分布

的作为负样本的时频点。E_p(z)表示计算服从分布p的变量z的期望。

在另外的实施例中，x'也可以是提取自被预测为非目标音频的时频点和纯净的噪声音频的时频点的集合。

在本申请实施例中，可将该无监督训练损失函数命名为ImNICE(InfoMax Noise-Interference Contractive Estimation，干扰与噪声的最大互信息对比估计)。

在本实施例中，估算(Estimator)模型用于估计两个数据之间的互信息，也可称为互信息估算(MI Estimator)模型。

可以理解，无监督训练损失函数中需要使用到的联合概率分布p(x,c)，可由提取模型的中间输出作为p(x,c)的估计值，而提取模型在预训练阶段和后面的有监督训练阶段得到训练。那么可以看作通过有监督训练有效地估计一个可靠的联合概率分布p(x,c)用于无监督学习。其中，提取模型的中间层输出的各时频点对应的预测概率所服从的概率分布，可作为p(x,c)的估计值。

在一个实施例中，计算机设备可在预训练编码模型和提取模型后，将第二音频的时频点输入编码模型和提取模型，得到第二音频的时频点各自对应的预测概率，并根据各时频点的预测概率划分出预测为目标音频的时频点和不是目标音频的时频点。将预测为目标音频的时频点看作正样本，从不是目标音频的时频点和净噪声音频的时频点中选取负样本。并将提取模型的中间层输出的各时频点对应的预测概率所服从的概率分布，作为后续无监督学习中p(x,c)的估计值。这样，将样本的划分和联合概率分布的确定抽出在无监督训练迭代过程的外部进行，可减少每次迭代的计算量，但收敛可能较慢。

在一个实施例中，计算机设备可在无监督训练中，将第二音频的时频点输入编码模型和提取模型，得到第二音频的时频点各自对应的预测概率，并根据各时频点的预测概率划分出预测为目标音频的时频点和不是目标音频的时频点。将预测为目标音频的时频点看作正样本，从不是目标音频的时频点和净噪声音频的时频点中选取负样本。并将提取模型的中间层输出的各时频点对应的预测概率所服从的概率分布，作为本次迭代中p(x,c)的估计值。这样，将样本的划分和联合概率分布的确定在无监督训练迭代过程的内部进行，可提高收敛速度，但会为每次迭代带来更多的计算量。

在本实施例中，借助互信息的物理意义构建无监督训练函数，并利用有监督学习中学习到的区分能力进行无监督学习，有效地将无监督学习和有监督学习结合起来，并相互促进相互优化，提高了模型训练效率和效果。

进一步地，计算机设备可固定编码模型的模型参数，按照最小化无监督训练损失函数的方向调整提取模型和估算模型的模型参数。

上述实施例中，利用大量未标注的第二音频进行无监督训练，在无监督学习阶段中编码模型参数固定不被更新，只更新提取模型和估算模型的模型参数，可以基于上一阶段预训练构建的稳定的区分嵌入特征空间来计算抽象特征，利用有监督学习到的能力来优化无监督过程中的提取能力，从而从受干扰的混合信号中对隐藏信息提取具有鲁棒性和泛化性的抽象表征。

在一个具体的实施例中，计算机设备可设置批处理数据的大小为32，初始学习率为0.0001，学习率的权重下降系数为0.8，编码模型(Enoder)的输出层结点数设为40，每段音频随机降采样帧数为32，公式(1)中每个正样本对应的负样本个数为63。正样本预测概率的概率阈值为0.5。

S108，根据第一音频和第一音频对应的标注音频对编码模型和提取模型进行有监督训练，调整编码模型的模型参数。

其中，有监督训练也可称为监督学习，是机器学习模型基于有标注的样本数据进行学习的方式。在本申请实施例中，有监督学习和无监督学习共享同一个编码(Encoder)模型和提取(Abstractor)模型。

在一个实施例中，根据第一音频和第一音频对应的标注音频对编码模型和提取模型进行有监督训练，调整编码模型的模型参数，包括：通过编码模型对第一音频的音频特征进行编码，得到第一音频的嵌入特征；通过提取模型对第一音频的嵌入特征进行提取，得到第一音频所包括目标音频的抽象特征；根据第一音频的标注音频、第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，构建有监督训练损失函数；固定提取模型的模型参数，按照最小化有监督训练损失函数的方向调整编码模型的模型参数。

在一个实施例中，计算机设备可对第一音频进行傅里叶变换，得到第一音频的音频特征。比如，对第一音频进行短时傅里叶变换，得到第一音频的时频点；获取时频点所构成的时频特征作为第一音频的音频特征。

具体地，计算机设备可对第一音频进行短时傅里叶变换(Short-time FourierTransform,STFT)，得到第一音频的短时傅里叶谱

在本申请实施例中，将第一音频的短时傅里叶谱作为编码模型的输入数据(训练样本)。那么，由一组有标注的第一音频得到的一组有标注训练样本可以表示为：{X^(L+U+1),X^(L+U+2),...,X^(L+U+N)∈χ}。则每个训练样本可以是输入空间的一组时频点：{x＝X_t,f}_{t＝1,...,T；f＝1,...,F}。其中，X_t,f可以表示为第t帧中第f个频带的时频点。这些时频点所构成的时频特征具体可以是维度为T×F的实数矩阵。

在另外的实施例中，计算机设备也可计算第一音频的Gammatone功率谱特征、频谱幅度特征或者梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)特征等，作为第一音频的音频特征。

具体地，计算机设备可将对第一音频进行短时傅里叶变换得到的第一音频的时频点矩阵(时频特征)输入编码模型。编码模型对输入进行非线性运算，将输入嵌入到D维度的嵌入空间，得到第一音频在嵌入空间的嵌入特征。

例如，编码模型Encoder：

其中，θ为编码模型的模型参数，D为嵌入空间的维度，E_θ表示将输入域χ映射到高维的嵌入空间ν的运算过程。由输入空间的一组时频点所构成的时频特征映射得到的嵌入特征是维度为T×F×D的实数矩阵。需要说明的是，输入域

表示音频的短时傅里叶谱，T表示时间维度的帧数量，F表示频率维度的频带数量。编码模型的输入是属于输入域的一组时频点(T╳F)，这组时频点也可按帧划分为T个小组，每小组时频点(1╳F)，也就是音频各帧的时频点。那么，输出域的嵌入特征υ也可以是包括音频各帧对应的嵌入特征υ_t，即第二音频的各帧各自对应一个嵌入特征，也可称为时变的嵌入特征。

在一个实施例中，计算机设备可通过提取模型的第一隐层对嵌入特征进行处理，得到第一音频的时频点为目标音频的时频点的预测概率；通过提取模型的第二隐层，对时频点的嵌入特征与时频点的预测概率进行运算，构建第一音频所包括目标音频的时变的抽象特征。

具体地，提取模型的第一隐层对第一音频的嵌入特征进行处理，可以得到第一音频各个时频点被预测为目标音频的时频点的预测概率。提取模型的第二隐层再对各个时频点的嵌入特征与各个时频点的预测概率进行运算，可以构建出第一音频所包括目标音频的时变的抽象特征。

例如，提取模型Abstractor：

其中，

为提取模型的模型参数。

表示将嵌入特征υ转换成概率矩阵p，再根据嵌入特征υ和概率矩阵p运算得到抽象特征c的运算过程。p是维度为T×F的实数矩阵。c为维度为D×1或1×D的实数向量。需要说明的是，编码模型的输入是属于输入域的一组时频点(T╳F)，p是维度为T×F的实数矩阵。那么，p可以为T╳F个时频点各自对应的预测概率组成的概率矩阵。该预测概率表示时频点被预测为目标音频的时频点的概率。

在一个具体的实施例中，提取模型可通过以下公式计算时变的抽象特征：

其中，c_t∈C,为第一音频所包括目标音频第t帧的抽象特征，即第一音频所包括目标音频的时变的抽象特征；υ_t∈v，为嵌入特征；p_t∈P，为预测概率；t表示帧索引，f表示频带索引；

表示元素点乘。

在一个实施例中，提取模型可对式(5)乘以二值阈值矩阵，以减少低能量噪声的影响，如下所示：

其中，w∈R^TF表示的二值阈值矩阵同前述实施例中的式(3)。

举例说明，如图4所示，在有监督训练阶段，第一音频的时频点{x＝X_t,f}_{t＝1...,T；f＝1...,F}输入编码(Encoder)模型，输出第一音频各帧对应的嵌入特征{υ_t}_t＝1...,T，{υ_t}_t＝1...,T输入提取(Abstractor)模型得到中间结果，第一音频的各时频点对应的预测概率{p_t,f}_{t＝1...,T；f＝1...,F}，并输出第一音频的时变的抽象特征{c_t}_t＝1...,T。基于{x＝X_t,f}_{t＝1...,T；f＝1...,F}、{υ_t}_t＝1...,T和{c_t}_t＝1...,T即可构建有监督损失函数(SupervisedLoss)。

在一个具体的实施例中，提取模型具体可以采用一种自回归模型，基于本地Embedding特征(第二音频各帧的嵌入特征)构建出时变的抽象特征；或者，提取模型也可以采用一种复发性(Recurrent)模型或者一种摘要函数，基于本地Embedding特征(第二音频各帧的嵌入特征)构建出时变的抽象特征。

在本实施例中，提取模型通过有监督学习从嵌入特征中提取时域的、高时域分辨率的抽象特征，能够更准确地重建混和音频中目标音频的频谱，从而进行有监督学习。

在一个实施例中，计算机设备可根据第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，确定第一音频所包括目标音频的频谱掩码；基于频谱掩码，重建目标音频；根据重建的目标音频与第一音频的标注音频之间的差异，构建有监督训练损失函数预训练编码模型和提取模型。

其中，频谱掩码(Mask)用于从混合音频中分离其中包括的音频的频谱。例如，假设一个混合音频(mixed speech)中包括一个目标对象即一个目标说话人，对应语音1，且语音1对应频谱掩码(mask1，简写为M1)，通过M1与混合音频的频谱相乘，可得到分离出的语音1对应的语音频谱。

具体地，在有监督训练中，计算机设备可以重建类型的目标函数作为有监督训练损失函数，通过这种类型的目标函数，有监督训练的模型能够一定程度上保证中间学习到的特征是对目标音频的编码。这也表明了通过结合有监督训练的区分学习能力来有效地估计可靠的联合概率分布用于无监督训练的理由。

在一个具体的实施例中，有监督训练损失函数具体可以是估计目标音频的频谱和标注音频的频谱之间的MSE(Mean Square Error，均方误差)：

其中，θ和ψ为模型参数，c_t是式(6)计算出的时变的抽象特征，υ_t是时变的嵌入特征。

是重建的目标音频的频谱，x为标注音频的频谱。基于MSE损失函数的监督学习可以有效地利用有标注的训练数据来规整区分embedding特征空间。

在另外的实施例中，有监督训练函数也可以采用其它重建类型的目标函数。如，比例不变信噪比(Scale-invariant signal-to-noise ratio,SI-SNR)目标函数等。

进一步地，计算机设备可固定提取模型和估算模型的模型参数，按照最小化有监督训练损失函数的方向调整编码模型的模型参数。

上述实施例中，利用有标注的第一音频进行有监督训练，在有监督学习阶段中提取模型和估算模型参数固定不被更新，只更新编码模型的模型参数，可以基于上一阶段无监督训练得到的更鲁棒和通用的抽象特征来进一步精细调整嵌入空间区分性的嵌入特征。

S110，继续进行无监督训练和有监督训练，以使无监督训练和有监督训练交迭进行，直至满足训练停止条件时结束训练。

可以理解，一方面，监督学习可以有效地利用有标注的数据来规整区分嵌入特征空间，但是它受限于数据效率、鲁棒性和泛化性等问题；另一方面，无监督学习是一种通过未标注的数据提高鲁棒性和泛化性的强有力的学习方法。在本申请实施例中，提出了一种交迭监督-无监督学习(ASU)的模型训练方式，使同一的架构中被共享的网络模型被监督-无监督这两种机制轮替交迭地更新。

具体地，预训练阶段训练得到编码(Encoder)模型和提取(Abstractor)模型，通过编码(Encoder)模型构建一个相对稳定的区分嵌入(Embedding)特征空间；之后接下来的无监督学习和监督学习过程交迭地进行直到模型收敛。

无监督学习阶段，此过程中编码(Encoder)模型的模型参数固定不被更新，只更新提取(Abstractor)模型和估算(Estimator)模型的模型参数，从而基于上一阶段构建的稳定的区分嵌入(Embedding)特征空间来计算抽象特征。监督学习阶段，此过程中提取(Abstractor)模型和估算(Estimator)模型固定不被更新，只更新编码(Encoder)模型的模型参数，从而基于上一阶段得到的更鲁棒和通用的抽象特征来进一步精细调整区分嵌入(Embedding)特征空间。

在一个实施例中，计算机设备可从第一音频中划分出一部分作为测试数据，当在测试数据上的MSE损失连续预定次数的迭代都没有改善，可以认为模型达到收敛可以停止训练。而且根据实际的训练和测试发现交迭监督-无监督学习(ASU)过程中的无监督学习阶段和有监督学习阶段的交迭训练所需的时间远小于预训练的时间。这是由于交迭阶段主要是基于预训练得到的模型进行微调，所以很快能够达到收敛。

在一个实施例中，可采用直观的突出导向选择机制。即在模型训练阶段，选择能量最大的说话人语音作为目标音频。而在模型使用阶段，模型能够在不被提供任何目标线索的条件下，自动选择和跟踪能量最大的目标说话人语音。这里训练方式可以用其它替代方案，典型地如，排列不变式训练方法(Permutation Invariant Training,PIT)。PIT通过计算所有可能的对应目标说话人语音和干扰信号的抽象特征提取

的排列中目标函数的最低值来确定正确的输出排列：

上述模型训练方法，提出了一种将无监督学习和监督学习以交迭的方式结合起来的模型训练方式，在预训练的编码模型和提取模型的基础上，结合估算模型，利用无标注的训练样本无监督训练编码模型、提取模型和估算模型，优化提取模型和估算模型的模型参数；利用有标注的训练样本有监督训练编码模型和提取模型，优化编码模型的模型参数，且前述无监督训练和有监督训练交迭进行至结束训练。这样，将无监督学习所学习到的鲁棒可泛化的表征能力与监督学习所学习到的区分能力在迭代中相互优化，使得训练得到的编码模型和提取模型在语音分离时效果更佳，且模型训练过程只需要少量的有标注样本，成本大大降低。

在一个实施例中，语音分离模型训练方法还包括：预训练编码模型和提取模型的步骤。该步骤具体包括：对第一音频进行傅里叶变换，得到第一音频的音频特征；通过编码模型对音频特征进行编码，得到第一音频的嵌入特征；通过提取模型对嵌入特征进行提取，得到第一音频所包括目标音频的抽象特征；根据第一音频的标注音频、第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，构建有监督训练损失函数预训练编码模型和提取模型。

在本申请实施例中，预训练编码模型和提取模型的方式是有监督训练。有监督的训练过程与S108的过程类似，但预训练阶段编码模型和提取模型的模型参数都会被更新。

在一个实施例中，对第一音频进行傅里叶变换，得到第一音频的音频特征，包括：对第一音频进行短时傅里叶变换，得到第一音频的时频点；获取时频点所构成的时频特征作为第一音频的音频特征。

例如，编码模型Encoder：

在一个实施例中，通过提取模型对嵌入特征进行提取，得到第一音频所包括目标音频的抽象特征，包括：通过提取模型的第一隐层对嵌入特征进行处理，得到第一音频的时频点为目标音频的时频点的预测概率；通过提取模型的第二隐层，对时频点的嵌入特征与时频点的预测概率进行运算，构建第一音频所包括目标音频的时变的抽象特征。

例如，提取模型Abstractor：

其中，

为提取模型的模型参数。

在一个具体的实施例中，提取模型可通过上述公式(5)或公式(6)计算时变的抽象特征。

在一个具体的实施例中，提取模型具体可以采用一种自回归模型，基于本地Embedding特征(第二音频当前帧的嵌入特征)构建出时变的抽象特征；或者，提取模型也可以采用一种复发性(Recurrent)模型或者一种摘要函数，基于本地Embedding特征构建出时变的抽象特征。

在一个实施例中，根据第一音频的标注音频、第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，构建有监督训练损失函数预训练编码模型和提取模型，包括：根据第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，确定第一音频所包括的目标音频的频谱掩码；基于频谱掩码，重建目标音频；根据重建的目标音频与第一音频的标注音频之间的差异，构建有监督训练损失函数预训练编码模型和提取模型。

其中，重建的是目标音频的频谱。具体地，在有监督训练中，计算机设备可以重建类型的目标函数作为有监督训练损失函数，通过这种类型的目标函数，有监督训练的模型能够一定程度上保证中间学习到的特征是对目标音频的编码。这也表明了通过结合有监督训练的区分学习能力来有效地估计可靠的联合概率分布用于无监督训练的理由。

在一个具体的实施例中，有监督训练损失函数具体可以是估计目标音频的频谱和标注音频的频谱之间的MSE(Mean Square Error，均方误差)如上述式(7)。

进一步地，计算机设备可按照最小化有监督训练损失函数的方向，调整编码模型和提取模型的模型参数。

上述实施例中，利用有标注的第一音频进行有监督训练，预训练编码模型和提取模型，通过编码模型构建出一个相对稳定的区分嵌入特征空间，并基于该稳定的区分嵌入特征空间来有效地估计可靠的联合概率分布用于后续的无监督学习。

在一个具体的实施例中，有标注的第一音频为有标注的混合信号(mixturesamples)，无标注的第二音频包括无标注的混合信号和净噪声信号。

计算机设备在联合训练编码模型、提取模型和估算模型时，可获取有标注的混合信号的频谱{X^(L+U+1),X^(L+U+2),...,X^(L+U+N)∈χ}、无标注的混合信号的频谱{X⁽¹⁾,X⁽²⁾,...,X^(L)∈χ}以及净噪声信号的频谱{X^(L+1),X^(L+2),...,X^(L+U)∈χ}。将这些频谱的时频点{x＝X_t,f}_{t＝1,...,T；f＝1,...,F}作为输入数据。其中，T表示时间维度的帧数量，F表示频率维度的频带数量，X_t,f可以表示为第t帧中第f个频带的时频点。例如，混合信号具体可以采用16KHz采样率，信号的频谱具体可以可采用25msSTFT窗长，10ms窗移，257个STFT频带个数。

计算机设备可设置批处理数据的大小、初始学习率α和β以及学习率的权重下降系数。比如，具体可设置批处理数据的大小为32，初始学习率为0.0001，学习率的权重下降系数为0.8。

预训练阶段，计算机设备可将有标注的混合信号按批处理数据的大小，分成多于一批混合信号。对于每一批(each batch)混合信号的时频点，输入编码模型和提取模型后，基于前述式(7)，计算

更新编码模型encoder和提取模型abstractor的模型参数(θ,ψ)，直至模型收敛。

计算机设备然后通过预训练的提取模型计算预测概率p，将有标注的混合信号和无标注的混合信号的时频点，划分成时频点正样本和时频点负样本。

其中，Γ⁺和Γ^-为概率阈值。比如，Γ⁺＝0.5。

交迭训练阶段，计算机设备可将混合信号按批处理数据的大小，分成多于一批混合信号。对于时频点正样本

随机从噪声干扰联合集

中选取K个时频点负样本。从而基于上述式(4)根据

更新提取模型abstractor和互信息估算模型MIestimator的模型参数(ψ,ω)，基于上述式(7)，根据

更新编码模型encoder的模型参数θ，直至模型收敛。

其中，Encoder的输出层结点数设为40，每段混合信号随机降采样帧数为32，公式(4)中每个正样本对应的负样本个数为63。划分成时频点正样本和时频点负样本的操作，可以在交迭训练阶段的迭代外部，也可以在交迭训练阶段的迭代内部。两者的区别在于前者每次迭代计算量更小但收敛可能较慢；后者每次迭代计算量更大但收敛较快。当模型的MSE损失连续3次训练迭代都没有改善时，则可以认为训练达到收敛并结束训练。

在一个实施例中，该语音分离模型训练方法还包括模型使用步骤，该模型使用步骤具体包括：获取待进行语音分离的混合音频；通过无监督训练和有监督训练交迭结束后所得的编码模型，对混合音频的音频特征进行处理，得到混合音频的嵌入特征；通过无监督训练和有监督训练交迭结束后所得的提取模型，对混合音频的嵌入特征进行处理，得到混合音频所包括目标音频的抽象特征；根据混合音频的嵌入特征和混合音频所包括目标音频的抽象特征，重建混合音频中的目标音频。

其中，待进行语音分离的混合音频是混有目标音频的音频。目标音频具体可以为目标说话人语音。混合音频具体可以是在多于一个说话人的会话场景中录制的音频，或者是在嘈杂的环境中录制的说话人语音等。

举例说明，图5示出了一个实施例中语音分离场景的示意图。参考图5，该图中包括多于一个说话人。在这些说话人进行会话时，通过远场麦克风采集音频，得到混合音频。远场麦克风将采集到的音频数据传递至计算机设备，计算机设备即获取待进行语音分离的混合音频。

参考图6，具体地，计算机设备获取到待进行语音分离的混合音频后，可将混合音频进行短时傅里叶变换，得到混合音频的短时傅里叶谱；然后将该短时傅里叶谱的时频点输入通过无监督训练和有监督训练交迭结束后所得的编码模型，该编码模型输出混合音频的嵌入特征，在将混合音频的嵌入特征输入通过无监督训练和有监督训练交迭结束后所得的提取模型，该提取模型输出混合音频所包括目标音频的抽象特征。计算机设备在根据混合音频的嵌入特征和混合音频所包括目标音频的抽象特征，生成混合音频中的目标音频的频谱掩码；然后再根据混合音频的短时傅里叶谱得到目标音频的频谱，从而分离出目标音频。

在本实施例中，通过无监督训练和有监督训练交迭结束后所得的编码模型和提取模型，能够从混合信号中有效地提取鲁棒的、可泛化的隐藏信号的特征，从而更有利于从混合信号中分离出隐藏信号。

另外，在多种干扰环境多种信噪比条件下，包括0dB-20dB的音乐背景声干扰、其他说话人干扰以及背景噪声干扰。本申请测试对比了其它已有的利用了无监督学习的方法。测试结果表明本申请提出的模型训练方式在语音分离性能，包括所测试的语音质量感知评估(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-termObjective intelligibility,STOI)以及信号失真比(Signal-to-distortion ratio,SDR)等指标方面，以及稳定性方面，均优于这些已有方法。而且，本申请提供的模型训练方式能够自动学习到混合音频中包括的目标音频的特征(如混合信号中隐藏的目标说话人的语音的特征)，不需要额外的排列不变式训练方法(Permutation Invariant Training,PIT)处理、说话人追踪机制或由专家定义的处理和调节等。

在本申请实施例中，基于提供的模型训练方法，被训练的编码模型和提取模型，能够从有干扰的混合信号中，有效地学习到鲁棒的、可泛化的隐藏信号的特征。此外，在本申请实施例可以挖掘利用真实工业应用场景中的大量未标记的数据，而且当模型训练的数据场景和模型真实使用的数据场景越不匹配时，在本申请实施例提供的交迭监督学习和无监督学习的训练方式的优势越明显。

本申请实施例训练得到的编码模型和提取模型能够很好地应用到单通道语音的分离中，典型的鸡尾酒问题也能很好地解决。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示，在一个实施例中，提供了一种语音分离模型训练装置700。参照图7，该语音分离模型训练装置700包括：获取模块701、第一训练模块702、第二训练模块703和交迭模块704。

获取模块701，用于获取第一音频和第二音频；第一音频中包括目标音频且对应存在标注音频；第二音频中包括噪声音频；获取编码模型和提取模型，以及初始的估算模型；其中，编码模型的输出为提取模型的输入；编码模型的输出和提取模型的输出共同为估算模型的输入；编码模型和提取模型联合用于语音分离。

第一训练模块702，用于根据第二音频对编码模型、提取模型和估算模型进行无监督训练，调整提取模型和估算模型的模型参数。

第二训练模块703，用于根据第一音频和第一音频对应的标注音频对编码模型和提取模型进行有监督训练，调整编码模型的模型参数。

交迭模块704，用于继续进行无监督训练和有监督训练，以使无监督训练和有监督训练交迭进行，直至满足训练停止条件时结束训练。

如图8所示，在一个实施例中，语音分离模型训练装置700还包括：预训练模块705，用于对第一音频进行傅里叶变换，得到第一音频的音频特征；通过编码模型对音频特征进行编码，得到第一音频的嵌入特征；通过提取模型对嵌入特征进行提取，得到第一音频所包括目标音频的抽象特征；根据第一音频的标注音频、第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，构建有监督训练损失函数预训练编码模型和提取模型。

在一个实施例中，预训练模块705还用于对第一音频进行短时傅里叶变换，得到第一音频的时频点；获取时频点所构成的时频特征作为第一音频的音频特征。

在一个实施例中，预训练模块705还用于通过提取模型的第一隐层对嵌入特征进行处理，得到第一音频的时频点为目标音频的时频点的预测概率；通过提取模型的第二隐层，对时频点的嵌入特征与时频点的预测概率进行运算，构建第一音频所包括目标音频的时变的抽象特征。

在一个实施例中，预训练模块705还用于根据第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，确定第一音频所包括目标音频的频谱掩码；基于频谱掩码，重建目标音频；根据重建的目标音频与第一音频的标注音频之间的差异，构建有监督训练损失函数预训练编码模型和提取模型。

在一个实施例中，第一训练模块702还用于通过编码模型对第二音频的音频特征进行编码，得到第二音频的嵌入特征；通过提取模型对第二音频的嵌入特征进行提取，得到第二音频所包括目标音频的抽象特征；通过估算模型，对第二音频的嵌入特征和第二音频所包括目标音频的抽象特征进行处理，得到第二音频和第二音频所包括目标音频的抽象特征之间的互信息估算特征；根据互信息估算特征构建无监督训练损失函数；固定编码模型的模型参数，按照最小化无监督训练损失函数的方向调整提取模型和估算模型的模型参数。

在一个实施例中，第一训练模块702还用于通过提取模型的第一隐层对第二音频的嵌入特征进行处理，得到第二音频的时频点为目标音频的时频点的预测概率；通过提取模型的第二隐层，按时序地对时频点的嵌入特征与时频点的预测概率进行运算，构建第二音频所包括目标音频的全局的抽象特征。

在一个实施例中，第一训练模块702还用于根据各时频点的预测概率，划分出预测为正样本的第一时频点；获取作为负样本的第二时频点；第二时频点取自纯净的噪声音频的时频点所服从的噪声提议分布；根据第一时频点对应的互信息估算特征与第二时频点对应的互信息估算特征，构建无监督训练损失函数。

在一个实施例中，第二训练模块703还用于通过编码模型对第一音频的音频特征进行编码，得到第一音频的嵌入特征；通过提取模型对第一音频的嵌入特征进行提取，得到第一音频所包括目标音频的抽象特征；根据第一音频的标注音频、第一音频的嵌入特征和第一音频所包括目标音频的抽象特征，构建有监督训练损失函数；固定提取模型的模型参数，按照最小化有监督训练损失函数的方向调整编码模型的模型参数。

如图9所示，在一个实施例中，语音分离模型训练装置700还包括：使用模块706，用于获取待进行语音分离的混合音频；通过无监督训练和有监督训练交迭结束后所得的编码模型，对混合音频的音频特征进行处理，得到混合音频的嵌入特征；通过无监督训练和有监督训练交迭结束后所得的提取模型，对混合音频的嵌入特征进行处理，得到混合音频所包括目标语音的抽象特征；根据混合音频的嵌入特征和混合音频所包括目标音频的抽象特征，重建混合音频中的目标语音。

在一个实施例中，第一音频和第二音频为单通道音频；第一音频为包括目标音频的混合音频；第一音频的标注音频为纯净的目标音频；第二音频包括纯净的噪声音频和包括噪声音频的混合音频。

图10示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图3中的终端110或服务器120。如图10所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音分离模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音分离模型训练方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音分离模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音分离模型训练装置的各个程序模块，比如，图7所示的获取模块701、第一训练模块702、第二训练模块703和交迭模块704。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音分离模型训练方法中的步骤。

例如，图10所示的计算机设备可以通过如图7所示的语音分离模型训练装置中的获取模块701执行获取第一音频和第二音频；第一音频中包括目标音频且对应存在标注音频；第二音频中包括噪声音频；获取编码模型和提取模型，以及初始的估算模型的步骤；其中，编码模型的输出为提取模型的输入；编码模型的输出和提取模型的输出共同为估算模型的输入；编码模型和提取模型联合用于语音分离。通过第一训练模块702执行根据第二音频对编码模型、提取模型和估算模型进行无监督训练，调整提取模型和估算模型的模型参数的步骤。通过第二训练模块703执行根据第一音频和第一音频对应的标注音频对编码模型和提取模型进行有监督训练，调整编码模型的模型参数的步骤。通过交迭模块704执行继续进行无监督训练和有监督训练，以使无监督训练和有监督训练交迭进行，直至满足训练停止条件时结束训练的步骤。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语音分离模型训练方法的步骤。此处语音分离模型训练方法的步骤可以是上述各个实施例的语音分离模型训练方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述语音分离模型训练方法的步骤。此处语音分离模型训练方法的步骤可以是上述各个实施例的语音分离模型训练方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音分离模型训练方法，包括：

获取编码模型和提取模型，以及初始的估算模型；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第一音频进行傅里叶变换，得到所述第一音频的音频特征；

通过编码模型对所述音频特征进行编码，得到所述第一音频的嵌入特征；

通过提取模型对所述嵌入特征进行提取，得到所述第一音频所包括目标音频的抽象特征；

根据所述第一音频的标注音频、所述第一音频的嵌入特征和所述第一音频所包括目标音频的抽象特征，构建有监督训练损失函数预训练所述编码模型和所述提取模型。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一音频进行傅里叶变换，得到所述第一音频的音频特征，包括：

对所述第一音频进行短时傅里叶变换，得到所述第一音频的时频点；

获取所述时频点所构成的时频特征作为所述第一音频的音频特征。

4.根据权利要求3所述的方法，其特征在于，所述通过提取模型对所述嵌入特征进行提取，得到所述第一音频所包括目标音频的抽象特征，包括：

通过所述提取模型的第一隐层对所述嵌入特征进行处理，得到所述第一音频的时频点为目标音频的时频点的预测概率；

通过所述提取模型的第二隐层，对时频点的嵌入特征与时频点的预测概率进行运算，构建所述第一音频所包括目标音频的时变的抽象特征。

5.根据权利要求2所述的方法，其特征在于，所述根据所述第一音频的标注音频、所述第一音频的嵌入特征和所述第一音频所包括目标音频的抽象特征，构建有监督训练损失函数预训练所述编码模型和所述提取模型，包括：

根据所述第一音频的嵌入特征和所述第一音频所包括目标音频的抽象特征，确定所述第一音频所包括目标音频的频谱掩码；

基于所述频谱掩码，重建所述目标音频；

根据重建的所述目标音频与所述第一音频的标注音频之间的差异，构建有监督训练损失函数预训练所述编码模型和所述提取模型。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第二音频对所述编码模型、所述提取模型和所述估算模型进行无监督训练，调整所述提取模型和所述估算模型的模型参数，包括：

通过所述编码模型对所述第二音频的音频特征进行编码，得到所述第二音频的嵌入特征；

通过所述提取模型对所述第二音频的嵌入特征进行提取，得到所述第二音频所包括目标音频的抽象特征；

通过所述估算模型，对所述第二音频的嵌入特征和所述第二音频所包括目标音频的抽象特征进行处理，得到所述第二音频和所述第二音频所包括目标音频的抽象特征之间的互信息估算特征；

根据所述互信息估算特征构建无监督训练损失函数；

固定所述编码模型的模型参数，按照最小化所述无监督训练损失函数的方向调整所述提取模型和所述估算模型的模型参数。

7.根据权利要求6所述的方法，其特征在于，所述通过所述提取模型对所述第二音频的嵌入特征进行提取，得到所述第二音频所包括目标音频的抽象特征，包括：

通过所述提取模型的第一隐层对所述第二音频的嵌入特征进行处理，得到所述第二音频的时频点为目标音频的时频点的预测概率；

通过所述提取模型的第二隐层，按时序地对时频点的嵌入特征与时频点的预测概率进行运算，构建所述第二音频所包括目标音频的全局的抽象特征。

8.根据权利要求7所述的方法，其特征在于，所述根据所述互信息估算特征构建无监督训练损失函数，包括：

根据各时频点的预测概率，划分出预测为正样本的第一时频点；

获取作为负样本的第二时频点；所述第二时频点取自纯净的噪声音频的时频点所服从的噪声提议分布；

根据第一时频点对应的互信息估算特征与第二时频点对应的互信息估算特征，构建无监督训练损失函数。

9.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频和所述第一音频对应的标注音频对所述编码模型和所述提取模型进行有监督训练，调整所述编码模型的模型参数，包括：

通过所述编码模型对所述第一音频的音频特征进行编码，得到所述第一音频的嵌入特征；

通过所述提取模型对所述第一音频的嵌入特征进行提取，得到所述第一音频所包括目标音频的抽象特征；

根据所述第一音频的标注音频、所述第一音频的嵌入特征和所述第一音频所包括目标音频的抽象特征，构建有监督训练损失函数；

固定所述提取模型的模型参数，按照最小化所述有监督训练损失函数的方向调整所述编码模型的模型参数。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

获取待进行语音分离的混合音频；

通过所述无监督训练和所述有监督训练交迭结束后所得的编码模型，对所述混合音频的音频特征进行处理，得到所述混合音频的嵌入特征；

通过所述无监督训练和所述有监督训练交迭结束后所得的提取模型，对所述混合音频的嵌入特征进行处理，得到所述混合音频所包括目标语音的抽象特征；

根据所述混合音频的嵌入特征和所述混合音频所包括目标音频的抽象特征，重建所述混合音频中的目标语音。

11.根据权利要求1至9中任一项所述的方法，其特征在于，所述第一音频和第二音频为单通道音频；所述第一音频为包括目标音频的混合音频；所述第一音频的标注音频为纯净的所述目标音频；所述第二音频包括纯净的噪声音频和包括噪声音频的混合音频。

12.一种语音分离模型训练装置，包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

预训练模块，用于对所述第一音频进行傅里叶变换，得到所述第一音频的音频特征；通过编码模型对所述音频特征进行编码，得到所述第一音频的嵌入特征；通过提取模型对所述嵌入特征进行提取，得到所述第一音频所包括目标音频的抽象特征；根据所述第一音频的标注音频、所述第一音频的嵌入特征和所述第一音频所包括目标音频的抽象特征，构建有监督训练损失函数预训练所述编码模型和所述提取模型。

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。