CN113782048A

CN113782048A - 多模态语音分离方法、训练方法及相关装置

Info

Publication number: CN113782048A
Application number: CN202111122074.9A
Authority: CN
Inventors: 潘峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-10
Anticipated expiration: 2041-09-24
Also published as: CN113782048B

Abstract

本申请公开了一种多模态语音分离方法、训练方法及相关装置，所述多模态语音分离方法，包括：获得包含目标用户的唇部视频信息和音频信息；根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音；其中，所述多模态语音分离网络中包括唇形特征提取子网络，且在训练所述多模态语音分离网络之前采用无监督训练集对所述唇形特征提取子网络进行预训练。通过上述方式，本申请能够提高多模态语音分离网络对各类语种、各类方言的泛化性。

Description

多模态语音分离方法、训练方法及相关装置

技术领域

本申请属于语音识别技术领域，具体涉及一种多模态语音分离方法、训练方法及相关装置。

背景技术

随着人机交互方式的不断发展，从传统的触控交互，到语音交互，再到现在的多模态人机交互，其所带来的高效、便捷、舒适、安全等特点成为用户新的追求。多模态语音分离作为多模态前端最重要的技术之一，成为相关领域研究人员研究的热点。其中，多模态语音分离的效果、运行效率、以及在各类语种及方言上的通用性等是最核心的问题。

发明内容

本申请提供一种多模态语音分离方法、训练方法及相关装置，以提高多模态语音分离网络对各类语种、各类方言的泛化性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种多模态语音分离方法，包括：获得包含目标用户的唇部视频信息和音频信息；根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音；其中，所述多模态语音分离网络中包括唇形特征提取子网络，且在训练所述多模态语音分离网络之前采用无监督训练集对所述唇形特征提取子网络进行预训练。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种多模态语音分离网络训练方法，包括：采用无监督训练集对包含唇形特征提取子网络的第一唇形识别网络进行训练；利用训练后的所述第一唇形识别网络中的所述唇形特征提取子网络的参数更新第二唇形识别网络中唇形特征提取子网络的参数，并采用有监督训练集对所述第二唇形识别网络进行训练；利用训练后的所述第二唇形识别网络中的所述唇形特征提取子网络的参数更新所述多模态语音分离网络中所述唇形特征提取子网络的参数，并采用分离网络训练集训练所述多模态语音分离网络。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种多模态语音分离装置，包括：第一获得模块，用于获得包含目标用户的唇部视频信息和音频信息；第二获得模块，用于根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音；其中，所述多模态语音分离网络中包括唇形特征提取子网络，在训练所述多模态语音分离网络之前采用无监督训练集对所述唇形特征提取子网络进行预训练。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述任一实施例中所述的多模态语音分离方法、或上述任一实施例中所述的多模态语音分离网络训练方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种存储装置，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述任一实施例中所述的多模态语音分离方法，或上述任一实施例中所述的多模态语音分离网络训练方法。

区别于现有技术情况，本申请的有益效果是：本申请所提供的多模态语音分离方法中会在训练多模态语音分离网络之前，采用无监督训练集对该多模态语音分离网络中的唇形特征提取子网络进行无监督训练。虽然无监督训练集中的训练数据无标签，但唇形特征训练的目标仍然是音素，该训练过程仍然是在特征层面开展；当唇形特征提取子网络经历过大量无监督数据预训练后，可以增加模型对各种语种、各种方言的泛化性，避免过度拟合。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本申请多模态语音分离方法一实施方式的流程示意图；

图2为图1中多模态语音分离网络一实施方式的网络结构示意图；

图3为本申请多模态语音分离网络训练方法一实施方式的流程示意图；

图4为图3中第一唇形识别网络一实施方式的网络结构示意图；

图5为图3中第二唇形识别网络一实施方式的网络结构示意图；

图6为本申请多模态语音分离装置一实施方式的框架结构示意图；

图7为本申请电子设备一实施方式的结构示意图；

图8为本申请存储装置一实施方式的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请多模态语音分离方法一实施方式的流程示意图，该多模态语音分离方法具体包括：

S101：获得包含目标用户的唇部视频信息和音频信息。

具体地，在本实施例中，上述步骤S101的具体实现过程可以包括：获得视频采集装置(例如，摄像头)和音频采集装置(例如，麦克风)分别对目标用户采集获得的视频数据和音频数据；从视频数据中提取获得唇部视频信息、以及从音频数据中获得混合语音特征序列，并将混合语音特征序列作为音频信息。

具体而言，对于视频数据而言，可以通过人脸关键特征点检测工具，完成视频人脸切割以获得目标用户的唇部区域视频图像，使用cv2自带函数RGB2Grey将三通道RGB图像转化为单通道灰度图，进而获得目标用户的唇部视频信息。上述获得唇部视频信息的过程可以去除视频数据中的冗余信息，有利于后续唇形特征提取。对于音频数据而言，可以对音频数据作短时傅里叶变换和filterbank域转换，以提取获得幅度谱，该幅度谱可以称之为混合语音特征序列。当音频数据中包含多通道数据时，此时提取获得的幅度谱中还可加入各个通道之间的相位差特征。

S102：根据唇部视频信息、音频信息和训练后的多模态语音分离网络获得目标用户的语音；其中，多模态语音分离网络中包括唇形特征提取子网络，且在训练多模态语音分离网络之前采用无监督训练集对唇形特征提取子网络进行预训练。

具体地，上述步骤S102中所提及的训练过程将在后续详细说明。

可选地，在本实施例中，上述步骤S102的具体实现过程可以为：

A、根据唇部视频信息、音频信息和训练后的多模态语音分离网络获得目标用户的第一语音存在概率。

请参阅图2，图2为图1中多模态语音分离网络一实施方式的网络结构示意图。该多模态语音分离网络1的输入为唇部视频信息和音频信息，输出为目标用户的第一语音存在概率mask；且该多模态语音分离网络1包括唇形特征提取子网络10，唇形特征提取子网络10的输入为唇部视频信息，且其可对唇部视频信息进行提取以获得每个视频帧对应的唇形特征，而多个视频帧对应的唇形特征形成唇形特征序列。可选地，在本实施例中，唇形特征提取子网络10包括相互连接的伪3D卷积(例如，P3D conv)和残差网络(例如，ResNet 18)，且唇部视频信息是输入至伪3D卷积中。一般而言，现有的唇形特征提取子网络中采用的是3D卷积，本申请中采用伪3D卷积来替代3D卷积的方式可以减小多模态语音分离网络1中唇形特征提取子网络10的参数量和计算量，以便于整个***能快速落地和广泛使用。

当然，请继续参阅图2，多模态语音分离网络1除了包括上述所提及的唇形特征提取子网络10外，还包括编码层12、融合层14和分离子网络16；可选地，分离子网络16可以包括相互连接的CNN、GRU和FC。进一步，上述多模态语音分离网络1实现上述步骤S102的具体过程包括：唇形特征提取子网络10接收唇部视频信息，并对唇部视频信息进行特征提取以获得唇形特征序列；编码层12的输入为唇形特征提取子网络10的输出，编码层12接收唇形特征序列，并对唇形特征序列进行编码，该编码层12引入的目的是为了完成模态转换，并自动适应音视频偏帧；融合层14的输入为唇形特征序列和音频信息(即混合语音特征序列)，融合层14用于将编码后的唇形特征序列和音频信息进行融合以获得融合特征序列；分离子网络16的输入为融合层14的输出，分离子网络16根据融合特征序列映射获得第一语音存在概率mask。此外，请继续参阅图2，多模态语音分离网络1中音频信息输入至融合层14之前，还可经过CNN卷积神经网络，以进一步提取特征。

B、根据第一语音存在概率从音频信息中获得目标用户的语音。具体地，上述步骤B的具体实现过程可以为：将第一语音存在概率mask与音频信息相乘，并作filterbank2frequency及反短时傅里叶变换，以获得分离后的目标用户的语音。

在上述实施例中，本申请所提供的多模态语音分离方法中会在训练多模态语音分离网络之前，采用无监督训练集对该多模态语音分离网络中的唇形特征提取子网络进行无监督训练。虽然无监督训练集中的训练数据无标签，但唇形特征训练的目标仍然是音素，该训练过程仍然是在特征层面开展；当唇形特征提取子网络经历过大量无监督数据预训练后，可以增加模型对各种语种、各种方言的泛化性，避免过度拟合。

上述步骤S101-步骤S102主要是用应用层面进行描述，下面将就训练过程进行描述。请参阅图3，图3为本申请多模态语音分离网络训练方法一实施方式的流程示意图，上述训练过程主要包括：

S201：采用无监督训练集对包含唇形特征提取子网络的第一唇形识别网络进行训练。

具体的，在本实施例中，可以在上述步骤S201之前进行训练数据的准备工作。具体而言，可以通过实际采集或使用开源数据集获取唇音一致的音视频，包含各类方言、各类语种。收集到的音视频数据大致可以分为三大类：1)有文本标注的中文音视频数据和英文音视频数据；可选地，在本实施例中，由于中文和英文的使用范围较为广泛，故有文本标注的数据优先为有中文或英文文本标注的数据。2)无文本标注的中文音视频数据和英文音视频数据。3)无文本标注的各种方言及其他语种的音视频数据；例如，广东方言音视频数据、四川方言音视频数据、德语音视频数据、法语音视频数据等。其中，有文本标注的中文音视频数据和英文音视频数据可以构建步骤S202中所使用的有监督训练集，无文本标注的中文音视频数据和英文音视频数据可以构建步骤S201中所使用的无监督训练集。而步骤S203中所使用的分离网络训练集可以由上述所有音视频数据构建。此外，需要说明的是，在其他实施例中，无监督训练集和有监督训练集中所对应的语种也可为中文和英文之外的其他语种，本申请对此不作限定。上述唇音一致的音视频中包含单人唇部视频和对应的单人语音，且该单元唇部视频所表述的含义与单元语音所表述含义一致。而对于单人唇部视频的获取过程可以为：通过人脸关键特征点检测工具，完成视频人脸切割获得唇部区域视频图像，使用cv2自带函数RGB2Grey将三通道RGB图像转化为单通道灰度图，进而获得单人唇部视频。

通过上述训练数据的准备工作，所构建的无监督训练集包括多组相互对应的单人语音和单人唇部视频，上述步骤S201的具体实现过程包括：A、对单人唇部视频进行特征提取以获得唇形特征序列、以及对与单人唇部视频对应的单人语音进行特征提取以获得第一音频特征序列。B、根据唇形特征序列和第一音频特征序列获得损失，并根据损失调整第一唇形识别网络中唇形特征提取子网络的参数。可选地，一般而言，根据唇形特征序列可以获得与该唇形特征序列对应的第二音频特征序列，进一步利用均方差损失函数MSE获得第二音频特征序列与提取获得的第一音频特征序列之间的损失MSE LOSS，后续可以根据该损失调整第一唇形识别网络中唇形特征提取子网络的参数。而对于第一唇形识别网络停止训练的标准可以为：响应于根据唇形特征序列和第一音频特征序列获得的损失收敛、或者训练次数达到预设轮次等，本申请对此不作限定。

可选地，请参阅图4，图4为图3中第一唇形识别网络一实施方式的网络结构示意图。第一唇形识别网络2包括唇形特征提取子网络10和语音特征提取子网络22；其中，唇形特征提取子网络10用于对单人唇部视频进行特征提取以获得唇形特征序列；可选地，在本实施例中，第一唇形识别网络2中的唇形特征提取子网络10的结构与图2中相同，即包括相互连接的伪3D卷积和残差网络。语音特征提取子网络22用于对与单人唇部视频对应的单人语音进行特征提取以获得第一音频特征序列；且语音特征提取子网络22中的参数预先训练固定，即在第一唇形识别网络2训练过程中，语音特征提取子网络22的参数不发生更改，而具体语音特征提取子网络22的网络结构可参见现有技术中任一一种，在此不再赘述。上述第一唇形识别网络2的网络架构较为简单，计算量较小；且在训练第一唇形识别网络2之前固定语音特征提取子网络22的方式可以使得唇形特征提取子网络10的训练精度提升。

上述先通过无监督训练集预训练的过程可以提高唇形特征提取子网络10识别的准确率以及模型的泛化性。

S202：利用训练后的第一唇形识别网络中的唇形特征提取子网络的参数更新第二唇形识别网络中唇形特征提取子网络的参数，并采用有监督训练集对第二唇形识别网络进行训练。

具体地，在本实施例中，第二唇形识别网络中包含与第一唇形识别网络中相同的唇形特征提取子网络，此时第二唇形识别网络中唇形特征提取子网络中参数的初始值为训练后的第一唇形识别网络中的唇形特征提取子网络的参数值。

可选地，通过上述训练数据的准备工作，所构建的有监督训练集包括多个单人唇部视频，单人唇部视频中的每个视频帧设置有对应的声学标签；其中，唇形相似度超过阈值的视频帧具有相同的声学标签。在本实施例中，有监督训练集中的每个单人唇部视频具有对应的单人语音，且单人语音具有相应的文本标注；在上述步骤S202之前，还可先进行声学标签设置的过程，其具体可以包括：将单人唇部视频和对应的文本标注进行强制对齐(Force-alignment，FA)以获得每个视频帧的音素标签；将唇形相似度超过阈值的多个音素标签设置为同一个声学标签，而具体阈值的大小可根据实际需求进行设定。

在现有技术中，单人唇部视频对应的声学标签的设置方式为：将单人唇部视频和对应的文本标注进行强制对齐(Force-alignment，FA)以获得每个视频帧的音素标签，将该音素标签作为对应视频帧的声学标签。但事实上，将单人唇部视频和对应的文本标注进行强制对齐得到的音素标签对于唇形识别来讲是冗余的：比如中文的声母中“b”、“p”和“m”的唇形是一致的，“d”、“t”、“l”和“n”的唇形是一致的，“zh”、“ch”和“sh”的唇形是一致的，韵母中“āi”、“ái”、“ǎi”和“ài”的唇形也是一致的，等等。换言之，一个唇形特征可能对应着多个音素标签。因此这种音素标签分类是不合理的。本申请对此做出了改进，对音素标签根据唇部状态或视素(viseme)进行聚类，将聚类后的唇形相似度超过阈值的多个音素标签重新赋予为同一个声学标签，这样可以大大减少唇形识别网络节点数、参数量和训练难度。例如，当单人唇部视频为中文语种或英文语种时，可以在中英文通用的音素建模方式tri-phone字典里进行聚类，聚类过程中合并唇形状态相似的不同音素标签。例如，与“b”、“p”和“m”聚类后对应同一声学标签，“d”、“t”、“l”和“n”聚类后对应同一声学标签，“zh”、“ch”和“sh”聚类后对应同一声学标签等。

进一步，上述步骤S202中采用有监督训练集对第二唇形识别网络进行训练的具体实现过程包括：A、对单人唇部视频进行特征提取以获得每个视频帧的唇形特征；B、根据每个视频帧的唇形特征获得对应的预测标签；C、获得预测标签与对应的声学标签之间的损失(例如，交叉熵损失)，并根据损失调整第二唇形识别网络的参数。而对于第二唇形识别网络停止训练的标准可以为：响应于预测标签与对应的声学标签之间的损失收敛、或者训练次数达到预设轮次等，本申请对此不作限定。上述采用有监督训练集对第二唇形识别网络进行训练的过程较为简单、成熟，且可以提高唇形识别子网络的精确性。此外，在上述步骤A之前，还可对单人唇部视频进行图像数据增强，如图像旋转、像素值扰动、加噪等操作，以增强模型的鲁棒性。

可选地，请参阅图5，图5为图3中第二唇形识别网络一实施方式的网络结构示意图。该第二唇形识别网络3包括唇形特征提取子网络10和全连接层32；其中，唇形特征提取子网络10用于对单人唇部视频进行特征提取以获得每个视频帧的唇形特征；全连接层32用于根据每个视频帧的唇形特征获得对应的预测标签；其中，单人唇部视频所对应的语种中所有音素根据唇形相似度聚类后的声学标签的总个数与全连接层32中节点的总个数相同。即本申请所提供的第二唇形识别网络3中全连接层32中的节点个数相比现有技术而言少了很多，其节点个数是根据单人唇部视频所对应的语种中所有音素根据唇形相似度聚类后的声学标签的总个数设定的。该设计方式可以大大减少模型唇形识别网络节点数、参数量和训练难度。此外，在调整第二唇形识别网络3的参数的过程中，可以一并调整唇形特征提取子网络10和全连接层32的参数。

S203：利用训练后的第二唇形识别网络中的唇形特征提取子网络的参数更新多模态语音分离网络中唇形特征提取子网络的参数，并采用分离网络训练集训练多模态语音分离网络。

具体的，在本实施例中，多模态语音分离网络中包含与第一唇形识别网络中相同的唇形特征提取子网络，此时多模态语音分离网络中唇形特征提取子网络中参数的初始值为训练后的第二唇形识别网络中的唇形特征提取子网络的参数值。

可选地，通过上述训练数据的准备工作，所构建的分离网络训练集包括多组单人唇部视频和混合语音特征序列，且同组内的混合语音特征序列包含与单人唇部视频对应的单人语音的特征，每个混合语音特征序列设置有语音标签。且在本实施例中，分离网络训练集中包含各种方言以及各种语种对应的音视频数据，该方式可以增强多模态语音分离网络对各类方言及各种语种的泛化性，做到与方言语种无关。

可选地，在上述步骤S203之前，还包括设置每个混合语音特征序的语音标签的过程，其具体包括：A、将训练数据准备工作中获得的所有音频进行数据清洗，以去除其中的背景噪声、混响等，并做端点检测VAD检测，以将非语音段的幅值置为0。B、利用清洗后的所有音频和噪声语音构建多个混合语音；该混合语音的构建方式可以为：将一个单人语音与噪声语音进行混合；或者将多个单人语音与噪声语音进行混合；其中，该噪声语音可以从噪声库中获取。C、对该混合语音进行特征提取以获得混合语音特征序列；具体地，可以利用Filterbank、MCFF等对混合语音进行特征提取。在本实施例中，混合语音特征序列可以为Filterbank域的幅度谱。D、设置混合语音特征序列对应的语音标签；其具体过程可以为：获得混合语音中所有单人语音的能量与噪声语音的能量的和值，并将与当前单人唇部视频对应的单人语音的能量与所述和值的比值作为语音标签IRM。当为单人语音增强任务时，语音标签IRM的计算公式为：IRM＝S²/(S²+N²)；其中，S²为混合语音中的单人语音的能量，N²为混合语音中的噪声语音的能量；当为多人语音分离任务时，语音标签IRM的计算公式为：IRM＝S₁ ²/(S₁ ²+S₂ ²+…+S_n ²+N²)；其中，S₁ ²为混合语音中的第一个说话人的单人语音的能量，S₂ ²为混合语音中的第二个说话人的单人语音的能量，S_n ²为混合语音中的第n个说话人的单人语音的能量，N²为混合语音中的噪声语音的能量。

进一步，请结合图2，上述步骤S203中采用分离网络训练集训练多模态语音分离网络具体包括：A、对单人唇部视频进行特征提取以获得唇形特征序列；具体地，可以采用唇形特征提取子网络10对单人唇部视频进行特征提取。B、将唇形特征序列进行编码，并将编码后的唇形特征序列和混合语音特征序列进行融合以获得融合特征序列；具体地，编码过程可以由编码层12实现，融合过程可以由融合层14实现。C、根据融合特征序列获得与单人唇部视频对应的同一目标的第二语音存在概率；具体地，获得第二语音存在概率的过程可以由分离子网络16实现。D、利用第二语音存在概率和语音标签获得损失，并根据损失调整多模态语音分离网络中的参数；具体地，可以调整图2中唇形特征提取子网络10、编码层12、融合层14和分离子网络16的参数。当图2中融合层14之前还设置有CNN卷积神经网络时，也可一并调整该CNN卷积神经网络的参数。而对于多模态语音分离网络停止训练的标准可以为：响应于利用第二语音存在概率和语音标签获得的损失收敛、或者训练次数达到预设轮次等，本申请对此不作限定。上述多模态语音分离网络1的过程较为简单、成熟，且易于实现。且在上述训练过程中将唇形特征提取子网络10的输出lip embedding作为辅助信息输入到语音分离网络中，可以通过挖掘唇音一致，使多模态语音分离网络1可以更容易学习目标说话人干净语音标签。

可选地，当混合语音中包含来自不同通道的语音，在上述步骤B中将编码后的唇形特征序列和混合语音特征序列进行融合以获得融合特征序列的步骤之前，包括：将混合语音特征序列和混合语音中多个通道之间的相位差特征进行混合；后续融合过程是将编码后的唇形特征序列和混合有相位差特征的混合语音特征序列进行融合。该方式可以利用不同通道的空间信息辅助多模态语音分离网络的训练过程。此外，多模态语音分离网络1的第二语音存在概率mask可以指导多通道进行自适应波束成形，如MVDR、GEVD等，可以利用空间信息获取更好的分离效果。多模态语音分离对于多通道语音分离带来的提升是可以解决空间信息不可用时的语音分离。

总而言之，在上述训练过程中，一方面，采用有文本标注的数据(例如，有文本标注的中英文数据)作为有监督训练集，而大量无文本标注的数据(例如，无文本标注的中英文数据)作为无监督训练集，进行自监督对比学习预训练，提高唇形特征提取子网络在特定语种(例如，中英文)上的准确度及模型的泛化性；进一步，在训练多模态语音分离网络时，利用标签难获取的各类语种、各类方言的多模态数据进行训练，以增强多模态分离网络对各类语种、各种方言的泛化性。另一方面，在有监督训练过程中，对唇形相似度超过阈值的音素进行聚类，合并唇形状态相似的不同音素，减少了分类节点数和模型学习难度，减小了模型的参数量。再一方面，唇形特征提取子网络中采用伪3D卷积代替现有的3D卷积的方式，以进一步减少多模态语音分离网络的参数量和计算量，便于以及整个***的快速落地与广泛应用。

请参阅图6，图6为本申请多模态语音分离装置一实施方式的框架结构示意图，该多模态语音分离装置4包括第一获得模块40、第二获得模块42。其中，第一获得模块40用于获得包含目标用户的唇部视频信息和音频信息；第二获得模块42与第一获得模块40连接，用于根据唇部视频信息、音频信息和训练后的多模态语音分离网络获得目标用户的语音；其中，多模态语音分离网络中包括唇形特征提取子网络，在训练多模态语音分离网络之前采用无监督训练集对唇形特征提取子网络进行预训练。

在一个实施例中，上述第二获得模块40具体用于根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的第一语音存在概率；根据所述第一语音存在概率从所述音频信息中获得所述目标用户的语音。

在另一个实施例中，请继续参阅图6，该多模态语音分离装置还可以包括训练模块44，训练模块44与第二获得模块42连接，其具体包括第一训练子模块、第二训练子模块和第三训练子模块；其中，第一训练子模块用于采用无监督训练集对包含唇形特征提取子网络的第一唇形识别网络进行训练；第二训练子模块用于利用训练后的第一唇形识别网络中的唇形特征提取子网络的参数更新第二唇形识别网络中唇形特征提取子网络的参数，并采用有监督训练集对第二唇形识别网络进行训练；第三训练子模块用于利用训练后的第二唇形识别网络中的唇形特征提取子网络的参数更新多模态语音分离网络中唇形特征提取子网络的参数，并采用分离网络训练集训练多模态语音分离网络。

在一个应用场景中，无监督训练集包括多组相互对应的单人语音和单人唇部视频；上述第一训练子模块中采用无监督训练集对包含唇形特征提取子网络的第一唇形识别网络进行训练的步骤具体包括：对单人唇部视频进行特征提取以获得唇形特征序列、以及对与单人唇部视频对应的单人语音进行特征提取以获得音频特征序列；根据唇形特征序列和音频特征序列获得损失，并根据损失调整第一唇形识别网络中唇形特征提取子网络的参数。

可选地，在本实施例中，上述第一唇形识别网络包括唇形特征提取子网络和语音特征提取子网络；其中，唇形特征提取子网络用于对单人唇部视频进行特征提取以获得唇形特征序列，语音特征提取子网络用于对与单人唇部视频对应的单人语音进行特征提取以获得音频特征序列；且语音特征提取子网络中的参数预先训练固定。

在又一个应用场景中，有监督训练集包括多个单人唇部视频，单人唇部视频中的每个视频帧设置有对应的声学标签；其中，唇形相似度超过阈值的视频帧具有相同的声学标签；上述第二训练子模块中采用有监督训练集对第二唇形识别网络进行训练的步骤具体包括：对单人唇部视频进行特征提取以获得每个视频帧的唇形特征；根据每个视频帧的唇形特征获得对应的预测标签；获得预测标签与对应的声学标签之间的损失，并根据损失调整第二唇形识别网络的参数。

可选地，在本实施例中，第二唇形识别网络包括唇形特征提取子网络和全连接层；其中，唇形特征提取子网络用于对单人唇部视频进行特征提取以获得每个视频帧的唇形特征；全连接层用于根据每个视频帧的唇形特征获得对应的预测标签；其中，单人唇部视频所对应的语种中所有音素根据唇形相似度聚类后的声学标签的总个数与全连接层中节点的总个数相同。

进一步，有监督训练集中的每个单人唇部视频具有对应的单人语音，且单人语音具有文本标注；本申请所提供的多模态语音分离装置还可以包括第一设置模块，与第二训练子模块连接，用于在第二训练子模块训练之前，将单人唇部视频和对应的文本标注进行强制对齐以获得每个视频帧的音素标签；将唇形相似度超过阈值的多个音素标签设置为同一个声学标签。

在又一个应用场景中，分离网络训练集包括多组单人唇部视频和混合语音特征序列，且同组内的混合语音特征序列包含与单人唇部视频对应的单人语音的特征，每个混合语音特征序列设置有语音标签；上述第三训练子模块中采用分离网络训练集训练多模态语音分离网络的步骤具体包括：对单人唇部视频进行特征提取以获得唇形特征序列；将唇形特征序列进行编码，并将编码后的唇形特征序列和混合语音特征序列进行融合以获得融合特征序列；根据融合特征序列获得与单人唇部视频对应的同一目标的第二语音存在概率；利用第二语音存在概率和语音标签获得损失，并根据损失调整多模态语音分离网络中的参数。

可选地，上述多模态语音分离网络包括唇形特征提取子网络、编码层、融合层和分离子网络；其中，唇形特征提取子网络用于对单人唇部视频进行特征提取以获得唇形特征序列，编码层用于对唇形特征序列进行编码，融合层用于将编码后的唇形特征序列和混合语音特征序列进行融合以获得融合特征序列，分离子网络用于根据融合特征序列获得与单人唇部视频对应的同一目标的第二语音存在概率。

进一步，本申请所提供的多模态语音分离装置还可以包括第二设置模块，与第三训练子模块连接，用于在第三训练子模块训练之前获得混合语音中所有单人语音的能量与噪声语音的能量的和值，并将与当前单人唇部视频对应的单人语音的能量与和值的比值作为语音标签。

此外，混合语音中可能包含来自不同通道的语音，上述第三训练子模块在将编码后的唇形特征序列和混合语音特征序列进行融合以获得融合特征序列的步骤之前，包括：将混合语音特征序列和混合语音中多个通道之间的相位差特征进行混合。

另外，需要说明的是，上述所提及的唇形特征提取子网络包括相互连接的伪3D卷积和残差网络；无监督训练集和有监督训练集所对应的语种可以包括中文和英语，分离训练集所对应的语种可以包括中文、英语和方言。当然，在其他实施例中，无监督训练集和有监督训练集所对应的语种也可为其他，本申请对此不作限定。

请参阅图7，图7为本申请电子设备一实施方式的结构示意图，该电子设备具体包括：相互耦接的存储器50和处理器52，存储器50中存储有程序指令，处理器52用于执行程序指令以实现上述任一多模态语音分离方法中的步骤，或上述任一实施例中多模态语音分离网络训练方法中的步骤。具体地，电子设备包括但不限于：台式计算机、笔记本电脑、平板电脑、服务器等，在此不做限定。此外，处理器52还可以称为CPU(Central Processing Unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。

请参阅图8，图8为本申请存储装置一实施方式的结构示意图，该存储装置60存储有能够被处理器运行的程序指令62，程序指令62用于实现上述任一多模态语音分离方法中的步骤，或上述任一实施例中多模态语音分离网络训练方法中的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种多模态语音分离方法，其特征在于，包括：

获得包含目标用户的唇部视频信息和音频信息；

根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音；其中，所述多模态语音分离网络中包括唇形特征提取子网络，且在训练所述多模态语音分离网络之前采用无监督训练集对所述唇形特征提取子网络进行预训练。

2.根据权利要求1所述的多模态语音分离方法，其特征在于，所述根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音的步骤，包括：

根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的第一语音存在概率；

根据所述第一语音存在概率从所述音频信息中获得所述目标用户的语音。

3.根据权利要求1所述的多模态语音分离方法，其特征在于，所述多模态语音分离网络的训练过程包括：

采用无监督训练集对包含所述唇形特征提取子网络的第一唇形识别网络进行训练；

利用训练后的所述第一唇形识别网络中的所述唇形特征提取子网络的参数更新第二唇形识别网络中唇形特征提取子网络的参数，并采用有监督训练集对所述第二唇形识别网络进行训练；

利用训练后的所述第二唇形识别网络中的所述唇形特征提取子网络的参数更新所述多模态语音分离网络中所述唇形特征提取子网络的参数，并采用分离网络训练集训练所述多模态语音分离网络。

4.根据权利要求3所述的多模态语音分离方法，其特征在于，所述无监督训练集包括多组相互对应的单人语音和单人唇部视频；所述采用无监督训练集对包含所述唇形特征提取子网络的第一唇形识别网络进行训练的步骤，包括：

对所述单人唇部视频进行特征提取以获得唇形特征序列、以及对与所述单人唇部视频对应的单人语音进行特征提取以获得音频特征序列；

根据所述唇形特征序列和所述音频特征序列获得损失，并根据所述损失调整所述第一唇形识别网络中所述唇形特征提取子网络的参数。

5.根据权利要求4所述的多模态语音分离方法，其特征在于，

所述第一唇形识别网络包括所述唇形特征提取子网络和语音特征提取子网络；其中，所述唇形特征提取子网络用于对所述单人唇部视频进行特征提取以获得唇形特征序列，所述语音特征提取子网络用于对与所述单人唇部视频对应的单人语音进行特征提取以获得音频特征序列；且所述语音特征提取子网络中的参数预先训练固定。

6.根据权利要求3所述的多模态语音分离方法，其特征在于，所述有监督训练集包括多个单人唇部视频，所述单人唇部视频中的每个视频帧设置有对应的声学标签；其中，唇形相似度超过阈值的视频帧具有相同的所述声学标签；所述采用有监督训练集对所述第二唇形识别网络进行训练的步骤，包括：

对所述单人唇部视频进行特征提取以获得每个视频帧的唇形特征；

根据每个所述视频帧的唇形特征获得对应的预测标签；

获得所述预测标签与对应的所述声学标签之间的损失，并根据所述损失调整所述第二唇形识别网络的参数。

7.根据权利要求6所述的多模态语音分离方法，其特征在于，

所述第二唇形识别网络包括所述唇形特征提取子网络和全连接层；其中，所述唇形特征提取子网络用于对所述单人唇部视频进行特征提取以获得每个视频帧的唇形特征；所述全连接层用于根据每个所述视频帧的唇形特征获得对应的预测标签；其中，所述单人唇部视频所对应的语种中所有音素根据唇形相似度聚类后的声学标签的总个数与所述全连接层中节点的总个数相同。

8.根据权利要求5所述的多模态语音分离方法，其特征在于，所述有监督训练集中的每个所述单人唇部视频具有对应的单人语音，且所述单人语音具有文本标注；所述对所述单人唇部视频进行特征提取以获得每个视频帧的唇形特征的步骤之前，包括：

将所述单人唇部视频和对应的文本标注进行强制对齐以获得每个视频帧的音素标签；

将唇形相似度超过阈值的多个音素标签设置为同一个声学标签。

9.根据权利要求3所述的多模态语音分离方法，其特征在于，所述分离网络训练集包括多组单人唇部视频和混合语音特征序列，且所述混合语音特征序列由对混合语音进行特征提取获得，所述混合语音包含与所述单人唇部视频对应的单人语音，每个所述混合语音特征序列设置有语音标签；所述采用分离网络训练集训练所述多模态语音分离网络的步骤，包括：

对所述单人唇部视频进行特征提取以获得唇形特征序列；

将所述唇形特征序列进行编码，并将编码后的所述唇形特征序列和所述混合语音特征序列进行融合以获得融合特征序列；

根据所述融合特征序列获得与所述单人唇部视频对应的同一目标的第二语音存在概率；

利用所述第二语音存在概率和所述语音标签获得损失，并根据所述损失调整所述多模态语音分离网络中的参数。

10.根据权利要求9所述的多模态语音分离方法，其特征在于，

所述多模态语音分离网络包括所述唇形特征提取子网络、编码层、融合层和分离子网络；

其中，所述唇形特征提取子网络用于对所述单人唇部视频进行特征提取以获得唇形特征序列，所述编码层用于对所述唇形特征序列进行编码，所述融合层用于将编码后的所述唇形特征序列和所述混合语音特征序列进行融合以获得融合特征序列，所述分离子网络用于根据所述融合特征序列获得与所述单人唇部视频对应的同一目标的第二语音存在概率。

11.根据权利要求9所述的多模态语音分离方法，其特征在于，所述对所述单人唇部视频进行特征提取以获得唇形特征序列的步骤之前，还包括：

获得所述混合语音中所有单人语音的能量与噪声语音的能量的和值，并将与当前所述单人唇部视频对应的单人语音的能量与所述和值的比值作为所述语音标签。

12.根据权利要求9所述的多模态语音分离方法，其特征在于，所述混合语音中包含来自不同通道的语音，所述将编码后的所述唇形特征序列和所述混合语音特征序列进行融合以获得融合特征序列的步骤之前，包括：

将所述混合语音特征序列和所述混合语音中多个通道之间的相位差特征进行混合。

13.根据权利要求1所述的多模态语音分离方法，其特征在于，

所述唇形特征提取子网络包括相互连接的伪3D卷积和残差网络。

14.一种多模态语音分离网络训练方法，其特征在于，包括：

采用无监督训练集对包含唇形特征提取子网络的第一唇形识别网络进行训练；

15.一种多模态语音分离装置，其特征在于，包括：

第一获得模块，用于获得包含目标用户的唇部视频信息和音频信息；

第二获得模块，用于根据所述唇部视频信息、所述音频信息和训练后的多模态语音分离网络获得所述目标用户的语音；其中，所述多模态语音分离网络中包括唇形特征提取子网络，在训练所述多模态语音分离网络之前采用无监督训练集对所述唇形特征提取子网络进行预训练。

16.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至13任一项所述的多模态语音分离方法，或权利要求14所述的多模态语音分离网络训练方法。

17.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至13任一项所述的多模态语音分离方法，或权利要求14所述的多模态语音分离网络训练方法。