CN115861670A

CN115861670A - 特征提取模型的训练方法和数据处理方法及装置

Info

Publication number: CN115861670A
Application number: CN202211415707.XA
Authority: CN
Inventors: 万根顺; 潘嘉; 熊世富; 高建清; 刘聪; 胡国平; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-03-28

Abstract

本发明提供一种特征提取模型的训练方法和数据处理方法及装置，其中训练方法包括：获取至少一个模态的样本数据；执行样本数据所属的模态所对应的有监督任务，获取有监督任务执行过程中生成的样本数据的数据特征；对样本数据的数据特征进行聚类，基于聚类结果确定样本数据所属模态下的基准数据特征，并基于基准数据特征与样本数据的数据特征之间的相似度，确定与样本数据相匹配的基准数据特征；基于至少一个模态的样本数据，以及与样本数据相匹配的基准数据特征，训练特征提取模型。本发明提供的方法和装置，能够强化特征提取模型训练时指导标签的区分性和表征能力，从而达到加快特征提取模型收敛速度，提升特征提取模型表达能力的效果。

Description

特征提取模型的训练方法和数据处理方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种特征提取模型的训练方法和数据处理方法及装置。

背景技术

多模态数据之间存在互补性，相较于单一模态数据，更加适应复杂场景的推广要求。此外，考虑到多模态数据的获取难度和标注难度更高，目前多应用预训练技术进行多模态预训练，从而将多模态预训练框架应用到多模态任务的迁移中。

然而，多模态预训练的目标设计多是基于无监督数据本身构建的，具体应用音视频的同步信息、跨模态的信息聚类、掩码预测等方式，然而上述方式通常因为特征间的区分性不足，导致整体的预训练周期长、预训练效果不及预期。

发明内容

本发明提供一种特征提取模型的训练方法和数据处理方法及装置，用以解决现有技术中多模态数据预训练效果不佳的缺陷你。

本发明提供一种特征提取模型的训练方法，包括：

获取至少一个模态的样本数据，所述至少一个模态包括音频和/或视频；

执行所述样本数据所属的模态所对应的有监督任务，获取所述有监督任务执行过程中生成的所述样本数据的数据特征；

对所述样本数据的数据特征进行聚类，基于聚类结果确定所述样本数据所属模态下的基准数据特征，并基于所述基准数据特征与所述样本数据的数据特征之间的相似度，确定与所述样本数据相匹配的基准数据特征；

基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型。

根据本发明提供的一种特征提取模型的训练方法，所述基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型，包括：

对所述至少一个模态的样本数据进行掩码处理，得到所述至少一个模态的掩码数据；

基于初始特征提取模型，对所述至少一个模态的掩码数据中的掩码部分进行特征预测，得到所述掩码部分的预测特征；

基于与所述样本数据相匹配的基准数据特征，以及所述掩码部分的预测特征，对所述初始特征提取模型进行参数迭代，得到所述特征提取模型。

根据本发明提供的一种特征提取模型的训练方法，在所述至少一个模态包括音频和视频的情况下，所述基于初始特征提取模型，对所述至少一个模态的掩码数据中的掩码部分进行特征预测，得到所述掩码部分的预测特征，包括：

基于所述初始特征提取模型，分别提取所述音频的掩码数据的音频特征和所述视频的掩码数据的视频特征，并融合所述音频特征和所述视频特征，得到所述音频的掩码部分的预测特征和所述视频的掩码部分的预测特征。

根据本发明提供的一种特征提取模型的训练方法，所述基于与所述样本数据相匹配的基准数据特征，以及所述掩码部分的预测特征，对所述初始特征提取模型进行参数迭代，得到所述特征提取模型，包括：

基于与所述样本数据相匹配的基准数据特征，以及所述掩码部分的预测特征，确定第一损失；

基于所述音频特征和所述视频特征，确定第二损失；

基于所述第一损失和所述第二损失，对所述初始特征提取模型进行参数迭代，得到所述特征提取模型。

根据本发明提供的一种特征提取模型的训练方法，所述视频的样本数据包括完整的人体面部区域。

根据本发明提供的一种特征提取模型的训练方法，所述音频对应的有监督任务包括语音识别、声纹识别和韵律识别中的至少一种；

所述视频对应的有监督任务包括情感识别和/或人脸识别。

本发明还提供一种数据处理方法，包括：

获取至少一个模态的待处理数据，所述至少一个模态包括音频和/或视频；

基于多模态处理模型，对所述待处理数据进行数据处理；

所述多模态处理模型是对特征提取模型进行迁移学习得到的，所述特征提取模型基于音视频模态的样本数据，以及与所述样本数据相匹配的基准数据特征训练得到，所述基准数据特征是对音频和视频分别对应的有监督任务执行过程中生成的所述样本数据的数据特征进行聚类得到的。

本发明还提供一种特征提取模型的训练装置，包括：

样本获取单元，用于获取至少一个模态的样本数据，所述至少一个模态包括音频和/或视频；

特征获取单元，用于执行所述样本数据所属的模态所对应的有监督任务，获取所述有监督任务执行过程中生成的所述样本数据的数据特征；

基准确定单元，用于对所述样本数据的数据特征进行聚类，基于聚类结果确定所述样本数据所属模态下的基准数据特征，并基于所述基准数据特征与所述样本数据的数据特征之间的相似度，确定与所述样本数据相匹配的基准数据特征；

训练单元，用于基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型。

本发明还提供一种数据处理装置，包括：

数据获取单元，用于获取至少一个模态的待处理数据，所述至少一个模态包括音频和/或视频；

数据处理单元，用于基于多模态处理模型，对所述待处理数据进行数据处理；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述特征提取模型的训练方法。

本发明还提供一种电子设备，包括麦克风和/或摄像头，还包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述麦克风用于采集音频的待处理数据；

所述摄像头用于采集视频的待处理数据；

所述处理器执行所述计算机程序中的多模态处理模型，对所述待处理数据进行数据处理，所述多模态处理模型是对特征提取模型进行迁移学习得到的，所述特征提取模型基于音视频模态的样本数据，以及与所述样本数据相匹配的基准数据特征训练得到，所述基准数据特征是对音频和视频分别对应的有监督任务执行过程中生成的所述样本数据的数据特征进行聚类得到的。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述特征提取模型的训练方法，或所述数据处理方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述述特征提取模型的训练方法，或所述数据处理方法。

本发明提供的特征提取模型的训练方法和数据处理方法及装置，通过有监督任务实现样本数据的高层次的数据特征提取，进而通过聚类得到更具代表性的基准数据特征作为特征提取模型训练时的指导标签，由此强化特征提取模型训练时指导标签的区分性和表征能力，从而达到加快特征提取模型收敛速度，提升特征提取模型表达能力的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的特征提取模型的训练方法的流程示意图之一；

图2是本发明提供的特征提取模型的训练方法中步骤140的流程示意图；

图3是本发明提供的特征提取模型的训练方法的流程示意图之二；

图4是本发明提供的数据处理方法的流程示意图；

图5是本发明提供的特征提取模型的训练装置的结构示意图；

图6是本发明提供的数据处理装置的结构示意图；

图7是本发明提供的电子设备的结构示意图之一；

图8是本发明提供的电子设备的结构示意图之二。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在人工智能技术的应用推广中，单一模态的数据容易因噪声干扰等因素影响，导致信息缺失或表达能力不强，难以满足复杂场景的推广要求。因此，人们通常利用多模态的数据间的互补性，实现模态信息的强化。此外，考虑到多模态数据的获取难度和标注难度更高，目前多应用预训练技术进行多模态预训练，从而将多模态预训练框架应用到多模态任务的迁移中。

针对这一问题，本发明提供一种特征提取模型的训练方法。此处的特征提取模型，可以作为多模态预训练框架，应用在后续各种多模态任务的迁移中。

图1是本发明提供的特征提取模型的训练方法的流程示意图之一，如图1所示，该方法包括：

步骤110，获取至少一个模态的样本数据，所述至少一个模态包括音频和/或视频。

此处的样本数据，即用于进行特征提取模型训练的样本。样本数据可以包括至少一个模态，例如样本数据可以是音频数据，或者样本数据可以是视频数据。而为了适应多模态预训练的需求，样本数据需要包括至少两个模态，即样本数据可以包括音频数据和视频数据，还可以包括除音频和视频模态之外的其他模态的数据，例如还可以包括文本数据。

可以理解的是，此处的样本数据即无监督数据。

步骤120，执行所述样本数据所属的模态所对应的有监督任务，获取所述有监督任务执行过程中生成的所述样本数据的数据特征。

步骤130，对所述样本数据的数据特征进行聚类，基于聚类结果确定所述样本数据所属模态下的基准数据特征，并基于所述基准数据特征与所述样本数据的数据特征之间的相似度，确定与所述样本数据相匹配的基准数据特征。

具体地，为了解决相关技术在执行无监督预训练时存在的特征间区分性不足的问题，本发明实施例中应用了已有的有监督任务，由此提取无监督的样本数据中高层次的特征，即基准数据特征，作为特征提取模型预训练的指导标签，从而达到加快特征提取模型收敛速度，提升特征提取模型表达能力的效果。

此处，针对于有监督任务的选取应用，与样本数据本身的模态相关。例如，音频模态的样本数据，通常应用于语音识别、声纹识别、韵律识别一类的有监督任务，而视频模态的样本数据，通常应用于情感识别、人脸识别一类的有监督任务。即，针对不同的模态，可以对应不同的有监督任务。

在获取到样本数据之后，即可基于预先训练好的样本数据所属模态对应的有监督模型，针对样本数据执行有监督任务。例如，针对音频模态的样本数据，可以对音频模态的样本数据进行语音识别，又例如，针对视频模态的样本数据，可以对视频模态的样本数据进行情绪识别。

在有监督任务的执行过程中，有监督模型会针对样本数据进行特征提取，并基于提取所得的特征获取有监督任务结果。由此，本发明实施例中可以获取在此过程中经过有监督模型进行特征提取得到的特征，此处记为样本数据的数据特征。例如，可以基于有监督语音识别模型对音频模态的样本数据进行语音识别，并将有监督语音识别模型中最后的隐层表征作为音频模态的样本数据中每一帧语音的内容表征，即音频模态的样本数据的数据特征；又例如，可以基于有监督情感识别模型对视频模态的样本数据进行情感识别，并将有监督情感识别模型中的最后的隐层表征作为视频模态的样本数据中每一帧图像的情感表征，即视频模态的样本数据的数据特征。可以理解的是，特征提取以获取有监督任务结果为导向，由此得到的数据特征即高层次的特征。

在得到样本数据的高层次的数据特征之后，即可从中选取中更具代表性的数据特征，即，基准数据特征，作为后续在训练特征提取模型时的参考标签。可以理解的是，步骤130中，基准数据特征的选取和匹配，是针对每个模态的样本数据分别执行的。

此处，以任意一个模态为例，可以将该模态下样本数据的数据特征进行聚类，由此得到多个特征簇，此处，可以将每个特征簇的簇中心的特征作为该模态下具有代表性的基准数据特征，由此，一个模态可以存在多个基准数据特征。并且，在进行聚类时，考虑到一个模态下的样本数据的规模，如果对所有样本数据的数据特征进行聚类，可能需要消耗大量的时间和计算资源，也可以从一个模态的样本数据中抽取部分样本数据，仅应用部分样本数据的数据特征进行聚类。需要说明的是，针对部分样本数据的抽取，需要均衡该模态下样本数据的来源和形式等因素，使得抽取得到的部分样本数据本身具备多样性，由此聚类得到的基准数据特征也能够具备代表性。

在得到该模态下的基准数据特征之后，即可对该模态下的所有样本数据进行特征归类，即通过计算样本数据的数据特征与所属模态下的各基准数据特征之间的相似度，从各基准数据特征中选取出与样本数据相匹配的基准数据特征。

此处，可以是选取相似度最高的基准数据特征，作为与样本数据相匹配的基准数据特征。此外，还可以根据样本数据的数据特征与所属模态下的各基准数据特征之间的相似度，计算样本数据与各基准数据特征相匹配的概率，由此确定与样本数据相匹配的基准数据特征，概率计算方式p(c|A_x)可以表示为如下形式：

式中，A_x表示样本数据中帧级别的数据特征,e_c表示对应的基准数据特征，C表示基准数据特征的数目，sim表示对数据特征和基准数据特征的相似度的计算，τ表示超参调节缩减程度。

可以理解的是，与样本数据相匹配的基准数据特征，即应用样本数据进行特征提取模型训练时的指导标签。

步骤140，基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型。

具体地，在得到样本数据及与之相匹配的基准数据特征之后，即可将样本数据作为特征提取模型的训练样本，将与样本数据相匹配的基准数据特征作为训练标签，对特征提取模型进行训练，从而得到后续可作为迁移学习基础的特征提取模型。

可以理解的是，如果存在多个模态的样本数据，可以并行输入到特征提取模型中以使得特征提取模型能够基于多个模态的样本数据之间的关系更好地进行特征提取学习。

以上述至少一个模态包括音频和/或视频为例，由此训练得到的特征提取模型可以实现音频和/或视频模态下数据的高层次特征提取，特征提取模型可以应用在下游任务，例如语音识别、身份识别、话术识别、情感识别等下游任务的迁移学习中，从而实现下游任务所需的语义特征、身份特征、话术特征、情感特征等的特征提取。

本发明实施例提供的方法，通过有监督任务实现样本数据的高层次的数据特征提取，进而通过聚类得到更具代表性的基准数据特征作为特征提取模型训练时的指导标签，由此强化特征提取模型训练时指导标签的区分性和表征能力，从而达到加快特征提取模型收敛速度，提升特征提取模型表达能力的效果。

基于上述实施例，图2是本发明提供的特征提取模型的训练方法中步骤140的流程示意图，如图2所示，步骤140包括：

步骤141，对所述至少一个模态的样本数据进行掩码处理，得到所述至少一个模态的掩码数据；

步骤142，基于初始特征提取模型，对所述至少一个模态的掩码数据中的掩码部分进行特征预测，得到所述掩码部分的预测特征；

步骤143，基于与所述样本数据相匹配的基准数据特征，以及所述掩码部分的预测特征，对所述初始特征提取模型进行参数迭代，得到所述特征提取模型。

具体地，可以以掩码预测的方式，实现特征提取模型的训练。即，在特征提取模型的训练过程中，初始特征提取模型的输入为经过掩码处理的样本数据，即掩码数据，初始特征模型的输出为针对掩码数据进行特征提取得到掩码数据的预测特征，其中包含了针对掩码数据中被遮盖的掩码部分进行特征预测得到的掩码部分的预测特征。其中，针对样本数据进行的掩码处理，即，以随机遮盖的方式对样本数据中的部分帧进行遮盖。

在得到初始特征提取模型输出的针对掩码部分的预测特征之后，即可将预先匹配好的样本数据所对应的基准数据特征，与掩码部分的预测特征进行比对，基于此两者之间的差异确定损失，进而应用损失对初始特征提取模型进行参数迭代，由此得到特征提取模型。例如，针对同时存在音频模态和视频模态的样本数据的情况，可以将音频的掩码部分和视频的掩码部分取并集作为参数迭代的目标函数中的部分，由此，用于参数迭代的损失可以表示为基于音频的掩码部分所确定的损失与基于视频的掩码部分所确定的损失之和。

在此过程中，初始特征提取模型可以学习至少一个模态的样本数据与基准数据特征之间的映射关系，并且，针对输入为多个模态的样本数据的情况，初始特征提取模型可以在特征提取过程中学习模态间数据的互补特征，由此增强输出特征的可靠性。

基于上述任一实施例，在所述至少一个模态包括音频和视频的情况下，步骤142包括：

具体地，针对多模态的样本数据，即同步采集所得的音视频数据，在特征提取模型的训练过程中，可以通过初始特征提取模型，先针对音视频数据进行分模态的特征提取，即分别提取音频的掩码数据中的音频特征，以及视频的掩码数据中的视频特征；在此基础上，还可以通过初始特征提取模型对提取所得的音频特征和视频特征进行特征融合，使得音视频数据之间的互补性得以在特征提取中为各自模态下数据提供更加丰富的补充信息，经过特征融合，即可得到音频的掩码数据的预测特征，以及视频的掩码数据的预测特征，并且，在掩码数据的预测特征中，包含了掩码部分的预测特征。

进一步地，针对于音频特征和视频特征的融合，可以采用注意力机制加强不同模态之间的信息互补，例如可以应用跨越注意力(Cross Attention)实现特征的融合交互。

本发明实施例提供的方法，在多模态的特征提取过程中对于不同模态的特征进行融合，充分应用了多模态数据之间的互补性，保证了训练得到的特征提取模型在进行多模态特征提取时的可靠性。

基于上述任一实施例，在所述至少一个模态包括音频和视频的情况下，步骤143包括：

基于所述音频特征和所述视频特征，确定第二损失；

具体地，在基于多模态数据进行特征提取模型训练的过程中，不仅可以将与样本数据相匹配的基准数据特征，和初始特征提取模型输出的掩码部分的预测特征进行比对，基于此两者之间的差异确定第一损失用于初始特征提取模型的参数迭代，以实现以基准数据特征作为指导标签的模型训练，还可以应用同步录制的多模态数据中人员的身份一致性，对于初始特征提取模型在针对每个模态的数据进行独立的特征提取过程进行约束。

在初始特征提取模型针对音频的掩码数据和视频的掩码数据进行特征提取的过程中，首先分别提取了音频的掩码数据中的音频特征，以及视频的掩码数据中的视频特征，随后对于音频特征和视频特征进行特征融合。即，音频特征和视频特征，是初始特征提取模型中针对音频模态和视频模态的数据分别进行特征提取得到的。

而考虑到音频模态和视频模态的数据，是同步录制的，也就是说音频模态和视频模态的数据中所包含的人员，应是同一个人，由此，基于音频模态的数据得到的音频特征，和基于视频模态的数据得到的视频特征，所反映的人员的身份信息应是一致的。

基于此，可以将音频特征视为人员的声纹ID的特征表示，将视频特征视为人员的人脸ID的特征表示，在人员身份信息一致性的约束下，可以基于音频特征和视频特征之间的差异，确定第二损失。可以理解的是，音频特征与视频特征之间的差异越小，则音频特征与视频特征各自反映的人员身份之间的差异越小，第二损失越小；音频特征与视频特征之间的差异越大，则音频特征与视频特征各自反映的人员身份之间的差异越大，第二损失越大。

在得到第一损失和第二损失之后，即可联合第一损失和第二损失对初始特征提取模型进行参数迭代，在此过程中，可以将第一损失和第二损失相加作为总损失，应用总损失对初始特征提取模型进行参数迭代，或者可以对第一损失和第二损失进行加权求和得到总损失，再应用总损失对初始特征提取模型进行参数迭代。

本发明实施例提供的方法，基于音频特征和视频特征确定第二损失，以实现特征提取模型训练过程中的人员身份一致性的约束，对身份信息进行强化补充，由此保证训练得到的特征提取模型在进行多模态特征提取时的可靠性。

此外，目前的多模态预训练框架对于下游任务的推广性较差。例如，常见的多模态预训练框架，模型的输入包括唇形支路和语音支路，训练完成后常常只能在唇语识别、多模态语音识别场景等关注话术信息识别的场景使用，无法推广到关注表情、身份等信息的多模态情感识别、多模态声纹识别等多模态交互任务中。针对这一问题，本发明实施例中，在模态包括视频的情况下，视频的样本数据包括完整的人体面部区域。

具体地，在视频模态的样本数据中，即，在样本视频数据中，每一帧图像均包含有完整的人体面部区域。将包含有完整的人体面部区域的视频数据作为视频模态的样本数据，应用在特征提取模型的训练中，使得特征提取模型不再仅仅关注唇部区域的信息，而是可以参考人体面部的全部区域，由此使得训练所得的特征提取模型在作为预训练框架应用于下游任务时，能够具备更强的推广性。

例如，在进行话术表达时，信息反馈主要体现在鼻子以下、脖子以上(含脖子)的位置；在进行情感表达时，信息反馈主要体现在面部全体；在进行身份确认时，信息反馈主要体现在面部全体。而由于本发明实施例在进行模型训练时，所应用的视频的样本数据包括了完整的人体面部区域，可以覆盖话术表达、情感表达、身份确认等各种下游任务所需的信息，因而具备更加的下游任务推广性。

基于上述任一实施例，所述音频对应的有监督任务包括语音识别、声纹识别和韵律识别中的至少一种；

所述视频对应的有监督任务包括情感识别和/或人脸识别。

具体地，针对不同模态的有监督任务的选择，需要参考不同任务中不同模态所起的作用，例如针对内容类别的有监督任务，比如语音识别，一般情况下语音支路的效果优于视频支路的效果，并且，相对于视频支路，音频数据的储备和技术储备更多，因此对于内容类别的有监督任务，可以选取音频数据作为有监督任务的数据；又例如针对情感类别的有监督任务，例如情感识别，一般情况下视频支路的效果由于语音支路，且视频数据的标注质量高于音频数据的标注质量，标注混淆性更低，因此对于情感类型的有监督任务，可以选取视频数据作为有监督任务的数据。

基于此，可以确定不同模态对应的有监督任务，从而得到不同模态下的基准数据特征，以实现针对特征提取模型的训练引导。

基于上述任一实施例，图3是本发明提供的特征提取模型的训练方法的流程示意图之二，如图3所示，针对于音视频多模态的特征提取模型的训练，首先可以获取视频的样本数据和音频的样本数据。

针对视频的样本数据，可以应用有监督的情感识别模型，对视频的样本数据进行情感识别，并获取情感识别模型在情感识别过程中提取的最后的隐层表示，作为视频的样本数据中每帧图像的数据特征。并针对视频的样本数据中每帧图像的数据特征进行特征聚类，从而将聚类得到的预设类别的类中心，作为视频模态的基准数据特征。在此基础上，还可以根据视频的样本数据中每帧图像的数据特征与各个基准数据特征之间的相似度，为视频的样本数据匹配基准数据特征，作为情感类别标签。此处，可以采用K-means聚类算法实现特征聚类。并且，针对于视频模态聚类的预设类别的数目，可以参考实际情感识别任务的情感类别数目以及程度而定。

针对音频的样本数据，可以应用有监督的语音识别模型，对音频的样本数据进行语音识别，并获取语音识别模型在语音识别过程中提取的最后的隐层表示，作为音频的样本数据中每帧语音的数据特征。并针对音频的样本数据中每帧语音的数据特征进行特征聚类，从而将聚类得到的预设类别的类中心，作为音频模态的基准数据特征。在此基础上，还可以根据音频的样本数据中每帧语音的数据特征与各个基准数据特征之间的相似度，为音频的样本数据匹配基准数据特征，作为内容类别标签。并且，针对于音频模态聚类的预设类别的数目，可以参考实际语音识别任务的建模单元数目而定。

在此基础上，可以对视频的样本数据和音频的样本数据分别进行随机掩码，从而得到视频的掩码数据和音频的掩码数据并输入到初始特征提取模型中。

此处的初始特征提取模型在图3中对应视频特征提取、音频特征提取和特征融合三个模块。其中，视频特征提取用于独立提取视频模态的掩码数据的视频特征，音频特征提取用于独立提取音频模态的掩码数据的音频特征，特征融合用于对视频特征和音频特征进行融合，从而输出针对视频的掩码数据和音频的掩码数据的预测特征。

其中，视频的掩码数据的预测特征可以与作为情感类标签的基准数据特征进行比对，音频的掩码数据的预测特征可以与作为内容类标签的基准数据特征进行比对，从而计算得到第一损失；视频特征可以视为人脸ID特征表示，音频特征可以视为声纹ID特征表示，基于此两者之间的差异可以确定第二损失，以实现人员身份一致性约束。

基于第一损失和第二损失，可以对初始特征提取模型进行参数迭代，从而得到可作为音视频多模态预训练框架的特征提取模型。

本发明实施例提供的方法，利用已有的有监督任务，为无监督的样本数据提取高层次的数据特征作为特征提取模型的指导标签，加快模型的收敛，提升模型的表达能力；同时，在训练过程中，应用包括完整的人体面部区域的样本数据，从常规的局部唇形信息拓展到了全局面部信息，实现对表情、话术、身份等表达的面部关联信息的充分利用；从情感、内容、ID属性等层面强化视频和语音支路的信息互补和信息增强，从而匹配更多的下游任务使用场景。

基于上述任一实施例，图4是本发明提供的数据处理方法的流程示意图，如图4所示，该方法包括：

步骤410，获取至少一个模态的待处理数据，所述至少一个模态包括音频和/或视频；

步骤420，基于多模态处理模型，对所述待处理数据进行数据处理；

具体地，待处理数据即需要进行数据处理的数据，待处理数据可以是单一模态的，例如可以是音频数据或者是视频数据，也可以是多模态的，例如可以是同步录制的音视频数据，本发明实施例对此不作具体限定。

在得到待处理数据之后，即可将待处理数据输入到预先训练所得的多模态处理模型，从而得到相应的数据处理结果。

此处，多模态处理模型可实现音视频模态的数据处理，多模态处理模型具体实现的数据处理功能，与多模态处理模型在针对特征提取模型进行迁移学习时所应用的下游任务相关。例如，多模态处理模型所实现的数据处理功能，可以包括身份识别、情绪识别、语音识别等功能中的一种或者多种。

特别地，本发明实施例中作为多模态处理模型迁移学习基础的多模态预训练框架，即上述实施例中训练所得的特征提取模型。此处的特征提取模型可以实现到多模态语音识别、多模态情感识别、多模态声纹识别等不同任务的迁移，同时也可以满足单模态任务如唇语识别、语音识别等任务的迁移使用。

在特征提取模型的训练过程中，借助了样本数据的模态所对应的有监督任务，以实现样本数据的高层次数据特征提取，进而通过聚类得到更具代表性的基准数据特征作为特征提取模型训练时的指导标签，由此强化特征提取模型训练时指导标签的区分性和表征能力，从而达到加快特征提取模型收敛速度，提升特征提取模型表达能力的效果。特征提取模型的具体训练方法与上述实施例中一致，此处不作赘述。

基于此得到的特征提取模型应用于迁移学习，即可实现更加可靠、准确的多模态处理模型，从而更好地实现针对多模态数据的数据处理。

本发明实施例提供的数据处理方法，应用以基准数据特征作为指导标签训练得到的特征提取模型，进行迁移学习，由此实现的多模态处理模型，能够实现更加准确可靠的多模态数据处理。

基于上述任一实施例，图5是本发明提供的特征提取模型的训练装置的结构示意图，如图5所示，该装置包括：

样本获取单元510，用于获取至少一个模态的样本数据，所述至少一个模态包括音频和/或视频；

特征获取单元520，用于执行所述样本数据所属的模态所对应的有监督任务，获取所述有监督任务执行过程中生成的所述样本数据的数据特征；

基准确定单元530，用于对所述样本数据的数据特征进行聚类，基于聚类结果确定所述样本数据所属模态下的基准数据特征，并基于所述基准数据特征与所述样本数据的数据特征之间的相似度，确定与所述样本数据相匹配的基准数据特征；

训练单元540，用于基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型。

本发明实施例提供的装置，通过有监督任务实现样本数据的高层次的数据特征提取，进而通过聚类得到更具代表性的基准数据特征作为特征提取模型训练时的指导标签，由此强化特征提取模型训练时指导标签的区分性和表征能力，从而达到加快特征提取模型收敛速度，提升特征提取模型表达能力的效果。

基于上述任一实施例，所述训练单元540包括：

掩码子单元，用于对所述至少一个模态的样本数据进行掩码处理，得到所述至少一个模态的掩码数据；

预测子单元，用于基于初始特征提取模型，对所述至少一个模态的掩码数据中的掩码部分进行特征预测，得到所述掩码部分的预测特征；

迭代子单元，用于基于与所述样本数据相匹配的基准数据特征，以及所述掩码部分的预测特征，对所述初始特征提取模型进行参数迭代，得到所述特征提取模型。

基于上述任一实施例，预测子单元具体用于：

基于上述任一实施例，迭代子单元具体用于：

基于所述音频特征和所述视频特征，确定第二损失；

基于上述任一实施例，所述视频的样本数据包括完整的人体面部区域。

所述视频对应的有监督任务包括情感识别和/或人脸识别。

基于上述任一实施例，图6是本发明提供的数据处理装置的结构示意图，如图6所示，该装置包括：

数据获取单元610，用于获取至少一个模态的待处理数据，所述至少一个模态包括音频和/或视频；

数据处理单元620，用于基于多模态处理模型，对所述待处理数据进行数据处理；

本发明实施例提供的数据处理装置，应用以基准数据特征作为指导标签训练得到的特征提取模型，进行迁移学习，由此实现的多模态处理模型，能够实现更加准确可靠的多模态数据处理。

图7示例了一种电子设备的实体结构示意图之一，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行特征提取模型的训练方法，该方法包括：获取至少一个模态的样本数据，所述至少一个模态包括音频和/或视频；执行所述样本数据所属的模态所对应的有监督任务，获取所述有监督任务执行过程中生成的所述样本数据的数据特征；对所述样本数据的数据特征进行聚类，基于聚类结果确定所述样本数据所属模态下的基准数据特征，并基于所述基准数据特征与所述样本数据的数据特征之间的相似度，确定与所述样本数据相匹配的基准数据特征；基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型。

此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

图8示例了一种电子设备的实体结构示意图之二，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，还包括麦克风850和/或摄像头860，其中，处理器810、通信接口820、存储器830、麦克风850、摄像头860通过通信总线840完成相互间的通信。麦克风850用于采集音频的待处理数据，摄像头860用于采集视频的待处理数据；处理器810可以调用存储器830中的逻辑指令，以执行所述计算机程序中的多模态处理模型，对所述待处理数据进行数据处理，所述多模态处理模型是对特征提取模型进行迁移学习得到的，所述特征提取模型基于音视频模态的样本数据，以及与所述样本数据相匹配的基准数据特征训练得到，所述基准数据特征是对音频和视频分别对应的有监督任务执行过程中生成的所述样本数据的数据特征进行聚类得到的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的特征提取模型的训练方法，该方法包括：获取至少一个模态的样本数据，所述至少一个模态包括音频和/或视频；执行所述样本数据所属的模态所对应的有监督任务，获取所述有监督任务执行过程中生成的所述样本数据的数据特征；对所述样本数据的数据特征进行聚类，基于聚类结果确定所述样本数据所属模态下的基准数据特征，并基于所述基准数据特征与所述样本数据的数据特征之间的相似度，确定与所述样本数据相匹配的基准数据特征；基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型。

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机还能够执行上述各方法所提供的数据处理方法，该方法包括：获取至少一个模态的待处理数据，所述至少一个模态包括音频和/或视频；基于多模态处理模型，对所述待处理数据进行数据处理；所述多模态处理模型是对特征提取模型进行迁移学习得到的，所述特征提取模型基于音视频模态的样本数据，以及与所述样本数据相匹配的基准数据特征训练得到，所述基准数据特征是对音频和视频分别对应的有监督任务执行过程中生成的所述样本数据的数据特征进行聚类得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的特征提取模型的训练方法，该方法包括：获取至少一个模态的样本数据，所述至少一个模态包括音频和/或视频；执行所述样本数据所属的模态所对应的有监督任务，获取所述有监督任务执行过程中生成的所述样本数据的数据特征；对所述样本数据的数据特征进行聚类，基于聚类结果确定所述样本数据所属模态下的基准数据特征，并基于所述基准数据特征与所述样本数据的数据特征之间的相似度，确定与所述样本数据相匹配的基准数据特征；基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的数据处理方法，该方法包括：获取至少一个模态的待处理数据，所述至少一个模态包括音频和/或视频；基于多模态处理模型，对所述待处理数据进行数据处理；所述多模态处理模型是对特征提取模型进行迁移学习得到的，所述特征提取模型基于音视频模态的样本数据，以及与所述样本数据相匹配的基准数据特征训练得到，所述基准数据特征是对音频和视频分别对应的有监督任务执行过程中生成的所述样本数据的数据特征进行聚类得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种特征提取模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的特征提取模型的训练方法，其特征在于，所述基于所述至少一个模态的样本数据，以及与所述样本数据相匹配的基准数据特征，训练特征提取模型，包括：

3.根据权利要求2所述的特征提取模型的训练方法，其特征在于，在所述至少一个模态包括音频和视频的情况下，所述基于初始特征提取模型，对所述至少一个模态的掩码数据中的掩码部分进行特征预测，得到所述掩码部分的预测特征，包括：

4.根据权利要求3所述的特征提取模型的训练方法，其特征在于，所述基于与所述样本数据相匹配的基准数据特征，以及所述掩码部分的预测特征，对所述初始特征提取模型进行参数迭代，得到所述特征提取模型，包括：

基于所述音频特征和所述视频特征，确定第二损失；

5.根据权利要求1至4中任一项所述的特征提取模型的训练方法，其特征在于，所述视频的样本数据包括完整的人体面部区域。

6.根据权利要求1至4中任一项所述的特征提取模型的训练方法，其特征在于，所述音频对应的有监督任务包括语音识别、声纹识别和韵律识别中的至少一种；

所述视频对应的有监督任务包括情感识别和/或人脸识别。

7.一种数据处理方法，其特征在于，包括：

基于多模态处理模型，对所述待处理数据进行数据处理；

8.一种特征提取模型的训练装置，其特征在于，包括：

9.一种数据处理装置，其特征在于，包括：

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述特征提取模型的训练方法。

11.一种电子设备，包括麦克风和/或摄像头，还包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述麦克风用于采集音频的待处理数据；

所述摄像头用于采集视频的待处理数据；

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述特征提取模型的训练方法，或实现如权利要求7所述的数据处理方法。