CN116721449A

CN116721449A - 视频识别模型的训练方法、视频识别方法、装置以及设备

Info

Publication number: CN116721449A
Application number: CN202310587575.7A
Authority: CN
Inventors: 李超; 陈昌儒; 李标
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-09-08

Abstract

本申请公开了一种视频识别模型的训练方法、视频识别方法、装置以及设备，属于计算机技术领域。通过本申请实施例提供的技术方案，采用预训练加微调的方式来训练视频识别模型，在预训练过程中，将多个第一样本人脸视频输入初始视频识别模型，通过初始视频识别模型，对多个第一样本人脸视频进行多模态编码，得到各个第一样本人脸视频的初始多模态特征。采用各个第一样本人脸视频的初始音频特征以及初始多模态特征，对该初始视频识别模型进行训练，得到参考视频识别模型。在微调过程中，采用多个第二样本人脸视频，以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型。

Description

视频识别模型的训练方法、视频识别方法、装置以及设备

技术领域

本申请涉及计算机技术领域，特别涉及一种视频识别模型的训练方法、视频识别方法、装置、设备以及存储介质。

背景技术

随着计算机技术的发展，越来越多的场景会用到人脸视频，比如，在语音助手的场景下，用户与语音助手之间建立视频连接，语音助手通过采集到的人脸视频来与用户进行交流。在使用人脸视频的过程中，需要对人脸视频进行识别，得到人脸视频中的信息。

相关技术中，往往会训练一个视频识别模型来对人脸视频进行识别，从而得到人脸视频中的信息。

但是，训练视频识别模型需要大量的标注数据，而标注数据的获取难度较高，导致训练视频识别模型的成本较高。

发明内容

本申请实施例提供了一种视频识别模型的训练方法、视频识别方法、装置、设备以及存储介质，可以降低训练视频识别模型的成本，技术方案如下：

一方面，提供了一种视频识别模型的训练方法，所述方法包括：

将多个第一样本人脸视频输入初始视频识别模型，通过所述初始视频识别模型，对所述多个第一样本人脸视频进行多模态编码，得到各个所述第一样本人脸视频的初始多模态特征，所述初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的；

采用各个所述第一样本人脸视频的初始音频特征以及初始多模态特征，对所述初始视频识别模型进行训练，得到参考视频识别模型；

采用多个第二样本人脸视频，以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项，对所述参考视频识别模型进行训练，得到目标视频识别模型，所述目标视频识别模型用于识别输入视频的情感标签和所述输入视频的音频对应的文本中的至少一项，所述标注文本为对应第二样本人脸视频的音频对应的文本。

一方面，提供了一种视频识别方法，所述方法包括：

将目标人脸视频输入目标视频识别模型，通过所述目标视频识别模型，对所述目标人脸视频进行多模态编码，得到所述目标人脸视频的目标多模态特征，所述目标多模态特征是所述目标人脸视频的音频特征以及图像特征融合得到的；

通过所述目标视频识别模型，对所述目标人脸视频的目标多模态特征进行解码，得到所述目标人脸视频对应的情感标签以及所述目标人脸视频的音频对应的文本中的至少一项；

其中，所述目标视频识别模型是基于采用多个第一样本人脸视频、多个第二样本人脸视频，以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项训练得到的。

一方面，提供了一种视频识别模型的训练装置，所述装置包括：

多模态编码模块，用于将多个第一样本人脸视频输入初始视频识别模型，通过所述初始视频识别模型，对所述多个第一样本人脸视频进行多模态编码，得到各个所述第一样本人脸视频的初始多模态特征，所述初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的；

第一训练模块，用于采用各个所述第一样本人脸视频的初始音频特征以及初始多模态特征，对所述初始视频识别模型进行训练，得到参考视频识别模型；

第二训练模块，用于采用多个第二样本人脸视频，以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项，对所述参考视频识别模型进行训练，得到目标视频识别模型，所述目标视频识别模型用于识别输入视频的情感标签和所述输入视频的音频对应的文本中的至少一项，所述标注文本为对应第二样本人脸视频的音频对应的文本。

在一种可能的实施方式中，所述多模态编码模块，用于通过所述初始视频识别模型，对所述多个第一样本人脸视频进行音频特征编码和图像特征编码，得到各个所述第一样本人脸视频的初始音频特征以及初始图像特征；通过所述初始视频识别模型，将各个所述第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合，得到各个所述第一样本人脸视频的初始多模态特征。

在一种可能的实施方式中，所述多模态编码模块，用于对于所述多个第一样本人脸视频中的任一第一样本人脸视频，对所述第一样本人脸视频的音频进行音频特征提取和全连接，得到所述第一样本人脸视频的初始音频特征；对所述第一样本人脸视频的图像进行图像特征提取和卷积，得到所述第一样本人脸视频的初始图像特征。

在一种可能的实施方式中，所述多模态编码模块，用于对于所述多个第一样本人脸视频中的任一第一样本人脸视频，将所述第一样本人脸视频的初始音频特征以及初始图像特征进行融合，得到所述第一样本人脸视频的第一融合特征；基于注意力机制对所述第一样本人脸视频的初始图像特征和第一融合特征进行编码，得到所述第一样本人脸视频的初始多模态特征。

在一种可能的实施方式中，所述多模态编码模块，用于采用门控机制对所述第一样本人脸视频的第一融合特征进行处理，得到所述第一样本人脸视频的门控融合特征；将所述第一样本人脸视频的初始图像特征和门控融合特征进行融合，得到所述第一样本人脸视频的第二融合特征；采用注意力机制对所述第二融合特征进行编码，得到所述第一样本人脸视频的初始多模态特征。

在一种可能的实施方式中，所述第一训练模块，用于对各个所述第一样本人脸视频的初始音频特征进行聚类，得到多个第一聚类中心；基于所述多个第一聚类中心以及各个所述第一样本人脸视频的初始多模态特征，对所述初始视频识别模型进行训练，得到所述参考视频识别模型。

在一种可能的实施方式中，所述第一训练模块，用于基于所述多个第一聚类中心，将各个所述第一样本人脸视频的初始多模态特征划分至多个第一簇；基于各个所述第一簇内初始多模态特征之间的相似度，以及不同第一簇内初始多模态特征之间的相似度，对所述初始视频识别模型进行训练，得到第一视频识别模型；将所述多个第一样本人脸视频输入第一视频识别模型，通过所述第一视频识别模型，对所述多个第一样本人脸视频进行多模态编码，得到各个所述第一样本人脸视频的第一多模态特征；对各个所述第一样本人脸视频的第一多模态特征进行聚类，得到多个第二聚类中心；基于所述多个第二聚类中心以及各个所述第一样本人脸视频的第一多模态特征，对所述第一视频识别模型进行训练，得到所述参考视频识别模型。

在一种可能的实施方式中，所述第一训练模块，用于基于各个所述第二聚类中心对应的第二簇内第一多模态特征之间的相似度，以及不同第二聚类中心对应的第二簇内第一多模态特征之间的相似度，对所述第一视频识别模型进行训练，得到第二视频识别模型；将所述多个第一样本人脸视频输入第二视频识别模型，通过所述第二视频识别模型，对所述多个第一样本人脸视频进行多模态编码，得到各个所述第一样本人脸视频的第二多模态特征；基于各个所述第一样本人脸视频的第二多模态特征，对所述第二视频识别模型进行训练，得到所述参考视频识别模型。

在一种可能的实施方式中，所述第二训练模块，用于将多个第二样本人脸视频输入参考视频识别模型，通过所述参考视频识别模型，对所述多个第二样本人脸视频进行多模态编码，得到各个所述第二样本人脸视频的多模态特征；通过所述参考视频识别模型，对各个所述第二样本人脸视频的多模态特征进行解码，得到各个所述第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项；基于标注情感标签与所述预测情感标签之间的第一差异信息，以及所述标注文本与所述预测文本之间的第二差异信息中的至少一项，对所述参考视频识别模型进行训练，得到目标视频识别模型。

在一种可能的实施方式中，所述第二训练模块，用于对于所述多个第二样本人脸视频中的任一第二样本人脸视频，基于注意力机制对所述第二样本人脸视频的多模态特征进行多轮解码，得到所述第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项。

在一种可能的实施方式中，所述装置还包括：

视频获取模块，用于获取多个初始样本视频；对所述多个初始样本视频进行非人脸过滤，得到多个参考样本视频，所述多个参考样本视频的视频帧均包含人脸；对所述多个参考样本视频进行分割，得到所述多个第一样本人脸视频。

在一种可能的实施方式中，所述视频获取模块，用于对于所述多个初始样本视频中的任一初始样本视频，对所述初始样本视频进行人脸检测，得到所述初始样本视频中包含人脸的多个参考视频帧；确定所述多个参考视频帧中的人脸区域；将各个所述参考视频帧中的人脸区域缩放至预设尺寸，得到多个目标视频帧；将所述多个目标视频帧进行组合，得到所述初始样本视频对应的参考样本视频。

在一种可能的实施方式中，所述视频获取模块，用于对所述多个参考视频帧进行人脸关键点检测，得到各个所述参考视频帧中的多个人脸关键点；基于各个所述参考视频帧中的多个人脸关键点，确定各个所述参考视频帧中的人脸区域。

在一种可能的实施方式中，所述视频获取模块，用于对于所述多个参考样本视频中的任一参考样本视频，对所述参考样本视频进行字幕识别，得到所述参考样本视频中的多个字幕；基于各个所述字幕的起始时间和结束时间，对所述参考样本视频进行拆分，得到所述参考样本视频对应的第一样本人脸视频。

在一种可能的实施方式中，所述视频获取模块，用于对所述参考样本视频进行光学字符识别，得到所述参考样本视频中的多个参考字幕；对所述参考样本视频的音频进行识别，得到所述参考样本视频的多个音频字幕；采用所述多个音频字幕对所述多个参考字幕进行过滤，得到所述参考样本视频中的多个字幕。

一方面，提供了一种视频识别装置，所述装置包括：

输入模块，用于将目标人脸视频输入目标视频识别模型，通过所述目标视频识别模型，对所述目标人脸视频进行多模态编码，得到所述目标人脸视频的目标多模态特征，所述目标多模态特征是所述目标人脸视频的音频特征以及图像特征融合得到的；

识别模块，用于通过所述目标视频识别模型，对所述目标人脸视频的目标多模态特征进行解码，得到所述目标人脸视频对应的情感标签以及所述目标人脸视频的音频对应的文本中的至少一项；

一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现所述视频识别模型的训练方法或所述的视频识别方法。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现所述视频识别模型的训练方法或所述的视频识别方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该电子设备执行所述视频识别模型的训练方法或所述的视频识别方法。

通过本申请实施例提供的技术方案，采用预训练加微调的方式来训练视频识别模型，在预训练过程中，将多个第一样本人脸视频输入初始视频识别模型，通过初始视频识别模型，对多个第一样本人脸视频进行多模态编码，得到各个第一样本人脸视频的初始多模态特征，初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的。采用各个第一样本人脸视频的初始音频特征以及初始多模态特征，对该初始视频识别模型进行训练，得到参考视频识别模型，参考视频识别模型为完成预训练的视频识别模型，预训练过程是无监督的训练过程。在微调过程中，采用多个第二样本人脸视频，以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型，该目标视频识别模型能够识别输入视频的情感标签和输入视频的音频对应的文本中的至少一项。这种无监督配合有监督的训练方式，能够在使用少量标注数据的情况下训练视频识别模型，降低了训练视频识别模型的成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频识别模型的训练方法的实施环境的示意图；

图2是本申请实施例提供的一种视频识别模型的训练方法流的程图；

图3是本申请实施例提供的另一种视频识别模型的训练方法的流程图；

图4是本申请实施例提供的一种视频识别模型的结构示意图；

图5是本申请实施例提供的又一种视频识别模型的训练方法的流程图；

图6是本申请实施例提供的一种视频识别方法的流程图；

图7是本申请实施例提供的另一种视频识别方法的流程图；

图8是本申请实施例提供的一种视频识别模型的训练装置的结构示意图；

图9是本申请实施例提供的一种视频识别装置的结构示意图；

图10是本申请实施例提供的一种终端的结构示意图；

图11是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式做进一步的详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

为了对本申请实施例提供的技术方案进行说明，首先对本申请实施例涉及的名词进行介绍。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识子模型使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

语义特征：用于表示文本所表达语义的特征，不同的文本可以对应于相同的语义特征，例如文本“今天天气怎么样”和文本“今天天气如何”可以对应于同一个语义特征。电子设备可以将文本中的字符映射为字符向量，根据字符之间的关系，对字符向量进行组合和运算，得到文本的语义特征。例如电子设备可以采用编解码器的双向编码器表示(Bidirectional Encoder Representations from Transformers，BERT)。

归一化：将取值范围不同的数列映射到(0，1)区间上，便于数据的处理。在一些情况下，归一化后的数值可以直接被实现为概率。

随机失活(Dropout)：是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性从而实现神经网络的正则化，降低其结构风险。例如在模型训练过程中，存在一个向量(1，2，3，4)，将该向量输入随机失活层后，随机失活层可以随机将向量(1，2，3，4)中的一个数字转化为0，比如将2转化为0，那么向量就变成了(1，0，3，4)。

学习率(Learning Rate)：用于控制模型的学习进度，学习率可以指导模型在梯度下降法中，如何使用损失函数的梯度调整网络权重。学习率如果过大，可能会使损失函数直接越过全局最优点，此时表现为损失过大；学习率如果过小，损失函数的变化速度很慢，会大大增加网络的收敛复杂度，并且很容易被困在局部最小值或者鞍点。

嵌入编码(Embedded Coding)：嵌入编码在数学上表示一个对应关系，即通过一个函数F将X空间上的数据映射到Y空间上，其中该函数F是单射函数，映射的结果是结构保存，单射函数表示映射后的数据与映射前的数据唯一对应，结构保存表示映射前数据的大小关系后映射后数据的大小关系相同，例如映射前存在数据X₁以及X₂，映射后得到X₁对应的Y₁以及X₂对应的Y₂。若映射前的数据X₁＞X₂，那么相应地，映射后的数据Y₁大于Y₂。对于词语来说，就是将词语映射到另外一个空间，便于后续的机器学习和处理。

注意力权重：可以表示训练或预测过程中某个数据的重要性，重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高，重要性低的数据其对应的注意力权重的值较低。在不同的场景下，数据的重要性并不相同，模型的训练注意力权重的过程也即是确定数据重要性的过程。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及的人脸视频都是在充分授权的情况下获取的。

在介绍完本申请实施例涉及的名词之后，下面对本申请实施例提供的技术方案的实施环境进行介绍。

图1是本申请实施例提供的一种视频识别模型的训练方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器140相连。可选的，终端110是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110安装和运行有支持视频识别的应用程序。

服务器140是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式***，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)，以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务，比如训练视频识别模型供该应用程序调用。

本领域技术人员可以知晓，上述终端110和服务器140的数量可以更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

在对本申请实施例提供的技术方案的实施环境进行介绍之后，下面将结合上述实施环境，对本申请实施例的应用场景进行介绍，在下述说明过程中，终端也即是上述实施环境中的终端110，服务器也即是上述实施环境中的服务器140。本申请实施例提供的技术方案能够应用在智能客服、语音助手、健康管理、安防以及内容推荐等场景下。在不同场景下，服务器能够采用本申请实施例提供的视频识别模型的训练方法来训练一个目标视频识别模型，使用该目标视频识别模型来实现不同场景下对应的功能。

本申请实施例提供的技术方案包括视频识别模型的训练方法以及视频识别方法两个部分，下面先对视频识别模型的训练方法进行简单介绍。

本申请实施例提供的视频识别模型的训练方法包括两个部分，第一个部分是预训练过程，预训练过程采用无监督的方式进行。第二个部分是微调过程，微调过程是在预训练过程的基础上进行的，微调过程采用有监督的方式进行。

在预训练过程中，服务器将多个第一样本人脸视频输入初始视频识别模型，通过该初始视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个第一样本人脸视频的初始多模态特征，该初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的。初始视频识别模型是预训练之前的视频识别模型，初始音频特征是通过初始视频识别模型得到的音频特征，初始图像特征是通过初始视频识别模型得到的图像特征。采用各个第一样本人脸视频的初始音频特征以及初始多模态特征，对该初始视频识别模型进行训练，得到参考视频识别模型，该参考视频识别模型也即是预训练后的视频识别模型，采用初始音频特征以及初始多模态特征对初始识别模型进行训练是无监督的。

在微调过程中，服务器采用多个第二样本人脸视频，以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型，该目标视频识别模型也即是训练完成的视频识别模型，使用目标视频识别模型能够识别输入视频的情感标签和输入视频的音频对应的文本中的至少一项，以供不同下游场景使用。

以本申请实施例提供的技术方案应用在智能客服场景下为例，终端启动智能客服，终端与智能客服对应的服务器建立连接。终端采集用户的人脸视频，将人脸视频发送给该服务器，该服务器将人脸视频输入采用上述过程训练得到的目标视频识别模型，通过该目标视频识别模型对该人脸视频进行多模态编码，得到该人脸视频的多模态特征。通过该目标视频识别模型，对该人脸视频的多模态特征进行解码，得到该人脸视频对应的情感标签和人脸视频的音频对应的文本中的至少一项。智能客服能够根据该情感标签和该文本中的至少一项与用户进行交流，解答用户的疑问。

在本申请实施例提供的技术方案应用在语音助手的场景下为例，终端启动语音助手，终端与语音助手对应的服务器建立连接。终端采集用户的人脸视频，将人脸视频发送给该服务器，该服务器将人脸视频输入采用上述过程训练得到的目标视频识别模型，通过该目标视频识别模型对该人脸视频进行多模态编码，得到该人脸视频的多模态特征。通过该目标视频识别模型，对该人脸视频的多模态特征进行解码，得到该人脸视频对应的情感标签和人脸视频的音频对应的文本中的至少一项。语音助手能够根据该情感标签和该文本中的至少一项与用户进行交流，帮助用户实现想要的功能。

上述是分别以本申请实施例提供的技术方案应用在智能客服和语音助手的场景下为例进行说明的，在其他场景下，均能够使用采用本申请实施例提供的视频识别模型的训练方法训练得到的目标视频识别模型来对人脸视频进行识别，从而实现场景下的特定功能。

在介绍完本申请实施例的实施环境和应用场景之后，下面对本申请实施例提供的技术方案进行说明，参见图2，以执行主体为服务器为例，方法包括下述步骤。

201、服务器将多个第一样本人脸视频输入初始视频识别模型，通过该初始视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个第一样本人脸视频的初始多模态特征，该初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的。

其中，第一样本人脸视频为预训练阶段使用的样本人脸视频，样本人脸视频的视频帧包含人脸，第一样本人脸视频无需标注，用于在预训练阶段进行无监督训练。初始视频识别模型是预训练完成之前的视频识别模型。在一些实施例中，该视频识别模型包括编码器和解码器，预训练阶段是对视频识别模型的编码器进行训练。多模态包括音频和图像，多模态特征包括音频和图像相关信息的特征，也即是融合音频特征和图像特征的特征。初始多模态特征是指使用多个第一样本人脸视频对初始视频识别模型进行第一轮预训练的过程中得到的多模态特征。初始音频特征是使用初始视频识别模型对第一样本人脸视频进行第一轮迭代过程中提取的音频特征，初始图像特征是使用初始视频识别模型对第一样本人脸视频进行第一轮迭代过程中提取的图像特征。

202、服务器采用各个第一样本人脸视频的初始音频特征以及初始多模态特征，对该初始视频识别模型进行训练，得到参考视频识别模型。

其中，采用各个第一样本人脸视频的初始音频特征以及初始多模态特征对该初始视频识别模型进行训练的过程是无监督训练的过程，无监督训练的目的是使得视频识别模型学习人脸表情以及音调发音等信息。参考视频识别模型是预训练完成后的视频识别模型。

203、服务器采用多个第二样本人脸视频，以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型，该目标视频识别模型用于识别输入视频的情感标签和该输入视频的音频对应的文本中的至少一项，该标注文本为对应第二样本人脸视频的音频对应的文本。

其中，第二样本人脸视频为微调阶段使用的样本人脸视频，存在与第二样本人脸视频对应的标注，标注包括标注情感标签和标注文本中的至少一项，标注情感标签用于描述第二样本人脸视频中人脸对应的情感，标注文本为第二样本人脸视频的音频对应的文本，音频为第二样本人脸视频中人脸对应的语音。微调阶段的训练过程是有监督的训练过程，利用视频识别模型的预测与标注之间的差异来实现对模型的训练。在一些实施例中，由于带有标注的样本人脸视频的获取难度较高，多个第二样本人脸视频的数量少于多个第一样本人脸视频的数量，也即是采用少量带有标注的第二样本人脸视频进行微调阶段的训练即可。

上述步骤201-203是对本申请实施例提供的视频识别模型的训练方法的简单描述，下面将结合一些例子，对本申请实施例提供的视频识别模型的训练方法进行更加清楚地介绍，参见图3，方法包括下述步骤。

301、服务器获取多个第一样本人脸视频。

其中，第一样本人脸视频为预训练阶段使用的样本人脸视频，样本人脸视频的视频帧包含人脸，第一样本人脸视频无需标注，用于在预训练阶段进行无监督训练。预训练包括多轮迭代，每轮迭代均会使用该多个第一样本人脸视频。

在一种可能的实施方式中，服务器获取多个初始样本视频。服务器对该多个初始样本视频进行非人脸过滤，得到多个参考样本视频，该多个参考样本视频的视频帧均包含人脸。服务器对该多个参考样本视频进行分割，得到该多个第一样本人脸视频。

其中，初始样本视频为用于训练视频识别模型的原始样本，该初始样本视频的视频帧可能包含人脸，也可能不包含人脸。对初始样本视频进行非人脸过滤是指过滤掉初始样本视频中不包含人脸的视频帧，也即是，过滤后的初始样本视频的视频帧均包含人脸，过滤后的初始样本视频也即是参考样本视频。一个初始样本视频对应于一个参考样本视频，一个参考样本视频可能被分割成N个第一样本人脸视频，N为正整数。

在这种实施方式下，获取多个初始样本视频，对多个初始样本视频进行分人脸过滤，以去除多个初始样本视频中的不包含人脸的视频帧，得到多个参考样本视频，这样在后续训练模型的过程中，排除了不包含人脸的视频帧对模型训练的干扰，提高了模型训练的效率。对多个参考样本视频进行分割，得到多个第一样本人脸视频，后续使用多个第一样本人脸视频能够进行无监督的预训练过程，样本获取的效率以及质量均较高。

为了对上述实施方式进行更加清楚的说明，下面将分为三个部分对上述实施方式进行说明。

第一部分、服务器获取多个初始样本视频。

在一种可能的实施方式中，服务器从多个数据源获取多个初始样本视频，该多个数据源存储有不同类型的视频。

在这种实施方式下，服务器能够从多个数据源来获取初始样本视频，获取初始样本视频的效率较高，获取到的初始样本视频的数量较多，有助于提高模型训练的效果。

举例来说，服务器从多个数据源爬取该多个初始样本视频，从而实现初始样本视频的自动获取。在一些实施例中，从多个数据源爬取初始样本视频时，服务器还可以采用预设标签对视频进行过滤，该预设标签为与人脸相关的标签，预设标签的数量可以为多个，这样爬取的多个初始样本视频均具有预设标签，也即是多个初始样本视频均是与人脸相关的视频，有助于后续的模型训练。其中，该预设标签和预设标签的数量由技术人员根据实际情况进行设置，本申请实施例对此不作限定。

在一种可能的实施方式中，服务器从目标数据源获取多个初始样本视频，该目标数据源为与目标场景关联的数据源，该目标场景为使用训练完毕的视频识别模型的场景。

其中，目标场景既可以是指语言场景，也可以是指功能场景，比如，语言场景包括中文场景以及外文场景，功能场景包括智能客服场景以及语音助手场景等。

在这种实施方式下，能够针对性地从目标数据源来获取初始样本视频，获取到的初始样本视频与目标场景具有关联，有助于后续模型训练的效果。

举例来说，服务器基于目标场景，从多个数据源中确定目标数据源。服务器从目标数据源爬取该多个初始样本视频。

第二部分、服务器对该多个初始样本视频进行非人脸过滤，得到多个参考样本视频。

在一种可能的实施方式中，对于该多个初始样本视频中的任一初始样本视频，服务器对该初始样本视频进行人脸检测，得到该初始样本视频中包含人脸的多个参考视频帧。服务器确定该多个参考视频帧中的人脸区域。服务器将各个参考视频帧中的人脸区域缩放至预设尺寸，得到多个目标视频帧。服务器将该多个目标视频帧进行组合，得到该初始样本视频对应的参考样本视频。

其中，人脸检测用于确定视频的视频帧中是否存在人脸，人脸检测过程可以视作对视频帧进行分类的过程，分类结果用于表示视频帧中是否存在人脸。预设尺寸由技术人员根据实际情况进行设置，本申请实施例对此不作限定。相较于初始样本视频，参考样本视频中的视频帧均包含人脸且人脸区域的尺寸均为预设尺寸。

在这种实施方式下，先通过人脸检测得到了初始样本视频中包含人脸的多个参考视频帧。确定并对参考视频帧中的人脸区域进行缩放，得到目标视频帧。将多个目标视频帧进行组合，得到参考样本视频。这样的处理过程既消除了初始样本视频中不包含人脸的视频帧，也将人脸区域缩放到了固定尺寸，有助于提高模型的训练效果。

为了对上述实施方式进行更加清楚的说明，下面将再分为几个部分对上述实施方式进行说明。

A、对于该多个初始样本视频中的任一初始样本视频，服务器对该初始样本视频进行人脸检测，得到该初始样本视频中包含人脸的多个参考视频帧。

在一种可能的实施方式中，服务器将该初始样本视频输入人脸检测模型，通过该人脸检测模型，对该初始样本视频的多个视频帧进行特征提取，得到该初始样本视频的各个视频帧的视频帧特征。服务器通过该人脸检测模型，对各个视频帧的视频帧特征进行映射，得到各个视频帧的类型，类型用于表示视频帧是否包含人脸。

其中，该人脸检测模型用于确定输入视频的视频帧是否包含人脸，人脸检测模型是一个二分类模型，人脸检测模型的结构由技术人员根据实际情况进行设置，本申请实施例对此不作限定。在一些实施例中，该人脸检测模型为dlib库提供的模型或者为insightface框架训练得到的模型，本申请实施例对此不作限定。

在这种实施方式下，通过人脸检测模型来对初始样本视频进行人脸检测，人脸检测的效率较高。

举例来说，服务器将该初始样本视频输入人脸检测模型，通过该人脸检测模型，对该初始样本视频的多个视频帧进行多次卷积，得到该初始样本视频的各个视频帧的视频帧特征。服务器通过该人脸检测模型，对各个视频帧的视频帧特征进行全连接和归一化，得到各个视频帧包含人脸的概率。服务器将该多个视频帧中包含人脸的概率大于或等于概率阈值的视频帧，确定为参考视频帧。

在一种可能的实施方式中，服务器采用人脸模板对该初始样本视频进行匹配，得到该多个参考视频帧，该多个参考视频帧为与人脸模板之间的相似度大于或等于相似度阈值的视频帧。

在这种实施方式下，使用人脸模板就能够实现人脸检测，人脸检测的效率较高。

B、服务器确定该多个参考视频帧中的人脸区域。

在一种可能的实施方式中，服务器对该多个参考视频帧进行人脸关键点检测，得到各个参考视频帧中的多个人脸关键点。服务器基于各个参考视频帧中的多个人脸关键点，确定各个参考视频帧中的人脸区域。

其中，人脸关键点检测用于检测视频帧中的人脸关键点，人脸关键点包括眼睛、鼻子、嘴巴、下巴以及眉心等。通过人脸关键点能够得到人脸区域。

在这种实施方式下，通过对参考视频帧进行人脸关键点检测就能够确定参考视频帧中的人脸区域，确定人脸区域的准确性和效率较高。

举例来说，对于该多个参考视频帧中的任一参考视频帧，服务器将该参考视频帧输入人脸关键点检测模型，通过该人脸关键点检测模型，对该参考视频帧进行人脸关键点检测，得到该参考视频帧中的多个人脸关键点。服务器将该多个人脸关键点围成的区域，确定为该参考视频帧中的人脸区域。在一些实施例中，该人脸关键点检测模型是基于MediaPipe(媒体管道)框架训练得到的模型。

C、服务器将各个参考视频帧中的人脸区域缩放至预设尺寸，得到多个目标视频帧。

在一种可能的实施方式中，对于该多个参考视频帧中的任一参考视频帧，服务器在该参考视频帧中将该人脸区域缩放至预设尺寸，得到该参考视频帧对应的目标视频帧。

在这种实施方式下，直接在参考视频帧中对人脸区域进行缩放即可，效率较高。

在一种可能的实施方式中，对于该多个参考视频帧中的任一参考视频帧，服务器从该参考视频帧中裁剪出该参考视频帧中的人脸区域。服务器将该人脸区域缩放至该预设尺寸，得到该参考视频帧对应的目标视频帧。

在这种实施方式下，能够将人脸区域从参考视频帧中裁剪出来，将裁剪出的人脸区域缩放至预设尺寸就能够得到目标视频帧，这样保证目标视频帧中人脸占比较高，有助于后续模型学习。

在一种可能的实施方式中，对于该多个参考视频帧中的任一参考视频帧，服务器对该参考视频帧进行整体缩放，以使得该参考视频帧中的人脸区域的尺寸为该预设尺寸。服务器以该人脸区域为中心对缩放后的该参考视频帧进行裁剪，得到该参考视频帧对应的目标视频帧，该目标视频帧的尺寸与该参考视频帧相同。

在这种实施方式下能够通过整体缩放的方式来调整参考视频帧中人脸区域的尺寸，使得参考视频帧的整体比例保持不变，提高了目标视频帧的质量。

需要说明的是，上述几种实施方式均是以服务器对一个参考视频帧进行处理，以得到目标视频帧为例进行说明的，对于该多个参考视频帧中的其他参考视频帧，处理过程与上述描述属于同一发明构思，实现过程不再赘述。

D、服务器将该多个目标视频帧进行组合，得到该初始样本视频对应的参考样本视频。

在一种可能的实施方式中，服务器按照多个参考视频帧的先后顺序，将对应的该多个目标视频帧进行组合，得到该初始样本视频对应的参考样本视频。

需要说明的是，上述实施方式是以对多个初始样本视频中的任一初始样本视频进行非人脸过滤为例进行说明的，服务器对多个初始样本视频中的其他初始样本视频进行非人脸过滤的方法与上述描述属于同一发明构思，在此不再赘述。

第三部分、服务器对该多个参考样本视频进行分割，得到该多个第一样本人脸视频。

在一种可能的实施方式中，对于该多个参考样本视频中的任一参考样本视频，服务器字幕识别，得到该参考样本视频中的多个字幕。服务器基于各个字幕的起始时间和结束时间，对该参考样本视频进行拆分，得到该参考样本视频对应的第一样本人脸视频。

其中，一个字幕是指一句字幕，一句字幕能够完整表达一个意思。一个字幕的起始时间是指该字幕在参考样本视频中首次出现的时间，结束时间是指该字幕在该样本中最后出现的时间，在一些实施例中，起始时间对应于参考样本视频中的一个目标视频帧，结束时间对应于参考样本视频帧的另一个目标视频帧，通过这两个目标视频帧在该参考样本视频中的出现时间就能够确定该起始时间和结束时间。一个参考样本视频可能被拆分为多个第一样本人脸视频。

在这种实施方式下，通过对参考样本视频进行字幕识别，得到参考样本视频中的多个字幕。基于各个字幕的起始时间和结束时间，将参考样本视频拆分为对应的第一样本人脸视频，保证得到的第一样本人脸视频均对应于一个完整的字幕，也即是第一样本人脸视频能够表达一个完整的意思。

举例来说，对于该多个参考样本视频中的任一参考样本视频，服务器对该参考样本视频进行光学字符识别，得到该参考样本视频中的多个参考字幕。服务器对该参考样本视频的音频进行识别，得到该参考样本视频的多个音频字幕。服务器采用该多个音频字幕对该多个参考字幕进行过滤，得到该参考样本视频中的多个字幕。服务器基于各个字幕的起始时间和结束时间，对该参考样本视频进行拆分，得到该参考样本视频对应的第一样本人脸视频。

比如，对于该多个参考样本视频中的任一参考样本视频，服务器对该参考样本视频进行光学字符识别，得到该参考样本视频中的多个初始字幕。服务器基于预设过滤规则对该多个初始字幕进行过滤，得到多个参考字幕，其中，该预设过滤规则由技术人员根据实际情况进行设置，预设过滤规则用于过滤掉不合理的初始字幕，比如，不合理的初始字幕包括节目标以及英文翻译等。服务器通过自动语音识别(Automatic Speech Recognition，ASR)***对该参考样本视频的音频进行识别，得到该参考样本视频的多个音频字幕。服务器确定各个音频字幕与对应的参考字幕之间的编辑距离，音频字幕与对应的参考字幕具有相同的起始时间和结束时间，当然，由于可能存在音画不同步的现象，音频字幕与对应的参考字幕在参考样本视频中的出现时间段的重合度大于或等于重合度阈值，出现时间段是指起始时间和结束时间之间的时间段，重合度阈值由技术人员根据实际情况进行设置，本申请实施例对此不作限定。服务器基于编辑距离来过滤多个参考字幕，得到该参考样本视频中的多个字幕，也即是将编辑距离大于或等于编辑距离阈值的参考字幕用音频字幕进行替换，得到该参考样本视频中的多个字幕，该编辑距离阈值由技术人员根据实际情况进行设置，本申请实施例对此不作限定。服务器基于各个字幕的起始时间和结束时间，对该参考样本视频进行拆分，得到该参考样本视频对应的第一样本人脸视频。

需要说明的是，上述实施方式是在参考样本视频存在字幕的情况下进行说明的，下面对参考样本视频不存在字幕的情况下的分割过程进行说明。

在一种可能的实施方式中，对于该多个参考样本视频中的任一参考样本视频，服务器对该参考样本视频的音频进行识别，得到该参考样本视频的多个音频字幕。服务器基于各个音频字幕的起始时间和结束时间，对该参考样本视频进行拆分，得到该参考样本视频对应的第一样本人脸视频。

在这种实施方式下，直接对参考样本视频进行识别，从而得到参考样本视频的多个音频字幕。基于音频字幕的起始时间和结束时间，对该参考样本视频进行拆分，能够得到参考样本视频对应的第一样本人脸视频，无需人工拆分参考样本视频，获取第一样本人脸视频的效率较高。

在一些实施例中，得到多个第一样本人脸视频之后，服务器还能够对该多个第一样本人脸视频进行数据增加，从而增加第一样本人脸视频的数量，提高视频识别模型的训练效果。

302、服务器将该多个第一样本人脸视频输入初始视频识别模型。

其中，初始视频识别模型是预训练完成之前的视频识别模型。在一些实施例中，该视频识别模型包括编码器和解码器，预训练阶段是对视频识别模型的编码器进行训练。

本申请实施例提供的视频识别模型的训练方法用于对该初始视频识别模型进行训练，以得到目标视频识别模型，初始和目标用于区分不同阶段的视频识别模型，为了对本申请实施例提供的技术方案进行更加清楚的说明，下面对视频识别模型的结构进行说明。

参见图4，本申请实施例提供的视频识别模型400包括编码器401和解码器402，编码器401包括视觉前向网络4011、声学前向网络4012、模态融合网络4013、门控单元4014以及多模态编码器4015，解码器402包括多个子解码器。其中，视觉前向网络4011用于对图像特征进行编码，声学前向网络4012用于对音频进行编码，模态融合网络4013用于融合视觉前向网络4011和声学前向网络4012的输出。门控单元4014用于限制模态融合网络4013向多模态编码器4015的输入。多模态编码器4015用于对视觉前向网络4011和模态融合网络4013的输出进行多模态编码，得到多模态特征。解码器402用于对多模态特征进行解码，得到视频识别结果。

303、服务器通过该初始视频识别模型，对该多个第一样本人脸视频进行音频特征编码和图像特征编码，得到各个第一样本人脸视频的初始音频特征以及初始图像特征。

其中，第一样本人脸视频包括音频信息和图像信息，音频特征编码用于对音频信息进行编码，图像特征编码用于对图像信息进行编码，通过音频特征编码和图像特征编码，能够充分利用第一样本人脸视频的信息。

在一种可能的实施方式中，对于该多个第一样本人脸视频中的任一第一样本人脸视频，服务器通过该初始视频识别模型，对该第一样本人脸视频的音频进行音频特征提取和全连接，得到该第一样本人脸视频的初始音频特征。服务器通过该初始视频识别模型，对该第一样本人脸视频的图像进行图像特征提取和卷积，得到该第一样本人脸视频的初始图像特征。

其中，音频特征编码包括音频特征提取和全连接两个处理过程，图像特征编码包括图像特征提取和卷积两个处理过程。

在这种实施方式下，通过初始视频识别模型能够获取第一样本人脸视频的初始音频特征和初始图像特征，有助于初始视频识别模型后续进行的视频识别过程。

举例来说，对于该多个第一样本人脸视频中的任一第一样本人脸视频，服务器通过该初始视频识别模型，每隔第一数量个目标视频帧进行一次音频特征提取，得到该第一样本人脸视频的音频特征。服务器将第二数量个音频特征组成一个音频特征组，对该音频特征组进行全连接，得到该第一样本人脸视频的一个初始音频特征。服务器通过该初始视频识别模型，每隔第三数量个目标视频帧进行一次图像特征提取，得到该第一样本人脸视频的图像特征。服务器对提取到的图像特征进行卷积，得到该第一样本人脸视频的一个初始图像特征。其中，第一数量、第二数量以及第三数量由技术人员根据实际情况进行设置，本申请实施例对此不作限定。在一些实施例中，图像特征包括纹理特征、暗色特征、形状特征以及空间关系特征等，颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质；纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质；形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域；空间关系特征，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。音频特征为Fbank(Filter Bank，过滤器组)特征或者MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征。

参见图4，以第一数量为10，第二数量为4，第三数量为40为例对上述实施方式进行说明。对于该多个第一样本人脸视频中的任一第一样本人脸视频，服务器通过该初始视频识别模型400，每隔10个目标视频帧进行一次音频特征提取，得到该第一样本人脸视频的音频特征。服务器将4个音频特征组成一个音频特征组。服务器将该音频特征组输入声学前向网络4012，通过该声学前向网络4012对该音频特征组进行两次全连接，得到该第一样本人脸视频的一个初始音频特征。服务器通过该初始视频识别模型，每隔40个目标视频帧进行一次图像特征提取，得到该第一样本人脸视频的图像特征。服务器将该图像特征输入视觉前向网络4011，通过该视觉前向网络4011对提取到的图像特征进行三维卷积(3D-CNN)，得到该第一样本人脸视频的一个初始图像特征。

304、服务器通过该初始视频识别模型，将各个第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合，得到各个第一样本人脸视频的初始多模态特征。

其中，多模态包括音频和图像，多模态特征包括音频和图像相关信息的特征，也即是融合音频特征和图像特征的特征。初始多模态特征是指使用多个第一样本人脸视频对初始视频识别模型进行第一轮预训练的过程中得到的多模态特征。初始音频特征是使用初始视频识别模型对第一样本人脸视频进行第一轮迭代过程中提取的音频特征，初始图像特征是使用初始视频识别模型对第一样本人脸视频进行第一轮迭代过程中提取的图像特征。初始音频特征和初始图像特征的尺寸相同。

在一种可能的实施方式中，对于该多个第一样本人脸视频中的任一第一样本人脸视频，服务器通过该初始视频识别模型，将该第一样本人脸视频的初始音频特征以及初始图像特征进行融合，得到该第一样本人脸视频的第一融合特征。服务器通过该初始视频识别模型，基于注意力机制对该第一样本人脸视频的初始图像特征和第一融合特征进行编码，得到该第一样本人脸视频的初始多模态特征。

在这种实施方式下，通过初始视频识别模型来融合初始音频特征和初始图像特征，得到第一融合特征。基于注意力机制对初始图像特征和第一融合特征进行编码，得到初始多模态特征，该初始多模态特征也就充分融合了初始图像特征和初始音频特征，后续对该初始多模态特征进行解码能够实现更好的视频识别效果。

举例来说，对于该多个第一样本人脸视频中的任一第一样本人脸视频，服务器通过该初始视频识别模型，将该第一样本人脸视频的初始音频特征以及初始图像特征进行融合，得到该第一样本人脸视频的第一融合特征。服务器通过该初始视频识别模型，采用门控机制对该第一样本人脸视频的第一融合特征进行处理，得到该第一样本人脸视频的门控融合特征。服务器通过该初始视频识别模型，将该第一样本人脸视频的初始图像特征和门控融合特征进行融合，得到该第一样本人脸视频的第二融合特征。服务器通过该初始视频识别模型，采用注意力机制对该第二融合特征进行编码，得到该第一样本人脸视频的初始多模态特征。

比如，参见图4，对于该多个第一样本人脸视频中的任一第一样本人脸视频，服务器通过该初始视频识别模型400的模态融合网络4013，将该第一样本人脸视频的初始音频特征以及初始图像特征相加，得到该第一样本人脸视频的第一融合特征。或者，服务器通过该初始视频识别模型400的模态融合网络4013，将该第一样本人脸视频的初始音频特征以及初始图像特征拼接后进行全连接，得到该第一样本人脸视频的第一融合特征。服务器通过该初始视频识别模型400的门控单元4014，基于门控机制对该第一融合特征进行处理，得到该第一样本人脸视频的门控融合特征，其中，基于门控机制进行处理是指确定输入特征的门控权重，将输入特征与门控权重相乘后作为输出，也即是，服务器通过该门控单元4014，确定该第一融合特征的门控权重，将该门控权重与该第一融合特征相乘，得到该门控融合特征。服务器通过该初始视频识别模型400的多模态编码器4015，将该第一样本人脸视频的初始图像特征和门控融合特征相加，得到该第一样本人脸视频的第二融合特征。或者，服务器通过该初始视频识别模型400的多模态编码器4015，将该第一样本人脸视频的初始图像特征和门控融合特征拼接后进行全连接，得到该第一样本人脸视频的第二融合特征。服务器通过该多模态编码器4015，采用注意力机制对该第二融合特征进行编码，得到该第一样本人脸视频的初始多模态特征。

下面对服务器通过该多模态编码器4015，采用注意力机制对该第二融合特征进行编码，得到该第一样本人脸视频的初始多模态特征的方法进行说明。

在一种可能的实施方式中，服务器通过该多模态编码器4015，将该第二融合特征拆分为多个子特征。服务器通过该多模态编码器4015，将该多个子特征分别与三个线性变换矩阵相乘，得到各个子特征的键矩阵(K)、查询矩阵(Q)以及值矩阵(V)。对于多个子特征中的任一子特征，服务器通过该多模态编码器4015，将该子特征的键矩阵与该多个子特征中其他子特征的查询矩阵相乘，得到该子特征对其他子特征的注意力权重。服务器通过该多模态编码器4015，采用各个子特征之间的注意力权重将各个子特征的值矩阵进行融合，得到该第一样本人脸视频的初始多模态特征。

305、服务器采用各个第一样本人脸视频的初始音频特征以及初始多模态特征，对该初始视频识别模型进行训练，得到参考视频识别模型。

在一种可能的实施方式中，服务器对各个第一样本人脸视频的初始音频特征进行聚类，得到多个第一聚类中心。服务器基于该多个第一聚类中心以及各个第一样本人脸视频的初始多模态特征，对该初始视频识别模型进行训练，得到该参考视频识别模型。

其中，对各个第一样本人脸视频的初始音频特征进行聚类是为了对各个第一样本人脸视频进行分组，由于这个过程是无监督的，分组也就是基于初始音频特征本身进行的。第一聚类中心也是初始音频特征，也被称为无监督修炼的伪标签。在一些实施例中，聚类方法为k-mean(K-均值)聚类。

在这种实施方式下，对各个第一样本人脸视频的初始音频特征进行聚类，得到多个第一聚类中心，该多个聚类中心能够作为无监督训练的伪标签。基于该多个第一聚类中心以及各个第一样本视频的初始多模态特征，实现对初始视频识别模型的无监督训练。

举例来说，服务器对各个第一样本人脸视频的初始音频特征进行聚类，得到多个第一聚类中心。服务器基于该多个第一聚类中心，将各个第一样本人脸视频的初始多模态特征划分至多个第一簇。服务器基于各个第一簇内初始多模态特征之间的相似度，以及不同第一簇内初始多模态特征之间的相似度，对该初始视频识别模型进行训练，得到第一视频识别模型。服务器将该多个第一样本人脸视频输入第一视频识别模型，通过该第一视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个第一样本人脸视频的第一多模态特征。服务器对各个第一样本人脸视频的第一多模态特征进行聚类，得到多个第二聚类中心。服务器基于该多个第二聚类中心以及各个第一样本人脸视频的第一多模态特征，对该第一视频识别模型进行训练，得到该参考视频识别模型。

其中，每个第一簇包括至少一个初始多模态特征，初始多模态特征是指无监督训练之前得到的多模态特征，相应的第一多模态特征是指进行过一轮无监督训练得到的多模态特征，第一视频识别模型也即是经过一轮无监督训练得到的视频识别模型。在一些实施例中，相似度为余弦相似度。

比如，服务器对各个第一样本人脸视频的初始音频特征进行聚类，得到多个第一聚类中心。服务器确定各个第一聚类中心对应的初始多模态特征，将各个第一聚类中心对应的初始多模态特征作为各个第一簇的聚类中心。服务器将各个第一聚类中心下初始音频特征对应的初始多模态特征分为对应的第一簇。其中，第一聚类中心对应的初始多模态特征是指，第一聚类中心对应的第一样本人脸视频的初始多模态特征，相应的，初始音频特征对应的初始多模态特征是指初始音频特征对应的第一样本人脸视频的初始多模态特征。服务器基于各个第一簇内初始多模态特征之间的相似度，以及不同第一簇内初始多模态特征之间的相似度，对该初始视频识别模型进行训练，得到第一视频识别模型，训练的目的是使得同一第一簇内的初始多模态特征尽可能相似，不同第一簇内的初始多模态特征尽可能不相似，完成一轮无监督训练后得到第一视频识别模型。服务器将该多个第一样本人脸视频输入第一视频识别模型，通过该第一视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个第一样本人脸视频的第一多模态特征。服务器对各个第一样本人脸视频的第一多模态特征进行聚类，得到多个第二聚类中心。服务器基于各个第二聚类中心对应的第二簇内第一多模态特征之间的相似度，以及不同第二聚类中心对应的第二簇内第一多模态特征之间的相似度，对该第一视频识别模型进行训练，得到第二视频识别模型。服务器将该多个第一样本人脸视频输入第二视频识别模型，通过该第二视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个第一样本人脸视频的第二多模态特征。服务器基于各个第一样本人脸视频的第二多模态特征，对该第二视频识别模型进行训练，得到该参考视频识别模型。

总结来说，在无监督训练过程中，第一轮使用初始音频特征的聚类结果作为无监督的伪标签，第一轮之后均使用上一轮训练得到的视频识别模型提取的多模态特征的聚类结果作为伪标签，从而实现无监督的训练过程。在一些实施例中，无监督训练的轮数为5-10轮。

306、服务器采用多个第二样本人脸视频，以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型，该目标视频识别模型用于识别输入视频的情感标签和该输入视频的音频对应的文本中的至少一项，该标注文本为对应第二样本人脸视频的音频对应的文本。

在一些实施例中，该第二样本人脸视频的获取方法与第一样本人脸视频同理，在此不再赘述。该第二样本视频的标注情感标签由标注人员进行标注，比如，可以将情感按照心理学方法分成几个方向，标注人员只需要判断第二样本人脸视频属于哪个方向即可，方向也即是该标注情感标签。标注文本既可以是由标注人员标注的，也可以是通过之前描述的字幕识别方法自动生成，本申请实施例对此不作限定。

在一种可能的实施方式中，服务器将多个第二样本人脸视频输入参考视频识别模型，通过该参考视频识别模型，对该多个第二样本人脸视频进行多模态编码，得到各个第二样本人脸视频的多模态特征。服务器通过该参考视频识别模型，对各个第二样本人脸视频的多模态特征进行解码，得到各个第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项。服务器基于标注情感标签与该预测情感标签之间的第一差异信息，以及该标注文本与该预测文本之间的第二差异信息中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型。

在这种实施方式下，基于标注情感标签与该预测情感标签之间的第一差异信息，以及该标注文本与该预测文本之间的第二差异信息中的至少一项，对该参考视频识别模型进行训练，使得训练后的参考视频识别模型具有预测情感标签和文本至少一项的功能。

举例来说，服务器将多个第二样本人脸视频输入参考视频识别模型，通过该参考视频识别模型，对该多个第二样本人脸视频进行多模态编码，得到各个第二样本人脸视频的多模态特征。服务器通过该参考视频识别模型，对于该多个第二样本人脸视频中的任一第二样本人脸视频，基于注意力机制对该第二样本人脸视频的多模态特征进行多轮解码，得到该第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项。服务器基于标注情感标签与该预测情感标签之间的第一差异信息，以及该标注文本与该预测文本之间的第二差异信息中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型。其中，训练该参考视频识别模型的目的是使得该第一差异信息和/或该第二差异信息尽可能小。

为了对上述实施方式进行更加清楚的说明，下面对上述基于注意力机制对该第二样本人脸视频的多模态特征进行多轮解码，得到该第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项的方法进行说明。

在一种可能的实施方式中，在第一轮解码过程中，将该第二样本人脸视频的多模态特征输入参考视频识别模型的解码器，通过该解码器对该多模态特征进行解码，得到第一个解码字符。在第二轮解码过程中，将该多模态特征和该第一个解码字符输入该解码器，通过该解码器对该多模态特征和该第一个解码字符进行解码，得到第二个解码字符。在第三轮解码过程中，将该多模态特征、该第一个解码字符以及该第二个解码字符输入该解码器，通过该解码器对该多模态特征、该第一个解码字符以及该第二个解码字符进行解码，得到第三个解码字符。以此类推，直至解码出终止符，完成解码过程，得到解码结果，该解码结果包括预测情感标签以及预测文本中的至少一项。

在一些实施例中，在上述微调过程中，还可以引入对抗学习的框架，也即是增加一个判别器，使用该判别器对微调过程中该参考视频识别模型的输出进行评价，训练该参考视频识别模型时除了使用第二样本人脸视频的标注情感标签和标注文本中的至少一项之外，还使用该判别器的评价，从而提高参考视频识别模型的训练效果。当然，除了对抗学习爱的框架之外，还可以引入元学习的框架，本申请实施例对此不作限定。

下面结合图5对本申请实施例提供的视频识别模型的训练方法进行说明。

参见图5，服务器获取多个初始样本视频。服务器对多个初始样本视频进行人脸检测，得到该初始样本视频中包含人脸的多个参考视频帧。服务器对该多个参考视频帧进行人脸关键点检测，得到各个参考视频帧中的人脸区域。服务器将各个参考视频帧中的人脸区域缩放至预设尺寸，得到多个目标视频帧。服务器将该多个目标视频帧进行组合，得到该初始样本视频对应的参考样本视频。服务器将该参考样本视频进行拆分，得到该参考样本视频的第一样本人脸视频。服务器采用多个第一样本人脸视频进行预训练，得到参考视频识别模型。服务器采用多个第二样本人脸视频，以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项，对该参考视频识别模型进行微调训练，得到目标视频识别模型。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

换句话说，在本申请实施例中，采用了多模态的视频识别的框架，同时处理语音和人脸，从而提高了情感识别的准确率和鲁棒性。与传统的基于单一模态的语音识别***相比，本申请实施例提供的目标视频识别模型能够更加准确地识别情感，这是因为人脸可以提供更加丰富和直观的情感信息。

本申请实施例实现了无监督训练和精准的语音情感识别，采用了无监督训练的方式和注意力语言模型情感打分的***，可以同时处理语音和人脸，提高了***的灵活性和鲁棒性。同时，无监督训练可以让***充分利用大量无监督数据学习更加丰富的语义和人脸信息，提高语音和情感识别的准确性和鲁棒性。

下面对本申请实施例提供的视频识别方法进行说明，参见图6，以执行主体为服务器为例，方法包括下述步骤。

601、服务器将目标人脸视频输入目标视频识别模型，通过该目标视频识别模型，对该目标人脸视频进行多模态编码，得到该目标人脸视频的目标多模态特征，该目标多模态特征是该目标人脸视频的音频特征以及图像特征融合得到的。

其中，该目标视频识别模型是基于采用多个第一样本人脸视频、多个第二样本人脸视频，以及各个第二样本人脸视频的标注情感标签和标注文本中的至少一项训练得到的。该目标视频识别模型为采用上述步骤301-306训练得到的。多模态编码的过程与上述步骤302-304属于同一发明构思，实现过程参见上述步骤302-304的相关描述，在此不再赘述。

602、服务器通过该目标视频识别模型，对该目标人脸视频的目标多模态特征进行解码，得到该目标人脸视频对应的情感标签以及该目标人脸视频的音频对应的文本中的至少一项。

其中，解码过程与上述步骤306属于同一发明构思，实现过程参见上述步骤306的相关描述，在此不再赘述。

下面结合图7对上述步骤601-602进行说明。

参见图7，服务器将目标人脸视频701输入目标视频识别模型，服务器抽取该目标人脸视频701的图像702以及音频703。服务器将图像702输入目标视频识别模型的视觉前向网络704，得到目标人脸视频701的图像特征。服务器将音频703输入目标视频识别模型的声学前向网络705，得到目标人脸视频701的音频特征。服务器将该目标人脸视频701的图像特征和音频特征输入目标视频识别模型的多模态编码器706，通过该多模态编码器706进行多模态编码，得到该目标人脸视频701的多模态特征。服务器通过目标视频识别模型的多模态解码器707对该多模态特征进行解码，得到视频识别结果。

本申请实施例提供的目标视频识别模型可以应用于各种场景，如智能客服、语音助手、健康管理等。可以为人们的生活带来极大的便利。例如，在智能客服场景中，客户可以通过语音和人脸向***表达自己的需求和情感状态，目标视频识别模型可以自动识别客户的情感状态，并作出相应的回应和处理。在语音助手场景中，用户可以通过语音和人脸与语音助手进行交互，***可以自动识别用户的情感状态，并提供相应的服务和建议。在健康管理场景中，***可以通过识别用户的情感状态，提供相应的心理疏导和建议，帮助用户更好地管理自己的情绪和健康。

图8是本申请实施例提供的一种视频识别模型的训练装置的结构示意图，参见图8，装置包括：多模态编码模块801、第一训练模块802以及第二训练模块803。

多模态编码模块801，用于将多个第一样本人脸视频输入初始视频识别模型，通过该初始视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个该第一样本人脸视频的初始多模态特征，该初始多模态特征是对应第一样本人脸视频的初始音频特征以及初始图像特征融合得到的。

第一训练模块802，用于采用各个该第一样本人脸视频的初始音频特征以及初始多模态特征，对该初始视频识别模型进行训练，得到参考视频识别模型。

第二训练模块803，用于采用多个第二样本人脸视频，以及各个该第二样本人脸视频的标注情感标签和标注文本中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型，该目标视频识别模型用于识别输入视频的情感标签和该输入视频的音频对应的文本中的至少一项，该标注文本为对应第二样本人脸视频的音频对应的文本。

在一种可能的实施方式中，该多模态编码模块801，用于通过该初始视频识别模型，对该多个第一样本人脸视频进行音频特征编码和图像特征编码，得到各个该第一样本人脸视频的初始音频特征以及初始图像特征。通过该初始视频识别模型，将各个该第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合，得到各个该第一样本人脸视频的初始多模态特征。

在一种可能的实施方式中，该多模态编码模块801，用于对于该多个第一样本人脸视频中的任一第一样本人脸视频，对该第一样本人脸视频的音频进行音频特征提取和全连接，得到该第一样本人脸视频的初始音频特征。对该第一样本人脸视频的图像进行图像特征提取和卷积，得到该第一样本人脸视频的初始图像特征。

在一种可能的实施方式中，该多模态编码模块801，用于对于该多个第一样本人脸视频中的任一第一样本人脸视频，将该第一样本人脸视频的初始音频特征以及初始图像特征进行融合，得到该第一样本人脸视频的第一融合特征。基于注意力机制对该第一样本人脸视频的初始图像特征和第一融合特征进行编码，得到该第一样本人脸视频的初始多模态特征。

在一种可能的实施方式中，该多模态编码模块801，用于采用门控机制对该第一样本人脸视频的第一融合特征进行处理，得到该第一样本人脸视频的门控融合特征。将该第一样本人脸视频的初始图像特征和门控融合特征进行融合，得到该第一样本人脸视频的第二融合特征。采用注意力机制对该第二融合特征进行编码，得到该第一样本人脸视频的初始多模态特征。

在一种可能的实施方式中，该第一训练模块802，用于对各个该第一样本人脸视频的初始音频特征进行聚类，得到多个第一聚类中心。基于该多个第一聚类中心以及各个该第一样本人脸视频的初始多模态特征，对该初始视频识别模型进行训练，得到该参考视频识别模型。

在一种可能的实施方式中，该第一训练模块802，用于基于该多个第一聚类中心，将各个该第一样本人脸视频的初始多模态特征划分至多个第一簇。基于各个该第一簇内初始多模态特征之间的相似度，以及不同第一簇内初始多模态特征之间的相似度，对该初始视频识别模型进行训练，得到第一视频识别模型。将该多个第一样本人脸视频输入第一视频识别模型，通过该第一视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个该第一样本人脸视频的第一多模态特征。对各个该第一样本人脸视频的第一多模态特征进行聚类，得到多个第二聚类中心。基于该多个第二聚类中心以及各个该第一样本人脸视频的第一多模态特征，对该第一视频识别模型进行训练，得到该参考视频识别模型。

在一种可能的实施方式中，该第一训练模块802，用于基于各个该第二聚类中心对应的第二簇内第一多模态特征之间的相似度，以及不同第二聚类中心对应的第二簇内第一多模态特征之间的相似度，对该第一视频识别模型进行训练，得到第二视频识别模型。将该多个第一样本人脸视频输入第二视频识别模型，通过该第二视频识别模型，对该多个第一样本人脸视频进行多模态编码，得到各个该第一样本人脸视频的第二多模态特征。基于各个该第一样本人脸视频的第二多模态特征，对该第二视频识别模型进行训练，得到该参考视频识别模型。

在一种可能的实施方式中，该第二训练模块803，用于将多个第二样本人脸视频输入参考视频识别模型，通过该参考视频识别模型，对该多个第二样本人脸视频进行多模态编码，得到各个该第二样本人脸视频的多模态特征。通过该参考视频识别模型，对各个该第二样本人脸视频的多模态特征进行解码，得到各个该第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项。基于标注情感标签与该预测情感标签之间的第一差异信息，以及该标注文本与该预测文本之间的第二差异信息中的至少一项，对该参考视频识别模型进行训练，得到目标视频识别模型。

在一种可能的实施方式中，该第二训练模块803，用于对于该多个第二样本人脸视频中的任一第二样本人脸视频，基于注意力机制对该第二样本人脸视频的多模态特征进行多轮解码，得到该第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项。

在一种可能的实施方式中，该装置还包括：

视频获取模块，用于获取多个初始样本视频。对该多个初始样本视频进行非人脸过滤，得到多个参考样本视频，该多个参考样本视频的视频帧均包含人脸。对该多个参考样本视频进行分割，得到该多个第一样本人脸视频。

在一种可能的实施方式中，该视频获取模块，用于对于该多个初始样本视频中的任一初始样本视频，对该初始样本视频进行人脸检测，得到该初始样本视频中包含人脸的多个参考视频帧。确定该多个参考视频帧中的人脸区域。将各个该参考视频帧中的人脸区域缩放至预设尺寸，得到多个目标视频帧。将该多个目标视频帧进行组合，得到该初始样本视频对应的参考样本视频。

在一种可能的实施方式中，该视频获取模块，用于对该多个参考视频帧进行人脸关键点检测，得到各个该参考视频帧中的多个人脸关键点。基于各个该参考视频帧中的多个人脸关键点，确定各个该参考视频帧中的人脸区域。

在一种可能的实施方式中，该视频获取模块，用于对于该多个参考样本视频中的任一参考样本视频，对该参考样本视频进行字幕识别，得到该参考样本视频中的多个字幕。基于各个该字幕的起始时间和结束时间，对该参考样本视频进行拆分，得到该参考样本视频对应的第一样本人脸视频。

在一种可能的实施方式中，该视频获取模块，用于对该参考样本视频进行光学字符识别，得到该参考样本视频中的多个参考字幕。对该参考样本视频的音频进行识别，得到该参考样本视频的多个音频字幕。采用该多个音频字幕对该多个参考字幕进行过滤，得到该参考样本视频中的多个字幕。

需要说明的是：上述实施例提供的视频识别模型的训练装置在训练视频识别模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频识别模型的训练装置与视频识别模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图9是本申请实施例提供的一种视频识别装置的结构示意图，参见图9，装置包括：输入模块901以及识别模块902。

输入模块901，用于将目标人脸视频输入目标视频识别模型，通过该目标视频识别模型，对该目标人脸视频进行多模态编码，得到该目标人脸视频的目标多模态特征，该目标多模态特征是该目标人脸视频的音频特征以及图像特征融合得到的。

识别模块902，用于通过该目标视频识别模型，对该目标人脸视频的目标多模态特征进行解码，得到该目标人脸视频对应的情感标签以及该目标人脸视频的音频对应的文本中的至少一项。

其中，该目标视频识别模型是基于采用多个第一样本人脸视频、多个第二样本人脸视频，以及各个该第二样本人脸视频的标注情感标签和标注文本中的至少一项训练得到的。

需要说明的是：上述实施例提供的视频识别模型的训练装置在识别视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频识别模型的训练装置与视频识别模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例提供了一种电子设备，用于执行上述方法，该电子设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图10是本申请实施例提供的一种终端的结构示意图。该终端1000可以是：智能手机、平板电脑、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1000包括有：一个或多个处理器1001和一个或多个存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1001所执行以实现本申请中方法实施例提供的视频识别模型的训练方法或视频识别方法。

在一些实施例中，终端1000还可选包括有：***设备接口1003和至少一个***设备。处理器1001、存储器1002和***设备接口1003之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1003相连。具体地，***设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007和电源1008中的至少一种。

***设备接口1003可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和***设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和***设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选的，射频电路1004包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏1005用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件1006用于采集图像或视频。可选的，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。

电源1008用于为终端1000中的各个组件进行供电。电源1008可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端1000还包括有一个或多个传感器1009。该一个或多个传感器1009包括但不限于：加速度传感器1010、陀螺仪传感器1011、压力传感器1012、光学传感器1013以及接近传感器1014。

加速度传感器1010可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器1011可以终端1000的机体方向及转动角度，陀螺仪传感器1011可以与加速度传感器1010协同采集用户对终端1000的3D动作。

压力传感器1012可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1012设置在终端1000的侧边框时，可以检测用户对终端1000的握持信号，由处理器1001根据压力传感器1012采集的握持信号进行左右手识别或快捷操作。当压力传感器1012设置在显示屏1005的下层时，由处理器1001根据用户对显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。

光学传感器1013用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1013采集的环境光强度，控制显示屏1005的显示亮度。

接近传感器1014用于采集用户与终端1000的正面之间的距离。

本领域技术人员可以理解，图10中示出的结构并不构成对终端1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述电子设备还可以实现为服务器，下面对服务器的结构进行介绍：

图11是本申请实施例提供的一种服务器的结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1101和一个或多个的存储器1102，其中，所述一个或多个存储器1102中存储有至少一条计算机程序，所述至少一条计算机程序由所述一个或多个处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1100还可以具有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1100还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的视频识别模型的训练方法或视频识别方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该电子设备执行上述视频识别模型的训练方法或视频识别方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行，分布在多个地点且通过通信网络互连的多个电子设备可以组成区块链***。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频识别模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述初始视频识别模型，对所述多个第一样本人脸视频进行多模态编码，得到各个所述第一样本人脸视频的初始多模态特征包括：

通过所述初始视频识别模型，对所述多个第一样本人脸视频进行音频特征编码和图像特征编码，得到各个所述第一样本人脸视频的初始音频特征以及初始图像特征；

通过所述初始视频识别模型，将各个所述第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合，得到各个所述第一样本人脸视频的初始多模态特征。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个第一样本人脸视频进行音频特征编码和图像特征编码，得到各个所述第一样本人脸视频的初始音频特征以及初始图像特征包括：

对于所述多个第一样本人脸视频中的任一第一样本人脸视频，对所述第一样本人脸视频的音频进行音频特征提取和全连接，得到所述第一样本人脸视频的初始音频特征；

对所述第一样本人脸视频的图像进行图像特征提取和卷积，得到所述第一样本人脸视频的初始图像特征。

4.根据权利要求2所述的方法，其特征在于，所述将各个所述第一样本人脸视频的初始音频特征以及初始图像特征进行多模态融合，得到各个所述第一样本人脸视频的初始多模态特征包括：

对于所述多个第一样本人脸视频中的任一第一样本人脸视频，将所述第一样本人脸视频的初始音频特征以及初始图像特征进行融合，得到所述第一样本人脸视频的第一融合特征；

基于注意力机制对所述第一样本人脸视频的初始图像特征和第一融合特征进行编码，得到所述第一样本人脸视频的初始多模态特征。

5.根据权利要求4所述的方法，其特征在于，所述基于注意力机制对所述第一样本人脸视频的初始图像特征和第一融合特征进行编码，得到所述第一样本人脸视频的初始多模态特征包括：

采用门控机制对所述第一样本人脸视频的第一融合特征进行处理，得到所述第一样本人脸视频的门控融合特征；

将所述第一样本人脸视频的初始图像特征和门控融合特征进行融合，得到所述第一样本人脸视频的第二融合特征；

采用注意力机制对所述第二融合特征进行编码，得到所述第一样本人脸视频的初始多模态特征。

6.根据权利要求1所述的方法，其特征在于，所述采用各个所述第一样本人脸视频的初始音频特征以及初始多模态特征，对所述初始视频识别模型进行训练，得到参考视频识别模型包括：

对各个所述第一样本人脸视频的初始音频特征进行聚类，得到多个第一聚类中心；

基于所述多个第一聚类中心以及各个所述第一样本人脸视频的初始多模态特征，对所述初始视频识别模型进行训练，得到所述参考视频识别模型。

7.根据权利要求6所述的方法，其特征在于，所述基于所述多个第一聚类中心以及各个所述第一样本人脸视频的初始多模态特征，对所述初始视频识别模型进行训练，得到参考视频识别模型包括：

基于所述多个第一聚类中心，将各个所述第一样本人脸视频的初始多模态特征划分至多个第一簇；

基于各个所述第一簇内初始多模态特征之间的相似度，以及不同第一簇内初始多模态特征之间的相似度，对所述初始视频识别模型进行训练，得到第一视频识别模型；

将所述多个第一样本人脸视频输入第一视频识别模型，通过所述第一视频识别模型，对所述多个第一样本人脸视频进行多模态编码，得到各个所述第一样本人脸视频的第一多模态特征；

对各个所述第一样本人脸视频的第一多模态特征进行聚类，得到多个第二聚类中心；

基于所述多个第二聚类中心以及各个所述第一样本人脸视频的第一多模态特征，对所述第一视频识别模型进行训练，得到所述参考视频识别模型。

8.根据权利要求7所述的方法，其特征在于，所述基于所述多个第二聚类中心以及各个所述第一样本人脸视频的第一多模态特征，对所述第一视频识别模型进行训练，得到所述参考视频识别模型包括：

基于各个所述第二聚类中心对应的第二簇内第一多模态特征之间的相似度，以及不同第二聚类中心对应的第二簇内第一多模态特征之间的相似度，对所述第一视频识别模型进行训练，得到第二视频识别模型；

将所述多个第一样本人脸视频输入第二视频识别模型，通过所述第二视频识别模型，对所述多个第一样本人脸视频进行多模态编码，得到各个所述第一样本人脸视频的第二多模态特征；

基于各个所述第一样本人脸视频的第二多模态特征，对所述第二视频识别模型进行训练，得到所述参考视频识别模型。

9.根据权利要求1所述的方法，其特征在于，所述采用多个第二样本人脸视频，以及各个所述第二样本人脸视频的标注情感标签和标注文本中的至少一项，对所述参考视频识别模型进行训练，得到目标视频识别模型包括：

将多个第二样本人脸视频输入参考视频识别模型，通过所述参考视频识别模型，对所述多个第二样本人脸视频进行多模态编码，得到各个所述第二样本人脸视频的多模态特征；

通过所述参考视频识别模型，对各个所述第二样本人脸视频的多模态特征进行解码，得到各个所述第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项；

基于标注情感标签与所述预测情感标签之间的第一差异信息，以及所述标注文本与所述预测文本之间的第二差异信息中的至少一项，对所述参考视频识别模型进行训练，得到目标视频识别模型。

10.根据权利要求9所述的方法，其特征在于，所述对各个所述第二样本人脸视频的多模态特征进行解码，得到各个所述第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项包括：

对于所述多个第二样本人脸视频中的任一第二样本人脸视频，基于注意力机制对所述第二样本人脸视频的多模态特征进行多轮解码，得到所述第二样本人脸视频对应的预测情感标签以及预测文本中的至少一项。

11.根据权利要求1所述的方法，其特征在于，所述将多个第一样本人脸视频输入初始视频识别模型之前，所述方法还包括：

获取多个初始样本视频；

对所述多个初始样本视频进行非人脸过滤，得到多个参考样本视频，所述多个参考样本视频的视频帧均包含人脸；

对所述多个参考样本视频进行分割，得到所述多个第一样本人脸视频。

12.根据权利要求11所述的方法，其特征在于，所述对所述多个初始样本视频进行非人脸过滤，得到多个参考样本视频包括：

对于所述多个初始样本视频中的任一初始样本视频，对所述初始样本视频进行人脸检测，得到所述初始样本视频中包含人脸的多个参考视频帧；

确定所述多个参考视频帧中的人脸区域；

将各个所述参考视频帧中的人脸区域缩放至预设尺寸，得到多个目标视频帧；

将所述多个目标视频帧进行组合，得到所述初始样本视频对应的参考样本视频。

13.根据权利要求12所述的方法，其特征在于，所述确定所述多个参考视频帧中的人脸区域包括：

对所述多个参考视频帧进行人脸关键点检测，得到各个所述参考视频帧中的多个人脸关键点；

基于各个所述参考视频帧中的多个人脸关键点，确定各个所述参考视频帧中的人脸区域。

14.根据权利要求11所述的方法，其特征在于，所述对所述多个参考样本视频进行分割，得到所述多个第一样本人脸视频包括：

对于所述多个参考样本视频中的任一参考样本视频，对所述参考样本视频进行字幕识别，得到所述参考样本视频中的多个字幕；

基于各个所述字幕的起始时间和结束时间，对所述参考样本视频进行拆分，得到所述参考样本视频对应的第一样本人脸视频。

15.根据权利要求14所述的方法，其特征在于，所述对所述参考样本视频进行字幕识别，得到所述参考样本视频中的多个字幕包括：

对所述参考样本视频进行光学字符识别，得到所述参考样本视频中的多个参考字幕；

对所述参考样本视频的音频进行识别，得到所述参考样本视频的多个音频字幕；

采用所述多个音频字幕对所述多个参考字幕进行过滤，得到所述参考样本视频中的多个字幕。

16.一种视频识别方法，其特征在于，所述方法包括：

17.一种视频识别模型的训练装置，其特征在于，所述装置包括：

18.一种视频识别装置，其特征在于，所述装置包括：

19.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求15任一项所述的视频识别模型的训练方法，或实现权利要求16所述的视频识别方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求15任一项所述的视频识别模型的训练方法，或实现权利要求16所述的视频识别方法。