CN114565964A

CN114565964A - 情绪识别模型的生成方法、识别方法、装置、介质和设备

Info

Publication number: CN114565964A
Application number: CN202210211180.2A
Authority: CN
Inventors: 张唯; 陈柯宇; 丁彧; 李林橙; 王苏振; 吕唐杰; 范长杰; 胡志鹏
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-05-31

Abstract

本申请提供了一种情绪识别模型的生成方法，该方法包括：将情绪识别训练数输入情绪识别特征提取器进行处理以得到第一表情编码向量；将第一表情编码向量输入特征学习分支网络得到表情表征向量；将第一表情编码向量输入分类学习分支网络得到情绪分类结果；根据表情表征向量、情绪分类结果、情绪标签、以及预设的损失函数获得损失值，并根据损失值调整情绪识别特征提取器以及特征学习分支网络和分类学习分支网络的参数；当预设的损失函数达到设定收敛条件时，保留情绪识别特征提取器和分类学习分支网络得到第一情绪识别模型。相应地，本申请还提供了与所述情绪识别模型的生成方法相关的介质和设备，以及情绪识别方法及相关的介质和设备。

Description

情绪识别模型的生成方法、识别方法、装置、介质和设备

技术领域

本申请属于人工智能技术领域，尤其涉及一种情绪识别模型的生成方法、情绪识别方法、装置、介质和设备。

背景技术

表情是人类用来表达情绪的基本途径之一，在不同的情景下人类通过表情表达自己内心的感受，同时也通过表情感知他人的情绪。基于表情视觉信息的情绪识别方法在多个领域获得较大的关注，例如人机交互，心理疾病诊断，销售心理学领域。基本情绪的识别作为一种基础识别任务，可以为复杂的情绪分析任务提供基础技术支持。基本的7种情绪包括中性，开心，伤心，惊讶，害怕，生气，厌恶。尽管实验室环境下的基本情绪自动识别已达到很高的准确率，但是这些方法却难以处理遮挡，光照等实际应用问题。大规模的自然环境下的表情数据集的出现为解决实际情绪识别的落地提供了便利，然而处理复杂的干扰因素以及缓解数据集带有的数据不平衡问题仍然是不小的挑战。

发明内容

为了克服现有技术中的上述缺陷，本申请提供了一种情绪识别模型的生成方法，该方法包括：

获取情绪识别训练数据，并将所述情绪识别训练数输入情绪识别特征提取器进行处理以得到第一表情编码向量，所述情绪识别特征提取器利用预训练的表情编码模型构建，所述表情编码模型用于生成第二表情编码向量，所述第一表情编码向量的维度高于所述第二表情编码向量的维度，所述情绪识别训练数据包括表情图像和对应的情绪标签；

将所述第一表情编码向量输入特征学习分支网络进行处理，得到表情表征向量；

将所述第一表情编码向量输入分类学习分支网络进行处理，得到情绪分类结果；

根据所述表情表征向量、所述情绪分类结果、所述情绪标签、以及预设的损失函数获得损失值，并根据所述损失值调整所述情绪识别特征提取器以及所述特征学习分支网络和分类学习分支网络的参数；

当所述预设的损失函数达到设定收敛条件时，根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型。

根据本申请的一个方面，该方法还包括：

利用多条表情多元组训练数据对预设的表情编码模型进行迭代训练得到所述预训练的表情编码模型，每条所述表情多元组训练数据包括目标表情样本图像，与所述目标表情样本图像相似的正表情图像，与所述目标表情样本图像不相似的负表情样本图像；

截取所述预训练的表情编码模型中设定数量的网络层作为所述情绪识别特征提取器。

根据本申请的另一个方面，该方法中所述预设的损失函数包括用于特征学习分支网络的第一损失函数和用于分类学习分支网络的第二损失函数，所述第一损失函数采用对比损失函数，所述第二损失函数采用交叉熵损失函数。

根据本申请的另一个方面，该方法中所述预设的损失函数还包括第一损失函数的第一权重和第二损失函数的第二权重，在所述特征学习分支网络的迭代过程中，所述第一权重逐渐减小。

根据本申请的另一个方面，该方法所述获取情绪识别训练数据包括：

获取初始情绪识别训练数据；

对所述初始情绪识别训练数据进行均衡处理，获得均衡处理后的情绪识别训练数据。

根据本申请的另一个方面，该方法中所述根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型包括：当所述预设的损失函数达到设定收敛条件时，丢弃所述特征学习分支网络，根据保留的所述情绪识别特征提取器和所述分类学习分支网络得到第一情绪识别模型。

根据本申请的另一个方面，该方法还包括：构建轻量化情绪识别模型，并以所述第一情绪识别模型为教师模型，以所述轻量化情绪识别模型为学生模型通过知识蒸馏对所述轻量化情绪识别模型进行迭代训练，以得到第二情绪识别模型。

根据本申请的另一个方面，该方法中在对所述轻量化情绪识别模型进行迭代训练时采用交叉熵损失函数和软目标损失函数计算损失值。

此外，本申请提供了一种该方法包括：获取待进行情绪识别的目标图像；利用如前所述的情绪识别模型的生成方法得到的第一情绪识别模型或第二情绪识别模型对所述目标图像进行情绪识别。

此外，本申请提供了一种情绪识别模型的形成装置，该装置包括：

第一输入模块，用于获取情绪识别训练数据，并将所述情绪识别训练数输入情绪识别特征提取器进行处理以得到第一表情编码向量，所述情绪识别特征提取器利用预训练的表情编码模型构建，所述表情编码模型用于生成第二表情编码向量，所述第一表情编码向量的维度高于所述第二表情编码向量的维度，所述情绪识别训练数据包括表情图像和对应的情绪标签；

第二输入模块，用于将所述第一表情编码向量输入特征学习分支网络进行处理，得到表情表征向量；

第三输入模块，用于将所述第一表情编码向量输入分类学习分支网络进行处理，得到情绪分类结果；

参数调整模块，用于根据所述表情表征向量、所述情绪分类结果、所述情绪标签、以及预设的损失函数获得损失值，并根据所述损失值调整所述情绪识别特征提取器以及所述特征学习分支网络和分类学习分支网络的参数；

模型获得模块，用于当所述预设的损失函数达到设定收敛条件时，根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型。

此外，本申请提供了一种情绪识别装置，该装置包括：目标获取模块，用于获取待进行情绪识别的目标图像；情绪识别模块，利用如前所述的情绪识别模型的生成方法得到的第一情绪识别模型或第二情绪识别模型对所述目标图像进行情绪识别。

此外，本申请提供了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的情绪识别模型的生成方法或情绪识别方法。

本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器，其中：所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如前文所述的情绪识别模型的生成方法或情绪识别方法。

本申请提供的情绪识别模型的生成方法，首先其使用的情绪特征提取器基于预训练的表情编码模型构建，其基于表情编码作为先验知识进行特征提取，从而使得提取的特征能够减小身份信息，遮挡信息的干扰；其次，在模型的训练中解耦开特征学***衡造成的偏置问题。

进一步地，本申请提供的情绪识别模型的生成方法，还可以采用知识蒸馏技术对模型进行压缩，实现轻量化的情绪识别模型，使得模型适用于大多数的落地场景。

本申请提供的情绪识别方法由于采用本申请的情绪识别模型的生成方法形成的模型，因此具有类似的优点。

附图说明

通过阅读参照以下附图所作的对非限制性具体实施方式所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是根据本申请的情绪识别模型的生成方法的一个具体实施方式的流程示意图；

图2是根据本申请的情绪识别模型的生成方法的新增步骤一个优选具体实施方式的流程示意图；

图3是根据本申请的预设的表情编码模型的一个优选具体实施方式的示意图；

图4是根据本申请的情绪识别模型的生成方法的一个可选具体实施方式的流程示意图；

图5是根据本申请的情绪识别方法的一个具体实施方式的流程示意图；

图6是根据本申请的情绪识别模型的形成装置的一个具体实施方式的结构示意图；

图7是根据本申请的情绪识别模型的形成装置的新增模块的一个优选具体实施方式的结构示意图；

图8是根据本申请的情绪识别模型的形成装置的一个可选具体实施方式的结构示意图；

图9是根据本申请的情绪识别装置的一个具体实施方式的结构示意图；

图10是用于实施本申请的情绪识别模型的生成方法或情绪识别方法的一种典型智能终端的结构示意图；

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

为了更好地理解和阐释本申请，下面将结合附图对本申请作进一步的详细描述。本申请并不仅仅局限于这些具体实施方式。相反，对本申请进行的修改或者等同替换，均应涵盖在本申请的权利要求范围当中。

需要说明的是，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有这些具体细节，本申请同样可以实施。在下文给出的多个具体实施方式中，对于本领域熟知的原理、结构和部件未作详细描述，以便于凸显本申请的主旨。

目前的情绪识别方法基于主要有以下两类：

第一，手工特征的情绪识别，这是早期普遍使用的情绪识别方式。其通过人工定义的一些视觉特征来表征人脸，然后利用支持向量机等机器学习分类器进行分类。常见的手工特征包括局部二值模式(LBP),方向梯度直方图 (HOG)等。该类方法适用于实验室环境下，在复杂的自然环境下无法实现准确的识别效果。然而，基于手工特征的方法对手工特征的选择很敏感，在复杂的自然环境下难以选择合理的特征应对多变的干扰因素。另外，手工特征容易侧重于图像的某方面特征，造成模型的泛化性能差。

第二，基于深度学习的情绪识别，这一类方法大多基于卷积神经网络搭建模型，利用卷积神经网络对图像信息良好的特征提取能力。由于能够提取鲁棒的特征，该类方法适用于处理复杂的遮挡，光照等问题，在自然环境下的情绪识别大多基于该类方法。针对自然环境下情绪识别的挑战，该类方法又可分为：

(1)基于注意力机制的情绪识别：该类方法采用注意力机制，减小图像中干扰位置的干扰，增强面部有效位置的信息强度，从而提升模型的识别准确率。该类方法可以帮助缓解自然环境下的遮挡等问题。

(2)基于生成模型的情绪识别：现有数据集存在的一个问题是数据的身份信息与表情信息耦合，导致模型的判断容易依赖到身份信息。一种解决方式是利用生成模型帮助实现身份与表情的解耦合，生成更多的表情图像用于训练。然而这类方法的训练都需要成对的数据，这对数据集的要求很高。

虽然目前的基于深度学习方法的确在自然环境下的情绪识别取得了一定的效果，但在效果提升方面仍有空间。基于注意力机制的方法需要网络自己学习到遮挡的位置并降低部分的信息权重，网络的学习压力较大。同时，基于生成模型的方式对成对数据的要求较高，目前尚不能完全解决身份信息与表情信息耦合的干扰。同时，基于深度学习的方法对机器性能的要求很高。在实际应用中，模型尺寸太大容易导致预测速度慢，整体***的时延增加，限制了基于深度学习方法的模型落地。

为至少解决部分上述问题，本申请公开了一种情绪识别模型的生成方法，请参考图1，图1是根据本申请的情绪识别模型的生成方法的一个具体实施方式的流程示意图，该方法包括：

步骤S100，获取情绪识别训练数据，并将所述情绪识别训练数输入情绪识别特征提取器进行处理以得到第一表情编码向量，所述情绪识别特征提取器利用预训练的表情编码模型构建，所述表情编码模型用于生成第二表情编码向量，所述第一表情编码向量的维度高于所述第二表情编码向量的维度，所述情绪识别训练数据包括表情图像和对应的情绪标签；

步骤S200，将所述第一表情编码向量输入特征学习分支网络进行处理，得到表情表征向量；

步骤S300，将所述第一表情编码向量输入分类学习分支网络进行处理，得到情绪分类结果；

步骤S400，根据所述表情表征向量、所述情绪分类结果、所述情绪标签、以及预设的损失函数获得损失值，并根据所述损失值调整所述情绪识别特征提取器以及所述特征学习分支网络和分类学习分支网络的参数；

步骤S500，当所述预设的损失函数达到设定收敛条件时，根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型。

在步骤S100中，情绪识别训练数据可以采用各种开源的情绪识别数据，情绪识别数据包括表情图像和对应的情绪标签。示例性地，情绪识别训练数据可以使用三元组训练数据，每个情绪识别训练数据包括一个目标图像，一个与目标图像表情相似的图像(正表情图像)，一个与目标图像表情不相似的图像(负表情图像)。在步骤S100中，构建表情编码的目的是实现对人类面部细粒度表情的有效表征，从而将高维的像素信息嵌入一个低维的流型空间，在该流型上相近的表情有更近的向量距离。所述预训练的表情编码模型是在一个包含大量表情比较三元组的数据集上完成的预训练，其能够构建一个低维空间用来表征人脸的细粒度表情，以它作为先验知识能够为情绪识别提供一个良好的初始化，有助于情绪识别任务。因此，利用预训练的表情编码模型构建情绪识别特征提取器可以利用表情编码作为良好的先验知识来帮助剔除与表情无关的干扰信息，从而使得提取的特征能够减小身份信息，遮挡信息的干扰，进而使得形成的模型可以适用于复杂环境，而不限于实验室环境。

基于上述解释，请参考图2，图2是图1示出的步骤S100中的情绪识别特征提取器的构建方法一个优选具体实施方式的流程示意图，优选地，所述情绪识别特征提取器的构建方法包括：

步骤S110，利用多条表情多元组训练数据对预设的表情编码模型进行迭代训练得到预训练的表情编码模型；

步骤S120，截取所述预训练的表情编码模型中设定的网络层作为所述情绪识别特征提取器。

在步骤S110中，首先，构建预设的表情编码模型，该表情编码模型可以采用各种合适的网络结构。作为示例，在本申请一实施方式中，如图3所示，预设的表情编码模型采用ResNet50网络结构。然后，利用表情多元组训练数据(例如表情三元组训练数据)对预设的表情编码模型进行迭代训练得到预训练的表情编码模型。表情多元组训练数据可以从公开的表情比较多元组数据集获取，每条表情多元组训练数据包括三张图像，目标图像(Anchor(A))、正图像(Positive(P)，表情与目标图像相近的图像)、负图像(Negative (N),由标注者挑选出的与A、P两张图像表情最不像的一张图像)。在本申请中，表情多元组训练数据的标注可以完全从人类的感知角度出发，忽略身份和姿态等干扰，这样使得得到的目标表情编码模型可以更好地剔除与表情无关的干扰信息。

在本申请中，在预设的表情编码模型的迭代训练过程中，使用三元损失函数调整所述预设的表情编码模型的参数。如图3所示，将表情三元组训练数据输入预设的表情编码模型，通过预设的表情编码模型输出低维表情编码向量，例如16维的表情编码向量。然后通过计算三元损失函数来调整模型的参数和权重，从而拉近A，P图像之间的编码距离，同时拉远A,N图像和 P,N图像之间的编码距离，最终使得相近的表情有更近的向量距离，保证编码空间中表情的相似度信息。

当得到预训练的表情编码模型之后，即完成预设表情编码模型的训练之后，进入步骤S120。在步骤S120中，截取所述预训练的表情编码模型中设定数量的网络层作为所述情绪识别特征提取器，并初始化参数为表情编码模型预训练好的参数。作为一个示例，例如截取所述预训练的表情编码模型中截止到倒数第二层的网络部分，也即截取除了最后输出层之外的网络部分作为情绪识别特征提取器。这是因为前面的网络输出的中间特征的维度较高，能保留更多表情细节信息。而最后一层的维度较少，保留信息与具体任务关联度较大，不利于本申请后续的情绪识别任务。在本申请中，由于情绪识别特征提取器基于训练的表情编码模型得到，并在情绪识别任务中进行精调 (finetune)训练，因此使得本申请中的情绪识别特征提取器可以借助表情编码作为先验知识，来帮助去除与表情特征无关的因素，例如身份信息等，从而只提取与表情相关的特征。

请继续参考图1，在步骤S200中，将所述第一表情编码向量输入特征学***衡的问题，即有的表情数据多，有的表情数据少，如果只采用交叉熵损失函数这类用于分类问题的损失函数，会导致网络很难学到少数类数据的有效特征，从而使得少数类数据的预测准确率得不到提升。为了避免模型对少数类的特征学习能力不足，使网络能够学习到少数类的鲁棒特征，在本申请中解耦开特征学习和分类学习任务，因此分别构建特征学习分支网络和分类学习分支网络，以采用分开特征学习和分类学习的模型结构。

在本申请中，示例性地，特征学习分支网络由多个全连接层构成，其输出是一个低维的表情表征向量，例如16维的表情表征向量。并且为了使得网络能够学习到少数类训练数据的特征，特征学习分支网络使用对比损失函数进行约束。具体地，对于输入图像I，假设其情绪标签是l_I,特征学习分支网络的输出是Z_I,则其对比损失为：

其中，

表示一个批次训练数据中与输入图像标签一样的图像数量，τ是温度系数超参数。

在本申请中，示例性地，分类学习分支网络由多个全连接层构成，其输出图像的情绪类别概率。对于分类学习分支网络，使用常用的适用于分类任务的交叉熵损失函数进行约束。具体地，对于输入图像I，假定其情绪标签是l_I，分类学习分支网络的输出是7个基本情绪类别的概率P_I，则其交叉熵损失为：

其中，其中，

表示输出概率中对应于真实标签l_I的概率。

请继续参考图1，在步骤S400中，根据所述表情表征向量、所述情绪分类结果、所述情绪标签、以及预设的损失函数获得损失值，并根据所述损失值调整所述情绪识别特征提取器以及所述特征学习分支网络和分类学习分支网络的参数。

本申请中，示例性地，预设的损失函数L为： L＝alpha*L_CL+(1-alpha)*L_CE，其中，alpha是一个超参数，其在迭代训练过程中逐渐减小，这样可以使得网络在训练初期侧重于学习一种良好的特征，尤其是对于训练数据集中数量较少的少数类。然后在此基础上，训练后期网络更加侧重学习分类任务，这样不仅可以使得分类任务得到良好学习，还有助于提升网络对少数类特征的学习。

如前所述，公开的情绪识别训练数据集存在数据不平衡问题，因此为了避免模型对少数类的特征学习能力不足，使网络能够学习到少数类的鲁棒特征，在本申请中解耦开特征学习和分类学习任务，相应地，在迭代训练过程中不仅如上所述使alpha迭代训练过程中逐渐减小，以在训练初期侧重特征学习，训练后期侧重分类学习，而且还将迭代训练训练分为两个阶段，在第一阶段中，直接将不均衡的情绪识别训练数据输入网络进行迭代训练；在第二阶段，先对情绪识别训练数据进行重采样，以均衡各个表情类别图像的批次，例如对数量较少类别的样本进行重复采样，以增加该类别的使用次数。然后将重采样得到均衡分布数据送入网络进行迭代训练。换言之，先使用获得的初始情绪识别训练数据进行迭代训练，训练一段时间后，对情绪识别训练数据进行重采样(也即对所述初始情绪识别训练数据进行均衡处理，获得均衡处理后的情绪识别训练数据)，然后使用重采样后的情绪识别训练数据进行迭代训练。

请继续参考图1，在步骤S500中，当所述预设的损失函数达到设定收敛条件时，根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型。即，当损失值达到设定阈值(或损失值低于阈值)时，停止对网络的训练，根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型。

在本申请一实施例中，在根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型时，丢弃所述特征学习分支网络。换言之，本申请中最终得到的第一情绪识别模型仅包括情绪识别特征提取器和分类学习分支网络，并没有特征学习分支网络。

应当理解的上述实施方式所得到第一情绪识别模型，仍然存在尺寸较大，预测时间较长，对机器要求较高的问题。为了满足实际的落地需求，在本申请实施方式还可以考虑利用知识蒸馏技术，在不牺牲模型效果的前提下，获得一个轻量化的情绪识别模型。请参考图4，图4是根据本申请的情绪识别模型的生成方法的一个可选具体实施方式的流程示意图，与图1示出的具体实施方式的不同之处在于，在步骤S500之后，图4示出的可选具体实施方式还包括：

步骤S600，构建轻量化情绪识别模型，并以所述第一情绪识别模型为教师模型，以所述轻量化情绪识别模型为学生模型通过知识蒸馏对所述轻量化情绪识别模型进行迭代训练，以得到第二情绪识别模型。

具体地，首先固定已训练好的第一情绪识别模型作为教师(Teacher)模型，然后构建层数较少的轻量化情绪识别模型作为学生(Student)模型。示例性地，轻量化情绪识别模型可以采用卷积层+池化层的结构，其仅有8.3M 数量的参数，模型尺寸为27MB。在对所述轻量化情绪识别模型进行迭代训练时采用以下损失函数调整模型参数，L＝L_CE1+L_soft

其中，L_CE1为交叉熵损失函数，

q_I为所述轻量化情绪识别模型输出的概率分布，p_I为所述第一情绪识别模型为输出的概率分布。

换言之，在训练学生模型的过程中，采用两种损失函数进行约束，一个是交叉熵损失L_CE1，一个是让学生模型的输出概率分布q_I贴近教师模型的soft target损失L_Soft(在此称为软目标损失函数)。

在知识蒸馏训练结束后，学生模型可以获得和教师模型相当的预测准确率，同时具有更小的模型尺寸以及更快的预测速度。在本申请一实施方式中，将知识蒸馏训练得到的第二情绪识别模型作为最终的情绪预测模型，因为轻量化的模型对于实际落地工作非常重要，基于轻量化的模型可以在保证效果的同时，节约大量的机器成本，同时获得更好的用户体验。

本申请还公开了一种情绪识别方法，请参考图5，图5是根据本申请的情绪识别方法的一个具体实施方式的流程示意图,该方法包括：

步骤S700，获取待进行情绪识别的目标图像。

步骤S800，利用本申请上述实施方式的情绪模型的生成方法得到的第一情绪识别模型或第二情绪识别模型对所述目标图像进行情绪识别。

本申请公开的情绪识别方式，由于使用本申请公开的情绪识别模型的生成方法得到的情绪识别模型，因此具有前述类似的优点，在此不再赘述。

本申请还公开了一种情绪识别模型的形成装置，请参考图6，图6是根据本申请的情绪识别模型的形成装置的一个具体实施方式的流程示意图,该装置包括：

第一输入模块100用于获取情绪识别训练数据，并将所述情绪识别训练数输入情绪识别特征提取器进行处理以得到第一表情编码向量，所述情绪识别特征提取器利用预训练的表情编码模型构建，所述表情编码模型用于生成第二表情编码向量，所述第一表情编码向量的维度高于所述第二表情编码向量的维度，所述情绪识别训练数据包括表情图像和对应的情绪标签；

第二输入模块200用于将所述第一表情编码向量输入特征学习分支网络进行处理，得到表情表征向量；

第三输入模块300用于将所述第一表情编码向量输入分类学习分支网络进行处理，得到情绪分类结果；

参数调整模块400用于根据所述表情表征向量、所述情绪分类结果、所述情绪标签、以及预设的损失函数获得损失值，并根据所述损失值调整所述情绪识别特征提取器以及所述特征学习分支网络和分类学习分支网络的参数；

模型获得模块500用于当所述预设的损失函数达到设定收敛条件时，根据留所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型。

在本申请一实施方式中，如图7所示，该装置还包括：

训练单元110用于利用多条表情多元组训练数据对预设的表情编码模型进行迭代训练得到预训练的表情编码模型。

截取单元120用于截取所述预训练的表情编码模型中设定的网络层作为所述情绪识别特征提取器。

应当理解的上述实施方式所得到第一情绪识别模型，仍然存在尺寸较大，预测时间较长，对机器要求较高的问题。为了满足实际的落地需求，在本申请实施方式还可以考虑利用知识蒸馏技术，在不牺牲模型效果的前提下，获得一个轻量化的情绪识别模型。请参考图8，图8是根据本申请的情绪识别模型的形成装置的一个可选具体实施方式的结构示意图，与图6示出的具体实施方式的不同之处在于，图8示出的可选具体实施方式还包括：

模型压缩模块600,用于构建轻量化情绪识别模型，并以所述第一情绪识别模型为教师模型，以所述轻量化情绪识别模型为学生模型通过知识蒸馏对所述轻量化情绪识别模型进行迭代训练，以得到第二情绪识别模型。

本申请还公开了一种情绪识别装置，请参考图9，图9是根据本申请的情绪识别装置的一个具体实施方式的流程示意图,该装置包括：

目标图像获取模块700用于获取待进行情绪识别的目标图像。

情绪识别模块800用于利用本申请上述实施方式的情绪模型的生成方法得到的第一情绪识别模型或第二情绪识别模型对所述目标图像进行情绪识别。

本申请实施方式各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述

需要说明的是，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

请参考图10，图10是用于执行本发明的音视频拟合关联的计算方法的具体实施方式的一种典型计算机设备的结构示意图。更具体而言，前文所述的音视频拟合关联的计算装置可作为该计算机设备的一部分包含于其中。所述计算机设备至少包括如下部分：CPU(中央处理器)501、RAM(随机存储器)502、ROM(只读存储器)503、***总线500、硬盘控制单元504、硬盘505、人机交互外部设备控制单元506、人机交互外部设备507、串行接口控制单元508、串行接口外部设备509、并行接口控制单元510、并行接口外部设备511、显示设备控制单元512和显示设备513。其中，CPU 501、 RAM 502、ROM 503、硬盘控制单元504、人机交互外部设备控制单元506、串行接口控制单元508、并行接口控制单元510以及显示设备控制单元512 与***总线500相连接，并通过***总线500实现彼此之前的通信。此外，硬盘控制单元504与硬盘505相连接；人机交互外部设备控制单元506与人机交互外部设备507相连接，典型地该人机交互外部设备是鼠标、轨迹球、触摸屏或键盘；串行接口控制单元508与串行接口外部设备509相连接；并行接口控制单元510与并行接口外部设备511相连接；显示设备控制单元512 和显示设备513相连接。

图10所述的结构框图仅仅示出了能实践本发明各个实施例的一种计算机设备的结构，而并非是对本发明的实践环境的限制。在一些情况下，可以根据需要添加或者减少该计算机设备中的一些设备。例如，图10所示的设备可以移除人机交互外部设备507和显示设备513，其具体实施形态仅仅是一个能够被外部设备访问的服务器。当然图10所示的计算机设备可以单独地实现本发明运行的环境，也可以通过网络互相连接起来而提供本发明各个具体实施方式所适用运行环境，例如本发明的各个模块和/步骤可以分布地实现在互相连接的各个计算机设备中。

相应地，本申请还公开了一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如前文所述的情绪识别模型的生成方法或情绪识别方法的各个具体实施方式，例如图1所示出的情绪识别模型的生成方法。所述计算机可读介质可以是可由计算机设备访问的任何可用介质，且包括用任何方法和技术实现以存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性介质、可移动和不可移动介质。计算机可读介质包括但不限于，RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备，或者可用于存储所需信息并且可由计算设备访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。

相应地，本申请还公开了一种计算机设备，所述计算机设备包括存储器和处理器，其中：所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如前文所述的情绪识别模型的生成方法或情绪识别方法的各个具体实施方式，例如图1所示出的情绪识别模型的生成方法。

本申请提供的情绪识别模型的生成方法或情绪识别方法中涉及软件逻辑的部分可以使用可编程逻辑器件来实现，也可以实施为计算机程序产品，该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质，该介质上包含计算机程序逻辑或代码部分，用于实现上述涉及软件逻辑的部分的各个步骤。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如可热拔插的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器，例如RAM、ROM和硬盘。所述可移动介质包括但不限于：光存储媒体(例如 CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如磁带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。

本领域技术人员应当理解，任何具有适当编程装置的计算机***都能够执行包含在计算机程序产品中的本申请的方法的诸步骤。尽管本说明书中描述的多数具体实施方式都侧重于软件程序，但是以硬件方式实现本申请提供的方法的替代实施例同样在本申请要求保护的范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，在权利要求的等同要件的含义和范围内的所有变化均涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他部件、单元或步骤，单数不排除复数。权利要求中陈述的多个部件、单元或装置也可以由一个部件、单元或装置通过软件或者硬件来实现。

本申请提供的情绪识别模型的生成方法，首先其使用的情绪特征提取器基于预训练的表情编码模型构建，其基于表情编码作为先验知识进行特征提取，从而使得提取的特征能够减小身份信息，遮挡信息的干扰；其次，在模型的训练中解耦开特征学***衡造成的偏置问题。进一步地，本申请提供的情绪识别模型的生成方法，还可以采用知识蒸馏技术对模型进行压缩，实现轻量化的情绪识别模型，使得模型适用于大多数的落地场景。本申请提供的情绪识别方法由于采用本申请的情绪识别模型的生成方法形成的模型，因此具有类似的优点。

以上所披露的仅为本申请的一部分实施例或具体实施方式，不能以此来限定本申请之权利范围，依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种情绪识别模型的生成方法，其特征在于，所述方法包括：

获取情绪识别训练数据，并将所述情绪识别训练数据输入情绪识别特征提取器进行处理以得到第一表情编码向量，所述情绪识别特征提取器利用预训练的表情编码模型构建，所述表情编码模型用于生成第二表情编码向量，所述第一表情编码向量的维度高于所述第二表情编码向量的维度，所述情绪识别训练数据包括表情图像和对应的情绪标签；

2.根据权利要求1所述的情绪识别模型的生成方法，其中，所述方法还包括：

利用多条表情多元组训练数据对初始表情编码模型进行迭代训练得到所述预训练的表情编码模型，每条所述表情多元组训练数据包括目标表情样本图像，与所述目标表情样本图像相似的正表情图像，与所述目标表情样本图像不相似的负表情样本图像；

3.根据权利要求1所述的情绪识别模型的生成方法，所述预设的损失函数包括用于特征学习分支网络的第一损失函数和用于分类学习分支网络的第二损失函数，所述第一损失函数采用对比损失函数，所述第二损失函数采用交叉熵损失函数。

4.根据权利要求3所述的情绪识别模型的生成方法，其中，所述预设的损失函数还包括第一损失函数的第一权重和第二损失函数的第二权重，在所述特征学习分支网络的迭代过程中，所述第一权重逐渐减小。

5.根据权利要求1-4中的任一项所述的情绪识别模型的生成方法，所述获取情绪识别训练数据包括：

获取初始情绪识别训练数据；

6.根据权利要求1所述的情绪识别模型的生成方法，所述根据所述情绪识别特征提取器、所述特征学习分支网络和所述分类学习分支网络得到第一情绪识别模型，包括：

丢弃所述特征学习分支网络，根据保留的所述情绪识别特征提取器和所述分类学习分支网络得到第一情绪识别模型。

7.根据权利要求1-4中的任一项所述的情绪识别模型的生成方法，其中，该方法还包括：

构建轻量化情绪识别模型，并以所述第一情绪识别模型为教师模型，以所述轻量化情绪识别模型为学生模型通过知识蒸馏对所述轻量化情绪识别模型进行迭代训练，以得到第二情绪识别模型。

8.根据权利要求7所述的情绪识别模型的生成方法，其中：

在对所述轻量化情绪识别模型进行迭代训练时采用交叉熵损失函数和软目标损失函数计算损失值。

9.一种情绪识别方法，该方法包括：

获取待进行情绪识别的目标图像；

利用权利要求1-6中的任一项所述的情绪模型的生成方法得到第一情绪识别模型对所述目标图像进行情绪识别，或者利用权利要求7或8所述的情绪识别模型的生成方法得到的第二情绪识别模型对所述目标图像进行情绪识别。

10.一种情绪识别模型的形成装置，该装置包括：

11.一种情绪识别装置，该装置包括：

目标获取模块，用于获取待进行情绪识别的目标图像；

情绪识别模块，用于利用权利要求1-6中的任一项所述的情绪模型的生成方法得到第一情绪识别模型对所述目标图像进行情绪识别，或者利用权利要求7或8所述的情绪识别模型的生成方法得到的第二情绪识别模型对所述目标图像进行情绪识别。

12.一个或多个存储计算机可执行指令的计算机可读介质，所述指令在由一个或多个计算机设备使用时使得一个或多个计算机设备执行如权利要求1至8中任一项所述的情绪识别模型的生成方法或权利要求9所述的情绪识别方法。

13.一种计算机设备，所述计算机设备包括存储器和处理器，其中：

所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的情绪识别模型的生成方法或权利要求9所述的情绪识别方法。