WO2021139316A1

WO2021139316A1 - 建立表情识别模型方法、装置、计算机设备及存储介质

Info

Publication number: WO2021139316A1
Application number: PCT/CN2020/122822
Authority: WO
Inventors: 张展望; 田笑; 周超勇; 刘玉宇
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-07-31
Filing date: 2020-10-22
Publication date: 2021-07-15
Also published as: CN111898550B; CN111898550A

Abstract

一种建立表情识别模型方法、装置、计算机设备及存储介质，属于人工智能领域。上述方法包括：获取多张第一训练图像数据以及多张第二训练图像数据（201）；根据特征值获取多张目标图像数据对应的聚类中心、以及多张目标图像数据对应的基准图（203）；随机抽取不同基准图的两张目标图像数据做为第一输入图像数据，得到与聚类中心相对应的多张第一输入图像数据；随机抽取相对应不同聚类中心的第二输入图像，得到多张第二输入图像数据；将第一输入图像、第二输入图像以及第一输入图像对应的聚类中心输入至EmtionNet。此外，上述方法还涉及区块链技术，第一训练图像数据以及第二训练图像数据可存储于区块链中，其提高了表情识别精准度。

Description

建立表情识别模型方法、装置、计算机设备及存储介质

本申请以2020年07月31日提交的申请号为202010761705.0，名称为“建立表情识别模型方法、装置、计算机设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及人工智能领域，尤其涉及一种建立表情识别模型方法、装置、计算机设备及存储介质。

背景技术

人脸表情识别是人工智能重要领域，在视觉任务中，应用前景极其广泛；比如在智能教育中，通过载入表情识别分析课堂学生情绪，教育者基于此分析出学生课堂积极性及课堂成效并掌握全局和个别学生状态及时做出应对，从而指导教育者灵活变动教育互动等方式，提升教育成果转化率；同样应用于安防、智慧城市、在线教育、人机互动和犯罪分析等领域。在20世专家就通过跨文化调研提出了七类基础表情，分别是生气，害怕，厌恶，开心，悲伤，惊讶以及中立,分析当前基于深度学习的表情识别方法。通常表情识别需要人脸检测、人脸对齐、人脸归一化、深度特征学习和表情分类最终通过逻辑回归(softmax)获得当前七种人脸表情的概率，概率最高的为当前表情。然而,发明人意识到精度不尽人意。采用网络集成比如adaboost，通过网络模型多样性进行互补，提升明显。尝试不同的训练函数。但在数据驱动方面，非常用表情数据获取难度过大，数据标注人为主观性强，比如害怕和惊讶混淆性强，这将冲击模型分类能力；采用越先进的网络结构很容易导致过拟合，训练技巧要求高。

发明内容

本申请实施例的目的在于提出一种建立表情识别模型方法、装置、计算机设备及存储介质，以解决标识识别中的过拟合以及精度过低的问题。

为了解决上述技术问题，本申请实施例提供一种建立表情识别模型方法，采用了如下所述的技术方案：

获取多张第一训练图像数据以及多张第二训练图像数据；

通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值；

根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图；

为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据；

为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据；

将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet；

通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。

为了解决上述技术问题，本申请实施例还提供一种建立表情识别模型装置，采用了如下所述的技术方案：

训练数据获取模块，用于获取多张第一训练图像数据以及多张第二训练图像数据；

残差神经网络训练模块，用于通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值；

基准图获取模块，用于根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图；

聚类模块，用于为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据；

抽取模块，用于为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据；

输入模块，用于将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet；

EmtionNet训练模块，用于通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，其包括至少一个连接的处理器、存储器、输入输出单元，其中，所述存储器用于存储计算机可读指令，所述处理器用于调用所述存储器中的计算机可读指令来执行如下所述的建立表情识别模型方法的步骤：

获取多张第一训练图像数据以及多张第二训练图像数据；

通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下所述的建立表情识别模型方法的步骤：

获取多张第一训练图像数据以及多张第二训练图像数据；

通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

本申请提出一种新的基于标准性的表情识别方法，不同于以往分类训练方法，而是先在人脸识别训练数据上使用训练分类模型，再通过表情数据对分类模型进行微调,通过这种方式训练出一个精度不错的分类模型，本申请在通过使用基准图作为基础图和对表情作为对比输入，可以通过对比相同表情特征和不同表情特征，克服由于标注数据的主观性导致的分类漂移和错误，也避免随机基础图方法导致的难于训练和精度下降的问题。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2根据本申请的建立表情识别模型方法的一个实施例的流程图；

图3是根据本申请的建立表情识别模型装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的建立表情识别模型方法一般由服务器/终端设备执行，相应地，建立表情识别模型装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的建立表情识别模型的方法的一个实施例的流程图。所述的建立表情识别模型方法，包括以下步骤：

步骤201，获取多张第一训练图像数据以及多张第二训练图像数据。

在本实施例中，建立表情识别模型方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式服务器接收用户请求进行标定。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

在本实施中，第一训练图像数据可以使用MS+VGGface数据，第二训练图像可以使用情感网络(EmotionNet)上的七类表情数据。VGGFace是牛津大学视觉组于2015年发表，VGGNet也是该视觉组提出的，一般应用基于VGGNet的人脸识别。2016年出现了一个包含百万图像的数据集——EmotioNet。在该数据集上，可以采用深度学习这类方法做更多表情强度的估计和动作单元强度的估计。不过，需要特别注意的是，尽管这个表情数据集规模非常大，但它并不是完全由手工标注，而是通过半自动的方式标注的，所以可能存在很多噪声。如何利用好这样的数据也是值得关注的。

步骤202，通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值。

在本实施例中，通过第一训练图像数据训练初始残差神经网络(Residual Network，ResNet50)，通过所述第二训练图像数据微调，得到目标ResNet50，去除所述目标ResNet50的逻辑回归SoftMax层，将所述多张第一训练图像数据输入至所述目标ResNet50,得到所述多张第一训练图像对应输出的特征值。

由于EmotionNet和MS+VGGface都为百万级的图像数据级，因此能够得到精确的目标残差神经网络以及所述多张第一训练图像对应输出的特征值。

步骤203，根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图。

在本实施例中，所述多张目标图像数据为目标残差神经网络输出的特征值，将特征值转换成用于描述目标图像数据的图像特征，目标图像数据可以是MS+VGGface或者EmotionNet，通过K-means聚类方法进行k＝7的聚类，得到7个聚聚类中心，对于每个聚类中心P _i计算一个不交叉半径，计为R _i(i＝1,…,7),每个R _i切分8份，标为R _i,j(j＝1,…,8),对于每个聚类中心P _i,半径R _i,j在数据集EmotionNet中搜寻一张人脸表情图作为基准表情图。最终将搜寻到56张基准图，每类表情8张基准表情图，记为A _i,j。

步骤204，为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据。

在本实施例中，训练时，随机从基准表情图集中抽取一张A _i,j作为基准图像，比如A _i,j表情为开心时，在EmtionNet中对应A _i,j表情一张为积极表情，然后再找一张属于开心这个聚类中心，但是不在一个基准图的其他图像，两张作为第一输入图像进行输入。对于一张目标图像数据，一个聚类中心对应一个表情，一个表情具有一组配对的第一输入图像。当中的配对的第一输入图像是指同一个聚类中心的两张基准图。

在本申请其它实施方式中，对于一张目标图像数据，也可以随机抽取同一所述聚类中心，并且不同基准图的三张或三张以上的所述目标图像数据作为第一输入图像数据。此时配对的第一输入图像则为同一个聚类中心的多张基准图。

步骤205，为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据。

在本实施例中，随机一种其他聚类中心的表情，以上述例子为例，比如生气作为反馈表情，并EmtionNet中对应不开心表情一张为负反馈输入。

本申请其它实施方式中，随机抽取相对应不同所述聚类中心的基准图的数量可以为一张，也可以为两张或两张以上。

因此，对应每一张目标图像数据，随机抽取至少三张基准图作为输入数据，输入至EmtionNet进行训练。

步骤206，将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet。

在本实施例中，将这些信息输入至神经网络，进行训练。

步骤207，通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。

在本实施例中，通过不同平常的三元损失函数训练方法，基准图是固定56基准图，解决训练不稳定现象和样本污染问题。三元损失函数为L＝max(d(a,p)-d(a,n)+m arg in,0)。其中d(a,p)为同一个聚类中心的输入图像，d(a,n)为不同一个聚类中心的输入图像，m arg in为超参数。

本申请提出一种新的基于标准性的表情识别方法，不同于以往分类训练方法，而是先在人脸识别训练数据上使用损失函数训练一模型，再对表情数据上使用线性回归函数进行微调,通过这种方式已然训练出一个精度不错的分类模型，用此模型对表情数据进行7聚类，根据聚类结果计算类半径，获取出56张基准表情图，每种表情8张，基准图将作为三元损失函数的基础图；不同于以往三元损失函数训练随机设定基础图，本文使用基准图作为基础图，克服由于标注数据的主观性导致的分类漂移和错误，也避免随机基础图方法导致的难于训练和精度下降的问题。

在一些可选的实现方式中，所述通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值的步骤具体包括：

通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络；

获取第二训练图像数据，通过所述第二训练图像数据微调所述训练好的残差神经网络，得到目标残差神经网络；

去除所述目标残差神经网络的逻辑回归层，将所述多张第一训练图像数据输入至所述目标残差神经网络，得到所述多张第一训练图像对应输出的特征值。

上述实施方式中，使用人脸识别MS+VGGface数据，通过损失函数训练ResNet50，然后表情数据上EmotionNet表情数据进行迁移学习训练，训练包含了softmax层，当第一输入图像输入进去以后，通过去除softmax层可以得到每个第一输入图像的特征值，通过上述方式可以获得每个图像的特征值，从而可以用特征值去描述每张图像。

在一些可选的实现方式中，所述通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络的步骤具体包括：

获取所述多张第一训练图像数据以及所述第一训练图像数据所对应的标注标签；

将所述第一训练图像数据以及所述对应的标注标签输入至所述初始残差神经网络；

通过

训练所述初始残差神经网络，得到训练好的残差神经网络，其中i，j为所述第一训练图像数据的图像标号，x为所述残差神经网络输出特征，W为神经元的权重，m为超参数，L为损失函数的值，s为固定值，

为向量i以及向量j之间的夹角，X*为所述残差神经网络输出特征归一化前的值，W*为所述神经元的权重归一化前的值；

将所述训练好的残差神经网络部署至客户端。

上述实施方式中，通过将公式中的m作为角度加上去了，这样就强行拉大了同类之间的角度，使得神经网络更努力地将同类收得更紧。对x和W进行归一化，计算得到预测向量

从cos(θ _j+i)中挑出对应正确的值，计算其反余弦得到角度，角度加上m，得到挑出从

中挑出正确的值以及所在位置的独热码，将

通过独热码放回原来的位置，对所有值乘上固定值s，通过上述方式可以训练EmotionNet神经网络，能得到一个较好的训练模型。

在一些可选的实现方式中，所述根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图的步骤之前还包括：

通过k均值聚类算法聚类所述述多张第一训练图像对应输出的特征值，得到7个聚类中心；

预设第一预设值m；

通过k均值聚类算法为每个所述聚类中心聚类所述第一预设值个聚类中心，得到每个所述聚类中心对应的m个基准图。

上述实施方式中，聚类的目的也是把数据分类，但是事先是不知道如何去区分的，通过判断各条数据之间的相似性，相似的则放在一起，聚类属于无监督问题，给出的数据没有标签值，需要机器算法自行去探索其中的规律，根据该规律将相近的数据划分为一类。K均值聚类(K-Means)算法是最为经典的基于划分的聚簇方法，是十大经典数据挖掘算法之一。简单的说K-Means就是在没有任何监督信号的情况下将数据分为K份的一种方法。聚类算法就是无监督学习中最常见的一种，给定一组数据，需要聚类算法去挖掘数据中的隐含信息，通过聚类可以将特征值相似的图像放在一起，达到初步区分的目的。

在一些可选的实现方式中，所述通过三元损失函数训练所述EmtionNet的步骤具体包括：

通过L＝max(d(a,p)-d(a,n)+m arg in,0)训练所述EmtionNet，得到EmtionNet，其中d(a,p)为同一个聚类中心的输入图像，d(a,n)为不同一个聚类中心的输入图像，m arg in为超参数；

将所述训练好的EmtionNet部署至客户端。

上述实施方式中，通过上述方式，输入图像中包含三张图像，一张为基础聚类中心的图，另外一张为同一个聚类中心的图像，最后一张则为不同聚类中心的图像。a为基础聚类中心的图，p为同一个聚类中心的图像，n为不同聚类中心的图像。可以优化目标，使得a与p的距离拉近，拉远a与n的距离拉远。

在一些可选的实现方式中，所述通过三元损失函数训练所述EmtionNet的步骤之后还包括：

获取多张测试集图像以及所述多张测试集图像对应的表情标签；

将所述多张测试集图像输入至所述训练好的EmtionNet，得到多个表情识别结果；

若所述表情标签与对应所述表情识别结果相同，则将所述测试集图像对应的识别结果设为正确；

统计正确识别结果的数量，并计算所述正确识别结果的数量与所述表情标签数量的百分比，作为所述EmtionNet的准确度。

上述实施方式中，若所述表情标签与对应所述表情识别结果不同，则将所述测试集图像对应的识别结果设为错误；为每张测试集图像标注对应的表情标签，以及对应的基准图，以开心作为输入图像为例，则选取一张开心作为输入图像，再选取一张不同基准图，并且同为开心的图作为第一输入图像，然后选取一个非开心的图作为输入图像，输入到模型进行测试，若得到结果为开心，则是识别正确，若不是，则识别错误，通过识别所有测试集图像，初步估计模型的准确率。

所述统计正确识别结果的数量，并计算所述正确识别结果的数量与所述表情标签数量的百分比，作为所述EmtionNet的准确度之后还包括：

若所述EmtionNet的准确度低于预设精确度，则调整所述EmtionNet模型中的参数，重新训练。

上述实施方式中，如果准确率过低，则调整神经网络参数，重新训练，得到新的神经元权值，提高识别的准确率。

需要强调的是，为进一步保证所述多张第一训练图像数据以及所述多张第二训练图像数据的私密和安全性，所述多张第一训练图像数据以及所述多张第二训练图像数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该流程在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种建立表情识别模型装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的建立表情识别模型装置300包括：训练数据获取模块301、残差神经网络训练模块302、基准图获取模块303、聚类模块304、抽取模块305、输入模块306以及EmtionNet训练模块305。其中：

训练数据获取模块301用于获取多张第一训练图像数据以及多张第二训练图像数据；

残差神经网络训练模块302用于通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值；

基准图获取模块303用于根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图；

聚类模块304用于为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据；

抽取模块305用于为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据；

输入模块306用于将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet；

EmtionNet训练模块307用于通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。

在本实施例的一些可选的实现方式中，上述残差神经网络训练模块进一步用于：

通过

将所述训练好的残差神经网络部署至客户端。

在本实施例的一些可选的实现方式中，上述装置300还包括：聚类模块用于：

预设第一预设值m；

在本实施例的一些可选的实现方式中，上述EmtionNet训练模块进一步用于：

将所述训练好的EmtionNet部署至客户端。

在本实施例的一些可选的实现方式中，上述装置300还包括：测试模块用于：

在本实施例的一些可选的实现方式中，上述装置300还包括：调试模块用于：

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等，所述计算机可读存储介质可以是非易失性，也可以是易失性。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件，例如建立表情识别模型方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述建立表情识别模型方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的建立表情识别模型方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

一种建立表情识别模型方法，包括下述步骤：

获取多张第一训练图像数据以及多张第二训练图像数据；

通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值；

根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图；

为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据；

为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据；

将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet；

通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。
根据权利要求1所述的建立表情识别模型方法，其中，所述通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值的步骤具体包括：

通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络；获取第二训练图像数据，通过所述第二训练图像数据微调所述训练好的残差神经网络，得到目标残差神经网络；

去除所述目标残差神经网络的逻辑回归层，将所述多张第一训练图像数据输入至所述目标残差神经网络，得到所述多张第一训练图像对应输出的特征值。
根据权利要求2所述的建立表情识别模型方法，其中，所述通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络的步骤具体包括：

获取所述多张第一训练图像数据以及所述第一训练图像数据所对应的标注标签；

将所述第一训练图像数据以及所述对应的标注标签输入至所述初始残差神经网络；

通过
训练所述初始残差神经网络，得到训练好的残差神经网络，其中i，j为所述第一训练图像数据的图像标号，x为所述残差神经网络输出特征，W为神经元的权重，m为超参数，L为损失函数的值，s为固定值，
为向量i以及向量j之间的夹角，X*为所述残差神经网络输出特征归一化前的值，W*为所述神经元的权重归一化前的值；

将所述训练好的残差神经网络部署至客户端。
根据权利要求1-3任一项所述的建立表情识别模型方法，其中，所述根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图的步骤之前还包括：

通过k均值聚类算法聚类所述述多张第一训练图像对应输出的特征值，得到7个聚类中心；

预设第一预设值m；

通过k均值聚类算法为每个所述聚类中心聚类所述第一预设值个聚类中心，得到每个所述聚类中心对应的m个基准图。
根据权利要求4中所述的建立表情识别模型方法，其中，所述通过三元损失函数训练所述EmtionNet的步骤具体包括：

通过L＝max(d(a,p)-d(a,n)+m arg in,0)训练所述EmtionNet，得到EmtionNet，其中d(a,p)为同一个聚类中心的输入图像，d(a,n)为不同一个聚类中心的输入图像，m arg in为超参数；

将所述训练好的EmtionNet部署至客户端。
根据权利要5中所述的建立表情识别模型方法，其中，所述通过三元损失函数训练所述EmtionNet的步骤之后还包括：

获取多张测试集图像以及所述多张测试集图像对应的表情标签；

将所述多张测试集图像输入至所述训练好的EmtionNet，得到多个表情识别结果；

若所述表情标签与对应所述表情识别结果相同，则将所述测试集图像对应的识别结果设为正确；

统计正确识别结果的数量，并计算所述正确识别结果的数量与所述表情标签数量的百分比，作为所述EmtionNet的准确度。
根据权利要求6所述的建立表情识别模型方法，其中，所述统计正确识别结果的数量，并计算所述正确识别结果的数量与所述表情标签数量的百分比，作为所述EmtionNet的准确度之后还包括：

若所述EmtionNet的准确度低于预设精确度，则调整所述EmtionNet模型中的参数，重新训练。
一种建立表情识别模型装置，其中，包括：

训练数据获取模块，用于获取多张第一训练图像数据以及多张第二训练图像数据；

残差神经网络训练模块，用于通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值；

基准图获取模块，用于根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图；

聚类模块，用于为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据；

抽取模块，用于为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据；

输入模块，用于将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet；

EmtionNet训练模块，用于通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其中，所述处理器执行所述计算机可读指令时实现如下所述的建立表情识别模型方法的步骤：

获取多张第一训练图像数据以及多张第二训练图像数据；

通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值；

根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图；

为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据；

为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据；

将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet；

通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。
如权利要求9所述的计算机设备，其中，所述通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值的步骤具体包括：

通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络；获取第二训练图像数据，通过所述第二训练图像数据微调所述训练好的残差神经网络，得到目标残差神经网络；

去除所述目标残差神经网络的逻辑回归层，将所述多张第一训练图像数据输入至所述目标残差神经网络，得到所述多张第一训练图像对应输出的特征值。
如权利要求10所述的计算机设备，其中，所述通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络的步骤具体包括：

获取所述多张第一训练图像数据以及所述第一训练图像数据所对应的标注标签；

将所述第一训练图像数据以及所述对应的标注标签输入至所述初始残差神经网络；

通过
训练所述初始残差神经网络，得到训练好的残差神经网络，其中i，j为所述第一训练图像数据的图像标号，x为所述残差神经网络输出特征，W为神经元的权重，m为超参数，L为损失函数的值，s为固定值，
为向量i以及向量j之间的夹角，X*为所述残差神经网络输出特征归一化前的值，W*为所述神经元的权重归一化前的值；

将所述训练好的残差神经网络部署至客户端。
如权利要求9-11任一项所述的计算机设备，其中，所述根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图的步骤之前还包括：

通过k均值聚类算法聚类所述述多张第一训练图像对应输出的特征值，得到7个聚类中心；

预设第一预设值m；

通过k均值聚类算法为每个所述聚类中心聚类所述第一预设值个聚类中心，得到每个所述聚类中心对应的m个基准图。
如权利要求12所述的计算机设备，其中，所述通过三元损失函数训练所述EmtionNet的步骤具体包括：

通过L＝max(d(a,p)-d(a,n)+m arg in,0)训练所述EmtionNet，得到EmtionNet，其中d(a,p)为同一个聚类中心的输入图像，d(a,n)为不同一个聚类中心的输入图像，m arg in为超参数；

将所述训练好的EmtionNet部署至客户端。
如权利要求13所述的计算机设备，其中，所述通过三元损失函数训练所述EmtionNet的步骤之后还包括：

获取多张测试集图像以及所述多张测试集图像对应的表情标签；

将所述多张测试集图像输入至所述训练好的EmtionNet，得到多个表情识别结果；

若所述表情标签与对应所述表情识别结果相同，则将所述测试集图像对应的识别结果设为正确；

统计正确识别结果的数量，并计算所述正确识别结果的数量与所述表情标签数量的百分比，作为所述EmtionNet的准确度。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下所述的建立表情识别模型方法的步骤：

获取多张第一训练图像数据以及多张第二训练图像数据；

通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值；

根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图；

为每一张所述目标图像数据，随机抽取同一所述聚类中心，并且不同基准图的至少两张所述目标图像数据作为第一输入图像数据，得到与所述聚类中心相对应的一组配对的第一输入图像数据；

为每一张目标图像数据的配对的所述第一输入图像数据，随机抽取相对应不同所述聚类中心的至少一张基准图，得到与所述第一输入图像数据对应的第二输入图像数据；

将所述第一输入图像数据、所述第二输入图像数据以及所述第一输入图像数据对应的聚类中心输入至EmtionNet；

通过三元损失函数训练所述EmtionNet，得到训练好的EmtionNet。
如权利要求15所述的计算机可读存储介质，其中，所述通过所述多张第一训练图像数据以及所述多张第二训练图像数据，训练残差神经网络，得到目标残差神经网络以及所述多张第一训练图像对应输出的特征值的步骤具体包括：

通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络；

获取第二训练图像数据，通过所述第二训练图像数据微调所述训练好的残差神经网络，得到目标残差神经网络；

去除所述目标残差神经网络的逻辑回归层，将所述多张第一训练图像数据输入至所述目标残差神经网络，得到所述多张第一训练图像对应输出的特征值。
如权利要求16所述的计算机可读存储介质，其中，所述通过所述多张第一训练图像数据训练初始残差神经网络，得到训练好的残差神经网络的步骤具体包括：

获取所述多张第一训练图像数据以及所述第一训练图像数据所对应的标注标签；

将所述第一训练图像数据以及所述对应的标注标签输入至所述初始残差神经网络；

通过
训练所述初始残差神经网络，得到训练好的残差神经网络，其中i，j为所述第一训练图像数据的图像标号，x为所述残差神经网络输出特征，W为神经元的权重，m为超参数，L为损失函数的值，s为固定值，
为向量i以及向量j之间的夹角，X*为所述残差神经网络输出特征归一化前的值，W*为所述神经元的权重归一化前的值；

将所述训练好的残差神经网络部署至客户端。
如权利要求15-17任一项所述的计算机可读存储介质，其中，所述根据所述特征值，获取多张目标图像数据、所述多张目标图像数据对应的聚类中心、以及所述多张目标图像数据对应的基准图的步骤之前还包括：

通过k均值聚类算法聚类所述述多张第一训练图像对应输出的特征值，得到7个聚类中心；

预设第一预设值m；

通过k均值聚类算法为每个所述聚类中心聚类所述第一预设值个聚类中心，得到每个所述聚类中心对应的m个基准图。
如权利要求18所述的计算机可读存储介质，其中，其中，所述通过三元损失函数训练所述EmtionNet的步骤具体包括：

通过L＝max(d(a,p)-d(a,n)+m arg in,0)训练所述EmtionNet，得到EmtionNet，其中d(a,p)为同一个聚类中心的输入图像，d(a,n)为不同一个聚类中心的输入图像，m arg in为超参数；

将所述训练好的EmtionNet部署至客户端。
如权利要求19所述的计算机可读存储介质，其中，所述通过三元损失函数训练所述EmtionNet的步骤之后还包括：

获取多张测试集图像以及所述多张测试集图像对应的表情标签；

将所述多张测试集图像输入至所述训练好的EmtionNet，得到多个表情识别结果；

若所述表情标签与对应所述表情识别结果相同，则将所述测试集图像对应的识别结果设为正确；

统计正确识别结果的数量，并计算所述正确识别结果的数量与所述表情标签数量的百分比，作为所述EmtionNet的准确度。