CN112381019B

CN112381019B - 复合表情识别方法、装置、终端设备及存储介质

Info

Publication number: CN112381019B
Application number: CN202011304521.8A
Authority: CN
Inventors: 易苗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-11-09
Anticipated expiration: 2040-11-19
Also published as: CN112381019A; WO2022105130A1

Abstract

本申请适用于人工智能技术领域，提供了一种复合表情识别方法、装置、终端设备及存储介质，该方法包括：利用第一表情识别模型、第一目标模型和第二目标模型识别待识别图像，分别得到每种复合表情的第一概率值、第一复合概率值和第二复合概率值；获取第一表情识别模型的第一误分类概率、每个第一目标模型的第一复合误分类概率和每个第二目标模型的第二复合误分类概率；根据第一概率值、第一误分类概率、第一复合概率值、第一复合误分类概率、第二复合概率值以及第二复合误分类概率，得到目标分类结果。通过上述复合表情识别方法，可在待识别图像包含复合表情时，结合多个表情识别模型的预测结果及误分类概率，准确预测待识别图像中的主从表情。

Description

复合表情识别方法、装置、终端设备及存储介质

技术领域

本申请属于人工智能技术领域，尤其涉及一种复合表情识别方法、装置、终端设备及存储介质。

背景技术

表情识别作为人机交互的一个重要领域，已经得到了几十年的发展，在许多领域都有广泛应用。但由于人脸表情特征的多样性以及不同个体表情的差异性，表情识别仍然是视觉领域的一大难题。复合表情识别更是要求同时识别出主要表情和次要表情，而表情组合的多样性以及主次表情的难以分辨性，使得复合表情识别难上加难。

现有的方法，大多将表情识别作为人脸图片的分类任务，对图片进行特征提取与表情分类，该方法在单一图片的表情识别任务上对于部分特征明显的表情如高兴、吃惊等取得了较好的效果。但是，对于某些表情如悲伤、厌恶等多种特征相似的复合表情却较难区分，且难以准确识别出复合表情中的主要表情和次要表情。

发明内容

本申请实施例提供了一种复合表情识别方法、装置、终端设备及存储介质，可以解决现有技术中难以准确识别出复合表情中的主要表情和次要表情的问题。

第一方面，本申请实施例提供了一种复合表情识别方法，包括：

利用第一表情识别模型对待识别图像中的复合表情进行识别，得到多种复合表情分别一一对应的第一概率值；

根据所述第一概率值的最大值确定预测复合表情，并基于预测复合表情确定第二表情识别模型集合中对应的第一目标模型，且将所述待识别图像输入至所述第一目标模型得到预测所述待识别图像为第一复合表情的第一复合概率值；每种所述第一目标模型分别对应两种预测复合表情；

输入所述待识别图像至第三表情识别模型中，预测所述待识别图像包含的多个目标单一表情；

根据所述多个目标单一表情确定所述第二表情识别模型集合中对应的第二目标模型，并将所述待识别图像输入至所述第二目标模型中得到预测所述待识别图像为第二复合表情的第二复合概率值；每种所述第二目标模型分别对应的两种预测复合表情中，可分别由所述多个目标单一表情一一对应组合得到；

获取所述第一表情识别模型对应的的第一误分类概率，并获取所述每个第二表情识别模型对应的第一复合误分类概率，以及获取所述每个第二表情识别模型对应的第二复合误分类概率；

根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果。

在一实施例中，所述获取所述第一表情识别模型对应的的第一误分类概率，包括：

获取训练数据中多种复合表情对应的多张训练图像，并将所述多张训练图像输入至所述第一表情识别模型，得到每张训练图像的预测结果；

统计每种复合表情中，所述预测结果错误的错误数量；

基于所述每种复合表情对应的多张训练图像的总数以及所述错误数量，计算所述第一表情识别模型对所述每种复合表情进行预测时的第一误分类概率。

在一实施例中，所述根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果，包括：

将所述第一目标模型预测所述待识别图像为非第一复合表情的第一复合概率值，以及所述第二目标模型预测所述待识别图像为非第二复合表情的第二复合概率值，均调整为预设值；

根据同一类别复合表情对应的第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值、所述第二复合误分类概率以及所述预设值，计算所述待识别图像中每种复合表情对应的分类值；

确定多个分类值中的最大值，并将所述最大值对应的复合表情作为所述待识别图像的目标分类结果。

在一实施例中，所述待识别图像包括多个，多个待识别图像均属于相同复合表情类别；所述根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果，包括：

获取所述相同复合表情的多个待识别图像中，每个待识别图像的目标分类结果；

从多个目标分类结果中，获取相同目标分类结果的分类数量；

将所述分类数量最多的目标分类结果，确定为所述多个待识别图像最终的目标分类结果。

在一实施例中，在所述获取所述相同复合表情的多个待识别图像中，每张待识别图像的分类结果之前，还包括：

对包括多类复合表情的多个待识别图像进行关键点聚类处理，得到所述每个待识别图像的关键点特征信息；

将所述关键点特征信息相同的多个待识别图像，作为相同复合表情的多个待识别图像，得到每类相同复合表情的多个待识别图像。

从预设视频中，连续获取多帧相邻的视频图像；

将多帧视频图像确定为相同复合表情的多个待识别图像。

在一实施例中，在所述根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果之后，还包括：

将所述目标分类结果上传至区块链中。

第二方面，本申请实施例提供了一种复合表情识别装置，包括：

第一预测模块，用于利用第一表情识别模型对待识别图像中的复合表情进行识别，得到多种复合表情分别一一对应的第一概率值；

第一复合预测模块，用于根据所述第一概率值的最大值确定预测复合表情，并基于预测复合表情确定第二表情识别模型集合中对应的第一目标模型，且将所述待识别图像输入至所述第一目标模型得到预测所述待识别图像为第一复合表情的第一复合概率值；每种所述第一目标模型分别对应两种预测复合表情；

单一表情预测模块，用于输入所述待识别图像至第三表情识别模型中，预测所述待识别图像包含的多个目标单一表情；

第二复合预测模块，用于根据所述多个目标单一表情确定所述第二表情识别模型集合中对应的第二目标模型，并将所述待识别图像输入至所述第二目标模型中得到预测所述待识别图像为第二复合表情的第二复合概率值；每种所述第二目标模型分别对应的两种预测复合表情中，可分别由所述多个目标单一表情一一对应组合得到；

获取模块，用于获取所述第一表情识别模型对应的的第一误分类概率，并获取所述每个第二表情识别模型对应的第一复合误分类概率，以及获取所述每个第二表情识别模型对应的第二复合误分类概率；

识别模块，用于根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的方法。

在本申请实施例中，通过第一表情识别模型预测每种复合表情的第一概率值，作为一种分类结果；然后，基于第一表情识别模型的预测结果，确定第一目标模型并对待识别图像再次进行预测，将得到的第一复合概率值作为另一分类结果；之后，通过只预测待识别图像中目标单一表情的第三表情识别模型进行单一表情识别，并基于第三表情识别模型的预测结果，确定第二目标模型对待识别图像再次进行预测，将得到的第二复合概率值作为又一分类结果。最后，综合上述三种分类结果，以及三种分类结果中每种复合表情对应的误分类概率，计算每种复合表情的预测概率值，并根据预测概率值，从多种复合表情中确定目标分类结果。使得在针对复合表情识别任务时，可以综合上述多个表情识别模型的预测结果作为初步识别人脸复合表情的基础，并在此基础上，结合每个预测结果对应的误分类概率作为修正信息，对预测结果进行修正，得到目标分类结果，以进一步提高对人脸复合表情进行识别时的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种复合表情识别方法的实现流程图；

图2是本申请一实施例提供的一种复合表情识别方法的S105的一种实现方式示意图；

图3是本申请一实施例提供的一种复合表情识别方法的S106的一种实现方式示意图；

图4是本申请一实施例提供的一种复合表情识别方法的S106的另一种实现方式示意图；

图5是本申请一实施例提供的一种复合表情识别方法的S106的又一种实现方式示意图；

图6是本申请实施例提供的一种复合表情识别装置的结构框图；

图7是本申请实施例提供的一种终端设备的结构框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本申请实施例提供的复合表情识别方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

请参阅图1，图1示出了本申请实施例提供的一种复合表情识别方法的实现流程图，该方法包括如下步骤：

S101、利用第一表情识别模型对待识别图像中的复合表情进行识别，得到多种复合表情分别一一对应的第一概率值。

上述待识别图像为包含人脸的人脸图像，因此，可从人脸图像中识别人脸表情。其中，人脸图像中的复合表情可以理解为，人脸表情同时包含至少两种表情，且复合表情可以认为是具有主从关系的主从表情。上述主从表情表示为人脸图像包含的多种表情中，主要表情是何种表情，以及次要表情是何种表情。可以理解的是，对于两种表情而言，主要表情与次要表情各占一种。而对于两种以上的表情而言，可以认为人脸图像中的主要表情相比于其余表情可明显区分，此时，可将其余多种表情均可认为是次要表情。为便于解释说明，本实施例以包含两种表情的待识别图像进行解释说明。

需要补充的是，人脸表情包括但不限于开心、惊讶、厌恶、恐惧、悲伤、快乐、惊讶以及自然，任一上述两种人脸表情进行组合均可认为是复合表情。然而，需要说明的是，对于主表情为开心，从表情为惊讶的复合表情，与主表情为惊讶(与上述从表情对应)，从表情为开心(与上述主表情对应)的复合表情，两者属于不同的主从表情(复合表情)。

在应用中，第一表情识别模型为根据第一训练数据进行训练得到的模型。其中，第一训练数据可以认为是包含上述八种单一表情组成的复合表情的人脸图像。另外，对于开心、惊讶、厌恶、恐惧、悲伤、快乐以及惊讶这7种表情，可对应组合得到42种复合表情。此外，第一训练数据还可包括8种单一表情的人脸图像，组成包含50种复合表情的人脸图像。此时，单一表情也可以认为是主表情与从表情均一致的复合表情，对此不作限定。

在具体应用中，上述第一训练数据可以从复合表情竞赛数据集中进行获取，复合表情竞赛数据集中包含31250张表情图片，由125个个体，每个个体的50种复合表情图片构成，且每种表情包括5张图片。对于上述数据集，可将数据集划分为83个个体共20650张图片作为训练集(第一训练数据)，9个个体共2250张图片作为验证集，剩余33个个体作为测试集。而后，采用残差网络模型作为基础网络，将第一训练数据输入至残差网络模型进行训练，在整个训练过程中，残差网络可对人脸区域进行特征提取，得到512维的人脸特征，将此人脸特征与136维关键点(人脸的眼睛、鼻子等关键点)坐标归一化值进行集合，作为该复合表情图片中的复合表情特征。而后，将复合表情特征送入分类层，输出分类结果，并根据实际的复合表情结果计算分类损失，根据分类损失迭代更新残差网络模型，得到第一表情识别模型。其中，计算分类损失时，可采用交叉熵作为损失函数。因交叉熵可表示实际输出(概率)与期望输出(概率)的距离，也即可认为交叉熵的值越小，两个概率分布就越接近，基于此，可使迭代更新后的第一表情识别模型对复合表情进行识别时的准确率高。对于第一训练数据而言，可预先标记每张复合表情图片的真实标签，也即每张复合表情具体属于哪一类复合表情的概率(期望输出)。

在应用中，在得到上述第一表情识别模型后，将待识别图像输入至第一模型中，得到的第一概率值具有多个。即对于50种复合表情，第一表情识别模型可输出50个第一概率值，每个第一概率值为第一表情识别模型预测待识别图像为该类复合表情时的数值。

S102、根据所述第一概率值的最大值确定预测复合表情，并基于预测复合表情确定第二表情识别模型集合中对应的第一目标模型，且将所述待识别图像输入至所述第一目标模型得到预测所述待识别图像为第一复合表情的第一复合概率值；每种所述第一目标模型分别对应两种预测复合表情。

在应用中，上述第二表情识别模型为根据第二训练数据进行训练得到模型。其中，第二训练数据可基于第一训练数据得到。具体的，对于上述每种复合表情中的主表情和从表情，若复合表情中的主表情与从表情，与其余复合表情中的主表情与从表情相反，则可根据该相反的两种复合表情对应的训练数据训练一种第二表情识别模型。以此，得到包含多种第二表情识别模型的第二表情识别模型集合。示例性的，对于主表情为开心，次表情为惊讶的复合表情，与主表情为惊讶，次表情为开心的复合表情，可从复合表情竞赛数据集中获取该两种复合表情对应的表情图片，并确定每张表情图片具体的主从表情标签(开心惊讶标签、惊讶开心标签)作为一种第二训练数据，进而可训练关于开心和惊讶复合表情的二分类模型(第二表情识别模型)。以此，得到的第二表情识别模型只用于预测待识别图像的复合表情中，开心和惊讶之间的主从关系。

具体的，对于上述组合得到的42种复合表情，根据上述说明，可将42种复合表情组合成21种第二训练数据，进而可训练得到21种第二表情识别模型。每种第二表情识别模型均为二分类模型，用于预测表情图片中的主表情和从表情。示例性的，可将主表情A和从表情B组成的复合表情图片，以及由主表情B和从表情A组成的复合表情图片，作为一种第二训练数据，进行训练得到关于AB主从表情分类的第二表情识别模型。而后，使用该第二表情识别模型对待识别图像进行识别时，即可得到待识别图像中复合表情为主表情A和从表情B的第一复合概率值，和/或，待识别图像中复合表情为主表情B和从表情A的第一复合概率值。此外，对于8种单一表情，也可认为单一表情是由主表情与次表情均一致的复合表情，以此构成29种第二表情识别模型。

在应用中，对于上述得到多种复合表情对应的第一概率值，可根据第一概率值的大小，将最大的第一概率值对应的复合表情作为预测复合表情。另外，每个第二表情识别模型分别用于对待识别图像中的一类复合表情进行识别。因此，预测复合表情也属于某个第二表情识别模型进行复合表情识别的类别，进而可将该第二表情识别模型作为第一目标模型。第一目标模型预测的第一复合表情，可能与第一表情识别模型的预测复合表情一致，也可能相反，对此不作限定。需要说明的是，第一目标模型对待识别图像进行预测，得到的预测结果即为第一复合表情，预测待识别图像为第一复合表情的数值即为第一复合概率值。

S103、输入所述待识别图像至第三表情识别模型中，预测所述待识别图像包含的多个目标单一表情。

在应用中，上述第三表情识别模型为根据第三训练数据进行训练得到模型。其中，第三训练数据可基于第一训练数据得到。具体的，若复合表情中的主表情与从表情，与其余复合表情中的主表情与从表情相反，则将该两种复合表情，作为新的复合表情类别。以此，可得到多种新的复合表情类别。示例性的，对于主表情为开心，次表情为惊讶的复合表情，与主表情为惊讶，次表情为开心的复合表情。可将该两种复合表情作为第三训练数据，且该第三训练数据在训练第三表情识别模型时，不考虑第三训练数据中复合表情的主从关系，即只标注每张表情图片对应包含的多个单一表情。以此，可得到包含29种不考虑复合表情中主从关系的第三训练数据。即可将上述S102中21种类型的训练数据，加上8种主从表情一致的训练数据结合为第三训练数据。之后，可再次从复合表情竞赛数据集中获取每种新的复合表情对应的表情图片作为第三训练数据，训练第三表情识别模型。此时，训练的第三表情识别模型有且只有一个，且该第三表情识别模型只用于预测待识别图像中包含的目标单一表情。

可以理解的是，上述第三表情识别模型在对待识别图像进行表情识别时，可预测每两种单一表情组成的复合表情分别对应的第三概率值。即上述第三表情识别模型只输出待识别图像是由哪两种单一表情组成的复合表情的概率值，并不考虑两个单一表情之间的主从关系，其与表示每种复合表情(主表情与从表情的具体主从关系)的第一概率值不同。因此，第三表情识别模型可输出29种第三概率值，基于此，可从29种第三概率值中，将最大第三概率值对应的复合表情中包含的单一表情，作为目标单一表情。示例性的，若第三表情识别模型预测复合表情中开心与惊讶的第三概率值最大，则可分别将开心与惊讶作为目标单一表情。

S104、根据所述多个目标单一表情确定所述第二表情识别模型集合中对应的第二目标模型，并将所述待识别图像输入至所述第二目标模型中得到预测所述待识别图像为第二复合表情的第二复合概率值；每种所述第二目标模型分别对应的两种预测复合表情中，可分别由所述多个目标单一表情一一对应组合得到。

在应用中，上述S102已说明每个第二表情识别模型分别用于对待识别图像中的一类复合表情进行识别。因此，根据目标单一表情组成的复合表情，可从每个第二表情识别模型对应识别的一类复合表情中，确定出一致的复合表情，作为第二目标模型。即每种第二目标模型对待识别图像进行识别的两种预测复合表情，可由多个目标单一表情一一对应组合得到。

示例性的，在确定多个目标单一表情分别为惊讶和开心时，即可确定用于对复合表情中开心和惊讶的主从表情进行二分类的第二表情识别模型，即为第二目标模型。使用第二目标模型再次对待识别图像进行识别，得到输出主表情为开心，从表情为惊讶的概率值即为第二复合概率值；或者，输出主表情为惊讶，从表情为开心的概率值即为第二复合概率值。

S105、获取所述第一表情识别模型对应的的第一误分类概率，并获取所述每个第二表情识别模型对应的第一复合误分类概率，以及获取所述每个第二表情识别模型对应的第二复合误分类概率。

在应用中，上述第一误分类概率为第一表情识别模型分别对每种复合表情中的主从表情预测错误的概率。具体的，在训练得到第一表情识别模型后，可采用测试集中训练数据进行确定。例如，对于50种复合表情，每种复合表情包括5张表情图片，通过第一表情识别模型对每种复合表情对应的5张表情图片进行预测，并统计每种复合表情中预测准确的图片数量。而后，根据预测准确的图片数量与总数量(5)，计算第一表情识别模型对每种复合表情进行识别时的误分类概率。由此，可认为在训练完第一训练模型后，即可通过上述方式确定第一表情识别模型与每种复合表情对应的误分类概率。具体计算公式可以为：y＝1-a_ij。其中，i为1，2，3，j为1-50之间的数值；i等于1时，a_ij表示为第一表情识别模型中对第j类复合表情进行预测的分类准确率；i等于2时，a_ij表示为第二表情识别模型在第一表情识别模型预测结果的基础上，对j类复合表情进行预测的分类准确率；以及i等于3时，a_ij表示为第二表情识别模型在第三表情识别模型预测结果的基础上，对j类复合表情进行预测的分类准确率。其中，分类准确率＝预测正确的样本数/总样本数。

可以理解的是，第二误分类概率为先通过第一表情识别模型对该类复合表情的待识别图像进行表情预测，并在第一表情识别模型预测结果的基础上，使用相应复合表情对应的第二模型再次进行预测。以此计算每种第二表情识别模型对相应复合表情进行识别时的第一复合误分类概率。同理可得，每个第二表情识别模型在第三表情识别模型预测结果的基础上，对相应复合表情进行预测的第二复合误分类概率，对此不在详细描述。另外，上述第一误分类概率、第一复合误分类概率以及第二复合误分类概率均可在上述表情识别模型训练结束后进行获取，并存储在终端设备内部，以使得终端设备可随时进行调用。

S106、根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果。

在应用中，上述目标分类结果为待识别图像的最终预测结果，即最终预测复合表情中的主从表情。具体的，计算目标分类结果的公式如下：l＝∑(1-a_1j)l_1j+(1-a_2j)l_2j+(1-a_3j)l_3j，j＝1，2，...，50。其中，a_ij(i＝1，2，3)的解释说明具体可参照上述S105。l_ij(i＝1，2，3)中i的解释说明与a_ij中i解释说明一致，示例性的，对i＝1时，l_1j表示第一表情识别模型预测待识别图像为第j类复合表情时的第一概率值。以此可确定l_2j以及l_3j的解释说明，对此不再进行详细说明。需要说明的是，使用对应复合表情的二分类模型(第一目标模型)在对将待识别图像进行识别时，得到的预测结果只为预测待识别图像属于该类主从复合表情的第一复合概率值。例如，若第一目标模型预测复合表情为AB的第一复合概率值为1，则预测复合表情为BA的第一复合概率值即为0。此时，因第一目标模型不输出其余48种类别的复合表情对应的第一复合概率值，因此，在参与上述计算时，需要将其余48种类别的复合表情(AC、CA、AD、DA...)的第一复合概率值均以0参与计算。同理，对于第二复合概率值l_3j，其与第一复合概率值l_2j的处理方式一致，对此不再进行详细描述。

可以理解的是，根据上述公式可以通过上述三种表情识别模型得到预测待识别图像分别为50类复合表情对应的50个预测概率值。之后，可将50个预测概率值中的最大值作为目标概率值，并将目标概率值对应的该类复合表情(具有主从关系的复合表情)，作为待识别图像最终的目标分类结果。

在本实施例中，通过第一表情识别模型预测每种复合表情的第一概率值，作为一种分类结果；然后，基于第一表情识别模型的预测结果，确定第一目标模型并对待识别图像再次进行预测，将得到的第一复合概率值作为另一分类结果；之后，通过只预测待识别图像中目标单一表情的第三表情识别模型进行单一表情识别，并基于第三表情识别模型的预测结果，确定第二目标模型对待识别图像再次进行预测，将得到的第二复合概率值作为又一分类结果。最后，综合上述三种分类结果，以及三种分类结果中每种复合表情对应的误分类概率，计算每种复合表情的预测概率值，并根据预测概率值，从多种复合表情中确定目标分类结果。使得在针对复合表情识别任务时，可以综合上述多个表情识别模型的预测结果作为初步识别人脸复合表情的基础，并在此基础上，结合每个预测结果对应的误分类概率作为修正信息，对预测结果进行修正，得到目标分类结果，以进一步提高对人脸复合表情进行识别时的准确率。

请参照图2，在一具体实施例中，S105获取所述第一表情识别模型对每类复合表情进行预测的第一误分类概率中，还包括如下子步骤S1051-S1053，详述如下：

S1051、获取训练数据中多种复合表情对应的多张训练图像，并将所述多张训练图像输入至所述第一表情识别模型，得到每张训练图像的预测结果。

在应用中，对于第一表情识别模型是采用第一训练数据进行训练得到，为保证第一表情识别模型对每种复合表情预测时的第一误分类概率的准确性，上述训练数据可不包含第一训练数据。即可使用上述S101数据集中测试集的每种复合表情的多张训练图像，进行复合表情识别。

S1052、统计每种复合表情中，所述预测结果错误的错误数量。

在应用中，上述预测结果错误即为第一预测模型预测测试集中该种复合表情的训练图像时，预测结果(预测复合表情)与训练图像的实际复合表情不一致。需要说明的说，上述每种复合表情的训练图像的数量可以一致，也可以不一致。本实施例中，为使得第一表情识别模型对每种复合表情进行预测时的第一误分类概率更为公平，每种复合表情的训练图像数量可以一致。

S1053、基于所述每种复合表情对应的多张训练图像的总数以及所述错误数量，计算所述第一表情识别模型对所述每种复合表情进行预测时的第一误分类概率。

在应用中，计算第一表情识别模型对每种复合表情进行预测时的第一误分类概率，具体可参照上述S105中关于第一误分类概率进行计算的公式以及解释说明，对此不再进行详细描述。

请参照图3，在一具体实施例中，S106根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果中，还包括如下子步骤S1061-S1063，详述如下：

S1061、将所述第一目标模型预测所述待识别图像为非第一复合表情的第一复合概率值，以及所述第二目标模型预测所述待识别图像为非第二复合表情的第二复合概率值，均调整为预设值。

在应用中，上述已说明第一目标模型和第二目标模型均为二分类模型，只可输出两种复合表情的概率值。此时，对于第一目标模型而言，则不会对应输出其余48种复合表情(非第一复合表情)的第一复合概率值。因此，为便于计算每种复合表情的预测概率值，可设定其余48种复合表情的第一复合概率值均为0(预设值)。上述预设值具体可由用户根据实际情况进行设定，具体可参照上述S106中对于第一复合概率值的示例说明。同理可将第二目标模型预测待识别图像为非第二复合表情的第二复合概率值，均调整为预设值。基于此，可以得到第一目标模型预测的第一复合概率值(第一复合表情对应的第一复合概率值，以及非第一复合表情对应的第一复合概率值)将具有50个，每个对应一类复合表情。同样的，第二目标模型预测的第二复合概率值(第二复合表情对应的第二复合概率值，以及非第二复合表情对应的第二复合概率值)也将对应有50个，每个对应一类复合表情。

S1062、根据同一类别复合表情对应的第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值、所述第二复合误分类概率以及所述预设值，计算所述待识别图像中每种复合表情对应的分类值。

在应用中，上述计算待识别图像中每种复合表情对应的分类值的计算公式以及解释说明，具体可参照S106中的计算公式，以及对应的解释说明，对此不再详细描述。可以理解的是，上述每种复合表情对应的分类值即为上述S106计算公式中的l数值。

S1063、确定多个分类值中的最大值，并将所述最大值对应的复合表情作为所述待识别图像的目标分类结果。

在应用中，分类值为基于三类表情识别模型综合预测的数值，对于预测的每种复合表情对应的分类值，可从多个分类值中确定最大值，并将最大值对应的复合表情作为最接近待识别图像真实复合表情的目标分类结果，以提高对待识别图像的复合表情进行识别的准确率。

请参照图4，在一具体实施例中，所述待识别图像包括多个，多个待识别图像均属于相同复合表情类别；S106根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果，还包括如下子步骤S1064-S1066，详述如下：

S1064、获取所述相同复合表情的多个待识别图像中，每个待识别图像的目标分类结果。

在应用中，上述相同复合表情的多个待识别图像可以为视频片段中，连续多帧的视频图像，或者连续拍摄的人物图片。因在实际情况下，对于一段包含人物的视频，在该视频连续多帧的视频图像中，人物的表情变化会非常小。因此，可通常将连续多帧的视频图像中人物的表情认为是同一类复合表情。进而，可通过上述复合表情识别方法获取相同复合表情的多个待识别图像中，每个待识别图像的目标分类结果。

在应用中，上述连续多帧的帧数量可以为用户根据实际情况进行设定的数量，例如，相同复合表情的5张待识别图像。通过基于视频连续多帧的视频图像中，人物图像的表情不变性，以及上述多个表情识别模型综合预测的各个误分类概率，以使得复合表情识别方法在针对多张相同复合表情类别的图像进行识别时，可以进一步提高对人物复合表情识别的准确率。

S1065、从多个目标分类结果中，获取相同目标分类结果的分类数量。

S1066、将所述分类数量最多的目标分类结果，确定为所述多个待识别图像最终的目标分类结果。

在应用中，上述连续多帧的视频图像中，人物的表情变化虽然会非常小，但是对于经过上述复合表情识别方法进行处理后，每帧视频图像可能会预测出不同的复合表情。因此，对于同一类复合表情的多张待识别图像，可统计相同目标分类结果的分类数量，并将分类数量最多的目标分类结果，确定为多个待识别图像最终的目标分类结果(最终预测的复合表情)。以此，可提高对相同复合表情类别的多个待识别图像预测的准确率。

请参照图5，在一具体实施例中，在S1064获取所述相同复合表情的多个待识别图像中，每张待识别图像的分类结果之前，还包括如下步骤S1064a-S1064b，详述如下：

S1064a、对包括多类复合表情的多个待识别图像进行关键点聚类处理，得到所述每个待识别图像的关键点特征信息。

S1064b、将所述关键点特征信息相同的多个待识别图像，作为相同复合表情的多个待识别图像，得到每类相同复合表情的多个待识别图像。

在应用中，上述多个待识别图像为包含多类复合表情的图像，且每类复合表情的图像均可对应有多个。上述关键点可以理解为将每张待识别图像中，人物的眼睛、鼻子、嘴巴等作为人脸图像中的关键点，其可通过人脸检测技术对每张待识别图像进行检测，并确定每个关键点在待识别图像中的坐标信息和特征信息。聚类则可以理解为在获取到每张待识别图像中关键点的坐标信息和特征信息后，根据坐标信息和特征信息之间的差异是否超过预设数值，确定两张待识别图像是否属于同一类复合表情。

在实际情况中，若两张待识别图像均属于同一类复合表情，则两张待识别图像的同一关键点的特征信息以及坐标信息之间的差异将非常小。因此，可根据关键点聚类的方式在多张待识别图像中，确定属于相同复合表情类别的多个待识别图像。之后，可将每种相同复合表情类别的多个待识别图像经过上述S1064-S1066步骤处理，对此不再进行解释说明。

在一实施例中，在S1064所述获取所述相同复合表情的多个待识别图像中，每张待识别图像的分类结果之前，还包括：

从预设视频中，连续获取多帧相邻的视频图像；

将多帧视频图像确定为相同复合表情的多个待识别图像。

在应用中，上述S1064已说明将连续多帧的视频图像中人物的表情认为是同一类复合表情的理由，对此不再进行说明。上述预设视频可以为预先缓存在终端设备指定存储路径下的视频，也可以为用户上传至终端设备的视频，对此不作限定。对于预设视频，终端设备可对该视频进行播放，并监测视频中初始出现人脸图像的初始视频图像。在正常情况下，当视频帧率不低于24帧率(fps)时，人眼才会觉得视频时连贯的。因此，视频播放的帧率通常为每秒钟24帧。因此，可认为之后播放的连续4帧视频图像，与初始视频图像均为相同复合表情的多个待识别图像。

在一实施例中，在S106根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率之后，还包括：

将所述目标分类结果上传至区块链中。

具体的，在本申请的所有实施例中，基于终端设备得到对应的目标分类结果，具体来说，目标分类结果由终端工具进行处理得到。将目标分类结果上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该目标分类结果，以便查证目标分类结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图6，图6是本申请实施例提供的一种复合表情识别装置的结构框图。本实施例中该终端设备包括的各单元用于执行图1至图5对应的实施例中的各步骤。具体请参阅图1至图5以及图1至图5所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图6，复合表情识别装置600包括：第一预测模块610、第一复合预测模块620、单一表情预测模块630、第二复合预测模块640、获取模块650和识别模块660，其中：

第一预测模块610，用于利用第一表情识别模型对待识别图像中的复合表情进行识别，得到多种复合表情分别一一对应的第一概率值。

第一复合预测模块620，用于根据所述第一概率值的最大值确定预测复合表情，并基于预测复合表情确定第二表情识别模型集合中对应的第一目标模型，且将所述待识别图像输入至所述第一目标模型得到预测所述待识别图像为第一复合表情的第一复合概率值；每种所述第一目标模型分别对应两种预测复合表情。

单一表情预测模块630，用于输入所述待识别图像至第三表情识别模型中，预测所述待识别图像包含的多个目标单一表情。

第二复合预测模块640，用于根据所述多个目标单一表情确定所述第二表情识别模型集合中对应的第二目标模型，并将所述待识别图像输入至所述第二目标模型中得到预测所述待识别图像为第二复合表情的第二复合概率值；每种所述第二目标模型分别对应的两种预测复合表情中，可分别由所述多个目标单一表情一一对应组合得到。

获取模块650，用于获取所述第一表情识别模型对应的的第一误分类概率，并获取所述每个第二表情识别模型对应的第一复合误分类概率，以及获取所述每个第二表情识别模型对应的第二复合误分类概率。

识别模块660，用于根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果。

在一实施例中，获取模块650还用于：

统计每种复合表情中，所述预测结果错误的错误数量；

在一实施例中，识别模块660还用于：

在一实施例中，所述待识别图像包括多个，多个待识别图像均属于相同复合表情类别；识别模块660还用于：

在一实施例中，识别模块660还用于：

从预设视频中，连续获取多帧相邻的视频图像；

将多帧视频图像确定为相同复合表情的多个待识别图像。

在一实施例中，复合表情识别装置600还包括

将所述目标分类结果上传至区块链中。

应当理解的是，图6示出的复合表情识别装置的结构框图中，各单元/模块用于执行图1至图5对应的实施例中的各步骤，而对于图1至图5对应的实施例中的各步骤已在上述实施例中进行详细解释，具体请参阅图1至图5以及图1至图5所对应的实施例中的相关描述，此处不再赘述。

图7是本申请另一实施例提供的一种终端设备的结构框图。如图7所示，该实施例的终端设备700包括：处理器701、存储器702以及存储在存储器702中并可在处理器701运行的计算机程序703，例如复合表情识别方法的程序。处理器701执行计算机程序703时实现上述各个复合表情识别方法各实施例中的步骤，例如图1所示的S101至S106。或者，处理器701执行计算机程序703时实现上述图6对应的实施例中各单元的功能，例如，图6所示的模块610至660的功能，具体请参阅图6对应的实施例中的相关描述。

示例性的，计算机程序703可以被分割成一个或多个单元，一个或者多个单元被存储在存储器702中，并由处理器701执行，以完成本申请。一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序703在终端设备700中的执行过程。例如，计算机程序703可以被分割成第一预测模块、第一复合预测模块、单一表情预测模块、第二复合预测模块、获取模块以及识别模块，各模块具体功能如上。

终端设备可包括，但不仅限于，处理器701、存储器702。本领域技术人员可以理解，图7仅仅是终端设备700的示例，并不构成对终端设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器701可以是中央处理单元，还可以是其他通用处理器、数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器702可以是终端设备700的内部存储单元，例如终端设备700的硬盘或内存。存储器702也可以是终端设备700的外部存储设备，例如终端设备700上配备的插接式硬盘，智能存储卡，闪存卡等。进一步地，存储器702还可以既包括终端设备700的内部存储单元也包括外部存储设备。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种复合表情识别方法，其特征在于，包括：

获取所述第一表情识别模型对应的第一误分类概率，并获取所述每个第二表情识别模型对应的第一复合误分类概率，以及获取所述每个第二表情识别模型对应的第二复合误分类概率；

2.如权利要求1所述的复合表情识别方法，其特征在于，所述获取所述第一表情识别模型对应的第一误分类概率，包括：

统计每种复合表情中，所述预测结果错误的错误数量；

3.如权利要求1所述的复合表情识别方法，其特征在于，所述根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果，包括：

4.如权利要求3所述的复合表情识别方法，其特征在于，所述待识别图像包括多个，多个待识别图像均属于相同复合表情类别；

所述根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果，包括：

5.如权利要求4所述的复合表情识别方法，其特征在于，在所述获取所述相同复合表情的多个待识别图像中，每张待识别图像的分类结果之前，还包括：

6.如权利要求4任一所述的复合表情识别方法，其特征在于，在所述获取所述相同复合表情的多个待识别图像中，每张待识别图像的分类结果之前，还包括：

从预设视频中，连续获取多帧相邻的视频图像；

将多帧视频图像确定为相同复合表情的多个待识别图像。

7.如权利要求1-6任一所述的复合表情识别方法，其特征在于，在所述根据所述第一概率值、所述第一误分类概率、所述第一复合概率值、所述第一复合误分类概率、所述第二复合概率值以及所述第二复合误分类概率，得到所述待识别图像的目标分类结果之后，还包括：

将所述目标分类结果上传至区块链中。

8.一种复合表情识别装置，其特征在于，包括：

获取模块，用于获取所述第一表情识别模型对应的第一误分类概率，并获取所述每个第二表情识别模型对应的第一复合误分类概率，以及获取所述每个第二表情识别模型对应的第二复合误分类概率；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。