CN114078275A

CN114078275A - 表情识别方法、***及计算机设备

Info

Publication number: CN114078275A
Application number: CN202111376445.6A
Authority: CN
Inventors: 卫华威; 韩欣彤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-22

Abstract

本申请实施例提供一种表情识别方法、***及计算机设备，通过将目标对象的面部图像输入预先训练得到身份识别网络以及表情识别网络，分别通过所述身份识别网络以及所述表情识别网络对所述面部图像进行身份识别以及表情识别，获得所述目标对象的身份特征以及初始多维表情系数，然后再根据所述身份特征对所述初始多维表情系数进行处理，得到所述目标对象的最终多维表情系数，以用于后续应用。基于此，相较于传统的未考虑目标对象的身份特征的表情识别方案，通过本实施例获得的最终表情识别的结果能够更精确对目标对象的面部表情进行表达，进而实现对目标对象更为精准的表情识别。

Description

表情识别方法、***及计算机设备

技术领域

本申请涉及基于人工智能的图形图像识别及处理相关技术领域，具体而言，涉及一种表情识别方法、***及计算机设备。

背景技术

随着移动互联网技术以及网络通信技术的不断发展，网络直播在人们的日常工作及生活中得到了迅速的发展及应用。在一些特定的直播场景中，为了提供多样化的直播体验，基于虚拟数字形象的虚拟直播方式也得到了广泛的应用。

例如，随着二次元虚拟直播在游戏，唱歌等各个领域的迅速发展，虚拟形象的受众群体逐渐变得庞大。相较于真人主播进行直播的方式，虚拟直播无需主播进行真人互动，主播可在后台通过控制虚拟数字形象模拟后台主播的行为进行直播互动。

在基于虚拟数字形象的虚拟直播应用场景中，虚拟数字形象的表情识别是虚拟直播的一项重要技术分支，然而，现有的基于表情识别的虚拟数字形象驱动方案，大多存在识别精度不够理想而导致虚拟数字形象难以精准的对主播的表情进行生动表达的问题。或者，在一些常规的较为成熟的表情识别方案中，可通过厚重的头盔面捕设备实现较为精准的表情识别，但是这种方案所采用的面捕设备价格昂贵，不利于虚拟直播的大众化普及。

发明内容

基于以上内容，第一方面，本申请实施例提供一种表情识别方法，所述方法包括：

获取目标对象的面部图像；

将所述面部图像输入预先训练得到身份识别网络以及表情识别网络，分别通过所述身份识别网络以及所述表情识别网络对所述面部图像进行身份识别以及表情识别，获得所述目标对象的身份特征以及初始多维表情系数；其中，所述身份特征包括用于隐式表征所述目标对象的至少一种面部信息的隐式特征；

根据所述身份特征对所述初始多维表情系数进行处理，得到所述目标对象的最终多维表情系数。

基于第一方面的一种可能的实施方式，所述方法还包括：

根据所述最终多维表情系数对直播画面中的虚拟数字形象的面部表情进行驱动。

基于第一方面的一种可能的实施方式，所述身份识别网络和所述表情识别网络级联后与一个全连接层连接；

所述根据所述身份特征对所述初始多维表情系数进行处理，得到所述目标对象的最终多维表情系数，包括：

将所述身份识别网络对所述面部图像进行身份识别后输出的身份特征作为条件输入所述全连接层；

将所述表情识别网络输出的初始多维表情系数输入所述全连接层；

通过所述全连接层根据所述身份特征对所述初始多维表情系数进行处理得到所述最终多维表情系数。

基于第一方面的一种可能的实施方式，所述方法还包括用于获得所述身份识别网络的网络训练步骤，具体包括：

获取第一训练数据集，所述第一训练数据集包括多个具有不同身份特征的样本人脸图片，各所述样本人脸图片携带事先标定的身份特征标签；

将所述第一训练数据集中的各样本人脸图片依次输入待训练的深度神经网络中，通过所述深度神经网络对各所述样本人脸图片进行身份特征预测，输出各样本人脸图片对应的预测身份特征；

根据所述深度神经网络预测得到的各样本人脸图片的预测身份特征以及各所述样本人脸图片对应的身份特征标签计算所述深度神经网络的损失函数值；

根据所述损失函数值对所述深度神经网络的网络参数进行迭代优化，直到满足训练收敛条件，得到训练后的深度神经网络作为所述身份识别网络。

基于第一方面的一种可能的实施方式，所述深度神经网络的网络结构为resnet18网络结构，所述深度神经网络的损失函数值通过交叉熵损失函数计算得到。

基于第一方面的一种可能的实施方式，所述方法还包括用于获得所述表情识别网络的网络训练步骤，具体包括：

获取第二训练数据集，所述第二训练数据集可以包括具有事先标定的表情系数标签值的多个样本人脸图片；

针对所述第二训练数据集中的每个样本人脸图片，对该样本人脸图片进行关键点检测，并根据关键点检测结果获得该样本人脸图片对应的人脸主体图片；

将各所述样本人脸图片分别对应的人脸主体图片依次输入待训练的卷积神经网络中，通过所述卷积神经网络对所述人脸主体图片进行表情识别，得到所述样本人脸图片对应的表情系数预测值；

根据所述卷积神经网络输出的所述样本人脸图片的表情系数预测值以及所述样本人脸图片对应的表情系数标签值计算得到所述卷积神经网络的损失函数值；

根据所述卷积神经网络的损失函数值对所述卷积神经网络的网络参数进行迭代优化，直到满足训练收敛条件，得到训练后的卷积神经网络作为所述表情识别网络。

基于第一方面的一种可能的实施方式，所述卷积神经网络的损失函数值通过以下公式计算得到：

其中，L1Loss代表所述卷积神经网络的损失函数值，x_n代表所述卷积神经网络第n次迭代训练过程中输出的一个样本人脸图片对应的表情系数预测值，y_n代表所述第n次迭代训练过程中所使用的所述样本人脸图片对应的表情系数标签值。

第二方面，本申请实施例还提供一种表情识别***，所述表情识别***包括：

获取模块，用于获取目标对象的面部图像；

识别模块，用于将所述面部图像输入预先训练得到身份识别网络以及表情识别网络，分别通过所述身份识别网络以及所述表情识别网络对所述面部图像进行身份识别以及表情识别，获得所述目标对象的身份特征以及初始多维表情系数；其中，所述身份特征包括用于隐式表征所述目标对象的至少一种面部信息的隐式特征；

处理模块，用于根据所述身份特征对所述初始多维表情系数进行处理，得到所述目标对象的最终多维表情系数。

基于第二方面的一种可能的实施方式，所述表情识别***还包括驱动模块以及训练模块，其中：

所述驱动模块用于根据所述最终多维表情系数对直播画面中的虚拟数字形象的面部表情进行驱动；

所述训练模块用于：

根据所述损失函数值对所述深度神经网络的网络参数进行迭代优化，直到满足训练收敛条件，得到训练后的深度神经网络作为所述身份识别网络；

所述训练模块还用于：

第三方面，本申请实施例还提供一种计算机设备，包括机器可读存储介质以及一个或多个处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述一个或多个处理器执行时，实现权利要求1-7任意一项所述的方法。

综上所述，本申请实施例提供的表情识别方法、***及计算机设备，区别于常规的表情识别技术，创新性的引入一个身份识别网络作为条件网络，通过该条件网络对所述目标对象的面部图像进行身份识别，输出一个身份特征，该身份特征用来描述或表达所述目标对象的脸部个性化特征。然后，再把这个身份特征也当作表情识别的输入，进而针对不同对象的面部个性化特点输出自适应的最终表情系数。如此，相较于传统的未考虑目标对象的身份特征的表情识别方案，本实施例最终的表情识别结果能够更精确的对目标对象的面部表情进行表达，进而实现对目标对象更为精准的表情识别。同时，在使用上述表情识别方法获得目标对象的面部图像对应的最终多维表情系数对虚拟数字对象进行面部表情驱动时，可以使所述虚拟数字对象对所述目标对象的面部表情进行更为生动和细腻的表达。

进一步地，相较于术依赖厚重的头盔面捕设备等成熟的表情识别技术，可以通过摄像头等简单的图像采集设备，即可准确识别摄像头画面中目标对象(主播)的表情，可大大降低虚拟直播的门槛和成本，更有利于虚拟直播的大众化普及。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例提供的表情识别方法的流程示意图之一。

图2是用于实现上述表情识别方法的一种直播***的示意图。

图3是本申请实施例提供的用于对目标对象进行面部图像获取的图像采集设备的分布示意图。

图4是本申请实施例中的身份识别网络与表情识别网络的网络结构示意图。

图5是本申请实施例提供的表情识别方法的流程示意图之二。

图6是本申请实施例提供的对所述身份识别网络进行网络训练的流程示意图。

图7是本申请实施例提供的对所述表情识别网络进行网络训练的流程示意图。

图8是本申请实施例提供的用于实现上述表情识别方法的计算机设备的示意图。

图9是本申请实施例提供的表情识别***的功能模块示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

基于前述背景技术中所提及的问题，发明人经研究调查发现，虚拟直播背后一项重要技术分支就是表情识别，目前传统的较为成熟的表情识别技术依赖厚重的头盔面捕设备，价格昂贵，使用该设备成本较高，不利于使虚拟直播面向大众化。在常见的基于虚拟数字对象的虚拟直播场景中，较为常见的表情动画驱动方案是基于表情基而实现的虚拟数字对象的表情识别方式。表情基指的是把被驱动形象的特定表情分解得到的表情单元，例如一般可以包括51个不同的表情基。不同的表情基可以表示不同部位的运动，可以包括眼睛、嘴巴、眉毛、鼻子等部位，相应的表情运动例如可以是挤眼、张嘴、邹眉等。通过将这些表情基按照不同的权重进行线性组合可以得到不同的表情。

传统的表情基驱动方案是通过一组表情系数对不同的表情基进行驱动。在目前的一种较为常见的表情识别方案中，一般是采集多个人的表情数据集，所述表情数据集包括大量的表情图片，一张图片可对应一组表情系数，然后利用神经网络直接来训练一张图片到一组表情系数的模型。然而，这种训练方式的难度较大。例如，假设有两张图片分别是两个不同身份对象(如对象A和对象B)的表情图片。其中，以嘴巴部分的特征(对应的嘴巴部分的表情基的表情系数为“jawOpen系数”)作为示例，假设对象A的嘴巴比对象B大，对象A嘴巴张开的最大幅度是5cm，而对象B的最大幅度只有3cm。而在实际应用时，若对象A和对象B的嘴巴张开同样幅度，比如都是1cm，那么对象A对应的jawOpen系数是0.2，对象B则是0.33。在嘴巴张开同样幅度的情况下，其中一个图片的系数标签值是0.2，另一个是0.33，这样就会给网络的训练带来困扰，增加训练难度使得网络难以收敛，或者导致训练收敛的网络在用于表情识别时，输出的表情系数不能精准的反应主播的实际表情状况。如此，在后续进行虚拟数字对象的驱动时，难以让虚拟数字对象对主播的实时表情进行生动、细腻的表达。

鉴于以上问题，本申请创新性的提出一种新颖的表情识别方案，只需要一个简单的摄像头，即可准确识别摄像头画面中主播的表情，可大大降低虚拟直播门槛，有利于虚拟直播的普及，同时可有效解决现有方案中网络训练难度较高的问题。

如图1所示，是本实施例提供的一种表情识别方法的流程示意图。为了方便理解本实施例，进一步参阅图2所示，图2是本实施例提供的用于实现上述的表情识别方法的直播***的示意图。其中，图2示出了一种适用于所述目标对象基于虚拟数字对象进行虚拟直播的场景示意图。

本实施例中，所述直播***包括直播提供终端100、直播服务器200以及直播接收终端300。示例性地，所述直播提供终端100以及所述直播接收终端300可以通过网络访问直播服务器200以使用直播服务器200提供的直播服务。例如，作为一种示例，针对直播提供终端100，可以通过直播服务器200下载主播端应用(APP)，并通过主播端应用进行注册后即可通过直播服务器200进行内容直播。相对应地，所述直播接收终端300也可以通过所述直播服务器200下载观众端应用，通过观众端应用访问直播服务器200即可观看直播提供终端100所提供的直播内容。在一些可能的实施方式中，主播端应用和观众端应用也可以是一个整合在一起的应用。

例如，直播提供终端100可以将直播内容(如直播视频流)发送给直播服务器200，观众可以通过直播接收终端300访问直播服务器200以观看直播内容。其中，直播服务器200推送的直播内容可以是当前正在直播平台中直播的实时内容，也可以是直播完成后存储的历史直播内容。可以理解，图1所示的直播***仅为一种可替代的示例，在其它可能的实施例中，所述直播***也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

此外，应当说明的是，在特定的应用场景，所述直播提供终端100和直播接收终端300也可以实现角色互换。例如，直播提供终端100的主播可以使用直播提供终端100提供直播服务，或者作为观众查看其它主播提供的直播内容。又例如，直播接收终端300的用户也可以使用直播接收终端300观看所关注的主播提供的直播内容，也可以作为主播通过所述直播接收终端300进行直播。

本实施例中，直播提供终端100和直播接收终端300可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中，直播提供终端100和直播接收终端300中可以安装用于实现直播互动的相关应用或程序组件，例如，应用程序APP、Web网页、直播小程序、直播插件或组件等，但不限于此。直播服务器200可以是提供直播服务的后台设备，例如可以是，但不限于，服务器，服务器集群、云服务中心等。

下面结合图1和图2对本实施例的表情识别方法的各个步骤通过示例性的方式进行详细介绍，详细地，如图1所示，所述方法可以包括下述的步骤S100-步骤S300所述的相关内容。应当说明的是，本实施例提供的表情识别方法所包含的其中部分步骤的顺序在实际实施时可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除，本实施例对此不进行具体限定。

步骤S100，获取目标对象的面部图像。

其中，本实施例中，所述目标对象可以是直播场景下使用直播提供终端100提供直播服务的主播用户。本实施例中，为了方便所述面部对象的采集，在直播提供终端100所在一侧还可以包括用于采集主播图像的图像采集设备。所述面部图像可以由所述图像采集设备对所述目标对象的脸部表情进行采集而获得。其中，所述图像采集设备可以集成于所述主播所使用的直播提供终端100中(如直播提供终端100自带的摄像头)，也可以与所述直播提供终端100通信连接的独立的图像采集设备，例如独立于所述直播提供终端100的视频监控终端。

所述面部图像可以是对主播进行实时拍摄得到的实时视频图像中的当前视频帧，也可以是通过所述图像采集设备按照一定的时间周期(如1秒、2秒、3秒等)进行拍摄而获得的一张可以表达所述目标对象当前面部表情的人脸照片。

此外，在另一种可能的示例中，为了能够全方位的获取所述用户的面部表情，所述面部图像也可以是通过围绕目标对象(如主播)分布的位于不同位置的两个或两个以上的图像采集设备分别对所述目标对象进行拍摄而获得的两张或两张以上的图像进行图像合成而获得的合成图像，如此可以从不同的视角获得包括所述目标对象各个视角下的表情特征的面部图像，以利于提升直播效果。

例如图3所示，在一种可替代的优选实施方式中，可采用C1、C2、C3等3个摄像机围绕所述目标对象的脸部分别从所述目标对象的正脸前方、左侧脸方向、右侧脸方向对所述目标对象进行脸部图像的拍摄，获得分别可以表达所述目标对象正脸表情细节、左侧脸表情细节、右侧脸表情细节的M1、M2、M3等三张脸部图像，然后对所述三个摄像机拍摄的三张脸部图像进行图像合成得到包括所述目标对象正脸、左侧脸、右侧脸的表情细节的合成图像作为所述面部图像。如此而获得的面部对象则可以理解为能够表达所述目标对象多视角表情的多视角面部表情图像。

步骤S200，将所述面部图像输入预先训练得到身份识别网络以及表情识别网络，分别通过所述身份识别网络以及所述表情识别网络对所述面部图像进行身份识别以及表情识别，获得所述目标对象的身份特征以及初始多维表情系数。

本实施例中，所述身份识别网络以及所述表情识别网络可以通过采集的训练数据集对设定的人工智能神经网络进行网络训练而得到。其中，训练得到的身份识别网络用于对所述目标对象的面部图像进行身份特征识别得到的身份特征可以是一个多维的隐式特征，所述隐式特征可以通过特征向量的方式进行表示，例如可以是一个512维的特征向量，其可以包括用于隐式表征所述目标对象的脸宽、眉间距离、嘴唇宽度、嘴唇厚度、眼睛大小、眼皮间距等至少一种面部信息的隐式特征，这种特征可以用于区分不同的用户身份，因此被称为身份特征。

进一步地，所述表情识别网络也可以通过采集的训练数据集对设定的人工智能神经网络进行网络训练而得到。其中，训练得到的表情识别网络用于对所述目标对象的面部图像进行表情识别得到的初始多维表情系数可以为一个多维信息，例如可以是一个包括51维表情系数的多维矩阵或多维数组。其中，以51维表情系数为例，每一维表情系数可以与一个表情基相对应。一般来说，用于驱动虚拟数字对象的表情基可以包括51个分别用于表达虚拟数字对象各种表情内容(如眯眼、张嘴、皱眉、鼓腮等)的51个表情基。示例性地，所述表情系数可以为0到1的取值区间内的任意一个系数值。以用于表达张嘴表情的JawOpen系数为例，JawOpen系数的大小与张嘴的幅度成正相关的关系。同时，在本实施例中，在针对表情识别网络的训练过程中，对于训练样本的样本标签进行标定时可以不用考虑具体样本所对应的样本对象(用户)的身份特征(如张嘴幅度、睁眼幅度等)进行特别的考虑，只需要根据所述样本中的表情信息(如张嘴幅度)按照相同的规则进行标定即可。例如，仍然以前述的对象A和对象B对应的样本A及样本B为例，样本A中对象A嘴巴张开的最大幅度是5cm，而对象B的最大幅度只有3cm。在实际样本标签标定时，若对象A和对象B嘴巴张开同样幅度，比如都是1cm，那么对象A对应的jawOpen系数可以标定为0.2，对象B也可以标定为0.2。如此，基于相同的表情信息采用相同的标签对表情识别网络进行网络训练，有助于网络的快速收敛。

关于上述身份识别网络以及表情识别网络的网络训练过程，将在后文就进行具体的介绍。

步骤S300，根据所述身份特征对所述初始多维表情系数进行处理，得到所述目标对象的最终多维表情系数。

详细地，本实施例中，基于步骤S300，预先训练得到的表情识别网络在后续应用于表情系数的识别时，结合前述的身份识别网络得到的身份特征，可以对所述表情识别网络输出的表情系数进行自适应的处理和调整后再输出，进而精确的识别出所述目标对象的相关表情系数特征作为所述最终多维表情系数，以用于后续驱动虚拟数字形象对多数目标对象的实时面部表情进行生动、细腻的表达。

在一种可能的实现方式中，例如图4所示，可以将所述身份识别网络和所述表情识别网络级联后与一个全连接层(Full Connection Layer，FC层)连接，将所述身份识别网络对所述面部图像进行身份识别后输出的身份特征作为条件输入所述全连接层，然后再将所述表情识别网络输出的初始多维表情系数输入所述全连接层，最后由所述全连接层根据所述身份特征对所述初始多维表情系数进行处理后得到所述最终多维表情系数。

应当理解的是，在本实施例中，可以将所述全连接层作为所述表情识别网络的最终输出层(例如，所述全连接层为所述表情识别网络的其中一部分)。如此，所述身份识别网络的输出可以作为所述表情识别网络的其中一个条件输入。此外，也可将所述全连接层理解为独立于所述表情识别网络之外的一个单独的网络层，这种情况下，可以将所述身份识别网络以及所述表情识别网络的输出都作为所述全连接层的条件输入。又或者，在另一种可能的示例中，也可以将所述身份识别网络、所述表情识别网络以及所述全连接层理解为一个用于进行表情识别的整体的人工智能模型，而所述身份识别网络、所述表情识别网络以及所述全连接层分别作为所述人工智能模型的三个组成部分。本实施例对所述身份识别网络、所述表情识别网络以及所述全连接层三者具体的网络结构的归属划分不进行限制。

在上述内容的基础之上，请参阅图5所示，本申请实施例提供的一种表情识别方法还可以进一步包括步骤S400，具体描述如下。

步骤S400，根据所述最终多维表情系数对直播画面中的虚拟数字形象的面部表情进行驱动。

本实施例中，所述最终多维表情系数是在所述初始多维表情系数的基础之上结合所述目标用户的身份特征进行自适应的调整后输出的能够更为精确表达所述目标对象的当前面部表情的表情信息。例如，仍然以所述目标对象的JawOpen系数为例，若所述目标对象的张嘴的最大幅度与前述的对象B相同为3cm，将所述面部图像输入训练后得到的表情识别网络后输出的所述初始多维表情系数中所述目标对象的JawOpen系数为0.2(目标对象张嘴幅度为1cm)，根据所述身份识别网络输出的身份特征中包括的多维特征向量可以确定所述目标对象的最大张嘴幅度仅仅为3cm，那么根据该身份特征可以将所述初始多维表情系数中的所述目标对象的JawOpen系数为0.2进行自适应调整为0.33(包含于所述最终多维表情系数中)，即可对所述目标对象的张嘴幅度进行精确的表达。在此基础之上，通过所述身份特征对所述初始多维表情系数进行自适应处理后得到所述目标对象的最终多维表情系数对所述虚拟数字对象进行面部表情的驱动，可以使所述虚拟数字对象对所述目标对象的表情进行生动、形象的表达。

作为一种示例，以所述最终多维表情系数分别包括51个表情基对应的51维表情系数为例，可以通过每一维的表情系数对相应的表情基进行驱动实现对所述数字虚拟对象的面部表情进行驱动的目的。

进一步地，针对步骤S200，如图6所示，所述身份识别网络可以通过下述的步骤S610-S640进行训练得到，下面对该身份识别网络的具体训练方法进行示例性的介绍。

步骤S610，获取第一训练数据集。

本实施例中，可以通过网络下载一个公开的包括大量的不同身份的样本人脸图片的大型身份数据集作为所述第一训练数据集，其中，各所述样本人脸图片携带事先标定的身份特征标签。例如，本实施例中，所述身份特征标签可以通过身份编号(Identification，ID)进行表示。作为一种可能的示例，所述身份特征标签例如可以是，但不限于，可用于隐式表征所述样本人脸图片中人脸的脸宽、眉间距离、嘴唇宽度、嘴唇厚度、眼睛大小、眼皮间距等多种脸部特征的特征向量。例如，可以通过网络下载具有240万张人脸图片的图片数据集作为所述第一训练数据集，所述240万张人脸图片可以包含9万个不同的身份特征标签，每个身份特征标签可以包含大约27张图片。

步骤S620，将所述第一训练数据集中的各样本人脸图片依次输入待训练的深度神经网络中，通过所述深度神经网络对各所述样本人脸图片进行身份特征预测，输出各样本人脸图片对应的预测身份特征。

作为一个可能的示例，本实施例中，所述待训练的深度神经网络可以通过resnet18网络结构实现。在基于resne18网络结构的深度神经网络中，可以包括17个卷积层(Conv)和1个全连接层(fc)。所述17个卷积层可以依次级联后与所述全连接层连接。各所述样本人脸图片可以作为第一个卷积层的输入，前一个卷积层的输入可以作为后一个卷积层的输出，最后一个卷积层的输出作为所述全连接层的输入，所述全连接层可以作为所述深度神经网络的输出层。在每个样本人脸图片的迭代训练过程中，可以将所述样本人脸图片输入所述第一个卷积层，依次通过各个卷积层对所述样本人脸图片进行卷积运算(或特征提取)后，通过所述全连接层输出所述样本人脸图片对应的预测身份特征。所述预测身份特征可以是一个512维的可以隐式表征所述样本人脸图片对应的人脸的多种脸部特征的隐式特征。

其中，所述全连接层也可以理解为一种分类全连接层，所述预测身份特征也可以理解为一种身份类别特征。例如，所述身份类别特征可以用于表征所述样本人脸图片中的人脸中各个部分分别归属于哪些特征分类，例如这些分类可以包括，但不限于，脸宽、嘴高、眼高、眼宽、眉宽等特征分类。以嘴高这个分类为例，可以包括高、中、低三个类别，其中“高”可以代表张嘴幅度在第一幅度范围(如4.5cm到5cm的范围)，“中”可以代表张嘴幅度在第二幅度范围(如3.5cm到4.5cm的范围)，“低”可以代表张嘴幅度在第三幅度范围(如3cm到3.5cm的范围)。当然，这仅仅是为了方便理解而提出的一种简单的示例，在实际实施时，可以根据实际需要作出更为细致的特征类别划分。

步骤S630，根据所述深度神经网络预测得到的各样本人脸图片的预测身份特征以及各所述样本人脸图片对应的身份特征标签计算所述深度神经网络的损失函数值。

在本实施例中，所述深度神经网络的损失函数(loss函数)可以选择交叉熵损失函数(crossentropyloss)。在实际的迭代训练过程中，所述深度神经网络根据输入的样本人脸图片输出一个512维的特征作为所述预测身份特征，然后根据所述预测身份特征与所述样本人脸图片的身份特征标签进行比对，根据所述预测身份特征与所述样本人脸图片之间的差异即可计算得到所述损失函数值。

步骤S640，根据所述损失函数值对所述深度神经网络的网络参数进行迭代优化，直到满足训练收敛条件，得到训练后的深度神经网络作为所述身份识别网络。

例如，可以根据所述预测身份特征与所述身份特征标签之间的欧几里得距离、皮尔森相关系数等来计算所述损失函数值。所述预测身份特征与所述样本人脸图片的身份特征标签之间的接近程度越高，对应的损失函数值(交叉熵)则越小，反之所述预测身份特征与所述样本人脸图片的身份特征标签之间的接近程度越低，对应的损失函数值则越大，根据所述损失函数值对所述深度神经网络的参数进行迭代调整可以使得训练后得到的深度神经网络对输入的人脸图片进行准确的身份特征识别。

基于此，在本实施例中，可以对所述第一训练数据集中的各样本人脸图片依次进行迭代训练，当某次迭代训练过程计算得到的所述损失函数值小于预设的损失函数值阈值时，可以认为满足所述训练收敛条件；或者，也可以在迭代训练的次数达到预设次数时，认为满足所述训练收敛条件。

如此，所述训练收敛条件可以包括所述损失函数值小于预设的损失函数值阈值或者迭代训练的次数达到预设次数。

进一步地，针对步骤S200，如图7所示，所述表情识别网络可以通过下述的步骤S710-S740进行训练得到，下面对该表情识别网络的具体训练方法进行示例性的介绍。

步骤S710，获取第二训练数据集。

本实施例中，所述第二训练数据集的获取方式可以与所述第一训练数据集的获取方式相同或相类似。所述第二训练数据集可以包括具有事先标定的表情系数标签值的多个样本人脸图片。在一种可能的示例中，也可以将所述第一训练数据集中的样本人脸图片进行表情系数值的标定后形成所述第二训练数据集。

步骤S720，针对所述第二训练数据集中的每个样本人脸图片，对该样本人脸图片进行关键点检测，并根据关键点检测结果获得该样本人脸图片对应的人脸主体图片。

具体地，在一种可能的实现方式中，可以采用关键点SDK(Software DevelopmentKit,软件开发工具包)基于所述样本人脸图片进行人脸关键点检测，最后根据人脸关键点的检测结果进行人脸主体的提取，得到所述样本人脸图片对应的人脸主体图片。所述关键点SDK可以是目前市面上任意一种成熟的关键点获取工具，本实施例对此不进行限定。所述人脸主体图片可以是一个包括所检测到的各人脸关键点的人脸图片，其与所述样本人脸图片的区别在于所述人脸主体图片不包括所述样本人脸图片中除人脸部分之外的至少一部分细节，以方便后续的网络训练过程中对人脸部分的细节进行快速的识别分析等处理。

步骤S730，将各所述样本人脸图片分别对应的人脸主体图片依次输入待训练的卷积神经网络中，通过所述卷积神经网络对所述人脸主体图片进行表情识别，得到所述样本人脸图片对应的表情系数预测值。

具体的，作为一种可能的示例，所述卷积神经网络可以是一种轻量的卷积神经网络，例如ShuffleNet V2卷积神经网络，该神经网络的损失函数可以采用L1loss损失函数。

步骤S740，根据所述卷积神经网络输出的所述样本人脸图片的表情系数预测值以及所述样本人脸图片对应的表情系数标签值计算得到所述卷积神经网络的损失函数值。

本实施例中，所述卷积神经网络的损失函数值可以通过下述的L1 loss损失函数的计算公式进行计算得到：

其中，L1Loss代表所述损失函数值，x_n代表所述卷积神经网络第n次迭代训练过程中输出的一个样本人脸图片对应的表情系数预测值，y_n代表所述第n次迭代训练过程中所使用的所述样本人脸图片对应的表情系数标签值。

步骤S750，根据所述卷积神经网络的损失函数值对所述卷积神经网络的网络参数进行迭代优化，直到满足训练收敛条件，得到训练后的卷积神经网络作为所述表情识别网络。

本实施例中，可以根据所述表情系数预测值与所述表情系数标签值之间的差异来计算所述卷积神经网络的损失函数值。相对应地，所述差异越小，对应的损失函数值则越小，反之对应的损失函数值则越大，根据所述损失函数值对所述卷积神经网络的参数进行迭代优化可以使得训练后得到的卷积神经网络对输入的人脸图片进行准确的表情系数识别。

基于此，在本实施例中，可以对所述第二训练数据集中的各样本人脸图片依次进行迭代训练，当某次迭代训练过程计算得到的所述损失函数值小于预设的损失函数值阈值时，可以认为满足所述训练收敛条件；或者，也可以在迭代训练的次数达到预设次数时，认为满足所述训练收敛条件。

相对应地，所述卷积神经网络的训练收敛条件可以包括所述损失函数值小于预设的损失函数值阈值或者迭代训练的次数达到预设次数。

请参阅图8所示，图8是本申请实施例提供的用于实现上述表情识别方法的计算机设备的示意图。本实施例中，所述计算机设备可以是图2所示的直播提供终端100，也可以是所述直播服务器200。例如，在所述直播提供终端100具有足够的数据处理能力的前提下，所述计算机设备优选为所述直播提供终端100。在所述直播提供终端100的数据处理能力不足以满足本实施例的数据处理需求时，所述计算机设备则为所述直播服务器200，由所述直播服务器200对所述直播提供终端100发送的主播(目标对象)的面部图像进行识别与处理后得到最终多维表情系数，然后根据所述最终多维表情系数对直播画面中的虚拟数字对象进行表情驱动并渲染后将直播画面传送给直播接收终端300。

所述计算机设备可以包括一个或多个处理器110、机器可读存储介质120以及表情识别***130。处理器110与机器可读存储介质120可经由***总线通信连接。机器可读存储介质120存储有机器可执行指令，处理器110通过读取并执行机器可读存储介质120中机器可执行指令实现上文描述的表情识别方法。

其中，所述机器可读存储介质120可以是，但不限于，随机存取存储器(RandomAccess Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-Only Memory，PROM)，可擦除只读存储器(Erasable ProgrammableRead-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory，EEPROM)等。其中，机器可读存储介质120用于存储程序，所述处理器110在接收到执行指令后，执行所述程序。

所述处理器110可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是，但不限于，通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。

请参照图9，是所述表情识别***130的功能模块示意图。本实施例中，所述表情识别***130可以包括一个或多个在所述计算机设备运行的软件功能模块，这些软件功能模块可以计算机程序的形式存储在所述机器可读存储介质120中，以使得这些软件功能模块在被所述处理器130调用并执行时，可以实现本申请实施例所述的表情识别方法。

详细地，所述表情识别***130包括获取模块131、识别模块132、处理模块133。

所述获取模块131，用于获取目标对象的面部图像。

其中，本实施例中，所述目标对象可以是直播场景下使用直播设备提供直播服务的主播用户。所述面部图像可以是对主播进行实时拍摄得到的实时视频图像中的当前视频帧，也可以是通过所述图像采集设备按照一定的时间周期(如1秒、2秒、3秒等)进行单点拍摄而获得的一张可以表达所述目标对象当前面部表情的人脸照片。

应当理解，所述获取模块131可用于执行上述方法实施例中的步骤S100，关于该获取模块131的详细内容可以参考上述对该步骤S100的具体内容描述，此处不再一一赘述。

所述识别模块132，用于将所述面部图像输入预先训练得到身份识别网络以及表情识别网络，分别通过所述身份识别网络以及所述表情识别网络对所述面部图像进行身份识别以及表情识别，获得所述目标对象的身份特征以及初始多维表情系数。

本实施例中，所述身份识别网络以及所述表情识别网络可以通过采集的训练数据集对设定的人工智能神经网络进行网络训练而得到。其中，训练得到的身份识别网络用于对所述目标对象的面部图像进行身份特征识别得到的身份特征可以是一个多维的隐式特征向量，例如可以是一个512维的特征向量，其可以包括用于隐式表征所述目标对象的脸宽、眉间距离、嘴唇宽度、嘴唇厚度、眼睛大小、眼皮间距等多种面部特征的隐式特征向量，这种特征向量可以用于区分不同的用户身份，因此被称为身份特征。

进一步地，所述表情识别网络也可以通过采集的训练数据集对设定的人工智能神经网络进行网络训练而得到。其中，训练得到的表情识别网络用于对所述目标对象的面部图像进行表情识别得到的初始多维表情系数可以为一个多维信息，例如可以是一个包括51维表情系数的多维矩阵或多维数组。其中，以51维表情系数为例，每一维表情系数可以与一个表情基相对应。一般来说，用于驱动虚拟数字对象的表情基可以包括51个分别用于表达虚拟数字对象各种表情内容(如眯眼、张嘴、皱眉、鼓腮等)的51个表情基。示例性地，所述表情系数可以为0到1的取值区间内的任意一个系数值。

应当理解，所述识别模块132可用于执行上述方法实施例中的步骤S200，关于该识别模块132的详细内容可以参考上述对该步骤S200的具体内容描述，此处不再一一赘述。

所述处理模块133，用于根据所述身份特征对所述初始多维表情系数进行处理，得到所述目标对象的最终多维表情系数。本实施例中，预先训练得到的表情识别网络在后续应用于表情系数的识别时，结合前述的身份识别网络得到的身份特征，可以对所述表情识别网络输出的表情系数进行自适应的处理和调整后再输出，进而精确的识别出所述目标对象的相关表情系数特征作为所述最终多维表情系数，以用于后续驱动虚拟数字形象对多数目标对象的实时面部表情进行生动、细腻的表达。

应当理解，所述处理模块133可用于执行上述方法实施例中的步骤S300，关于该处理模块133的详细内容可以参考上述对该步骤S300的具体内容描述，此处不再一一赘述。

进一步地，在上述内容的基础上，本实施例中，请再参阅图9所示，所述表情识别***130还可以包括驱动模块134，用于根据所述最终多维表情系数对直播画面中的虚拟数字形象的面部表情进行驱动。本实施例中，所述最终多维表情系数是在所述初始多维表情系数的基础之上结合所述目标用户的身份特征进行自适应的处理和调整后输出的能够更为精确表达所述目标对象的当前面部表情的表情信息。在此基础之上，通过所述身份特征对所述初始多维表情系数进行自适应处理后得到所述目标对象的最终多维表情系数对所述虚拟数字对象进行面部表情的驱动，可以使所述虚拟数字对象对所述目标对象的表情进行生动、形象的表达。

应当理解，所述驱动模块134可用于执行上述方法实施例中的步骤S400，关于该驱动模块134的详细内容可以参考上述对该步骤S400的具体内容描述，此处不再一一赘述。

进一步地，在上述内容的基础上，本实施例中，请再参阅图9所示，所述表情识别***130还可以包括训练模块135，所述训练模块135具体用于通过网络训练得到所述身份识别网络和所述表情识别网络。

具体地，所述训练模块135通过以下步骤训练获得所述身份识别网络：

在本实施例中，可以对所述第一训练数据集中的各样本人脸图片依次进行迭代训练，当某次迭代训练过程计算得到的所述损失函数值小于预设的损失函数值阈值时，可以认为满足所述训练收敛条件；或者，也可以在迭代训练的次数达到预设次数时，认为满足所述训练收敛条件。

应当理解，所述训练模块135可用于执行上述方法实施例中图6对应的方法步骤，关于该训练模块135的详细内容可以参考上述对该图6的各方法步骤的具体内容描述，此处不再一一赘述。

进一步地，所述训练模块135通过以下步骤训练获得所述表情识别网络：

本实施例中，可以根据所述表情系数预测值与所述表情系数标签值之间的差异来计算所述卷积神经网络的损失函数值。相对应第，所述差异越小，对应的损失函数值则越小，反之对应的损失函数值则越大，根据所述损失函数值对所述卷积神经网络的参数进行迭代优化可以使得训练后得到的卷积神经网络对输入的人脸图片进行准确的表情系数识别。

应当理解，所述训练模块135可进一步用于执行上述方法实施例中图7对应的方法步骤，关于该训练模块135的详细内容还可以参考上述对该图7的各方法步骤的具体内容描述，此处不再一一赘述。

综上所述，本申请实施例提供的表情识别方法、***及计算机设备，区别于常规的表情识别技术，创新性的引入一个身份识别网络作为条件网络，通过该条件网络对所述目标对象的每张面部表情图片(面部图像)进行身份识别，输出一个身份特征，该身份特征用来描述或表达所述目标对象的脸部个性化特征。然后，再把这个身份特征也当作表情识别的条件输入，有了这个条件，就算是两张表情幅度一样的照片，最终也会针对不同对象的面部个性化特点输出自适应的表情系数。如此，相较于传统的未考虑目标对象的身份特征的表情识别方案，最终的表情识别结果能够更精确对目标对象的面部表情进行表达，进而实现对目标对象更为精准的表情识别。同时，在使用上述表情识别方法获得目标对象的面部图像对应的最终多维表情系数对虚拟数字对象进行面部表情驱动时，可以使所述虚拟数字对象对所述目标对象的面部表情进行更为生动和细腻的表达。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种表情识别方法，其特征在于，所述方法包括：

获取目标对象的面部图像；

2.根据权利要求1所述的表情识别方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的表情识别方法，其特征在于，所述身份识别网络和所述表情识别网络级联后与一个全连接层连接；

4.根据权利要求1或2所述的表情识别方法，其特征在于，所述方法还包括用于获得所述身份识别网络的网络训练步骤，具体包括：

5.根据权利要求4所述的表情识别方法，其特征在于，所述深度神经网络的网络结构为resnet18网络结构，所述深度神经网络的损失函数值通过交叉熵损失函数计算得到。

6.根据权利要求1或2所述的表情识别方法，其特征在于，所述方法还包括用于获得所述表情识别网络的网络训练步骤，具体包括：

7.根据权利要求6所述的表情识别方法，其特征在于，所述卷积神经网络的损失函数值通过以下公式计算得到：

8.一种表情识别***，其特征在于，所述表情识别***包括：

获取模块，用于获取目标对象的面部图像；

9.根据权利要求8所述的表情识别***，其特征在于，所述表情识别***还包括驱动模块以及训练模块，其中：

所述训练模块用于：

所述训练模块还用于：

10.一种计算机设备，其特征在于，包括机器可读存储介质以及一个或多个处理器，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被所述一个或多个处理器执行时，实现权利要求1-7任意一项所述的方法。