CN115205925A

CN115205925A - 表情系数确定方法、装置、电子设备及存储介质

Info

Publication number: CN115205925A
Application number: CN202210641776.6A
Authority: CN
Inventors: 叶奎; 张国鑫; 马里千; 刘晓强
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-10-18

Abstract

本公开关于一种表情系数确定方法、装置、电子设备及存储介质，涉及互联网技术领域，在本公开中，首先获取视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。对于当前图像信息，在当前图像信息中包含人脸信息且人脸信息未满足预设条件的情况下，从人脸信息中提取出第一表情系数，以及从当前图像信息对应的音频信息中预测出第二表情系数，当前图像信息为任一帧图像信息。然后根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数。通过将从图像信息中包含的人脸信息中提取出的第一表情系数和从音频信息中预测的第二表情系数相结合，得到目标表情系数，能够提升识别到的用户对象的表情系数的准确性。

Description

表情系数确定方法、装置、电子设备及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种表情系数确定方法、装置、电子设备及存储介质。

背景技术

人脸表情识别是指利用计算机对检测到的人脸图像进行表情特征提取，得到表情系数，这里的表情系数是指计算机能够理解的人脸表情地描述信息。基于表情系数，可以建立更加友好和智能的人机交互环境。

虚拟形象表情驱动是人脸表情识别技术的应用场景之一。示例的，在虚拟直播场景中，虚拟直播界面中通常同时显示主播对象的直播画面和主播对象的虚拟形象。计算机通过从主播对象的表情进行特征提取，得到主播对象的表情系数，再利用主播对象的表情系数驱动主播对象的虚拟形象的表情。当主播对象的表情发生变化时，虚拟形象的表情同时会发生变化。

由于计算机识别到的主播对象的表情系数的准确性，会影响对虚拟形象的表情的驱动效果，如虚拟形象表情不自然、与主播对象的表情不匹配等。因此，如何提高识别到的主播对象的表情系数的准确性，成为亟待解决的技术问题。

发明内容

本公开提供一种表情系数确定方法、装置、电子设备及存储介质，可以提高识别到的表情系数的准确性。

本公开实施例的技术方案如下：

根据本公开实施例的第一方面，提供一种表情系数确定方法，包括：获取视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。对于当前图像信息，在当前图像信息中包含人脸信息且人脸信息未满足预设条件的情况下，从人脸信息中提取出第一表情系数，以及从当前图像信息对应的音频信息中预测出第二表情系数，当前图像信息为任一帧图像信息。根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数。

可选的，根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数，包括：融合第一表情系数和第二表情系数，得到当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

可选的，融合第一表情系数和第二表情系数，得到当前图像信息对应的融合表情系数，包括：根据第一表情系数预设的权重和第二表情系数预设的权重，对第一表情系数和第二表情系数进行加权处理，得到融合表情系数，第一表情系数预设的权重小于第二表情系数预设的权重。

可选的，上述方法还包括：在当前图像信息中不包含人脸信息的情况下，从当前图像信息对应的音频信息中预测出第二表情系数，将第二表情系数作为当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

可选的，上述方法还包括：在图像信息中包含人脸信息且人脸信息满足预设条件的情况下，从人脸信息中提取出第一表情系数，将第一表情系数作为当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

可选的，获取视频信息之后，上述方法还包括：识别当前图像信息中的人脸信息。在识别到人脸信息的情况下，确定人脸信息对应的姿态角度和/或完整度，完整度表征人脸信息是否被遮挡。如果人脸信息对应的姿态角度不满足预设角度，和/或，完整度不满足预设完整度，则确定图像信息中包含人脸信息且人脸信息未满足预设条件。如果人脸信息对应的姿态角度满足预设角度，和/或，完整度满足预设完整度，则确定图像信息中包含人脸信息且人脸信息满足预设条件。

根据本公开实施例的第二方面，提供一种表情系数确定装置，上述装置包括：信息获取单元，被配置为执行获取视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。第一确定单元，被配置为执行对于当前图像信息，在当前图像信息中包含人脸信息且人脸信息未满足预设条件的情况下，从人脸信息中提取出第一表情系数，以及从当前图像信息对应的音频信息中预测出第二表情系数，当前图像信息为任一帧图像信息。第二确定单元，被配置为执行根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数。

可选的，第二确定单元，具体被配置为执行：融合第一表情系数和第二表情系数，得到当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

可选的，第二确定单元，还被配置为执行：根据第一表情系数预设的权重和第二表情系数预设的权重，对第一表情系数和第二表情系数进行加权处理，得到融合表情系数，第一表情系数预设的权重小于第二表情系数预设的权重。

可选的，第一确定单元，还被配置为执行：在当前图像信息中不包含人脸信息的情况下，从当前图像信息对应的音频信息中预测出第二表情系数，将第二表情系数作为当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

可选的，第二确定单元，还被配置为执行：在图像信息中包含人脸信息且人脸信息满足预设条件的情况下，从人脸信息中提取出第一表情系数，将第一表情系数作为当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

可选的，获取视频信息之后，信息获取单元，还被配置为执行：识别当前图像信息中的人脸信息。在识别到人脸信息的情况下，确定人脸信息对应的姿态角度和/或完整度，完整度表征人脸信息是否被遮挡。如果人脸信息对应的姿态角度不满足预设角度，和/或，完整度不满足预设完整度，则确定图像信息中包含人脸信息且人脸信息未满足预设条件。如果人脸信息对应的姿态角度满足预设角度，和/或，完整度满足预设完整度，则确定图像信息中包含人脸信息且人脸信息满足预设条件。

根据本公开实施例的第三方面，提供一种电子设备，可以包括：处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现上述第一方面中任一种可选地表情系数确定方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，计算机可读存储介质上存储有指令，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面中任一种可选地表情系数确定方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当计算机程序/指令在被处理器执行时实现如第一方面中任一种可选地实现方式的表情系数确定方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

本公开的实施例提供的技术方案至少带来以下有益效果：

基于本公开的上述任一方面，提供一种表情系数确定方法，包括：获取视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。对于当前图像信息，在当前图像信息中包含人脸信息且人脸信息未满足预设条件的情况下，从人脸信息中提取出第一表情系数，以及从当前图像信息对应的音频信息中预测出第二表情系数，当前图像信息为任一帧图像信息。根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数。通过将从图像信息中包含的人脸信息中提取出的第一表情系数和从音频信息中预测的第二表情系数相结合，得到目标表情系数，能够提升识别到的用户对象的表情系数的准确性。例如，在虚拟直播场景中，能够提升识别到的主播对象的表情系数的准确性，进而保证对虚拟形象的表情的驱动效果，如避免出现虚拟形象表情不自然、与主播对象的表情不匹配的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出了本公开实施例提供的一种直播***的结构示意图；

图2示出了本公开实施例提供的一种表情系数确定方法的流程示意图；

图3示出了本公开实施例提供的另一种表情系数确定方法的流程示意图；

图4示出了本公开实施例提供的另一种表情系数确定方法的流程示意图；

图5示出了本公开实施例提供的另一种表情系数确定方法的流程示意图；

图6示出了本公开实施例提供的另一种表情系数确定方法的流程示意图；

图7示出了本公开实施例提供的一种表情系数确定装置的结构示意图；

图8示出了本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还应当理解的是，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息、用户行为信息等)和数据(包括但不限于动态页面对应的页面数据等)，均为经用户授权或者经过各方充分授权的数据。

人脸表情识别是指利用计算机对检测到的人脸图像进行表情特征提取，得到表情系数(又称为3D表情系数)，这里的表情系数是指计算机能够理解的人脸表情的描述信息。基于表情系数，可以建立更加友好和智能的人机交互环境。

由于计算机识别到的主播对象的表情系数的准确性，会影响对虚拟形象的表情的驱动效果。因此，如何提高识别到的主播对象的表情系数的准确性，成为亟待解决的技术问题。

基于此，本公开实施例提供了一种表情系数确定方法，包括：获取视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。对于当前图像信息，在当前图像信息中包含人脸信息且人脸信息未满足预设条件的情况下，从人脸信息中提取出第一表情系数，以及从当前图像信息对应的音频信息中预测出第二表情系数，当前图像信息为任一帧图像信息。根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数。通过将从图像信息中包含的人脸信息中提取出的第一表情系数和从音频信息中预测的第二表情系数相结合，得到目标表情系数，能够提升识别到的用户对象的表情系数的准确性。例如，在虚拟直播场景中，能够提升识别到的主播对象的表情系数的准确性，进而保证对虚拟形象的表情的驱动效果，如避免出现虚拟形象表情不自然、与主播对象的表情不匹配的问题。

以下对本公开实施例提供的表情系数确定方法的应用场景进行示例性说明：

图1为本公开实施例提供的一种直播***示意图，该直播***可以实现上述虚拟直播场景。如图1所示，该直播***包括：服务器110、第一终端设备120和第二终端设备130。服务器110可以通过有线网络或无线网络与第一终端设备120和第二终端设备130之间建立连接。

其中，服务器110，可以用于接收来自第一终端设备120的直播内容，该直播内容用于显示出直播界面，直播界面包括主播对象的直播画面和根据主播对象的表情系数确定的主播对象的虚拟形象，且该虚拟形象的表情随着主播对象的表情变化而变化，即与主播对象的表情匹配，并将该直播内容发送给观众对象的第二终端设备130，以使得观众对象能够观看主播对象的直播内容。在一些实施例中，也可以由服务器110根据第一终端设备120发送的直播内容中的直播画面，确定主播对象的表情系数，根据主播对象的表情系数驱动主动对象的虚拟形象的表情。

一些实施例中，服务器110可以是单独的一个服务器，或者，也可以是由多个服务器(或者微服务器)构成的服务器集群。服务器集群还可以是分布式集群。本公开对服务器110的具体实现方式也不作限制。

第一终端设备120，可以用于获取用户对象的视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。其中，第一终端设备120包括图像输入设备和音频输入设备，例如，图像输入设备可以为摄像头，音频输入设备可以为麦克风。多帧图像信息通过图像输入设备进行获取，音频信息通过音频输入设备进行获取。

本公开的一种实现方式中，终端设备首先根据图像信息确定第一表情系数，根据音频信息确定第二表情系数，然后根据第一表情系数和第二表情系数确定目标表情系数，再根据目标表情系数生成主播对象的虚拟形象，最终得到包含主播对象的直播画面和虚拟形象的直播内容，并将该直播内容发送给服务器110。

本公开的另一种实现方式中，终端设备将多帧图像信息和与每帧图像信息对应的音频信息图像信息发送给服务器110，服务器110根据图像信息确定第一表情系数，根据音频信息确定第二表情系数，然后根据第一表情系数和第二表情系数确定目标表情系数，再根据目标表情系数生成主播对象的虚拟形象，最终得到包含主播对象的直播画面和虚拟形象的直播内容，并将该直播内容发送给第一终端设备120和第二终端设备130，其中，第一终端设备120可以为主播对象所使用的设备，第二终端设备130也可以为观众对象所使用的设备。

一些实施例中，终端设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)\虚拟现实(virtual reality，VR)设备等可以安装并使用各类应用程序(如快手)的设备，本公开对该终端的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。

可选地，上述图1所示的通信***中服务器110可以与第一终端设备120和第二终端设备130连接，其中，第一终端设备120可以为主播对象所使用的设备，第二终端设备130也可以为观众对象所使用的设备。本公开对终端设备120的数量及类型均不作限制。

本公开实施例提供的表情系数确定方法可以应用于前述图1所示的第一终端设备120，也可以应用于服务器110或者其他电子设备。

在一些实施例中，本公开提供的表情系数确定方法的执行主体可以为表情系数确定装置，表情系数确定装置可以内置在电子设备中，如内置在上述终端设备120中，或者内置在服务器110中。

图2为本公开实施例提供的一种表情系数确定方法的流程图，如图2所示，该表情系数确定方法可以包括：

S201、获取视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。

在上述实现方式中，图像输入设备实时获取图像信息，音频输入设备实时获取音频信息，得到视频信息。视频信息具体为由多帧图像构成的图像序列。可选的，将图像序列平均分成M组图像，每组图像包括N帧图像信息，且对应一段音频信息。将N帧图像信息中的预设帧序的图像信息作为待处理图像信息，每组图像对应的音频信息与每组图像对应的待处理图像信息相对应。例如，在主播对象进行虚拟直播过程中，在1s的时间范围内，获取到主播对象的视频信息包括30帧图像信息，首先将30帧图像信息拆分为3组，每组图像包括10帧图像信息，然后将每组图像中的帧序为1的图像信息作为待处理图像信息，同时将1s的音频信息拆分为3部分，每一部分分别与每组图像中的待处理图像信息相对应。

S202、对于当前图像信息，在当前图像信息中包含人脸信息且人脸信息未满足预设条件的情况下，从人脸信息中提取出第一表情系数，以及从当前图像信息对应的音频信息中预测出第二表情系数，当前图像信息为任一帧图像信息。

在上述实现方式中，表情系数是指计算机能够理解的人脸表情的描述信息。第一表情系数时通过对当前图像信息中的人脸信息进行特征提取确定的，第二表情系数是通过将音频信息输入预测模型，预测模型从音频信息预测出的。其中，预测模型为根据音频样本和其对应的表情系数训练得到的。在虚拟直播场景中，通过对主播对象的图像信息中的人脸信息进行特征提取，确定主播对象的第一表情系数，通过将主播对象的音频信息输入预测模型进行预测，得到与主播对象的第二表情系数。

在上述实现方式中，预设条件为人脸信息对应的姿态角度满足预设角度，和，人脸信息对应的完整度满足预设完整度。其中，姿态角度为人脸所在的平面与图像之间形成的角度。应理解的是，当姿态角度不满足预设角度时，无法准确识别当前图像信息中的人脸信息，进而从不准确的人脸信息中提取的表情系数也是不准确的。例如，当主播对象在进行直播过程中，将头仰起、低下或向左/右转动头部，此时图像输入设备虽然获取到主播对象的部分面部区域，但由于当前图像信息中的人脸信息对应的姿态角度不满足预设角度，无法获取人脸信息的全部内容，导致识别不准确，此时得到的人脸信息为不可信的。完整度用于表征人脸信息是否被遮挡，在当前主播对象的人脸信息的姿态角度满足预设角度的情况下，如果人脸信息被遮挡，也无法准确识别当前图像信息中的人脸信息，进而从不准确的人脸信息中提取的表情系数也是不准确的。例如，当主播对象在进行直播过程中，被其他物体遮挡住面部区域。此时图像输入设备虽然也可以获取到主播对象的部分面部区域，但由于当前图像信息中的人脸信息存在被遮挡的部分，无法获取人脸信息的全部内容，导致识别不准确，此时得到的人脸信息同样为不可信的。因此，需要从主播对象的音频信息预测主播对象对应的第二表情系数，通过第一表情系数和第二表情系数的结合，提升识别到的主播对象的表情系数的准确性，进而保证对虚拟形象的表情的驱动效果，如避免出现虚拟形象表情不自然、与主播对象的表情不匹配的问题。

在主播对象进行虚拟直播的场景下，需要对主播对象输入的视频信息进行处理，得到主播对象对应的虚拟形象，由于视频信息为连续的多帧图像信息和与多帧图像信息对应的音频信息，因此需要对依次帧图像依次进行处理，当前图像信息为当前正在处理的图像信息。

在一种实现方式中，应用程序(如直播应用)通常包括视频驱动模块和音频驱动模块，

视频驱动模块用于从人脸信息中提取出第一表情系数，根据音频驱动模块用于从当前图像信息对应的音频信息中预测出第二表情系数。此时视频驱动模块和音频驱动模块均处于开启状态。

S203、根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数。

由上述S201-203可知，通过将从图像信息中包含的人脸信息中提取出的第一表情系数和从音频信息中预测的第二表情系数相结合，得到目标表情系数，能够提升识别到的用户对象的表情系数的准确性。例如，在虚拟直播场景中，能够提升识别到的主播对象的表情系数的准确性，进而保证对虚拟形象的表情的驱动效果，如避免出现虚拟形象表情不自然、与主播对象的表情不匹配的问题。

在一种实现方式中，参见图3，上述S203步骤，具体包括：

S301、融合第一表情系数和第二表情系数，得到当前图像信息对应的融合表情系数。

在一种实现方式中，融合第一表情系数和第二表情系数，得到当前图像信息对应的融合表情系数，包括：根据第一表情系数预设的权重和第二表情系数预设的权重，对第一表情系数和第二表情系数进行加权处理，得到融合表情系数。

示例性的，第一表情系数预设的权重为第一权重0.2，第二表情系数预设的权重为第二权重0.8。融合表情系数为：第一表情系数与第一权重的乘积和第二表情系数与第二权重的乘积的加和。

由上述内容可知，提供了一种确定融合表情系数的具体实现方式，通过第一表情系数和第二表情系数确定的融合表情系数，能够提升识别的准确性，避免虚拟形象表情出现不自然的问题。

S302、根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

上述平滑系数为预先设置的，用于使得在虚拟直播场景下，主播对象的虚拟形象表情更加平滑自然，提升用户的使用体验。

在上述S302的一种具体实现方式中，首先确定上一帧图像信息对应的目标表情系数与预先设置的第一平滑系数的乘积，同时确定当前图像信息对应的融合表情系数与第二平滑系数的乘积，将上一帧图像信息对应的目标表情系数与预先设置的第一平滑系数的乘积和当前图像信息对应的融合表情系数与第二平滑系数的乘积加和，得到当前图像信息对应的目标表情系数。通过对从图像信息中包含的人脸信息中提取出的第一表情系数和从音频信息中提取的第二表情系数进行融合，得到的目标表情系数，能够提升识别到的主播对象的表情系数的准确性，进而保证对虚拟形象的表情的驱动效果，如避免出现虚拟形象表情不自然、与主播对象的表情不匹配的问题。

在一种实现方式中，参见图4，上述方法还包括：

S401、在当前图像信息中不包含人脸信息的情况下，从当前图像信息对应的音频信息中预测出第二表情系数，将第二表情系数作为当前图像信息对应的融合表情系数。

S402、根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

由上述内容可知，在当前图像信息中不包含人脸信息的情况下，由于无法获取到当前图像信息中的人脸信息，所以此时确定的第一表情系数是不准确的，进而根据第一表情系数确定的融合表情系数必然是不准确的，通过将从当前图像信息对应的音频信息中预测出第二表情系数作为当前图像信息对应的融合表情系数，能够避免根据未获取的人脸信息确定最终的融合表情系数，导致虚拟形象的表情出现不自然、不准确的问题，同时，通过预先设置的平滑系数和当前图像信息的上一帧图像信息对应的目标表情系数进行优化，能够有效提升虚拟形象的表情的准确性，使得表情更加自然平滑，提升用户使用体验。

在一种实现方式中，第一表情系数预设的权重小于第二表情系数预设的权重。

由于当前图像信息中的人脸信息未满足预设条件的情况下，即在人脸信息对应的姿态角度满足预设角度，和，完整度满足预设完整度，此时人脸信息为不可信的，即根据当前图像信息中的人脸信息提取出的第一表情系数准确性较低，同时，从对应的音频信息中预测出的第二表情系数准确性较高，因此，降低第一表情系数预设的权重，提高第二表情系数预设的权重，能够有效提升识别的准确性，避免出现虚拟形象表情不自然的问题，提升用户的使用体验。

在一种实现方式中，参见图5，方法还包括：

S501、在图像信息中包含人脸信息且人脸信息满足预设条件的情况下，从人脸信息中提取出第一表情系数，将第一表情系数作为当前图像信息对应的融合表情系数；

S502、根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。

在上述实现方式中，预设条件为人脸信息对应的姿态角度满足预设角度，和，人脸信息对应的完整度满足预设完整度。在图像信息中包含人脸信息且人脸信息满足预设条件的情况下，此时得到的人脸信息为可信的。由于当前图像信息的人脸信息为可信的，此时终端设备根据视频驱动模块从人脸信息中提取出第一表情系数，无需再次根据音频驱动模块从当前图像信息对应的音频信息中预测出第二表情系数。此时音频驱动处于关闭状态。

由上述内容可知，在当前图像信息中包含人脸信息且人脸信息满足预设条件的情况下，即人脸信息可信的情况下，根据视频驱动从人脸信息中提取出第一表情系数，无需再次根据音频驱动从当前图像信息对应的音频信息中预测出第二表情系数，由于此时音频驱动处于关闭状态，能够有效节约资源。

在一种实现方式中，参见图6，在上述S201步骤之后，上述方法还包括以下步骤：

S601、识别当前图像信息中的人脸信息；

S602、在识别到人脸信息的情况下，确定人脸信息对应的姿态角度和/或完整度，完整度表征人脸信息是否被遮挡；

S603、如果人脸信息对应的姿态角度不满足预设角度，和/或，完整度不满足预设完整度，则确定图像信息中包含人脸信息且人脸信息未满足预设条件；

S604、如果人脸信息对应的姿态角度满足预设角度，和/或，完整度满足预设完整度，则确定图像信息中包含人脸信息且人脸信息满足预设条件。

在上述实现方式中，当主播对象进行直播时，识别当前图像信息中的人脸信息。若当前图像信息存在，确定人脸信息对应的姿态角度和完整度，在人脸信息对应的姿态角度满足预设角度，和，完整度满足预设完整度的情况下，确定图像信息中包含人脸信息且人脸信息满足预设条件。此时得到的人脸信息可信的。

由上述可知，提供了一种确定当前图像信息中的人脸信息的可信性的具体实现方法，通过在人脸信息对应的姿态角度满足预设角度，和，完整度满足预设完整度的情况下，确定图像信息中包含人脸信息且人脸信息满足预设条件，将满足预设条件的人脸信息作为可信的，能够有效提升识别的准确性。

可以理解的，在实际实施时，本公开实施例的终端/服务器可以包含有用于实现前述对应表情系数确定方法的一个或多个硬件结构和/或软件模块，这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的算法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

基于这样的理解，本公开实施例还对应提供一种表情系数确定装置，可以应用于电子设备。

图7示出了本公开实施例提供的表情系数确定装置的结构示意图。如图7所示，该表情系数确定装置可以包括：信息获取单元710、第一确定单元720和第二确定单元730。信息获取单元710，被配置为执行获取视频信息，视频信息包括多帧图像信息和与每帧图像信息对应的音频信息。用于执行上述方法中的步骤S201。第一确定单元720，被配置为执行对于当前图像信息，在当前图像信息中包含人脸信息且人脸信息未满足预设条件的情况下，从人脸信息中提取出第一表情系数，以及从当前图像信息对应的音频信息中预测出第二表情系数，当前图像信息为任一帧图像信息。用于执行上述方法中的步骤S202。第二确定单元730，被配置为执行根据第一表情系数和第二表情系数，得到当前图像信息对应的目标表情系数。例如，用于执行上述方法中的步骤S203。

可选的，第二确定单元730，具体被配置为执行：融合第一表情系数和第二表情系数，得到当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。例如，用于执行上述方法中的步骤S301-S302。

可选的，第二确定单元730，还被配置为执行：根据第一表情系数预设的权重和第二表情系数预设的权重，对第一表情系数和第二表情系数进行加权处理，得到融合表情系数，第一表情系数预设的权重小于第二表情系数预设的权重。

可选的，第一确定单元720，还被配置为执行：在当前图像信息中不包含人脸信息的情况下，从当前图像信息对应的音频信息中预测出第二表情系数，将第二表情系数作为当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。例如，用于执行上述方法中的步骤S401-S402。

可选的，第二确定单元730，还被配置为执行：在图像信息中包含人脸信息且人脸信息满足预设条件的情况下，从人脸信息中提取出第一表情系数，将第一表情系数作为当前图像信息对应的融合表情系数。根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化当前图像信息对应的融合表情系数，得到当前图像信息对应的目标表情系数。例如，用于执行上述方法中的步骤S501-S502。

可选的，获取视频信息之后，信息获取单元710，还被配置为执行：识别当前图像信息中的人脸信息。在识别到人脸信息的情况下，确定人脸信息对应的姿态角度和/或完整度，完整度表征人脸信息是否被遮挡。如果人脸信息对应的姿态角度不满足预设角度，和/或，完整度不满足预设完整度，则确定图像信息中包含人脸信息且人脸信息未满足预设条件。如果人脸信息对应的姿态角度满足预设角度，和/或，完整度满足预设完整度，则确定图像信息中包含人脸信息且人脸信息满足预设条件。例如，用于执行上述方法中的步骤S601-S604。

如上，本公开实施例可以根据上述方法示例对电子设备进行功能模块的划分。其中，上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。另外，还需要说明的是，本公开实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。

关于上述实施例中的表情系数确定装置，其中各个模块执行操作的具体方式、以及具备的有益效果，均已经在前述方法实施例中进行了详细描述，此处不再赘述。

本公开实施例还提供一种电子设备。图8示出了本公开实施例提供的电子设备的结构示意图。该电子设备可以是表情系数确定装置可以包括至少一个处理器810，通信总线820，存储器830以及至少一个通信接口840。

处理器810可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。作为一个示例，结合图7，电子设备中的信息获取单元710、第一确定单元720和第二确定单元730实现的功能与图8中的处理器810实现的功能相同。

通信总线820可包括一通路，在上述组件之间传送信息。

通信接口840，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如服务器、以太网，无线接入网(radio access network，RAN)，无线局域网(wireless localarea networks，WLAN)等。作为一个示例，

存储器830可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。其中，存储器830用于存储执行本公开方案的应用程序代码，并由处理器810来控制执行。处理器810用于执行存储器830中存储的应用程序代码，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器810可以包括一个或多个CPU，例如图8中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备可以包括多个处理器，例如图8中的处理器810和处理器850。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备还可以包括输入设备860和输出设备870。输入设备860和输出设备870通信，可以以多种方式接受用户的输入。例如，输入设备860可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备870和处理器810通信，可以以多种方式来显示信息。例如，输出设备870可以是液晶显示器(liquid crystal display，LCD)，发光二极管(light emitting diode，LED)显示设备等。

本领域技术人员可以理解，图8中示出的结构并不构成对电子设备的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例还提供一种电子设备。该电子设备可以是表情系数确定装置。该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器和一个或一个以上的存储器。其中，存储器中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述各个方法实施例提供的表情系数确定方法。当然，该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

本公开还提供了一种包括指令的计算机可读存储介质，计算机可读存储介质上存储有指令，当计算机可读存储介质中的指令由计算机设备的处理器执行时，使得计算机能够执行上述所示实施例提供的表情系数确定方法。例如，计算机可读存储介质可以为包括指令的存储器830，上述指令可由终端的处理器810执行以完成上述方法。又例如，计算机可读存储介质可以为包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述方法。可选地，计算机可读存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行上述表情系数确定方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种表情系数确定方法，其特征在于，所述方法包括：

获取视频信息，所述视频信息包括多帧图像信息和与每帧所述图像信息对应的音频信息；

对于当前图像信息，在所述当前图像信息中包含人脸信息且所述人脸信息未满足预设条件的情况下，从所述人脸信息中提取出第一表情系数，以及从所述当前图像信息对应的所述音频信息中预测出第二表情系数，所述当前图像信息为任一帧所述图像信息；

根据所述第一表情系数和所述第二表情系数，得到所述当前图像信息对应的目标表情系数。

2.根据权利要求1所述的表情系数确定方法，其特征在于，所述根据所述第一表情系数和所述第二表情系数，得到所述当前图像信息对应的目标表情系数，包括：

融合所述第一表情系数和所述第二表情系数，得到所述当前图像信息对应的融合表情系数；

根据预先设置的平滑系数、当前图像信息的上一帧图像信息对应的目标表情系数，优化所述当前图像信息对应的融合表情系数，得到所述当前图像信息对应的目标表情系数。

3.根据权利要求2所述的表情系数确定方法，其特征在于，所述融合所述第一表情系数和所述第二表情系数，得到所述当前图像信息对应的融合表情系数，包括：

根据所述第一表情系数预设的权重和所述第二表情系数预设的权重，对所述第一表情系数和所述第二表情系数进行加权处理，得到所述融合表情系数，所述第一表情系数预设的权重小于所述第二表情系数预设的权重。

4.根据权利要求1所述的表情系数确定方法，其特征在于，所述方法还包括：

在所述当前图像信息中不包含人脸信息的情况下，从所述当前图像信息对应的音频信息中预测出第二表情系数，将所述第二表情系数作为所述当前图像信息对应的融合表情系数；

5.根据权利要求1所述的表情系数确定方法，其特征在于，所述方法还包括：

在所述图像信息中包含人脸信息且所述人脸信息满足预设条件的情况下，从所述人脸信息中提取出第一表情系数，将所述第一表情系数作为所述当前图像信息对应的融合表情系数；

6.根据权利要求1所述的表情系数确定方法，其特征在于，所述获取视频信息之后，所述方法还包括：

识别所述当前图像信息中的所述人脸信息；

在识别到所述人脸信息的情况下，确定所述人脸信息对应的姿态角度和/或完整度，所述完整度表征所述人脸信息是否被遮挡；

如果所述人脸信息对应的姿态角度不满足预设角度，和/或，所述完整度不满足预设完整度，则确定所述图像信息中包含人脸信息且所述人脸信息未满足所述预设条件；

如果所述人脸信息对应的姿态角度满足预设角度，和/或，所述完整度满足预设完整度，则确定所述图像信息中包含人脸信息且所述人脸信息满足所述预设条件。

7.一种表情系数确定装置，其特征在于，所述装置包括：

信息获取单元，被配置为执行获取视频信息，所述视频信息包括多帧图像信息和与每帧所述图像信息对应的音频信息；

第一确定单元，被配置为执行对于当前图像信息，在所述当前图像信息中包含人脸信息且所述人脸信息未满足预设条件的情况下，从所述人脸信息中提取出第一表情系数，以及从所述当前图像信息对应的所述音频信息中预测出第二表情系数，所述当前图像信息为任一帧所述图像信息；

第二确定单元，被配置为执行根据所述第一表情系数和所述第二表情系数，得到所述当前图像信息对应的目标表情系数。

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-6中任一项所述的表情系数确定方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-6中任一项所述的表情系数确定方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中任一项所述的表情系数确定方法。