CN115035576A

CN115035576A - 基于人脸视频的用户情绪识别方法、装置、设备及介质

Info

Publication number: CN115035576A
Application number: CN202210615276.5A
Authority: CN
Inventors: 黄石磊; 蒋志燕; 曾航; 季佳丽; 杨大明
Original assignee: Shenzhen Raisound Technology Co ltd
Current assignee: Shenzhen Raisound Technology Co ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-09

Abstract

本申请涉及一种基于人脸视频的用户情绪识别方法、装置、设备及存储介质。所述方法包括：利用图像采集设备实时采集用户的人脸视频信息，提取人脸视频信息中的感兴趣区域，基于感兴趣区域得到人脸视频信息的BVP信号，基于BVP信号及EEMD算法构建体征信号，基于频谱跟踪算法和体征信号得到用户的实时体征信息，根据人脸视频信息对用户进行姿态分析，判断人脸视频信息中用户是否产生预设姿态，当判断人脸视频信息中用户产生预设姿态时，记录用户产生预设姿态的时间信息，读取时间信息对应的目标体征信息，基于目标体征信息和预设姿态识别用户的情绪识别结果。本申请结合体征信息和姿态信息可以更准确地识别用户的情绪。

Description

基于人脸视频的用户情绪识别方法、装置、设备及介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于人脸视频的用户情绪识别方法、装置、设备及存储介质。

背景技术

流调是流行病学调查的简称，流调的目的是为了知晓相关人群在过去的某个时间段里所到过的地方及接触得到的人等等，从而确定该人群是否有传播疾病的可能或被传染疾病的风险。

目前，流调员对相关的被调查人群进行流调时，少数被调查人员在面对流调员的提问时，可能因某些原因隐瞒自己的行程信息，流调员可以通过被调查人员在回答问题时的情绪来作为被调查人员是否存隐瞒行为的参考依据，然而基于人为主观判断被调查人员的情绪并不准确且无依据。

现有技术中虽然有相关的情绪自动识别方案，但这些识别方案大多是通过对静态的人脸的图像进行面部识别，具体为对包含人脸的整幅图像进行面部表情识别，从而得到所属的情绪类别，该方案仅是对单幅静态图像进行处理，且该方案识别的准确性较低。

发明内容

鉴于以上内容，本申请提供一种基于人脸视频的用户情绪识别方法、装置、设备及存储介质，其目的在于提高情绪识别的准确性。

第一方面，本申请提供一种基于人脸视频的用户情绪识别方法，该方法包括：

利用预先配置的图像采集设备实时采集用户的人脸视频信息，提取所述人脸视频信息中的感兴趣区域，基于所述感兴趣区域得到所述人脸视频信息的BVP信号；

基于所述BVP信号及EEMD算法构建体征信号，基于频谱跟踪算法和所述体征信号得到所述用户的实时体征信息；

根据所述人脸视频信息对所述用户进行姿态分析，判断所述人脸视频信息中所述用户是否产生预设姿态；

当判断所述人脸视频信息中所述用户产生预设姿态时，记录所述用户产生预设姿态的时间信息，读取所述时间信息对应的目标体征信息，基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果。

优选的，所述基于所述感兴趣区域得到所述人脸视频信息的BVP信号，包括：

对所述感兴趣区域内的像素点执行灰度值归一化处理后，执行瑞利分布匹配；

去除所述感兴趣区域内灰度值落在瑞利分布之外的像素点；

构建所述感兴趣区域内去除像素点后的色彩模型，将所述色彩模型的RGB三通道信号进行线性组合得到所述BVP信号。

优选的，所述基于所述BVP信号及EEMD算法构建体征信号，包括：

利用EEMD算法将所述BVP信号分解为IMF函数组合，基于所述IMF函数组合构建体征信号。

优选的，所述根据所述人脸视频信息对所述用户进行姿态分析，包括：

从所述人脸视频信息中获取所述用户的人脸图像信息；

根据所述用户的人脸图像信息分析所述用户的人脸图像信息相对应的目标姿态。

优选的，所述判断所述人脸视频信息中所述用户是否产生预设姿态，包括：

将所述目标姿态与所述预设姿态进行匹配；

若匹配成功，判断所述人脸视频信息中所述用户产生预设姿态；

若匹配失败，判断所述人脸视频信息中所述用户未产生预设姿态。

优选的，所述基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果，包括：

提取所述目标体征信息对应的文本特征；

从所述人脸视频信息中截取所述用户产生预设姿态的姿态图像，提取所述姿态图像对应的图像特征；

将所述文本特征和所述图像特征进行融合，得到融合特征；

将所述融合特征输入预先训练的情绪识别模型，得到所述用户的情绪识别结果。

优选的，在基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果之后，所述方法还包括：

将所述用户的情绪识别结果发送至预设终端。

第二方面，本申请提供一种基于人脸视频的用户情绪识别装置，该基于人脸视频的用户情绪识别装置包括：

提取模块：用于利用预先配置的图像采集设备实时采集用户的人脸视频信息，提取所述人脸视频信息中的感兴趣区域，基于所述感兴趣区域得到所述人脸视频信息的BVP信号；

构建模块：用于基于所述BVP信号及EEMD算法构建体征信号，基于频谱跟踪算法和所述体征信号得到所述用户的实时体征信息；

分析模块：用于根据所述人脸视频信息对所述用户进行姿态分析，判断所述人脸视频信息中所述用户是否产生预设姿态；

识别模块：用于当判断所述人脸视频信息中所述用户产生预设姿态时，记录所述用户产生预设姿态的时间信息，读取所述时间信息对应的目标体征信息，基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果。

第三方面，本申请提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的基于人脸视频的用户情绪识别方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的基于人脸视频的用户情绪识别方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请提出的基于人脸视频的用户情绪识别方法、装置、设备及存储介质，可以实时得到被调查用户的体征信息，通过记录被调查用户产生预设姿态的时间信息，并读取时间信息对应的目标体征信息，可以根据目标体征信息和姿态可以得到用户的情绪识别结果，防止被调查用户通过伪装的面部表情来掩饰自己的真实情绪，结合体征信息和姿态信息可以更准确地识别被调查用户的情绪，从而确定被调查用户在回复流调问题时的可信度，流调工作人员可以根据被调查用户的情绪对可信度低的回答重点关注或做出标记。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请基于人脸视频的用户情绪识别方法较佳实施例的流程图示意图；

图2为本申请基于人脸视频的用户情绪识别装置较佳实施例的模块示意图；

图3为本申请电子设备较佳实施例的示意图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供一种基于人脸视频的用户情绪识别方法。参照图1所示，为本申请基于人脸视频的用户情绪识别方法的实施例的方法流程示意图。该方法可以由一个电子设备执行，该电子设备可以由软件和/或硬件实现。基于人脸视频的用户情绪识别方法包括：

步骤S10：利用预先配置的图像采集设备实时采集用户的人脸视频信息，提取所述人脸视频信息中的感兴趣区域，基于所述感兴趣区域得到所述人脸视频信息的BVP信号；

步骤S20：基于所述BVP信号及EEMD算法构建体征信号，基于频谱跟踪算法和所述体征信号得到所述用户的实时体征信息；

步骤S30：根据所述人脸视频信息对所述用户进行姿态分析，判断所述人脸视频信息中所述用户是否产生预设姿态；

步骤S40：当判断所述人脸视频信息中所述用户产生预设姿态时，记录所述用户产生预设姿态的时间信息，读取所述时间信息对应的目标体征信息，基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果。

本实施例中，预先配置的图像采集设备可以是电子设备自带的摄像装置，也可以是与电子设备通信连接的摄像装置。利用图像采集设备可以实时获取到录制视频时的人脸视频信息，从人脸视频信息中提取出感兴趣区域，在图像处理领域，感兴趣区域(ROI)是从图像中选择的一个图像区域，这个区域是图像分析所关注的重点区域，圈定该区域可以进行进一步的处理，使用ROI圈定目标可以减少处理时间，增加精度。

为了更好地检测并跟踪视频中的人脸，可以使用具有3个深层卷积网络的级联架构MTCNN(Multi TaskConvolutional Neural Networks，MTCNN)和非极大值抑制策略得到人脸识别框与面部标签，同时实现人脸检测与对齐。在确定人脸的范围之后，调用Dlib库定位人面部特征点，根据面部特征点定位鼻子及额头区域的最大内接矩形可以跟随头部运动，可以实现面部感兴趣区域的自适应提取。

确定感兴趣区域后，根据感兴趣区域提取出人脸视频信息的BVP信号，具体地，基于所述感兴趣区域得到所述人脸视频信息的BVP信号包括：

去除所述感兴趣区域内灰度值落在瑞利分布之外的像素点；

在确定面部感兴趣区域之后，对面部感兴趣区域内像素点进行灰度归一化处理，再进行瑞利分布匹配，去除灰度值落在瑞利分布之外的像素点从而抑制噪声干扰，接着采用CHROM模型构建面部感兴趣区域的像素点色彩模型以降低运动带来的噪声影响，即将RGB三通道的信号进行线性组合得到BVP信号。

之后根据BVP信号及集合经验模态分解(Ensemble Empirical ModeDecomposition，EEMD)算法构建体征信号，具体地，基于所述BVP信号及EEMD算法构建体征信号包括：

为了避免EMD算法的模态混合问题，可以采用EEMD算法将BVP信号分解为真实的IMF函数组合，BVP信号先由EEMD算法分解为多个IMF函数，所有的IMF函数和残差可以构建体征信号。

在实际的人脸视频分析中，由于BVP信号质量往往受到诸多外界因素的干扰，即使经过EEMD分解后获得的主成分也会存在信号质量不高的问题。因此，在得到体征信号(例如，心率主成分信号和呼吸频率主成分信号)后，还可以检测主成分信号质量来提高体征检测的准确性，可以采用方差特征序列(Variance Characterization series，VCS)进行主成分信号的频谱质量检测，若计算得出对应的主成分信号质量为不合格，即说明在频谱分析时，会出现大量不符合生理特征区间的频谱高峰值，此时对经过处理之后的主成分信号与使用频谱跟踪算法来获取用户的实时体征信息。

获取到用户的实时体征信息后，根据人脸视频信息对用户进行姿态分析，判断人脸视频信息中用户是否产生预设姿态，即分析视频中用户是否产生相关的预设姿态，预设姿态包括用户用手摸鼻子，用户用手摸耳朵，用户用手挠头发，用户眼神往右看等等，可以将人脸视频信息输入预先训练的姿态分析模型得到用户的姿态信息，姿态分析模型可以是采集大量的样本姿态图像利用神经网络模型训练得到的多分类模型。

当判断人脸视频信息中用户产生预设姿态时，例如，判断人脸视频信息中用户存在用手摸鼻子这一姿态动作，则记录用户用手摸鼻子这一时间信息，时间信息可以是这一姿态动作的持续时长或者这一姿态动作发生的时间点，之后读取时间信息对应的目标体征信息，例如，用户用手摸鼻子这一时间持续时长为2秒钟，则获取用户在这2秒钟对应的目标体征信息。

之后根据目标体征信息和预设姿态识别用户的情绪识别结果，若用户产生预设姿态，且目标体征信息出现异常的明显波动(例如，心率值突然变高)，则说明用户的情绪可能存在紧张情绪，若用户产生预设姿态，且目标体征信息出现微小的波动，则说明用户可能在刻意掩饰自己的情绪。

本申请在应用于远程视频流调场景时，可以实时得到被调查用户的体征信息，通过记录被调查用户产生预设姿态的时间信息，并读取时间信息对应的目标体征信息，可以根据目标体征信息和姿态可以得到用户的情绪识别结果，防止被调查用户通过伪装的面部表情来掩饰自己的真实情绪，结合体征信息和姿态信息可以更准确识别被调查用户在回复流调问题时的可信度，流调工作人员可以对可信度低的回答重点关注或做出标记，从而提高流调表单填写的准确性。

在一个实施例中，所述根据所述人脸视频信息对所述用户进行姿态分析，包括：

从所述人脸视频信息中获取所述用户的人脸图像信息；

可以对人脸区域建立三维坐标系，根据预设姿态(用手摸鼻子、用手摸耳朵及用手挠头发等)的图像特征，利用骨骼检测器查看用户图像信息的手部和头部的骨骼，将查看到的图像信息对应的骨骼姿态在三维坐标系中进行三维重建，以此分析用户的人脸图像信息相对应的目标姿态。

在一个实施例中，所述判断所述人脸视频信息中所述用户是否产生预设姿态，包括：

将所述目标姿态与所述预设姿态进行匹配；

将用户的人脸图像信息相对应的目标姿态与预设姿态匹配，若匹配成功说明人脸视频信息中用户有产生预设姿态，若匹配失败说明人脸视频信息中用户未产生预设姿态。

在一个实施例中，所述基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果，包括：

提取所述目标体征信息对应的文本特征；

将所述文本特征和所述图像特征进行融合，得到融合特征；

由于目标体征信息可能是包括一段时间(例如，2秒钟)的体征信息，可以将目标体征信息拼接为时间序列的文本特征，从人脸视频信息中截取用户产生预设姿态的图像，即截取的姿态图像含有用户的姿态信息，利用卷积神经网络提取姿态图像对应的图像特征，将时间序列的文本特征和姿态图像对应的图像特征进行多模态融合得到融合特征，进行多模态融合时可以是将多个模态的信息一起映射到统一的多模态向量空间，也可以是将一个模态的信息转换为另一个模态的信息(例如，用文本描述姿态图像的内容，从而用文本特征表示姿态图像的特征)。之后将融合特征输入预先训练的情绪识别模型，得到用户的情绪识别结果，情绪识别结果可以是多分类模型。融合了体征信息和图像信息的融合特征相较于单一的特征，可以更准确地表征用户的情绪。

在一个实施例中，在基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果之后，所述方法还包括：将所述用户的情绪识别结果发送至预设终端。例如，在远程流调场景中，将用户的情绪识别结果发送至流调工作工作人员对应的终端，可以供流调工作人员对被调查用户语音信息的真实性做出判断。

参照图2所示，为本申请基于人脸视频的用户情绪识别装置100的功能模块示意图。

本申请所述基于人脸视频的用户情绪识别装置100可以安装于电子设备中。根据实现的功能，所述基于人脸视频的用户情绪识别装置100可以包括提取模块110、构建模块120、分析模块130及识别模块140。本申请所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

提取模块110：用于利用预先配置的图像采集设备实时采集用户的人脸视频信息，提取所述人脸视频信息中的感兴趣区域，基于所述感兴趣区域得到所述人脸视频信息的BVP信号；

构建模块120：用于基于所述BVP信号及EEMD算法构建体征信号，基于频谱跟踪算法和所述体征信号得到所述用户的实时体征信息；

分析模块130：用于根据所述人脸视频信息对所述用户进行姿态分析，判断所述人脸视频信息中所述用户是否产生预设姿态；

识别模块140：用于当判断所述人脸视频信息中所述用户产生预设姿态时，记录所述用户产生预设姿态的时间信息，读取所述时间信息对应的目标体征信息，基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果。

在一个实施例中，所述基于所述感兴趣区域得到所述人脸视频信息的BVP信号，包括：

去除所述感兴趣区域内灰度值落在瑞利分布之外的像素点；

在一个实施例中，所述基于所述BVP信号及EEMD算法构建体征信号，包括：

从所述人脸视频信息中获取所述用户的人脸图像信息；

将所述目标姿态与所述预设姿态进行匹配；

提取所述目标体征信息对应的文本特征；

将所述文本特征和所述图像特征进行融合，得到融合特征；

在一个实施例中，识别模块还用于：

将所述用户的情绪识别结果发送至预设终端。

参照图3所示，为本申请电子设备1较佳实施例的示意图。

该电子设备1包括但不限于：存储器11、处理器12、显示器13及通信接口14。所述电子设备1通过通信接口14连接网络。其中，所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子设备1的内部存储单元，例如该电子设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子设备1的外部存储设备，例如该电子设备1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述电子设备1的操作***和各类应用软件，例如基于人脸视频的用户情绪识别程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行基于人脸视频的用户情绪识别程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-EmittingDiode，OLED)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面。

通信接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，该通信接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。

图3仅示出了具有组件11-14以及基于人脸视频的用户情绪识别程序10的电子设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述电子设备1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

该电子设备1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的基于人脸视频的用户情绪识别程序10时可以实现如下步骤：

所述存储设备可以为电子设备1的存储器11，也可以为与电子设备1通讯连接的其它存储设备。

关于上述步骤的详细介绍，请参照上述图2关于基于人脸视频的用户情绪识别装置100实施例的功能模块图以及图1关于基于人脸视频的用户情绪识别方法实施例的流程图的说明。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性的，也可以是易失性的。该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区，存储程序区存储有基于人脸视频的用户情绪识别程序10，所述基于人脸视频的用户情绪识别程序10被处理器执行时实现如下操作：

本申请之计算机可读存储介质的具体实施方式与上述基于人脸视频的用户情绪识别方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于人脸视频的用户情绪识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于人脸视频的用户情绪识别方法，其特征在于，所述基于所述感兴趣区域得到所述人脸视频信息的BVP信号，包括：

去除所述感兴趣区域内灰度值落在瑞利分布之外的像素点；

3.如权利要求1所述的基于人脸视频的用户情绪识别方法，其特征在于，所述基于所述BVP信号及EEMD算法构建体征信号，包括：

4.如权利要求1所述的基于人脸视频的用户情绪识别方法，其特征在于，所述根据所述人脸视频信息对所述用户进行姿态分析，包括：

从所述人脸视频信息中获取所述用户的人脸图像信息；

5.如权利要求4所述的基于人脸视频的用户情绪识别方法，其特征在于，所述判断所述人脸视频信息中所述用户是否产生预设姿态，包括：

将所述目标姿态与所述预设姿态进行匹配；

6.如权利要求1所述的基于人脸视频的用户情绪识别方法，其特征在于，所述基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果，包括：

提取所述目标体征信息对应的文本特征；

将所述文本特征和所述图像特征进行融合，得到融合特征；

7.如权利要求1所述的基于人脸视频的用户情绪识别方法，其特征在于，在基于所述目标体征信息和预设姿态识别所述用户的情绪识别结果之后，所述方法还包括：

将所述用户的情绪识别结果发送至预设终端。

8.一种基于人脸视频的用户情绪识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1至7中任一项所述的基于人脸视频的用户情绪识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于人脸视频的用户情绪识别方法的步骤。