CN108647625A

CN108647625A - 一种表情识别方法及装置

Info

Publication number: CN108647625A
Application number: CN201810420178.XA
Authority: CN
Inventors: 黄海; 祝轶哲; 田耒; 景晓军
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-10-12

Abstract

本发明实施例提供了一种表情识别方法，所述方法包括：获取动态图像，检测出所述动态图像中的人脸区域；截取所述人脸区域作为第一图像组；对所述第一图像组进行光流处理，得到所述人脸区域的光流图像组，作为第二图像组；将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果。利用本方案进行表情识别，能够考虑到动态图像中的表情变化情况，从而提高了表情识别的准确性。

Description

一种表情识别方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种表情识别方法及装置。

背景技术

随着人工智能的发展，在人机交互、实时监控、自动驾驶以及社交网络等领域中，计算机越来越需要理解人类的内心情感。而表情是人类表达内心情感的最主要的方式之一，因此，计算机对表情的识别技术对于计算机理解人类的内心情感显得尤为重要。

现有的表情识别方案通常包括：获取大量样本图像，利用样本图像对预设的神经网络进行迭代训练，利用训练完成的神经网络识别待识别图像中的表情。

但是，在上述识别方案中，样本图像为单张静态图像，训练完成的神经网络也主要是针对静态图像进行表情识别。而在对连续的动态图像进行分析，比如对一段视频图像进行分析，或者对一张动图进行分析时，利用上述神经网络进行表情识别，并不能考虑到动态图像中的表情变化情况，进而造成表情识别不准确。

发明内容

本发明实施例的目的在于提供一种表情识别方法及装置，以提高表情识别的准确性。

具体技术方案如下：

本发明实施例提供了一种表情识别方法，所述方法包括：

获取动态图像，检测出所述动态图像中的人脸区域；

截取所述人脸区域作为第一图像组；

对所述第一图像组进行光流处理，得到所述人脸区域的光流图像组，作为第二图像组；

将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果。

可选的，所述截取所述人脸区域作为第一图像组，包括：

从所述动态图像中，截取出所述人脸区域；

对所截取出的人脸区域进行归一化处理；

将归一化处理后的人脸区域转化为灰度图像，得到第一图像组。

可选的，所述将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果，包括：

将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，提取所述第一图像组的特征值；

将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，提取所述第二图像组的特征值；

将所述第一图像组的特征值和所述第二图像组的特征值进行加权融合，得到融合结果，对所述融合结果进行分类，得到表情识别结果。

可选的，所述将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，提取所述第一图像组的特征值，包括：

将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行池化处理，得到所述第一图像组的特征值；

所述将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，提取所述第二图像组的特征值，包括：

将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行最大池化处理，得到所述第二图像组的特征值。

可选的，所述获取动态图像，包括：

获取待处理视频；

按照预设的间隔，从所述待处理视频抽取视频帧，作为动态图像。

可选的，所述表情识别结果为：所述待处理图像中的人脸区域对应不同表情的识别概率；在所述将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果之后，所述方法还包括：

根据所述表情识别结果中包括的所述识别概率，确定符合预设概率条件的表情的标识；在所述动态图像中标注所确定的表情的标识；

或者，在所述动态图像中标注所述人脸区域对应不同表情的识别概率。

本发明实施例还提供了一种表情识别装置，所述装置包括：

人脸检测模块，用于获取动态图像，检测出所述动态图像中的人脸区域；

图像截取模块，用于截取所述人脸区域作为第一图像组；

光流处理模块，用于对所述第一图像组进行光流处理，得到所述人脸区域的光流图像组，作为第二图像组；

表情识别模块，用于将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果。

可选的，所述图像截取模块，具体用于从所述动态图像中，截取出所述人脸区域；对所截取出的人脸区域进行归一化处理；将归一化处理后的人脸区域转化为灰度图像，得到第一图像组。

可选的，所述表情识别模块，具体用于将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，提取所述第一图像组的特征值；将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，提取所述第二图像组的特征值；将所述第一图像组的特征值和所述第二图像组的特征值进行加权融合，得到融合结果，对所述融合结果进行分类，得到表情识别结果。

可选的，所述表情识别模块，具体用于将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行池化处理，得到所述第一图像组的特征值；将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行最大池化处理，得到所述第二图像组的特征值。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的表情识别方法。

本发明实施例提供的表情识别方法及装置，通过检测待处理图像中的人脸区域，并对人脸区域进行光流处理，将得到的人脸区域及对应的人脸区域的光流图像输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果，由于双流卷积神经网络可以同时对人脸区域及对应的人脸区域的光流图像进行表情识别处理，而光流图像中可以携带动态图像中的表情变化信息，可见，利用本方案进行表情识别时，能够考虑到动态图像中的表情变化情况，提高了表情识别的准确性。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种表情识别方法的架构图；

图2为本发明实施例提供的一种表情识别方法的流程示意图；

图3为矩形特征级联分类器模型示意图；

图4为本实施例提供的表情识别算法的一种网络模型构架图；

图5为本发明实施例提供的一种表情识别装置的结构示意图；

图6为本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中，在对连续的动态图像进行分析，比如对一段视频图像进行分析，或者对一张动图进行分析时，利用由单张静态样本图像训练得到的神经网络进行表情识别，并不能考虑到动态图像中的表情变化情况，进而造成表情识别不准确的问题，本发明提出了一种表情识别方法及装置。

下面从总体上对本发明实施例提供的表情识别方法进行说明。

本发明的一种实现方式中，上述表情识别方法包括：

获取动态图像，检测出所述动态图像中的人脸区域；

截取所述人脸区域作为第一图像组；

如图1所示，为本发明实施例提供的一种表情识别方法的架构图。首先，对所获取的动态图像进行人脸检测，识别出动态图像中的人脸区域，然后，截取识别出的人脸区域，对人脸区域进行表情识别，最终得到表情识别结果。

由以上可见，本发明实施例提供的表情识别方法及装置，通过检测待处理图像中的人脸区域，并对人脸区域进行光流处理，将得到的人脸区域及对应的人脸区域的光流图像输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果，由于双流卷积神经网络可以同时对人脸区域及对应的人脸区域的光流图像进行表情识别处理，而光流图像中可以携带动态图像中的表情变化信息，可见，利用本方案进行表情识别时，能够考虑到动态图像中的表情变化情况，提高了表情识别的准确性。

下面将通过具体的实施例，对本发明实施例提供的表情识别方法进行详细描述。

如图2所示，为本发明实施例提供的一种表情识别方法的流程示意图，包括如下步骤：

步骤S201：获取动态图像，检测出动态图像中的人脸区域。

举例来说，动态图像可以为一段视频，检测视频中的人脸区域；或者，动态图像张还可以为一组动图，如GIF(Graphics Interchange Format，图像互换格式)图像，检测动图中的人脸区域。

在一种实现方式中，S101可以包括：获取待处理视频；按照预设的间隔，从所述待处理视频抽取视频帧，作为动态图像。

例如，可以从待处理视频中抽取关键帧，这样，得到的动态图像可以更好地反映人脸运动的关键动作及表情变化；或者，还可以每隔预设数量帧，从待处理的视频中抽取一个视频帧；或者，也可以每隔预设时间段从待处理的视频中抽取一个视频帧，等等，将这些抽取的视频帧组合为连续的视频帧序列，即可作为动态图像。

获取动态图像之后，首先可以检测动态图像中的人脸区域，该过程可以利用不同的算法。

举例而言，可以利用矩形特征级联分类器，对动态图像中的每一张图像进行人脸检测。如图3所示，为矩形特征级联分类器模型示意图。具体的，针对动态图像中的每张图像，利用预设的矩形特征模板在该图像中进行遍历，在矩形特征模板遍历到的每一个位置，都可以计算该位置对应的区域特征，从区域特征中提取出关键特征，最后由预设的级联强分类器对提取出的关键特征进行迭代训练，从而得到动态图像中的人脸区域。

或者，还可以利用基于直方图粗分割和奇异值特征的人脸检测算法检测动态图像中的人脸区域。具体的，首先根据动态图像中的每一张图像的结构分布特征绘制直方图，然后可以用高斯函数对直方图进行平滑处理，根据平滑的直方图对图像进行粗分割，再根据一定的灰度空间对人眼进行定位，从而基于奇异值特征确定出人脸区域。

又或者，还可以利用特征脸方法检测动态图像中的人脸区域。具体的，可以将人脸中眼睛、面颊、下颌等部位的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇，统称特征子脸，特征子脸在相应的图像空间中生成子空间，称为子脸空间，将动态图像中的每一张图像划分为多个测试图像窗口，分别计算出每个测试图像窗口在子脸空间的投影距离，若投影距离满足阈值条件，则判断对应的测试图像窗口为人脸区域。

或者，还可以利用基于二进小波变换的人脸检测算法、基于弹性模型的方法、神经网络方法、人脸等密度线分析匹配方法等方法检测动态图像中的人脸区域，本发明实施例对此不做限定。

步骤S202：截取人脸区域作为第一图像组。

在检测出动态图像中的人脸区域之后，就可以将人脸区域从动态图像中截取出来，得到第一图像组，第一图像组可以输入至预先训练得到的双流卷积神经网络中，进行表情识别。

具体的，将人脸区域从动态图像中截取出来之后，得到的人脸区域的图像根据动态图像中的图像内容的不同，通常是不同尺寸的。

在本步骤中，可以进一步对截取出的人脸区域的图像进行归一化处理，将截取出的不同尺寸的人脸区域的图像归一化为适用于预先训练得到的双流卷积神经网络的尺寸，也就是说，将截取出的不同尺寸的人脸区域的图像处理为与用于训练双流卷积神经网络的图片集相同的尺寸。

例如，如果用于训练双流卷积神经网络的图片集的大小为48*48像素，则将截取出的不同尺寸的人脸区域的图像归一化处理为48*48像素。

另外，通常动态图像为RGB(RED-GREEN-BLUE，真彩色)图像，那么，在对截取出的人脸区域的图像进行归一化处理之后，可以将归一化处理后的人脸区域转化为灰度图像，将得到的灰度图像作为第一图像组。这样，可以减少第一图像组在预先训练得到的双流卷积神经网络中的计算量，从而提高表情识别的效率。

其中，可以利用如下公式，将归一化处理结果转化为灰度图像：

Gray＝R*0.299+G*0.587+B*0.114

RGB图像是通过对红色(RED)、绿色(GREEN)、蓝色(BLUE)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色，在上述公式中，R表示红色通道的颜色值，G表示绿色通道的颜色值，B表示蓝色通道的颜色值，Gray表示第一图像组中的灰度图像的灰度值。

检测出的人脸区域经过归一化处理、转化为灰度图像后，得到的第一图像组更符合预先训练得到的双流卷积神经网络的输入图像的标准，便于进一步进行表情识别。

步骤S203：对第一图像组进行光流处理，得到人脸区域的光流图像组，作为第二图像组。

光流是一种简单实用的图像运动的表达方式，是利用视频中的像素灰度值的时域变化和相关性来确定各自像素位置的“运动”，即利用图像的灰度值在时间上的变化，表现图像中物体的动态信息。光流图像组实际代表了第一图像组中人脸动态变化的轨迹信息。

对第一图像组进行光流处理的方法有多种，例如，可以基于特征计算光流，不断地对人脸的主要特征进行定位和跟踪；或者，基于区域计算光流，先对第一图像组中类似的区域进行定位，然后通过相似区域的位移计算光流；或者，基于频域计算光流，利用速度可调的滤波组输出频率或相位信息；或者，基于梯度计算光流，利用图像序列亮度的时空微分来计算图像上每一像素点的光流；等等。

在本步骤中，对第一图像组进行光流处理，可以得到人脸区域的光流图像组，也就是第二图像组，第二图像组和第一图像组具有相同的尺寸。

步骤S204：将第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果。

其中，预先训练得到的双流卷积神经网络包括空间域卷积网络和时间域卷积网络两部分，可以将第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，将第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，分别提取第一图像组和第二图像组的特征值。

具体的，将第一图像组输入空间域卷积网络后，首先利用预设大小的卷积核对第一图像组进行卷积处理，得到卷积层，例如，利用3*3大小的卷积核对48*48像素大小的第一图像组进行卷积处理，得到46*46个特征值大小的卷积层。

然后，可以对卷积层进行池化处理，从而得到第一图像组的特征值。其中，池化处理的过程可以为最大池化处理，也可以为平均值池化处理，例如，如果为3*3最大池化处理，则将卷积处理的结果划分为多个3*3大小的窗口，在每个窗口中，选择最大的特征值作为该窗口的特征值，最终由各个窗口的特征值构成的矩阵即为第一图像组的特征值。

类似的，将第二图像组输入时间域卷积网络后，也可以经过上述处理过程，首先，利用预设大小的卷积核进行卷积处理，然后，对卷积处理的结果进行池化处理，得到第二图像组的特征值。

提取出第一图像组和第二图像组的特征值之后，可以进一步将第一图像组的特征值和第二图像组的特征值进行加权融合，得到融合结果。其中，可以针对不同的动态图像确定第一图像组和第二图像组的特征值的融合权重，例如，可以预设两者权重相同，那么，则将第一图像组和第二图像组的特征值简单相加，或者，如果动态图像的图像动态变化情况较为突出，则为第二图像组的特征值预设较大的权重，等等，本发明实施例对此不做限定。

得到第一图像组和第二图像组的特征值的加权融合结果之后，可以进一步对融合结果进行分类，从而得到表情识别结果。例如，可以利用支持向量机算法、神经网络算法或者softmax算法等不同的方式，对融合结果进行分类。

具体的，在预先训练得到的双流卷积神经网络中，包含不同的多种表情分类结果，例如：愤怒、厌恶、恐惧、开心、难过、惊讶和中性等，每个表情都有其对应的特征，可以通过计算，得到融合结果对应于不同表情的识别概率，从而对融合结果进行分类，得到表情识别结果。

一种实现方式中，在得到表情识别结果之后，可以在原始的动态图像中对表情识别结果进行标注和展示。例如，可以先根据表情识别结果中的识别概率，确定符合预设概率条件的表情对应的标识，然后，在动态图像中标注所确定的表情的标识；或者，还可以直接在原始的动态图像中标注人脸区域对应不同表情的识别概率；本发明实施例对此不做限定。

另外，在原始的动态图像中展示表情识别结果时，还可以同时对检测出的人脸区域进行标注，以供用户参考。

在本实施例中，预先训练得到的双流卷积神经网络中的空间域卷积网络由RGB图片集训练得到，时间域卷积网络由光流图片集训练得到，其中，上述光流图片集可以由RGB图片集进行光流处理后得到，两者具有相同的尺寸。而RGB图片集可以来自于预设的表情数据库中的数据集，例如，CK+数据集(The Extended Cohn-Kanade Dataset，扩展的科恩-卡纳德数据集)、JAFFE数据集(The Japanese Female FacialExpression Database，日本女性面部表情数据集)等等。

举例而言，在训练过程中，将CK+数据集中的RGB图像数据转化为光流图像，然后分别将RGB图像和光流图像输入至双流卷积神经网络中，训练得到空间域卷积网络和时间域卷积网络。

如图4所示，为本实施例提供的表情识别算法的一种网络模型构架图。图中，首先获取待处理视频，然后从待处理视频中抽取关键帧，作为动态图像，检测出动态图像中的人脸区域，对人脸区域进行截取，得到第一图像组，对第一图像组进行光流处理，得到第二图像组。然后，将第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，将第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，分别经过两次3*3*16的卷积处理和3*3的最大池化处理，分别得到第一图像组和第二图像组的128个特征值，将第一图像组和第二图像组的特征值进行加权融合，对融合结果利用softmax算法进行分类，最终得到表情识别结果。

通过上述方法进行表情识别时，能够考虑到动态图像中的表情变化情况，可以提高表情识别的准确性。

举例来说，假设动态图像中人员的表情为惊喜，或者说由惊讶变成开心，但是将动态图像拆分为单张静态图像进行表情识别时，可能将惊讶的表情识别为恐惧或其他表情，从而导致表情识别不准确。

而通过上述方法进行表情识别时，在预先训练双流卷积神经网络时，就同时利用RGB图片及对应的光流图片分别训练出空间域卷积网络和时间域卷积网络，因此将第一图像组和第二图像组输入双流卷积神经网络进行表情识别时，能够考虑到动态图像中的表情变化情况，可以识别出动态图像中的表情是由惊讶变成开心，而不会将某一张图像识别为恐惧或其他表情，减少了表情识别不准确的情况。

如图5所示，本发明实施例还提供了一种表情识别装置的结构示意图，所述装置包括：

人脸检测模块510，用于获取动态图像，检测出所述动态图像中的人脸区域；

图像截取模块520，用于截取所述人脸区域作为第一图像组；

光流处理模块530，用于对所述第一图像组进行光流处理，得到所述人脸区域的光流图像组，作为第二图像组；

表情识别模块540，用于将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果。

在一种实现方式中，图像截取模块520，具体用于从所述动态图像中，截取出所述人脸区域；对所截取出的人脸区域进行归一化处理；将归一化处理后的人脸区域转化为灰度图像，得到第一图像组。

在一种实现方式中，表情识别模块540，具体用于将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，提取所述第一图像组的特征值；将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，提取所述第二图像组的特征值；将所述第一图像组的特征值和所述第二图像组的特征值进行加权融合，得到融合结果，对所述融合结果进行分类，得到表情识别结果。

在一种实现方式中，表情识别模块540，具体用于将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行池化处理，得到所述第一图像组的特征值；将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行最大池化处理，得到所述第二图像组的特征值。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现如下步骤：

获取动态图像，检测出所述动态图像中的人脸区域；

截取所述人脸区域作为第一图像组；

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种表情识别方法，其特征在于，所述方法包括：

获取动态图像，检测出所述动态图像中的人脸区域；

截取所述人脸区域作为第一图像组；

2.根据权利要求1所述的方法，其特征在于，所述截取所述人脸区域作为第一图像组，包括：

从所述动态图像中，截取出所述人脸区域；

对所截取出的人脸区域进行归一化处理；

3.根据权利要求2所述的方法，其特征在于，所述将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，提取所述第一图像组的特征值，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取动态图像，包括：

获取待处理视频；

6.根据权利要求1所述的方法，其特征在于，所述表情识别结果为：所述待处理图像中的人脸区域对应不同表情的识别概率；在所述将所述第一图像组和第二图像组输入至预先训练得到的双流卷积神经网络中进行处理，得到表情识别结果之后，所述方法还包括：

7.一种表情识别装置，其特征在于，所述装置包括：

图像截取模块，用于截取所述人脸区域作为第一图像组；

8.根据权利要求7所述的装置，其特征在于，

所述图像截取模块，具体用于从所述动态图像中，截取出所述人脸区域；对所截取出的人脸区域进行归一化处理；将归一化处理后的人脸区域转化为灰度图像，得到第一图像组。

9.根据权利要求8所述的装置，其特征在于，

所述表情识别模块，具体用于将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，提取所述第一图像组的特征值；将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，提取所述第二图像组的特征值；将所述第一图像组的特征值和所述第二图像组的特征值进行加权融合，得到融合结果，对所述融合结果进行分类，得到表情识别结果。

10.根据权利要求9所述的装置，其特征在于，

所述表情识别模块，具体用于将所述第一图像组输入至预先训练得到的双流卷积神经网络中的空间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行池化处理，得到所述第一图像组的特征值；将所述第二图像组输入至预先训练得到的双流卷积神经网络中的时间域卷积网络中，利用预设大小的卷积核进行卷积处理，对卷积处理的结果进行最大池化处理，得到所述第二图像组的特征值。