CN111401116B - 基于增强卷积和空时lstm网络的双模态情感识别方法 - Google Patents

基于增强卷积和空时lstm网络的双模态情感识别方法 Download PDF

Info

Publication number
CN111401116B
CN111401116B CN201910743860.7A CN201910743860A CN111401116B CN 111401116 B CN111401116 B CN 111401116B CN 201910743860 A CN201910743860 A CN 201910743860A CN 111401116 B CN111401116 B CN 111401116B
Authority
CN
China
Prior art keywords
lstm
convolution
network
enhanced
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910743860.7A
Other languages
English (en)
Other versions
CN111401116A (zh
Inventor
闫静杰
朱康
朱宇康
吕方惠
卢官明
李海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201910743860.7A priority Critical patent/CN111401116B/zh
Publication of CN111401116A publication Critical patent/CN111401116A/zh
Application granted granted Critical
Publication of CN111401116B publication Critical patent/CN111401116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于增强卷积和空时LSTM网络的双模态情感识别方法,使用预训练VGG16和LSTM网络,构建出本发明的基于立方体Attention的增强卷积和空时LSTM网络结构,包括以下步骤:(1)截取数据库中视频的主要部分,满足相同长度并对其分帧;(2)检测数据库中每个视频人脸、动作的空时特征点,根据每帧图片设置对应特征点处的权重值,形成立方体Attention部分权重图;(3)构建基于立方体Attention增强卷积和空时LSTM的结合网络;(4)通过上述步骤处理的表情、动作视频分别提取特征,将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层,输出得到分类结果。提取到含有表情和姿态信息特征进行双模态分类,获得比传统特征学习方法更好的情感识别效果。

Description

基于增强卷积和空时LSTM网络的双模态情感识别方法
技术领域
本发明涉及一种基于表情和姿态双模态结合的情感识别方法,属于情感计算技术领域。
背景技术
随着人工智能和情感计算技术在学术界和工业界的快速发展,情感识别技术也得到越来越广泛的关注和认同,尤其是在智能人机交互领域,情感识别技术将在人和计算机之间的智能感知和识别方面扮演非常重要的作用。过去的情感识别技术大多数都是只考虑人的单个通道情感信息,但近年来基于多通道情感信息的双模态和多模态情感识别技术得到了快速的发展并在智能人机交互中取得了更好的识别效果,尤其是基于表情和姿态双通道情感信息的双模态情感识别。基于表情和姿态的双模态情感识别通过从人的面部表情和身体姿态两个通道获得更加丰富和相关的信息并进行融合,从而提高情感识别的可靠性。
公开号为CN106295568A公开了一种基于表情和行为双模态的人类自然情感识别方法,该专利首先将提取的人体躯干运动特征与事先建立的人体躯干运动特征进行匹配比对,获得情感分类结果,然后从事先建立的人脸表情特征库找出去提取的人脸表情特征相匹配的人脸特征,输出对应的情感分类结果。该方法最大的问题是无法提取有效的人体躯干运动特征,难以建立有效的人体躯干运动特征库和人脸表情特征库。
发明内容
发明目的:针对现有技术的不足,本发明目的在于提出一种基于立方体Attention增强卷积和空时LSTM网络的双模态情感识别方法,对现有深度神经网络进行部分改造和结合,为提高计算机识别人类情感的正确率提供一种新方法。
技术方案:本发明是一种基于立方体Attention增强卷积和空时LSTM网络的双模态情感识别方法,包含以下步骤:
(1)截取数据库中视频的主要部分,满足相同长度并对其分帧;
(2)检测数据库中每个视频人脸、动作的空时特征点,根据每帧图片设置对应特征点处的权重值,形成立方体Attention部分权重图;
(3)构建出基于立方体Attention的增强卷积和空时LSTM的结合网络,包含三个处理单元如下:
(3.1)跨接立方体Attetion的VGG16的5个卷积单元。VGG16由5组卷积层组成,每组卷积层包括了2个或者3个卷积层以及1个池化层,为了简化表示使用CONV1、CONV2、CONV3、CONV4和CONV5五个卷积模块来简单表示VGG16网络。其中CONV1和CONV2分别含有两个卷积层和一个最大池化层,其参数分别如下所示:
CONV1:f=3,p=1,s=1,d=64
CONV2:f=3,p=1,s=1,d=128
Maxpooling:f=2,s=2
其中f表示卷积核或池化的大小,p为填充值,s表示卷积核或池化的步长,d表示卷积核数量。
在CONV3和CONV4个卷积模块上分别跨接一个立方体Attention模块用于强化提取兴趣区域的特征。两个卷积模块中的卷积层和池化层参数如下所示:
CONV3:f=3,p=1,s=1,d=64
CONV4:f=3,p=1,s=1,d=128
Maxpooling:f=2,s=2
(3.2)空间LSTM单元。通过上述的基于立方体Attention的增强VGG16网络可以获得跟表情或者姿态相关的增强深度纹理特征,但无法学习表情或者姿态图像各个区域之间的空间结构相关性,而这种相关性也能够提供重要的情感信息。因此我们在B1的模块之后加上空间LSTM模块,具体形式如图3所示。CONV5模块输出不经过池化,其卷积层参数如下所示:
CONV5:f=3,p=1,s=1,d=512
得到14*14*512的特征图,输出的特征图大小为14*14,有512个通道即有512张特征图,本发明中将14*14共196个位置上沿着通道方向构成196个特征向量,每个向量为512维,这196个特征向量对应着输入的一帧图像的一个小区域,将每一个特征向量作为LSTM的输入,这样通过空间LSTM就可以有效学习到表情或者姿态图像不同区域之间的空间结构相关性。通过空间LSTM学习后,每张原始的表情或者姿态图像可以获得融合区域相关性后的一个深度特征,再把这个深度特征作为下一步时间LSTM的输入。
(3.3)时间LSTM单元。空间LSTM部分输出的一组含有一张图片的不同区域相关信息的特征向量作为输入,输入到LSTM中,进一步提取时间上的相关性。
上述过程为一帧图像的处理过程,将一个视频分帧之后所有图像经过上述网络的处理,后一帧的图像在B3处综合本帧和上一帧的时间LSTM特征,最终得到一个表情或动作视频的增强情感特征。
(4)通过上述步骤处理的表情、动作视频分别提取特征,将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层,输出得到分类结果。
有益效果:本发明与现有技术相比,其显著优点是:1、充分利用空时特征点处的关键信息,使用LSTM获得图片特征的空间相关性和时间相关性;2、提取到含有表情和姿态关键信息的特征进行双模态分类,获得比基于传统特征学习的方法更好的情感识别效果。
附图说明
图1本发明的方法流程框图;
图2本发明的网络结构框架图;
图3立方体Attention单元结构框图;
图4空间LSTM单元结构框图;
图5部分FABO数据库序列图片。
具体实施方式
下面结合说明书附图对本发明实施方式作进一步详细说明。
如图1所示,本发明的实现包含以下步骤:
(1)截取数据库中视频的主要部分,满足相同长度并对其分帧;
(2)检测数据库中每个视频人脸、动作的空时特征点,根据每帧图片设置对应特征点处的权重值,形成立方体Attention部分权重图;
(3)构建基于立方体Attention增强卷积和空时LSTM的结合网络;
(4)通过上述步骤处理的表情、动作视频分别提取特征,将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层,输出得到分类结果。
步骤(2)中数据库视频预处理将FABO数据库中的视频分为七类,分别为anger,anxiety,boredom,disgust,fear,happiness以及uncertainty,将视频的主体部分截取出来至相同长度并进行分帧,使所有视频帧数一致为170帧。使用空时检测算法程序检测出数据库中每个视频中人脸或动作的空时特征点显示在每帧图片上,每帧图片对应的设置这些特征点处的权重值,得到立方体Attention部分的权重图。
如图2所示,构建出基于立方体Attention的增强卷积和空时LSTM的结合网络,各部分的功能如下:
(3.1)跨接立方体Attetion的VGG16的5个卷积模块。VGG16由5组卷积层和3个全连接层组成,每组卷积层包括了2个或者3个卷积层以及1个池化层,为了简化表示使用CONV1、CONV2、CONV3、CONV4和CONV5五个卷积模块来简单表示VGG16网络。其中CONV1和CONV2分别含有两个卷积层和一个最大池化层,其参数分别如下所示:
CONV1:f=3,p=1,s=1,d=64
CONV2:f=3,p=1,s=1,d=128
Maxpooling:f=2,s=2
其中f表示卷积核或池化的大小,p为填充值,s表示卷积核或池化的步长,d表示卷积核数量。
在CONV3和CONV4个卷积模块上分别跨接一个立方体Attention模块用于强化提取兴趣区域的特征。两个卷积模块中的卷积层和池化层参数如下所示:
CONV1:f=3,p=1,s=1,d=64
CONV2:f=3,p=1,s=1,d=128
Maxpooling:f=2,s=2
立方体Attention模块的结构如图3所示。CONV2输出的特征图跟立方体Attention图在对应位置进行点乘,获得带立方体Attention的特征图,然后和CONV3第3个卷积层的输出在对应位置进行相加,再经过CONV4重复一次特征强化提取,获得增强后的特征图。
(3.2)空间LSTM单元。通过上述的基于立方体Attention的增强VGG16网络可以获得跟表情或者姿态相关的增强深度纹理特征,但无法学习表情或者姿态图像各个区域之间的空间结构相关性,而这种相关性也能够提供重要的情感信息。因此我们在B1的模块之后加上空间LSTM模块,具体形式如图4所示。CONV5模块输出不经过池化,其卷积层参数如下所示:
CONV5:f=3,p=1,s=1,d=512
得到14*14*512的特征图,输出的特征图大小为14*14,有512个通道即有512张特征图,本发明中将14*14共196个位置上沿着通道方向构成196个特征向量,每个向量为512维,这196个特征向量对应着输入的一帧图像的一个小区域,将每一个特征向量作为LSTM的输入,这样通过空间LSTM就可以有效学习到表情或者姿态图像不同区域之间的空间结构相关性。通过空间LSTM学习后,每张原始的表情或者姿态图像可以获得融合区域相关性后的一个深度特征,再把这个深度特征作为下一步时间LSTM的输入。
(3.3)时间LSTM单元。空间LSTM部分输出的一组含有一张图片的不同区域相关信息的特征向量作为输入,输入到LSTM中,进一步提取时间上的相关性。
上述过程为一帧图像的处理过程,将一个视频分帧之后所有图像经过上述网络的处理,后一帧的图像在B3处综合本帧和上一帧的时间LSTM特征,最终得到一个表情或动作视频的增强情感特征,如图2中的OUT所示。以上步骤构建的网络都可基于python语言tensorflow框架的keras库进行搭建。
每个视频样本分帧后具有相同的170帧图像,将这些样本输入构建出的网络中进行训练,更新网络参数,训练结束后保存下验证效果最佳的网络模型。使用时将测试视频经过预处理后输入网络,经过图像的处理之后得到一组特征,最后将表情和姿态的特征串联融合后输入SVM分类器或是softmax层得到多分类的分类结果。

Claims (5)

1.一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,包括如下步骤:
(1)截取数据库中视频的主要部分,满足相同长度并对其分帧;
(2)检测数据库中每个视频人脸、动作的空时特征点,根据每帧图片设置对应特征点处的权重值,形成立方体Attention部分权重图;
(3)构建基于立方体Attention增强卷积和空时LSTM的结合网络;
(4)通过上述步骤处理的表情、动作视频分别提取特征,将获得的表情和姿态特征串联融合并输入SVM分类器、softmax层,输出得到分类结果;
步骤(3)中结合网络包括的跨接立方体Attetion的VGG16卷积单元由5组卷积层组成,每组卷积层包括至少2个卷积层以及1个池化层,5组卷积层分别为CONV1、CONV2、CONV3、CONV4和CONV5,其中CONV1和CONV2分别含有两个卷积层和一个最大池化层,其参数分别如下所示:
CONV1:f=3,p=1,s=1,d=64
CONV2:f=3,p=1,s=1,d=128
Maxpooling:f=2,s=2
其中f表示卷积核或池化的大小,p为填充值,s表示卷积核或池化的步长,d表示卷积核数量,在CONV3和CONV4个卷积单元上分别跨接一个立方体Attention单元。
2.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中的结合网络包括三个处理单元:跨接立方体Attention的VGG16卷积单元、空间LSTM单元和时间LSTM单元。
3.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中结合网络包括的空间LSTM单元,通过基于立方体Attention的增强VGG16网络获取与表情姿态相关的增强深度纹理特征,其卷积层参数如下所示:
CONV5:f=3,p=1,s=1,d=512
得到14*14*512的特征图,输出的特征图大小为14*14,有512个通道即有512张特征图,将14*14共196个位置上沿着通道方向构成196个特征向量,每个向量为512维,这196个特征向量对应着输入的一帧图像的一个小区域,将每一个特征向量作为LSTM的输入,每张原始的表情或者姿态图像通过LSTM学习,获得融合区域相关性一个深度特征,作为下一步时间LSTM的输入。
4.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中结合网络包括的时间LSTM单元,空间LSTM输出一组含有一张图片的不同区域相关信息的特征向量作为输入,输入到LSTM中,进一步提取时间上的相关性。
5.根据权利要求1所述的一种基于增强卷积和空时LSTM网络的双模态情感识别方法,其特征在于,步骤(3)中结合网络的三个单元处理一帧图像,处理方法如下:将一个视频分帧后的所有图像经过上述网络的处理,后一帧的图像在时间LSTM单元处综合本帧和上一帧的时间LSTM特征,最终得到一个表情或动作视频的增强情感特征。
CN201910743860.7A 2019-08-13 2019-08-13 基于增强卷积和空时lstm网络的双模态情感识别方法 Active CN111401116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910743860.7A CN111401116B (zh) 2019-08-13 2019-08-13 基于增强卷积和空时lstm网络的双模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910743860.7A CN111401116B (zh) 2019-08-13 2019-08-13 基于增强卷积和空时lstm网络的双模态情感识别方法

Publications (2)

Publication Number Publication Date
CN111401116A CN111401116A (zh) 2020-07-10
CN111401116B true CN111401116B (zh) 2022-08-26

Family

ID=71428367

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910743860.7A Active CN111401116B (zh) 2019-08-13 2019-08-13 基于增强卷积和空时lstm网络的双模态情感识别方法

Country Status (1)

Country Link
CN (1) CN111401116B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680550B (zh) * 2020-04-28 2024-06-04 平安科技(深圳)有限公司 情感信息识别方法、装置、存储介质及计算机设备
CN112541529A (zh) * 2020-12-04 2021-03-23 北京科技大学 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN112699815A (zh) * 2020-12-30 2021-04-23 常州码库数据科技有限公司 基于时空运动增强网络的动态表情识别方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292256A (zh) * 2017-06-14 2017-10-24 西安电子科技大学 基于辅任务的深度卷积小波神经网络表情识别方法
CN107729872A (zh) * 2017-11-02 2018-02-23 北方工业大学 基于深度学习的人脸表情识别方法及装置
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及***
CN109886190A (zh) * 2019-02-20 2019-06-14 哈尔滨工程大学 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292256A (zh) * 2017-06-14 2017-10-24 西安电子科技大学 基于辅任务的深度卷积小波神经网络表情识别方法
CN107729872A (zh) * 2017-11-02 2018-02-23 北方工业大学 基于深度学习的人脸表情识别方法及装置
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及***
CN109886190A (zh) * 2019-02-20 2019-06-14 哈尔滨工程大学 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法

Also Published As

Publication number Publication date
CN111401116A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN108520535B (zh) 基于深度恢复信息的物体分类方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及***
CN109815826B (zh) 人脸属性模型的生成方法及装置
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及***
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN110516536A (zh) 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN112800903A (zh) 一种基于时空图卷积神经网络的动态表情识别方法及***
CN113221663B (zh) 一种实时手语智能识别方法、装置及***
CN113673510B (zh) 一种结合特征点和锚框共同预测和回归的目标检测方法
CN111461063B (zh) 一种基于图卷积和胶囊神经网络的行为识别方法
CN113420703B (zh) 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN111241963A (zh) 基于交互建模的第一人称视角视频交互行为识别方法
CN115966010A (zh) 一种基于注意力和多尺度特征融合的表情识别方法
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
Zhao et al. Human action recognition based on improved fusion attention CNN and RNN
CN113705384A (zh) 一种考虑局部时空特性和全局时序线索的面部表情识别方法
Guo et al. Facial expression recognition: a review
CN103235943A (zh) 基于pca的3d人脸识别***
CN110782503B (zh) 一种基于两分支深度相关网络的人脸图像合成方法和装置
CN112270221A (zh) 一种融合四季色彩理论的服装个性化推荐方法
CN109583406B (zh) 基于特征关注机制的人脸表情识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant