CN116188605A - 基于静态和动态表情图像的联合表情编码***及其方法 - Google Patents

基于静态和动态表情图像的联合表情编码***及其方法 Download PDF

Info

Publication number
CN116188605A
CN116188605A CN202211687009.5A CN202211687009A CN116188605A CN 116188605 A CN116188605 A CN 116188605A CN 202211687009 A CN202211687009 A CN 202211687009A CN 116188605 A CN116188605 A CN 116188605A
Authority
CN
China
Prior art keywords
image
expression
dynamic
generating
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211687009.5A
Other languages
English (en)
Other versions
CN116188605B (zh
Inventor
栗觅
陈阳阳
王钰琪
胡斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202211687009.5A priority Critical patent/CN116188605B/zh
Publication of CN116188605A publication Critical patent/CN116188605A/zh
Application granted granted Critical
Publication of CN116188605B publication Critical patent/CN116188605B/zh
Priority to US18/528,827 priority patent/US20240212389A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于静态和动态表情图像的联合表情编码***,包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块。同时公开了一种基于上述***的联合表情编码方法,采用上述一种基于静态和动态表情图像的联合表情编码***及其方法,将静态表情图像和动态表情图像按照编码方法合并到一张图像中,使其能够同时表征静态的和动态的表情信息,提高基于面部表情的情感识别能力。

Description

基于静态和动态表情图像的联合表情编码***及其方法
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种基于静态和动态表情图像的联合表情编码***及其方法。
背景技术
在人际交往中,面部表情作为非语言信号在情感表达中起着重要的作用。表情分为静态和动态两种。静态表情是指表***中,各帧图像表征的表情信息,而动态表情是指相邻两帧之间变化的信息。
目前,基于面部图像和深度学习的情感识别研究中,尽管使用静态和动态面部图像的信息融合和3维卷积方法(同时对于面部外观和时序进行卷积)取得了良好的性能。但是,静态和动态特征是通过各自通道独立提取的,缺少静态和动态信息的内在关联,影响了表情特征的表征能力。尽管3维卷积可以同时提取空间和时间信息,但是因为计算量大和效率低下而将视频分为若干子视频,使得卷积无法很好地提取动态特征,影响了情感识别性能。
发明内容
本发明的目的是解决上述背景技术存在的问题,本发明将静态表情图像和动态表情图像按照编码方法合并到一张图像中,使其能够同时表征静态的和动态的表情信息,提高基于面部表情的情感识别能力。
为实现上述目的,本发明提供了一种基于静态和动态表情图像的联合表情编码***,包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块;
所述图像预处理模块与表***输入端相连接,用于对输入的表***进行图像预处理;
所述图像预处理模块与所述动态表情图像生成模块相连接,用于将预处理后的图像生成动态表情图像;
所述动态表情图像生成模块与所述动态权重图像生成模块相连接,用于根据动态表情图像生成动态权重图像;
所述动态权重图像生成模块与所述联合表情编码图像生成模块相连接,用于根据动态权重图像和静态图像生成联合表情编码图像。
一种基于上述***的联合表情编码方法,具体步骤如下:
步骤S1:对输入的表***图像进行图像预处理;
步骤S2:根据预处理后的表***生成动态表情图像;
步骤S3:根据动态表情图像生成动态权重图像;
步骤S4:根据动态权重图像和静态图像生成联合表情编码图像。
优选的,所述图像预处理包括下采样、图像裁剪以及图像对齐。
优选的,根据相邻两帧的图像计算生成动态表情图像的具体步骤如下:
步骤S21:计算运动矢量,计算公式如下:
Figure BDA0004019706460000021
其中,P(x)是t时刻图像It的一个区域块,以x=(x,y)为中心点,最小化P(x)和t+1时刻图像It+1中相应区域块的差的平方和得到运动矢量u=(u,v),u,v表示运动方向和运动速度,即该区域块在两张图像间的光流估计,u′是运动矢量的一阶导数。
步骤S22:计算动态图像,计算公式如下:
Figure BDA0004019706460000022
其中,Id是t和t+1时刻相邻两帧图像It+1和It之间的光流场,即动态图像。Ns是图像中区域块的数量,ui为相邻两帧图像中相对应的第i个区域块的运动矢量的光流估计。
Zi=λi/max(1,||di(x)||2)
di(x)=It+1(x+ui)-P(x)
λi是一个指示变量,仅当相邻两图像中的相对应的区域块重叠时λi=1。
优选的,根据动态表情图像生成动态权重图像的具体步骤如下:
步骤S31:对于动态表情图像进行归一化处理,处理公式如下:
Figure BDA0004019706460000031
步骤S32:根据归一化后的动态图像Id′计算生成权重图像Id”,生成公式如下:
Figure BDA0004019706460000032
优选的,步骤S4具体为:
根据权重图像Id”计算静态图像Is的每个像素值,得到联合表情编码图像,计算公式如下:
Figure BDA0004019706460000033
其中,Ic为联合表情编码图像,
Figure BDA0004019706460000034
表示元素乘法。
因此,本发明具有的有益效果为:将静态和动态表情进行联合编码,生成包括静态和动态表情的联合编码的表情图像,使用同一空间同时表征表情的静态和动态信息,从而提高情感识别能力。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于静态和动态表情图像的联合表情编码***结构示意图;
图2为本发明联合表情编码方法的流程图;
图3为本发明实施例1数据处理流程图;
图4为本发明实施例2数据处理流程图。
具体实施方式
实施例
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的一些实施方式作详细说明。
一种基于静态和动态表情图像的联合表情编码***,包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块。
所述图像预处理模块与表***输入端相连接,用于对输入的表***进行图像预处理。所述图像预处理模块与所述动态表情图像生成模块相连接,用于将预处理后的图像生成动态表情图像。所述动态表情图像生成模块与所述动态权重图像生成模块相连接,用于根据动态表情图像生成动态权重图像。所述动态权重图像生成模块与所述联合表情编码图像生成模块相连接,用于根据动态权重图像和静态图像生成联合表情编码图像。
一种基于上述***的联合表情编码方法,具体步骤如下:
步骤S1:对输入的表***图像进行图像预处理,所述图像预处理包括下采样、图像裁剪以及图像对齐。
步骤S2:根据预处理后的表***生成动态表情图像。
根据相邻两帧的图像计算生成动态表情图像的具体步骤如下:
步骤S21:计算运动矢量,计算公式如下:
Figure BDA0004019706460000051
其中,P(x)是t时刻图像It的一个区域块,以x=(x,y)为中心点,最小化P(x)和t+1时刻图像It+1中相应区域块的差的平方和得到运动矢量u=(u,v),u,v表示运动方向和运动速度,即该区域块在两张图像间的光流估计,u′是运动矢量的一阶导数。
步骤S22:计算动态图像,计算公式如下:
Figure BDA0004019706460000052
其中,Id是t和t+1时刻相邻两帧图像It+1和It之间的光流场,即动态图像。Ns是图像中区域块的数量,ui为相邻两帧图像中相对应的第i个区域块的运动矢量的光流估计。
Zi=λi/max(1,||di(x)||2)
di(x)=It+1(x+ui)-P(x)
λi是一个指示变量,仅当相邻两图像中的相对应的区域块重叠时λi=1。
步骤S3:根据动态表情图像生成动态权重图像。
根据动态表情图像生成动态权重图像的具体步骤如下:
步骤S31:对于动态表情图像进行归一化处理,处理公式如下:
Figure BDA0004019706460000061
步骤S32:根据归一化后的动态图像Id′计算生成权重图像Id”,生成公式如下:
Figure BDA0004019706460000062
步骤S4:根据动态权重图像和静态图像生成联合表情编码图像。
根据权重图像Id”计算静态图像Is的每个像素值,得到联合表情编码图像,计算公式如下:
Figure BDA0004019706460000063
其中,Ic为联合表情编码图像,
Figure BDA0004019706460000064
表示元素乘法。
实施例1
本实施例用于表情识别。
表情识别数据集使用公开的动态表情库CK+和Oulu-CASIA分别进行表情识别。
CK+Dataset:包含123名受试者的593个表情序列,其中,有327个表情序列带有情绪标签,共有7种情绪:愤怒,轻蔑,厌恶,恐惧,快乐,悲伤,惊讶。所有表情图像序列都是从中性表情开始逐渐过渡到峰值表情结束。
Oulu-CASIA Dataset:包含80名年龄在23-58岁的受试者的480个表情序列,共有6种情绪,分别是:愤怒、厌恶、恐惧、快乐、悲伤、惊喜。表情图像序列从中性情绪开始,以情绪的峰值结束。
图3为本发明实施例1数据处理流程图,如图3所示,在公开的表情数据集中,每一帧表情图像都包含了背景等干扰因素,如图3中的(a)行所示,因此,首先对表情图像进行裁剪和人脸对齐,得到预处理后的表情图像,如图3中的(b)行所示;其次是根据相邻两帧图像计算生成动态表情图像,如图3中的(c)行所示;然后将动态表情图像归一化并且计算生成动态表情权重图像,如图3中的(d)行所示;最后根据动态表情权重图像和静态图像计算生成联合编码表情图像,如图3中的(e)行所示。
表1所示的是不同方法在CK+和Oulu-CASIA数据集上使用深度学习方法的分类结果。
表1.基于不同表情图像的情感识别能力的比较(准确率±标准差)%
Figure BDA0004019706460000071
可以看出,基于联合编码表情图像的分类准确率显著大于基于静态表情、基于动态表情、基于静态与动态表情融合以及3D编码方法的分类准确率。
实施例2
本实施例用于抑郁症表情识别,抑郁症识别数据集使用用于抑郁症识别的表情数据集(EFEV),创建的表情数据集(EFEV)包括86名抑郁症患者和44名正常人。在采集数据时,让参试者分别观看快乐和悲伤的视频短片(每段视频持续90s),使用相机同步采集参试者的面部表情。摄像装置以分辨率1280*960和80帧/秒的采样频率记录参试者观看视频时的面部表情变化,最终每个参试者共被记录14400帧的面部表情图像。
图4为本发明实施例2数据处理流程图,如图4所示,在EFEV表情数据集中,每个视频有14,400帧图像。由于相邻两帧图像的表情变化很微小,我们对数据集进行下采样,每10帧抽取一帧图像,这样每个视频得到1440张的面部表情图像。
每一帧表情图像都包含了背景等干扰因素,因此,首先对表情图像进行裁剪和人脸对齐,得到预处理后的表情图像,如图4中的(a)行所示;其次是根据相邻两帧图像计算生成动态表情图像,如图4中的(b)行所示;然后将动态表情图像归一化并且计算生成动态表情权重图像,如图4中的(c)行所示;最后根据动态表情权重图像和静态图像计算生成联合编码表情图像,如图4中的(d)行所示。
表2所示的是不同方法在EFEV数据集上使用深度学习方法的分类结果。
表2.基于不同表情图像的抑郁症识别能力的比较(准确率±标准差)%
Figure BDA0004019706460000081
可以看出,基于联合编码表情图像的分类性能显著大于基于静态表情、基于动态表情、基于静态与动态表情融合以及3D编码方法的分类性能。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (6)

1.一种基于静态和动态表情图像的联合表情编码***,其特征在于:包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块;
所述图像预处理模块与表***输入端相连接,用于对输入的表***进行图像预处理;
所述图像预处理模块与所述动态表情图像生成模块相连接,用于将预处理后的图像生成动态表情图像;
所述动态表情图像生成模块与所述动态权重图像生成模块相连接,用于根据动态表情图像生成动态权重图像;
所述动态权重图像生成模块与所述联合表情编码图像生成模块相连接,用于根据动态权重图像和静态图像生成联合表情编码图像。
2.一种基于权利要求1所述的基于静态和动态表情图像的联合表情编码***的联合表情编码方法,其特征在于,具体步骤如下:
步骤S1:对输入的表***图像进行图像预处理;
步骤S2:根据预处理后的表***生成动态表情图像;
步骤S3:根据动态表情图像生成动态权重图像;
步骤S4:根据动态权重图像和静态图像生成联合表情编码图像。
3.根据权利要求2所述的联合表情编码方法,其特征在于:所述图像预处理包括下采样、图像裁剪以及图像对齐。
4.根据权利要求3所述的联合表情编码方法,其特征在于,根据相邻两帧的图像计算生成动态表情图像的具体步骤如下:
步骤S21:计算运动矢量,计算公式如下:
Figure FDA0004019706450000011
其中,P(x)是t时刻图像It的一个区域块,以x=(x,y)为中心点,最小化P(x)和t+1时刻图像It+1中相应区域块的差的平方和得到运动矢量u=(u,v),u,v表示运动方向和运动速度,即该区域块在两张图像间的光流估计,u′是运动矢量的一阶导数;
步骤S22:计算动态图像,计算公式如下:
Figure FDA0004019706450000021
其中,Id是t和t+1时刻相邻两帧图像It+1和It之间的光流场,即动态图像,Ns是图像中区域块的数量,ui为相邻两帧图像中相对应的第i个区域块的运动矢量的光流估计;
Zi=λi/max(1,||di(x)||2)
di(x)=It+1(x+ui)-P(x)
λi是一个指示变量,仅当相邻两图像中的相对应的区域块重叠时λi=1。
5.根据权利要求4所述的联合表情编码方法,其特征在于,根据动态表情图像生成动态权重图像的具体步骤如下:
步骤S31:对于动态表情图像进行归一化处理,处理公式如下:
Figure FDA0004019706450000022
步骤S32:根据归一化后的动态图像Id′计算生成权重图像Id”,生成公式如下:
Figure FDA0004019706450000023
6.根据权利要求5所述的联合表情编码方法,其特征在于,步骤S4具体为:
根据权重图像Id”计算静态图像Is的每个像素值,得到联合表情编码图像,计算公式如下:
Figure FDA0004019706450000024
其中,Ic为联合表情编码图像,
Figure FDA0004019706450000025
表示元素乘法。/>
CN202211687009.5A 2022-12-27 2022-12-27 基于静态和动态表情图像的联合表情编码***及其方法 Active CN116188605B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211687009.5A CN116188605B (zh) 2022-12-27 2022-12-27 基于静态和动态表情图像的联合表情编码***及其方法
US18/528,827 US20240212389A1 (en) 2022-12-27 2023-12-05 Joint expression coding system and method based on static and dynamic expression images

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211687009.5A CN116188605B (zh) 2022-12-27 2022-12-27 基于静态和动态表情图像的联合表情编码***及其方法

Publications (2)

Publication Number Publication Date
CN116188605A true CN116188605A (zh) 2023-05-30
CN116188605B CN116188605B (zh) 2023-09-26

Family

ID=86435558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211687009.5A Active CN116188605B (zh) 2022-12-27 2022-12-27 基于静态和动态表情图像的联合表情编码***及其方法

Country Status (2)

Country Link
US (1) US20240212389A1 (zh)
CN (1) CN116188605B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114220154A (zh) * 2021-12-20 2022-03-22 王越 一种基于深度学习的微表情特征提取与识别方法
WO2022111236A1 (zh) * 2020-11-24 2022-06-02 华中师范大学 一种结合注意力机制的面部表情识别方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022111236A1 (zh) * 2020-11-24 2022-06-02 华中师范大学 一种结合注意力机制的面部表情识别方法及***
CN114220154A (zh) * 2021-12-20 2022-03-22 王越 一种基于深度学习的微表情特征提取与识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王晓华;夏晨;胡敏;任福继;: "融合时空特征的视频序列表情识别", 电子与信息学报, no. 03 *
贾熹滨;闻春城;包锡元;: "基于动态图像序列的表情识别", 北京工业大学学报, no. 09 *

Also Published As

Publication number Publication date
US20240212389A1 (en) 2024-06-27
CN116188605B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
Ji et al. Eamm: One-shot emotional talking face via audio-based emotion-aware motion model
Zhang et al. Facial: Synthesizing dynamic talking face with implicit attribute learning
CN113378697B (zh) 一种基于卷积神经网络的说话人脸视频生成方法及装置
CN109508669B (zh) 一种基于生成式对抗网络的人脸表情识别方法
CN111212245B (zh) 一种合成视频的方法和装置
Zhao et al. Invertible image decolorization
CN111160264B (zh) 一种基于生成对抗网络的漫画人物身份识别方法
CN111046734B (zh) 基于膨胀卷积的多模态融合视线估计方法
CN112270644A (zh) 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
CN108921032B (zh) 一种新的基于深度学习模型的视频语义提取方法
CN111488932B (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
CN108805036B (zh) 一种非监督视频语义提取方法
CN112507920B (zh) 一种基于时间位移和注意力机制的考试异常行为识别方法
CN110351548B (zh) 一种深度学习及视差图加权指导的立体图像质量评价方法
CN108376234B (zh) 用于视频图像的情感识别***及方法
Tan et al. Emmn: Emotional motion memory network for audio-driven emotional talking face generation
CN115171052B (zh) 基于高分辨率上下文网络的拥挤人群姿态估计方法
CN115100329A (zh) 基于多模态驱动的情感可控面部动画生成方法
CN116091315A (zh) 一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法
Kumar et al. Robust one shot audio to video generation
CN116188605B (zh) 基于静态和动态表情图像的联合表情编码***及其方法
Wang et al. Emotional talking head generation based on memory-sharing and attention-augmented networks
CN114202787A (zh) 一种基于深度学习和二维注意力机制的多帧微表情情感识别方法
Kim et al. Facial dynamic modelling using long short-term memory network: Analysis and application to face authentication
Wen et al. Video super resolution enhancement based on two-stage 3D convolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant