CN116188605A - 基于静态和动态表情图像的联合表情编码***及其方法 - Google Patents
基于静态和动态表情图像的联合表情编码***及其方法 Download PDFInfo
- Publication number
- CN116188605A CN116188605A CN202211687009.5A CN202211687009A CN116188605A CN 116188605 A CN116188605 A CN 116188605A CN 202211687009 A CN202211687009 A CN 202211687009A CN 116188605 A CN116188605 A CN 116188605A
- Authority
- CN
- China
- Prior art keywords
- image
- expression
- dynamic
- generating
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 154
- 230000003068 static effect Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008921 facial expression Effects 0.000 abstract description 7
- 230000008909 emotion recognition Effects 0.000 abstract description 6
- 230000008451 emotion Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 206010063659 Aversion Diseases 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于静态和动态表情图像的联合表情编码***,包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块。同时公开了一种基于上述***的联合表情编码方法,采用上述一种基于静态和动态表情图像的联合表情编码***及其方法,将静态表情图像和动态表情图像按照编码方法合并到一张图像中,使其能够同时表征静态的和动态的表情信息,提高基于面部表情的情感识别能力。
Description
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种基于静态和动态表情图像的联合表情编码***及其方法。
背景技术
在人际交往中,面部表情作为非语言信号在情感表达中起着重要的作用。表情分为静态和动态两种。静态表情是指表***中,各帧图像表征的表情信息,而动态表情是指相邻两帧之间变化的信息。
目前,基于面部图像和深度学习的情感识别研究中,尽管使用静态和动态面部图像的信息融合和3维卷积方法(同时对于面部外观和时序进行卷积)取得了良好的性能。但是,静态和动态特征是通过各自通道独立提取的,缺少静态和动态信息的内在关联,影响了表情特征的表征能力。尽管3维卷积可以同时提取空间和时间信息,但是因为计算量大和效率低下而将视频分为若干子视频,使得卷积无法很好地提取动态特征,影响了情感识别性能。
发明内容
本发明的目的是解决上述背景技术存在的问题,本发明将静态表情图像和动态表情图像按照编码方法合并到一张图像中,使其能够同时表征静态的和动态的表情信息,提高基于面部表情的情感识别能力。
为实现上述目的,本发明提供了一种基于静态和动态表情图像的联合表情编码***,包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块;
所述图像预处理模块与表***输入端相连接,用于对输入的表***进行图像预处理;
所述图像预处理模块与所述动态表情图像生成模块相连接,用于将预处理后的图像生成动态表情图像;
所述动态表情图像生成模块与所述动态权重图像生成模块相连接,用于根据动态表情图像生成动态权重图像;
所述动态权重图像生成模块与所述联合表情编码图像生成模块相连接,用于根据动态权重图像和静态图像生成联合表情编码图像。
一种基于上述***的联合表情编码方法,具体步骤如下:
步骤S1:对输入的表***图像进行图像预处理;
步骤S2:根据预处理后的表***生成动态表情图像;
步骤S3:根据动态表情图像生成动态权重图像;
步骤S4:根据动态权重图像和静态图像生成联合表情编码图像。
优选的,所述图像预处理包括下采样、图像裁剪以及图像对齐。
优选的,根据相邻两帧的图像计算生成动态表情图像的具体步骤如下:
步骤S21:计算运动矢量,计算公式如下:
其中,P(x)是t时刻图像It的一个区域块,以x=(x,y)为中心点,最小化P(x)和t+1时刻图像It+1中相应区域块的差的平方和得到运动矢量u=(u,v),u,v表示运动方向和运动速度,即该区域块在两张图像间的光流估计,u′是运动矢量的一阶导数。
步骤S22:计算动态图像,计算公式如下:
其中,Id是t和t+1时刻相邻两帧图像It+1和It之间的光流场,即动态图像。Ns是图像中区域块的数量,ui为相邻两帧图像中相对应的第i个区域块的运动矢量的光流估计。
Zi=λi/max(1,||di(x)||2)
di(x)=It+1(x+ui)-P(x)
λi是一个指示变量,仅当相邻两图像中的相对应的区域块重叠时λi=1。
优选的,根据动态表情图像生成动态权重图像的具体步骤如下:
步骤S31:对于动态表情图像进行归一化处理,处理公式如下:
步骤S32:根据归一化后的动态图像Id′计算生成权重图像Id”,生成公式如下:
优选的,步骤S4具体为:
根据权重图像Id”计算静态图像Is的每个像素值,得到联合表情编码图像,计算公式如下:
因此,本发明具有的有益效果为:将静态和动态表情进行联合编码,生成包括静态和动态表情的联合编码的表情图像,使用同一空间同时表征表情的静态和动态信息,从而提高情感识别能力。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于静态和动态表情图像的联合表情编码***结构示意图;
图2为本发明联合表情编码方法的流程图;
图3为本发明实施例1数据处理流程图;
图4为本发明实施例2数据处理流程图。
具体实施方式
实施例
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的一些实施方式作详细说明。
一种基于静态和动态表情图像的联合表情编码***,包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块。
所述图像预处理模块与表***输入端相连接,用于对输入的表***进行图像预处理。所述图像预处理模块与所述动态表情图像生成模块相连接,用于将预处理后的图像生成动态表情图像。所述动态表情图像生成模块与所述动态权重图像生成模块相连接,用于根据动态表情图像生成动态权重图像。所述动态权重图像生成模块与所述联合表情编码图像生成模块相连接,用于根据动态权重图像和静态图像生成联合表情编码图像。
一种基于上述***的联合表情编码方法,具体步骤如下:
步骤S1:对输入的表***图像进行图像预处理,所述图像预处理包括下采样、图像裁剪以及图像对齐。
步骤S2:根据预处理后的表***生成动态表情图像。
根据相邻两帧的图像计算生成动态表情图像的具体步骤如下:
步骤S21:计算运动矢量,计算公式如下:
其中,P(x)是t时刻图像It的一个区域块,以x=(x,y)为中心点,最小化P(x)和t+1时刻图像It+1中相应区域块的差的平方和得到运动矢量u=(u,v),u,v表示运动方向和运动速度,即该区域块在两张图像间的光流估计,u′是运动矢量的一阶导数。
步骤S22:计算动态图像,计算公式如下:
其中,Id是t和t+1时刻相邻两帧图像It+1和It之间的光流场,即动态图像。Ns是图像中区域块的数量,ui为相邻两帧图像中相对应的第i个区域块的运动矢量的光流估计。
Zi=λi/max(1,||di(x)||2)
di(x)=It+1(x+ui)-P(x)
λi是一个指示变量,仅当相邻两图像中的相对应的区域块重叠时λi=1。
步骤S3:根据动态表情图像生成动态权重图像。
根据动态表情图像生成动态权重图像的具体步骤如下:
步骤S31:对于动态表情图像进行归一化处理,处理公式如下:
步骤S32:根据归一化后的动态图像Id′计算生成权重图像Id”,生成公式如下:
步骤S4:根据动态权重图像和静态图像生成联合表情编码图像。
根据权重图像Id”计算静态图像Is的每个像素值,得到联合表情编码图像,计算公式如下:
实施例1
本实施例用于表情识别。
表情识别数据集使用公开的动态表情库CK+和Oulu-CASIA分别进行表情识别。
CK+Dataset:包含123名受试者的593个表情序列,其中,有327个表情序列带有情绪标签,共有7种情绪:愤怒,轻蔑,厌恶,恐惧,快乐,悲伤,惊讶。所有表情图像序列都是从中性表情开始逐渐过渡到峰值表情结束。
Oulu-CASIA Dataset:包含80名年龄在23-58岁的受试者的480个表情序列,共有6种情绪,分别是:愤怒、厌恶、恐惧、快乐、悲伤、惊喜。表情图像序列从中性情绪开始,以情绪的峰值结束。
图3为本发明实施例1数据处理流程图,如图3所示,在公开的表情数据集中,每一帧表情图像都包含了背景等干扰因素,如图3中的(a)行所示,因此,首先对表情图像进行裁剪和人脸对齐,得到预处理后的表情图像,如图3中的(b)行所示;其次是根据相邻两帧图像计算生成动态表情图像,如图3中的(c)行所示;然后将动态表情图像归一化并且计算生成动态表情权重图像,如图3中的(d)行所示;最后根据动态表情权重图像和静态图像计算生成联合编码表情图像,如图3中的(e)行所示。
表1所示的是不同方法在CK+和Oulu-CASIA数据集上使用深度学习方法的分类结果。
表1.基于不同表情图像的情感识别能力的比较(准确率±标准差)%
可以看出,基于联合编码表情图像的分类准确率显著大于基于静态表情、基于动态表情、基于静态与动态表情融合以及3D编码方法的分类准确率。
实施例2
本实施例用于抑郁症表情识别,抑郁症识别数据集使用用于抑郁症识别的表情数据集(EFEV),创建的表情数据集(EFEV)包括86名抑郁症患者和44名正常人。在采集数据时,让参试者分别观看快乐和悲伤的视频短片(每段视频持续90s),使用相机同步采集参试者的面部表情。摄像装置以分辨率1280*960和80帧/秒的采样频率记录参试者观看视频时的面部表情变化,最终每个参试者共被记录14400帧的面部表情图像。
图4为本发明实施例2数据处理流程图,如图4所示,在EFEV表情数据集中,每个视频有14,400帧图像。由于相邻两帧图像的表情变化很微小,我们对数据集进行下采样,每10帧抽取一帧图像,这样每个视频得到1440张的面部表情图像。
每一帧表情图像都包含了背景等干扰因素,因此,首先对表情图像进行裁剪和人脸对齐,得到预处理后的表情图像,如图4中的(a)行所示;其次是根据相邻两帧图像计算生成动态表情图像,如图4中的(b)行所示;然后将动态表情图像归一化并且计算生成动态表情权重图像,如图4中的(c)行所示;最后根据动态表情权重图像和静态图像计算生成联合编码表情图像,如图4中的(d)行所示。
表2所示的是不同方法在EFEV数据集上使用深度学习方法的分类结果。
表2.基于不同表情图像的抑郁症识别能力的比较(准确率±标准差)%
可以看出,基于联合编码表情图像的分类性能显著大于基于静态表情、基于动态表情、基于静态与动态表情融合以及3D编码方法的分类性能。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (6)
1.一种基于静态和动态表情图像的联合表情编码***,其特征在于:包括图像预处理模块、动态表情图像生成模块、动态权重图像生成模块和联合表情编码图像生成模块;
所述图像预处理模块与表***输入端相连接,用于对输入的表***进行图像预处理;
所述图像预处理模块与所述动态表情图像生成模块相连接,用于将预处理后的图像生成动态表情图像;
所述动态表情图像生成模块与所述动态权重图像生成模块相连接,用于根据动态表情图像生成动态权重图像;
所述动态权重图像生成模块与所述联合表情编码图像生成模块相连接,用于根据动态权重图像和静态图像生成联合表情编码图像。
2.一种基于权利要求1所述的基于静态和动态表情图像的联合表情编码***的联合表情编码方法,其特征在于,具体步骤如下:
步骤S1:对输入的表***图像进行图像预处理;
步骤S2:根据预处理后的表***生成动态表情图像;
步骤S3:根据动态表情图像生成动态权重图像;
步骤S4:根据动态权重图像和静态图像生成联合表情编码图像。
3.根据权利要求2所述的联合表情编码方法,其特征在于:所述图像预处理包括下采样、图像裁剪以及图像对齐。
4.根据权利要求3所述的联合表情编码方法,其特征在于,根据相邻两帧的图像计算生成动态表情图像的具体步骤如下:
步骤S21:计算运动矢量,计算公式如下:
其中,P(x)是t时刻图像It的一个区域块,以x=(x,y)为中心点,最小化P(x)和t+1时刻图像It+1中相应区域块的差的平方和得到运动矢量u=(u,v),u,v表示运动方向和运动速度,即该区域块在两张图像间的光流估计,u′是运动矢量的一阶导数;
步骤S22:计算动态图像,计算公式如下:
其中,Id是t和t+1时刻相邻两帧图像It+1和It之间的光流场,即动态图像,Ns是图像中区域块的数量,ui为相邻两帧图像中相对应的第i个区域块的运动矢量的光流估计;
Zi=λi/max(1,||di(x)||2)
di(x)=It+1(x+ui)-P(x)
λi是一个指示变量,仅当相邻两图像中的相对应的区域块重叠时λi=1。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211687009.5A CN116188605B (zh) | 2022-12-27 | 2022-12-27 | 基于静态和动态表情图像的联合表情编码***及其方法 |
US18/528,827 US20240212389A1 (en) | 2022-12-27 | 2023-12-05 | Joint expression coding system and method based on static and dynamic expression images |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211687009.5A CN116188605B (zh) | 2022-12-27 | 2022-12-27 | 基于静态和动态表情图像的联合表情编码***及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116188605A true CN116188605A (zh) | 2023-05-30 |
CN116188605B CN116188605B (zh) | 2023-09-26 |
Family
ID=86435558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211687009.5A Active CN116188605B (zh) | 2022-12-27 | 2022-12-27 | 基于静态和动态表情图像的联合表情编码***及其方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240212389A1 (zh) |
CN (1) | CN116188605B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114220154A (zh) * | 2021-12-20 | 2022-03-22 | 王越 | 一种基于深度学习的微表情特征提取与识别方法 |
WO2022111236A1 (zh) * | 2020-11-24 | 2022-06-02 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及*** |
-
2022
- 2022-12-27 CN CN202211687009.5A patent/CN116188605B/zh active Active
-
2023
- 2023-12-05 US US18/528,827 patent/US20240212389A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022111236A1 (zh) * | 2020-11-24 | 2022-06-02 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及*** |
CN114220154A (zh) * | 2021-12-20 | 2022-03-22 | 王越 | 一种基于深度学习的微表情特征提取与识别方法 |
Non-Patent Citations (2)
Title |
---|
王晓华;夏晨;胡敏;任福继;: "融合时空特征的视频序列表情识别", 电子与信息学报, no. 03 * |
贾熹滨;闻春城;包锡元;: "基于动态图像序列的表情识别", 北京工业大学学报, no. 09 * |
Also Published As
Publication number | Publication date |
---|---|
US20240212389A1 (en) | 2024-06-27 |
CN116188605B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ji et al. | Eamm: One-shot emotional talking face via audio-based emotion-aware motion model | |
Zhang et al. | Facial: Synthesizing dynamic talking face with implicit attribute learning | |
CN113378697B (zh) | 一种基于卷积神经网络的说话人脸视频生成方法及装置 | |
CN109508669B (zh) | 一种基于生成式对抗网络的人脸表情识别方法 | |
CN111212245B (zh) | 一种合成视频的方法和装置 | |
Zhao et al. | Invertible image decolorization | |
CN111160264B (zh) | 一种基于生成对抗网络的漫画人物身份识别方法 | |
CN111046734B (zh) | 基于膨胀卷积的多模态融合视线估计方法 | |
CN112270644A (zh) | 基于空间特征变换和跨尺度特征集成的人脸超分辨方法 | |
CN108921032B (zh) | 一种新的基于深度学习模型的视频语义提取方法 | |
CN111488932B (zh) | 一种基于帧率感知的自监督视频时-空表征学习方法 | |
CN108805036B (zh) | 一种非监督视频语义提取方法 | |
CN112507920B (zh) | 一种基于时间位移和注意力机制的考试异常行为识别方法 | |
CN110351548B (zh) | 一种深度学习及视差图加权指导的立体图像质量评价方法 | |
CN108376234B (zh) | 用于视频图像的情感识别***及方法 | |
Tan et al. | Emmn: Emotional motion memory network for audio-driven emotional talking face generation | |
CN115171052B (zh) | 基于高分辨率上下文网络的拥挤人群姿态估计方法 | |
CN115100329A (zh) | 基于多模态驱动的情感可控面部动画生成方法 | |
CN116091315A (zh) | 一种基于渐进训练和人脸语义分割的人脸超分辨率重建方法 | |
Kumar et al. | Robust one shot audio to video generation | |
CN116188605B (zh) | 基于静态和动态表情图像的联合表情编码***及其方法 | |
Wang et al. | Emotional talking head generation based on memory-sharing and attention-augmented networks | |
CN114202787A (zh) | 一种基于深度学习和二维注意力机制的多帧微表情情感识别方法 | |
Kim et al. | Facial dynamic modelling using long short-term memory network: Analysis and application to face authentication | |
Wen et al. | Video super resolution enhancement based on two-stage 3D convolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |