CN111488856B - 一种基于正交引导学习的多模态2d及3d人脸表情识别方法 - Google Patents
一种基于正交引导学习的多模态2d及3d人脸表情识别方法 Download PDFInfo
- Publication number
- CN111488856B CN111488856B CN202010347655.1A CN202010347655A CN111488856B CN 111488856 B CN111488856 B CN 111488856B CN 202010347655 A CN202010347655 A CN 202010347655A CN 111488856 B CN111488856 B CN 111488856B
- Authority
- CN
- China
- Prior art keywords
- map
- orthogonal
- feature
- expression recognition
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
一种基于正交引导学习的多模态2D及3D人脸表情识别方法,它涉及计算机视觉技术领域。它利用人脸点云数据生成三张属性图,分别为深度图、方位图、立面图,所述的深度图、方位图、立面图合成一个三通道的RGB图,所述的RGB图作为网络中某一条支路的输入,减少了模型的参数量。以该发明一种基于正交引导学习的多模态2D及3D人脸表情识别方法,降低深度学习网络的复杂度以及抑制网络中不同分支提取的特征之间的冗余,产生了很好的经济效益和社会效益。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于正交引导学习的多模态2D及3D人脸表情识别方法。
背景技术
随着深度学习的快速发展,多模态2D及3D人脸表情识别(FER)在计算机视觉领域中受到广泛的关注。这些基于深度学习的方法都是先利用3D点云数据提取到多张3D属性图,将这几张属性图和2D人脸图作为输入,分别送入到CNN网络的各个特征提取支路中,最后,将每条支路提取到的特征进行融合来作为分类器的输入。但是,由于2D彩色图和3D属性图都是来自于同一个样本,导致每条支路学习到的特征可能会存在冗余,不利于直接进行特征融合,另外,对于每一张属性图都采用一个支路去提取特征,大大增加了模型的复杂度。
发明内容
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于正交引导学习的多模态2D及3D人脸表情识别方法,降低深度学习网络的复杂度以及抑制网络中不同分支提取的特征之间的冗余。
为实现上述目的,本发明采用以下技术方案是:它利用人脸点云数据生成三张属性图,分别为深度图、方位图、立面图,所述的深度图、方位图、立面图合成一个三通道的RGB图,所述的RGB图作为网络中某一条支路的输入,减少了模型的参数量。
所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,引入一个正交模块保证在特征融合时特征是正交的。
所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,特征提取部分使用两个不同结构的网络分支来分别提取2D人脸图和3D属性图的特征,分别定义为FE2DNet和FE3DNet,FE2DNet是VGG网络的变形,而FE3DNet则是Resnet的衍生。
所述的一种基于正交引导学***均,那么这些关键区域的语义信息则很可能被忽略掉。
所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,每张特征图均设置有与之大小相同的权重图,权重图中的权值可由梯度下降更新,输出的特征向量由特征图和权重图点积计算得到,其计算如下公式所示:(其中xk,yk,wk分别表示特征图、权重图和对应特征向量元素的值),经过大量的面部数据训练后,权重图会更加关注特定的空间区域,权重图中权值越大表示该空间区域对与最终分类结果的贡献越大。
所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,两条通道的输入图像都是来自于同一个人脸的2D灰度图和3D属性图,特征提取器提取到的特征向量V1和V2可能会存在冗余,进行特征融合之前,让V1和V2经过一个正交引导模块,使得输出的特征向量F1和F2正交,去除掉两个向量之间的冗余部分。正交引导模块是由一层全连接层和Relu层构成。
所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,
正交引导模块分别以V1和V2作为输入,通过全连接层对其进行转换,并输出两个正交特征F1和F2,设计一个正交损失函数Lorth来监督正交引导模块权重的更新,以确保F1和F2之间的正交性。Lorth的公式定义如下:其中θ为F1和F2之间的夹角。当损失函数Lorth越接近0时,代表夹角θ越接近90度,此时F1和F2之间越正交,即不相关。
本发明的工作原理:一种基于正交引导学习的多模态2D及3D人脸表情识别方法,利用人脸点云数据生成三张属性图,分别为深度图、方位图、立面图,所述的深度图、方位图、立面图合成一个三通道的RGB图,引入一个正交模块保证在特征融合时特征是正交的,在进行特征融合之前,我们先让V1和V2经过一个正交引导模块,使得输出的特征向量F1和F2正交,去除掉两个向量之间的冗余部分。
采用上述技术方案后,本发明有益效果为:以该发明一种基于正交引导学习的多模态2D及3D人脸表情识别方法,降低深度学习网络的复杂度以及抑制网络中不同分支提取的特征之间的冗余,产生了很好的经济效益和社会效益。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的网络结构及其流程示意图;
图2是本发明的FE2DNet和FE3DNet的网络结构示意图;
图3是本发明的GWP操作结构流程示意图;
图4是本发明的正交引导模块结构流程示意图。
具体实施方式
参看图1~图4所示,本具体实施方式采用的技术方案是:它利用人脸点云数据生成三张属性图,分别为深度图、方位图、立面图,所述的深度图、方位图、立面图合成一个三通道的RGB图,所述的RGB图作为网络中某一条支路的输入,减少了模型的参数量。
进一步的,所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,引入一个正交模块保证在特征融合时特征是正交的。
进一步的,所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,特征提取部分使用两个不同结构的网络分支来分别提取2D人脸图和3D属性图的特征,分别定义为FE2DNet和FE3DNet,FE2DNet是VGG网络的变形,而FE3DNet则是Resnet的衍生。
进一步的,所述的一种基于正交引导学***均,那么这些关键区域的语义信息则很可能被忽略掉。
进一步的,所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,每张特征图均设置有与之大小相同的权重图,权重图中的权值可由梯度下降更新,输出的特征向量由特征图和权重图点积计算得到,其计算如下公式所示:(其中xk,yk,wk分别表示特征图、权重图和对应特征向量元素的值),经过大量的面部数据训练后,权重图会更加关注特定的空间区域,权重图中权值越大表示该空间区域对与最终分类结果的贡献越大。
进一步的,所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,两条通道的输入图像都是来自于同一个人脸的2D灰度图和3D属性图,特征提取器提取到的特征向量V1和V2可能会存在冗余,因此在进行特征融合之前,让V1和V2经过一个正交引导模块,使得输出的特征向量F1和F2正交,去除掉两个向量之间的冗余部分。正交引导模块是由一层全连接层和Relu层构成。
进一步的,所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,正交引导模块分别以V1和V2作为输入,通过全连接层对其进行转换,并输出两个正交特征F1和F2,设计一个正交损失函数Lorth来监督正交引导模块权重的更新,以确保F1和F2之间的正交性。Lorth的公式定义如下:其中θ为F1和F2之间的夹角。当损失函数Lorth越接近0时,代表夹角θ越接近90度,此时F1和F2之间越正交,即不相关。
本发明的工作原理:一种基于正交引导学习的多模态2D及3D人脸表情识别方法,利用人脸点云数据生成三张属性图,分别为深度图、方位图、立面图,所述的深度图、方位图、立面图合成一个三通道的RGB图,引入一个正交模块保证在特征融合时特征是正交的,在进行特征融合之前,我们先让V1和V2经过一个正交引导模块,使得输出的特征向量F1和F2正交,去除掉两个向量之间的冗余部分。
采用上述技术方案后,本发明有益效果为:以该发明一种基于正交引导学习的多模态2D及3D人脸表情识别方法,降低深度学习网络的复杂度以及抑制网络中不同分支提取的特征之间的冗余,产生了很好的经济效益和社会效益。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
Claims (3)
1.一种基于正交引导学习的多模态2D及3D人脸表情识别方法,其特征在于:它利用人脸点云数据生成三张属性图,分别为深度图、方位图、立面图,所述的深度图、方位图、立面图合成一个三通道的RGB图,所述的RGB图作为网络中某一条支路的输入,特征提取部分使用两个不同结构的网络分支来分别提取2D人脸图和3D属性图的特征,分别定义为FE2DNet和FE3DNet,FE2DNet是VGG网络的变形,而FE3DNet则是Resnet的衍生,采用全局加权池化(GWP)层来取代GAP层,不同于通用物体,在人脸表情识别任务中,输入CNN网络的图像都是经过关键点对齐的,以至于在深层的特征图中,每个像素都代表着输入图像的某个特定区域,两条通道的输入图像都是来自于同一个人脸的2D灰度图和3D属性图,特征提取器提取到的特征向量V1和V2存在冗余,进行特征融合之前,让V1和V2经过一个正交引导模块,使得输出的特征向量F1和F2正交,去除掉两个向量之间的冗余部分,正交引导模块是由一层全连接层和Relu层构成,正交引导模块分别以V1和V2作为输入,通过全连接层对其进行转换,并输出两个正交特征F1和F2,设计一个正交损失函数Lorth来监督正交引导模块权重的更新,以确保F1和F2之间的正交性。
2.根据权利要求1所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,其特征在于:引入一个正交模块保证在特征融合时特征是正交的。
3.根据权利要求1所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法,其特征在于:每张特征图均设置有与之大小相同的权重图,权重图中的权值由梯度下降更新,输出的特征向量由特征图和权重图点积计算得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010347655.1A CN111488856B (zh) | 2020-04-28 | 2020-04-28 | 一种基于正交引导学习的多模态2d及3d人脸表情识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010347655.1A CN111488856B (zh) | 2020-04-28 | 2020-04-28 | 一种基于正交引导学习的多模态2d及3d人脸表情识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488856A CN111488856A (zh) | 2020-08-04 |
CN111488856B true CN111488856B (zh) | 2023-04-18 |
Family
ID=71796623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010347655.1A Active CN111488856B (zh) | 2020-04-28 | 2020-04-28 | 一种基于正交引导学习的多模态2d及3d人脸表情识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488856B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052834B (zh) * | 2020-09-29 | 2022-04-08 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的面部识别方法、装置及设备 |
CN113408462B (zh) * | 2021-06-29 | 2023-05-02 | 西南交通大学 | 基于卷积神经网络与类别热力图的滑坡遥感信息提取方法 |
CN113642467B (zh) * | 2021-08-16 | 2023-12-01 | 江苏师范大学 | 一种基于改进vgg网络模型的人脸表情识别方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043943A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 人脸姿态参数获取方法及装置 |
WO2016110005A1 (zh) * | 2015-01-07 | 2016-07-14 | 深圳市唯特视科技有限公司 | 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法 |
CN106778468A (zh) * | 2016-11-14 | 2017-05-31 | 深圳奥比中光科技有限公司 | 3d人脸识别方法及设备 |
CN107392190A (zh) * | 2017-09-07 | 2017-11-24 | 南京信息工程大学 | 基于半监督多视图字典学习的彩色人脸识别方法 |
JP2018055470A (ja) * | 2016-09-29 | 2018-04-05 | 国立大学法人神戸大学 | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム |
CN108510573A (zh) * | 2018-04-03 | 2018-09-07 | 南京大学 | 一种基于深度学习的多视点人脸三维模型重建的方法 |
CN108573284A (zh) * | 2018-04-18 | 2018-09-25 | 陕西师范大学 | 基于正交实验分析的深度学习人脸图像扩充方法 |
CN109299702A (zh) * | 2018-10-15 | 2019-02-01 | 常州大学 | 一种基于深度时空图的人体行为识别方法及*** |
CN109344909A (zh) * | 2018-10-30 | 2019-02-15 | 咪付(广西)网络技术有限公司 | 一种基于多通道卷积神经网络的身份识别方法 |
WO2019196308A1 (zh) * | 2018-04-09 | 2019-10-17 | 平安科技(深圳)有限公司 | 人脸识别模型的生成装置、方法及计算机可读存储介质 |
CN110516616A (zh) * | 2019-08-29 | 2019-11-29 | 河南中原大数据研究院有限公司 | 一种基于大规模rgb以及近红外数据集的双重认证人脸防伪方法 |
CN110717916A (zh) * | 2019-09-29 | 2020-01-21 | 华中科技大学 | 一种基于卷积神经网络的肺栓塞检测*** |
CN114638283A (zh) * | 2022-02-11 | 2022-06-17 | 华南理工大学 | 一种基于张量优化空间的正交卷积神经网络图像识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11216541B2 (en) * | 2018-09-07 | 2022-01-04 | Qualcomm Incorporated | User adaptation for biometric authentication |
CN109815785A (zh) * | 2018-12-05 | 2019-05-28 | 四川大学 | 一种基于双流卷积神经网络的人脸情绪识别方法 |
-
2020
- 2020-04-28 CN CN202010347655.1A patent/CN111488856B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102043943A (zh) * | 2009-10-23 | 2011-05-04 | 华为技术有限公司 | 人脸姿态参数获取方法及装置 |
WO2016110005A1 (zh) * | 2015-01-07 | 2016-07-14 | 深圳市唯特视科技有限公司 | 基于灰度和深度信息的多层融合的多模态人脸识别装置及方法 |
JP2018055470A (ja) * | 2016-09-29 | 2018-04-05 | 国立大学法人神戸大学 | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム |
CN106778468A (zh) * | 2016-11-14 | 2017-05-31 | 深圳奥比中光科技有限公司 | 3d人脸识别方法及设备 |
CN107392190A (zh) * | 2017-09-07 | 2017-11-24 | 南京信息工程大学 | 基于半监督多视图字典学习的彩色人脸识别方法 |
CN108510573A (zh) * | 2018-04-03 | 2018-09-07 | 南京大学 | 一种基于深度学习的多视点人脸三维模型重建的方法 |
WO2019196308A1 (zh) * | 2018-04-09 | 2019-10-17 | 平安科技(深圳)有限公司 | 人脸识别模型的生成装置、方法及计算机可读存储介质 |
CN108573284A (zh) * | 2018-04-18 | 2018-09-25 | 陕西师范大学 | 基于正交实验分析的深度学习人脸图像扩充方法 |
CN109299702A (zh) * | 2018-10-15 | 2019-02-01 | 常州大学 | 一种基于深度时空图的人体行为识别方法及*** |
CN109344909A (zh) * | 2018-10-30 | 2019-02-15 | 咪付(广西)网络技术有限公司 | 一种基于多通道卷积神经网络的身份识别方法 |
CN110516616A (zh) * | 2019-08-29 | 2019-11-29 | 河南中原大数据研究院有限公司 | 一种基于大规模rgb以及近红外数据集的双重认证人脸防伪方法 |
CN110717916A (zh) * | 2019-09-29 | 2020-01-21 | 华中科技大学 | 一种基于卷积神经网络的肺栓塞检测*** |
CN114638283A (zh) * | 2022-02-11 | 2022-06-17 | 华南理工大学 | 一种基于张量优化空间的正交卷积神经网络图像识别方法 |
Non-Patent Citations (6)
Title |
---|
orthogonalization guided feature fusion network for multimodal 2D +3D facial expression recognition;Lin,SS等;《IEEE TRANSACTION ON MULTIMEDIA》;第23卷;第1581-1591页 * |
Towards Reading Beyond Faces for Sparsity-aware 3D/4D Affect Recognition;MuzammilBehzad等;《Neurocomputing》;第458卷;第297-307页 * |
一种基于两步降维和并行特征融合的表情识别方法;杨勇等;《重庆邮电大学学报(自然科学版)》;第27卷(第3期);第377-385页 * |
人脸表情识别关键技术的研究;李宏菲;《中国优秀硕士学位论文全文数据库信息科技辑》(第8期);第I138-1019页 * |
基于卷积神经网络的人脸表情识别研究;李思泉等;《软件导刊》;第17卷(第1期);第28-31页 * |
基于多视图核鉴别相关与正交分析的图像分类;朱震宇;《中国优秀硕士学位论文全文数据库信息科技辑》(第2期);第I138-3605页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111488856A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488856B (zh) | 一种基于正交引导学习的多模态2d及3d人脸表情识别方法 | |
WO2022151535A1 (zh) | 基于深度学习的人脸特征点检测方法 | |
CN110852182B (zh) | 一种基于三维空间时序建模的深度视频人体行为识别方法 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN113111751B (zh) | 一种自适应融合可见光与点云数据的三维目标检测方法 | |
CN113269089A (zh) | 基于深度学习的实时手势识别方法及*** | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及*** | |
CN109712108A (zh) | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 | |
US20220207913A1 (en) | Method and device for training multi-task recognition model and computer-readable storage medium | |
Chai et al. | ERF-YOLO: A YOLO algorithm compatible with fewer parameters and higher accuracy | |
CN112241959A (zh) | 基于超像素的注意力机制生成语义分割方法 | |
CN113591928A (zh) | 基于多视角和卷积注意力模块的车辆重识别方法和*** | |
CN111274946B (zh) | 一种人脸识别方法和***及设备 | |
Kang et al. | Real-time eye tracking for bare and sunglasses-wearing faces for augmented reality 3D head-up displays | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
Mizukami et al. | CUDA implementation of deformable pattern recognition and its application to MNIST handwritten digit database | |
CN115018999A (zh) | 一种多机器人协作的稠密点云地图构建方法及装置 | |
KR102612354B1 (ko) | 얼굴 합성 이미지의 검출방법, 검출장치, 전자기기 및 저장매체 | |
CN113902753A (zh) | 基于双通道和自注意力机制的图像语义分割方法及*** | |
CN113822114A (zh) | 一种图像处理方法、相关设备及计算机可读存储介质 | |
CN114937153B (zh) | 弱纹理环境下基于神经网络的视觉特征处理***及方法 | |
CN116246305A (zh) | 一种基于混合部件变换网络的行人检索方法 | |
CN114862716A (zh) | 人脸图像的图像增强方法、装置、设备及存储介质 | |
CN113420760A (zh) | 一种基于分割和形变lstm的手写体蒙古文检测和识别方法 | |
CN109635709B (zh) | 一种基于显著表情变化区域辅助学习的人脸表情识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |