CN111488856B

CN111488856B - 一种基于正交引导学习的多模态2d及3d人脸表情识别方法

Info

Publication number: CN111488856B
Application number: CN202010347655.1A
Authority: CN
Inventors: 沈琳琳; 肖建安
Original assignee: Jiangxi Ji Wei Technology Co ltd
Current assignee: Jiangxi Ji Wei Technology Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2023-04-18
Anticipated expiration: 2040-04-28
Also published as: CN111488856A

Abstract

一种基于正交引导学习的多模态2D及3D人脸表情识别方法，它涉及计算机视觉技术领域。它利用人脸点云数据生成三张属性图，分别为深度图、方位图、立面图，所述的深度图、方位图、立面图合成一个三通道的RGB图，所述的RGB图作为网络中某一条支路的输入，减少了模型的参数量。以该发明一种基于正交引导学习的多模态2D及3D人脸表情识别方法，降低深度学习网络的复杂度以及抑制网络中不同分支提取的特征之间的冗余，产生了很好的经济效益和社会效益。

Description

一种基于正交引导学习的多模态2D及3D人脸表情识别方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于正交引导学习的多模态2D及3D人脸表情识别方法。

背景技术

随着深度学习的快速发展，多模态2D及3D人脸表情识别(FER)在计算机视觉领域中受到广泛的关注。这些基于深度学习的方法都是先利用3D点云数据提取到多张3D属性图，将这几张属性图和2D人脸图作为输入，分别送入到CNN网络的各个特征提取支路中，最后，将每条支路提取到的特征进行融合来作为分类器的输入。但是，由于2D彩色图和3D属性图都是来自于同一个样本，导致每条支路学习到的特征可能会存在冗余，不利于直接进行特征融合，另外，对于每一张属性图都采用一个支路去提取特征，大大增加了模型的复杂度。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种基于正交引导学习的多模态2D及3D人脸表情识别方法，降低深度学习网络的复杂度以及抑制网络中不同分支提取的特征之间的冗余。

为实现上述目的，本发明采用以下技术方案是：它利用人脸点云数据生成三张属性图，分别为深度图、方位图、立面图，所述的深度图、方位图、立面图合成一个三通道的RGB图，所述的RGB图作为网络中某一条支路的输入，减少了模型的参数量。

所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，引入一个正交模块保证在特征融合时特征是正交的。

所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，特征提取部分使用两个不同结构的网络分支来分别提取2D人脸图和3D属性图的特征，分别定义为FE2DNet和FE3DNet，FE2DNet是VGG网络的变形，而FE3DNet则是Resnet的衍生。

所述的一种基于正交引导学***均，那么这些关键区域的语义信息则很可能被忽略掉。

所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，每张特征图均设置有与之大小相同的权重图，权重图中的权值可由梯度下降更新，输出的特征向量由特征图和权重图点积计算得到，其计算如下公式所示：

(其中x^k,y^k,w^k分别表示特征图、权重图和对应特征向量元素的值)，经过大量的面部数据训练后，权重图会更加关注特定的空间区域，权重图中权值越大表示该空间区域对与最终分类结果的贡献越大。

所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，两条通道的输入图像都是来自于同一个人脸的2D灰度图和3D属性图，特征提取器提取到的特征向量V₁和V₂可能会存在冗余，进行特征融合之前，让V₁和V₂经过一个正交引导模块，使得输出的特征向量F₁和F₂正交，去除掉两个向量之间的冗余部分。正交引导模块是由一层全连接层和Relu层构成。

所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，

正交引导模块分别以V₁和V₂作为输入，通过全连接层对其进行转换，并输出两个正交特征F₁和F₂，设计一个正交损失函数L_orth来监督正交引导模块权重的更新，以确保F₁和F₂之间的正交性。L_orth的公式定义如下：

其中θ为F₁和F₂之间的夹角。当损失函数L_orth越接近0时，代表夹角θ越接近90度，此时F₁和F₂之间越正交，即不相关。

本发明的工作原理：一种基于正交引导学习的多模态2D及3D人脸表情识别方法，利用人脸点云数据生成三张属性图，分别为深度图、方位图、立面图，所述的深度图、方位图、立面图合成一个三通道的RGB图，引入一个正交模块保证在特征融合时特征是正交的，在进行特征融合之前，我们先让V₁和V₂经过一个正交引导模块，使得输出的特征向量F₁和F₂正交，去除掉两个向量之间的冗余部分。

采用上述技术方案后，本发明有益效果为：以该发明一种基于正交引导学习的多模态2D及3D人脸表情识别方法，降低深度学习网络的复杂度以及抑制网络中不同分支提取的特征之间的冗余，产生了很好的经济效益和社会效益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的网络结构及其流程示意图；

图2是本发明的FE2DNet和FE3DNet的网络结构示意图；

图3是本发明的GWP操作结构流程示意图；

图4是本发明的正交引导模块结构流程示意图。

具体实施方式

参看图1～图4所示，本具体实施方式采用的技术方案是：它利用人脸点云数据生成三张属性图，分别为深度图、方位图、立面图，所述的深度图、方位图、立面图合成一个三通道的RGB图，所述的RGB图作为网络中某一条支路的输入，减少了模型的参数量。

进一步的，所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，引入一个正交模块保证在特征融合时特征是正交的。

进一步的，所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，特征提取部分使用两个不同结构的网络分支来分别提取2D人脸图和3D属性图的特征，分别定义为FE2DNet和FE3DNet，FE2DNet是VGG网络的变形，而FE3DNet则是Resnet的衍生。

进一步的，所述的一种基于正交引导学***均，那么这些关键区域的语义信息则很可能被忽略掉。

进一步的，所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，每张特征图均设置有与之大小相同的权重图，权重图中的权值可由梯度下降更新，输出的特征向量由特征图和权重图点积计算得到，其计算如下公式所示：

进一步的，所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，两条通道的输入图像都是来自于同一个人脸的2D灰度图和3D属性图，特征提取器提取到的特征向量V₁和V₂可能会存在冗余，因此在进行特征融合之前，让V₁和V₂经过一个正交引导模块，使得输出的特征向量F₁和F₂正交，去除掉两个向量之间的冗余部分。正交引导模块是由一层全连接层和Relu层构成。

进一步的，所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，正交引导模块分别以V₁和V₂作为输入，通过全连接层对其进行转换，并输出两个正交特征F₁和F₂，设计一个正交损失函数L_orth来监督正交引导模块权重的更新，以确保F₁和F₂之间的正交性。L_orth的公式定义如下：

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于正交引导学习的多模态2D及3D人脸表情识别方法，其特征在于：它利用人脸点云数据生成三张属性图，分别为深度图、方位图、立面图，所述的深度图、方位图、立面图合成一个三通道的RGB图，所述的RGB图作为网络中某一条支路的输入，特征提取部分使用两个不同结构的网络分支来分别提取2D人脸图和3D属性图的特征，分别定义为FE2DNet和FE3DNet，FE2DNet是VGG网络的变形，而FE3DNet则是Resnet的衍生，采用全局加权池化(GWP)层来取代GAP层，不同于通用物体，在人脸表情识别任务中，输入CNN网络的图像都是经过关键点对齐的，以至于在深层的特征图中，每个像素都代表着输入图像的某个特定区域，两条通道的输入图像都是来自于同一个人脸的2D灰度图和3D属性图，特征提取器提取到的特征向量V₁和V₂存在冗余，进行特征融合之前，让V₁和V₂经过一个正交引导模块，使得输出的特征向量F₁和F₂正交，去除掉两个向量之间的冗余部分，正交引导模块是由一层全连接层和Relu层构成，正交引导模块分别以V₁和V₂作为输入，通过全连接层对其进行转换，并输出两个正交特征F₁和F₂，设计一个正交损失函数L_orth来监督正交引导模块权重的更新，以确保F₁和F₂之间的正交性。

2.根据权利要求1所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，其特征在于：引入一个正交模块保证在特征融合时特征是正交的。

3.根据权利要求1所述的一种基于正交引导学习的多模态2D及3D人脸表情识别方法，其特征在于：每张特征图均设置有与之大小相同的权重图，权重图中的权值由梯度下降更新，输出的特征向量由特征图和权重图点积计算得到。