CN115035581A - 面部表情识别方法、终端设备及存储介质 - Google Patents
面部表情识别方法、终端设备及存储介质 Download PDFInfo
- Publication number
- CN115035581A CN115035581A CN202210738438.4A CN202210738438A CN115035581A CN 115035581 A CN115035581 A CN 115035581A CN 202210738438 A CN202210738438 A CN 202210738438A CN 115035581 A CN115035581 A CN 115035581A
- Authority
- CN
- China
- Prior art keywords
- image
- local
- classification probability
- expression classification
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种面部表情识别方法、终端设备及存储介质,应用于图像识别技术领域,可解决如何准确检测用户的面部表情的问题。该方法包括:获取人脸图像;对人脸图像进行全局特征提取得到全局特征向量,并根据全局特征向量确定人脸图像对应的全局表情分类概率;通过训练后的神经网络模型提取人脸图像的局部特征得到局部特征向量,并根据局部特征向量确定人脸图像对应的局部表情分类概率;根据全局表情分类概率和局部表情分类概率,确定人脸图像对应的目标表情分类概率,并根据目标表情分类概率确定人脸图像对应的面部表情。
Description
技术领域
本申请实施例涉及图像识别技术领域,尤其涉及一种面部表情识别方法、终端设备及存储介质。
背景技术
表情识别就是识别出当前人脸的面部表情,这些不同的面部表情表达了用户不同的情绪状态以及当前的生理心理反应。目前人脸表情识别方法主要包括基于几何特征或者外观特征进行检测,其中,基于几何特征的方法很难在复杂的光线和多变的面部运动下执行;基于外观特征的方法对环境变化的适应性较低,并且对不平衡光照、复杂成像和噪声的变化非常敏感,导致图像中大量的纹理和边缘信息丢失,由此降低人脸识别的准确率。因此,如何准确检测用户的面部表情成为了目前亟需解决的问题。
发明内容
本申请实施例提供一种面部表情识别方法、终端设备及存储介质,用以解决现有技术中如何准确检测用户的面部表情的问题。
第一方面,提供一种面部表情识别方法,所述方法包括:获取人脸图像;
对所述人脸图像进行全局特征提取得到全局特征向量,并根据所述全局特征向量确定所述人脸图像对应的全局表情分类概率;
通过训练后的神经网络模型提取所述人脸图像的局部特征得到局部特征向量,并根据所述局部特征向量确定所述人脸图像对应的局部表情分类概率;
根据所述全局表情分类概率和所述局部表情分类概率,确定所述人脸图像对应的目标表情分类概率,并根据所述目标表情分类概率确定所述人脸图像对应的面部表情。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述训练后的神经网络模型包括:第一神经网络模型和第二神经网络模型,所述通过训练后的神经网络模型提取所述人脸图像的局部特征得到局部特征向量,包括:
通过所述第一神经网络模型,对所述人脸图像进行超分辨率处理及降噪处理,得到第一图像;
通过所述第二神经网络模型对所述第一图像进行局部特征提取,以得到所述局部特征向量。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述通过所述第二神经网络模型对所述第一图像进行局部特征提取,以得到所述局部特征向量,包括:
对所述第一图像进行局部关键点检测,得到眼部关键点和嘴部关键点;
根据所述眼部关键点和所述嘴部关键点,对所述第一图像进行提取,以得到眼部区域图和嘴部区域图;
通过所述第二神经网络模型分别对所述眼部区域图和所述嘴部区域图进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的局部特征向量。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述通过所述第二神经网络模型分别对所述眼部区域图和所述嘴部区域图进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的局部特征向量,包括:
通过所述第二神经网络模型中的预设滑动窗口,按照预设滑动距离在所述眼部区域图和所述嘴部区域图上分别滑动至多个预设位置,并在每个所述预设位置上进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的多个局部特征向量;
其中,所述预设滑动窗口的尺寸是分别根据所述眼部区域图和所述嘴部区域图分别的宽和高确定的。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述在每个所述预设位置上进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的多个局部特征向量,包括:
在每个所述预设位置上,分别对所述眼部区域图和所述嘴部区域图进行裁剪,得到多个眼部特征图和多个嘴部特征图;
对每个所述眼部特征图和每个所述嘴部特征图进行局部特征提取,以得到所述多个眼部区域图对应的多个眼部特征向量和所述多个嘴部区域图对应的多个嘴部特征向量。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述根据所述局部特征向量确定所述人脸图像对应的局部表情分类概率,包括:
将所述多个眼部特征向量和所述多个嘴部特征向量分别对应输入全连接层网络模型,以得到所述多个眼部特征向量和所述多个嘴部特征向量对应的多个表情分类概率,每个表情分类概率对应一个眼部特征向量以及对应一个嘴部特征向量;
对所述多个表情分类概率取平均值,以确定所述人脸图像对应的所述局部表情分类概率。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述通过第一神经网络模型,对所述人脸图像进行超分辨率处理及降噪处理,得到第一图像,包括:
将所述人脸图像进行放大,并根据预设方向和预设尺寸,对放大后的人脸图像进行裁剪,得到多个第一子图像;
通过所述第一神经网络模型,对所述多个第一子图像分别进行超分辨率处理及降噪处理,得到多个第二子图像,所述多个第二子图像与所述多个第一子图像一一对应;
将所述多个第二子图像进行拼接,得到所述第一图像。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述将所述多个第二子图像进行拼接,得到所述第一图像,包括:
获取每个第一子图像在所述人脸图像中的位置标识;
根据所述位置标识,将所述多个第二子图像分别进行拼接,得到所述第一图像;
其中,目标第一子图像在所述人脸图像中的位置标识与目标第二子图像在所述第一图像中的位置标识相同,所述目标第一子图像为所述多个第一子图像中的任一个,所述目标第二子图像为所述多个第二子图像中与所述目标第一子图像对应的图像。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述根据所述全局表情分类概率和所述局部表情分类概率,确定所述人脸图像对应的目标表情分类概率,包括:
获取所述全局表情分类概率对应的第一权重和所述局部表情分类概率对应的第二权重,其中,所述第一权重与所述第二权重的和为1;
根据所述全局表情分类概率、所述第一权重、所述局部表情分类概率和所述第二权重,确定所述人脸图像对应的所述目标表情分类概率。
作为一种可选的实施方式,在本申请实施例的第一方面中,所述方法还包括:
确定与所述面部表情对应的目标渲染图;
通过所述目标渲染图对所述人脸图像进行渲染,得到目标渲染面部图像;
输出所述目标渲染面部图像。
第二方面,提供一种面部表情识别装置,所述面部表情识别装置包括:获取模块,用于获取人脸图像;
特征提取模块,用于对所述人脸图像进行全局特征提取得到全局特征向量;
处理模块,用于根据所述全局特征向量确定所述人脸图像对应的全局表情分类概率;
所述特征提取模块,还用于通过训练后的神经网络模型提取所述人脸图像的局部特征得到局部特征向量;
所述处理模块,还用于根据所述局部特征向量确定所述人脸图像对应的局部表情分类概率;
所述处理模块,还用于根据所述全局表情分类概率和所述局部表情分类概率,确定所述人脸图像对应的目标表情分类概率,并根据所述目标表情分类概率确定所述人脸图像对应的面部表情。
第三方面,提供一种终端设备,所述终端设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本申请实施例第一方面中的面部表情识别方法的步骤。
第四方面,提供一种计算机可读存储介质,其存储计算机程序,所述计算机程序使得计算机执行本申请实施例第一方面中的面部表情识别方法的步骤。所述计算机可读存储介质包括ROM/RAM、磁盘或光盘等。
第五方面,提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
第六方面,提供一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
与现有技术相比,本申请实施例具有以下有益效果:
本申请实施例中,可以通过全局特征和局部特征两个分支架构,分别计算出全局表情分类概率和局部表情分类概率,并对全局表情分类概率和局部表情分类概率进行融合以确定面部表情,这样可以有效地降低环境因素分别对全局特征和局部特征造成的影响,提高了面部表情检测的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1A是本申请实施例提供的一种面部表情识别方法的场景示意图;
图1B是本申请实施例提供的一种面部表情识别方法的流程示意图一;
图1C是本申请实施例提供的一种面部表情识别方法的面部示意图;
图2是本申请实施例提供的一种面部表情识别方法的流程示意图二;
图3是本申请实施例提供的一种面部表情识别方法的流程示意图三;
图4是本申请实施例提供的一种面部表情识别方法的裁剪示意图一;
图5是本申请实施例提供的一种面部表情识别方法的裁剪示意图二;
图6是本申请实施例提供的一种面部表情识别方法的渲染示意图;
图7是本申请实施例提供的一种面部表情识别装置的结构示意图;
图8是本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一神经网络模型和第二神经网络模型等是用于区别不同的神经网络模型,而不是用于描述神经网络模型的特定顺序。
本申请实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请实施例涉及的面部表情识别装置可以是终端设备,也可以是设置在终端设备中的能够实现该面部表情识别方法的功能模块和/或功能实体,具体的可以根据实际使用需求确定,本申请实施例不作限定。需要说明的是,该终端设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载终端设备、可穿戴设备、超级移动个人计算机(Ultra-MobilePersonal Computer,UMPC)、上网本或者个人数字助理(Personal Digital Assistant,PDA)等电子设备。其中,可穿戴设备可以为智能手表、智能手环、手表电话等,本申请实施例不作限定。
如图1A所示为本申请实施例公开的面部表情识别方法的场景示意图,本申请提供的面部表情识别方法,可以应用于如图1A所示的应用环境中。该面部表情识别方法应用于面部表情识别***中。该面部表情识别***包括用户11、终端设备12与服务器13。其中,终端设备12与服务器13通过网络进行通信。终端设备12可以先获取用户11的人脸图像,然后对该人脸图像进行全局特征提取得到全局特征向量,根据全局特征向量确定人脸图像对应的全局表情分类概率;再通过服务器13训练后的神经网络模型提取人脸图像的局部特征得到局部特征向量,并根据局部特征向量确定人脸图像对应的局部表情分类概率;最后根据全局表情分类概率和局部表情分类概率,确定人脸图像对应的目标表情分类概率,并根据目标表情分类概率确定人脸图像对应的面部表情。其中,终端设备12可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器13可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在该方案中,服务器13可以训练神经网络模型,并将训练好的神经网络模型存储在服务器13中,当终端设备12获取到用户11的人脸图像,可以从服务器13下载训练好的神经网络模型对人脸图像进行面部表情识别;已训练的神经网络模型也可以在终端设备12训练并存储在终端设备12。
通过实施该方法,终端设备12可以通过全局特征和局部特征两个分支架构,分别计算出全局表情分类概率和局部表情分类概率,并对全局表情分类概率和局部表情分类概率进行融合以确定面部表情,这样可以有效地降低环境因素分别对全局特征和局部特征造成的影响,提高了面部表情检测的准确性。
在一个实施例中,如图1B所示,本申请实施例提供一种面部表情识别方法,该方法可以应用于图1A中的终端设备12或者服务器13,以终端设备12为例进行说明。该方法可以包括下述步骤:
101、获取人脸图像。
在本申请实施例中,终端设备可以获取用户的人脸图像。
需要说明的是,该人脸图像是包括用户的面部特征的图像,该人脸图像可以是终端设备通过摄像头拍摄得到的,也可以是终端设备从预存的图片库中获取到的。
102、对人脸图像进行全局特征提取得到全局特征向量,并根据全局特征向量确定人脸图像对应的全局表情分类概率。
在本申请实施例中,终端设备可以在人脸图像中的整个面部区域进行全局特征提取,以得到全局特征向量。
其中,全局特征是指人脸图像的整体属性,常见的全局特征包括颜色特征、纹理特征和形状特征等,比如强度、直方图等;由于是像素级的低层可视特征,因此全局特征具有良好的不变性、计算简单、表示直观等特点。
需要说明的是,该全局特征向量可以是灰度值,红、绿、蓝(Red、Green、Blue,RGB)值,色调、色饱和度、强度(Hue、Saturation、Intensity,HSI)值等来表达。
可选的,全局特征提取的方式可以包括:主成分分析法(PrincipalComponentsAnalysis,PCA),线性判别分析(Linear Discriminant Analysis,LDA)等。
其中,终端设备主要可以通过PCA确定全局特征向量,PCA可采用降维方法确定全局特征向量。可对人脸图像进行识别,确定人脸图像中包含的各个人脸特征点,每个人脸特征点可确定一个相应的用于描述该人脸特征点的n维向量,然后对这些人脸特征点的n维向量求协方差矩阵,该协方差矩阵计算的是每个特征点对应的多个维度向量之间的协方差,而不是不同特征点之间的。可根据协方差矩阵计算每个特征点的特征值和特征向量,将每个特征点的特征值按照从大到小的顺序排序,选择其中排列在前面的k个特征点,然后将该k个特征点对应的k个特征向量分别作为列向量组成特征向量矩阵,将该k个特征点分别投影到选取的特征向量上,从而将每个特征点从原始的n维向量变成了k维向量。n和k均为整数,且n大于k,比如,在本申请实施例中,n可以取128,k可以取31,即通过PCA可以将人脸图像中的特征点由128维降为31维。
在该方案中,在对人脸图像进行全局特征提取的时候,可以通过PCA对人脸图像中的特征点进行降维处理,从而得到全局特征向量,这样可以减少了针对特征向量的计算量,达到全局特征提取的目的。
可选的,全局表情分类概率可以用来表示全局特征向量对应的面部表情类别的概率。
需要说明的是,面部表情可包括有多种类别,例如,可包括平静、高兴、悲伤、惊讶、恐惧、愤怒和厌恶等类别,可根据全局特征向量进行特征分类,确定该全局特征向量在每个面部表情类别对应的概率,每个面部表情类别的概率都可以是[0,1]之间任意的数值。可将最高的概率作为全局表情分类概率,该最高的概率对应的面部表情类别即为通过全局特征向量分类确定的面部表情。作为一种实施方式,全局表情分类概率也可包括每个面部表情类别对应的概率。
示例性的,假设终端设备对全局特征向量进行分析,得到了悲伤的概率为68%,愤怒的概率为32%,厌恶的概率为26%,恐惧的概率为33%,平静的概率为8%,高兴的概率为2%,惊讶的概率为16%;那么可以看出悲伤的概率相较于其他表情的概率最高,因此全局表情分类概率即为悲伤对应的概率68%,并且可以将悲伤作为通过全局特征向量分类确定的面部表情。
103、通过训练后的神经网络模型提取人脸图像的局部特征得到局部特征向量,并根据局部特征向量确定人脸图像对应的局部表情分类概率。
在本申请实施例中,终端设备可以预先训练神经网络模型,并通过训练后的神经网络模型对人脸图像中的局部区域进行局部特征提取,以得到局部特征向量。
其中,局部特征是从图像的局部区域中提取的特征,包括边缘、角点、线、曲线和特别属性的区域等,常见的局部特征包括角点类和区域类两大类描述方式。局部图像特征具有在图像中数量丰富,特征间相关度小,遮挡情况下不会因为部分特征的消失而影响其他特征的检测和匹配等特点。
可选的,由于用户在产生面部表情变化的时候,一般眼睛和嘴巴的变化会比其他五官的变化大,因此终端设备可以从人脸图像的眼部区域图提取用户的眼睛局部特征向量,并从人脸图像的嘴部区域图提取嘴巴局部特征向量。该眼部区域图指的是包括用户眼睛、眉毛和鼻梁区域的图像,可以分为左眼区域图和右眼区域图,嘴部区域图指的是包括用户嘴巴和鼻孔区域的图像。
示例性的,如图1C所示,图1C中的a为用户的人脸图像,图1C中的b和图1C中的c即为用户的眼部区域图,其中,图1C中的b为右眼区域图,图1C中的c为左眼区域图,图1C中的d为用户的嘴部区域图。
需要说明的是,该局部特征向量可以是灰度值,红、绿、蓝(Red、Green、Blue,RGB)值,色调、色饱和度、强度(Hue、Saturation、Intensity,HSI)值等来表达。
可选的,局部表情分类概率可以用来表示局部特征向量对应的面部表情类别的概率。
示例性的,假设终端设备对嘴巴局部特征向量进行分析,得到了高兴的概率为68%,惊讶的概率为32%,平静的概率为26%,恐惧的概率为13%,愤怒的概率为8%,悲伤的概率为2%,厌恶的概率为16%;那么可以看出高兴的概率相较于其他表情的概率最高,因此局部表情分类概率即为高兴对应的概率68%,并且可以将悲伤作为通过局部特征向量分类确定的面部表情。
104、根据全局表情分类概率和局部表情分类概率,确定人脸图像对应的目标表情分类概率,并根据目标表情分类概率确定人脸图像对应的面部表情。
在本申请实施例中,终端设备可以将全局表情分类概率和局部表情分类概率进行融合,确定目标表情分类概率,该目标表情分类概率可以用来表示用户当前的面部表情。
需要说明的是,由于全局表情分类概率和局部表情分类概率都可以包括多个面部表情类别分别对应的概率,因此在对全局表情分类概率和局部表情分类概率进行融合的过程中,是需要将每个面部表情类别对应的概率都进行融合,以得到目标表情分类概率,对应的,该目标表情分类概率也可以包括每个面部表情类别对应的概率。
示例性的,假设终端设备得到的目标表情分类概率为:惊讶的概率为56%,恐惧的概率为40%,愤怒的概率为38%,厌恶的概率为26%,悲伤的概率为22%,平静的概率为2%,高兴的概率为13%,可以看出惊讶的概率相较于其他表情的概率最高,因此目标表情分类概率即为惊讶对应的概率56%,并且可以将惊讶作为全局表情分类概率和局部表情分类概率融合后确定的面部表情,即为通过全局特征向量以及局部特征向量共同分类确定的面部表情。
在本申请实施例中,终端设备可以通过全局特征和局部特征两个分支架构,分别计算出全局表情分类概率和局部表情分类概率,并对全局表情分类概率和局部表情分类概率进行融合以确定面部表情,这样可以有效的降低环境因素分别对全局特征和局部特征造成的影响,提高面部表情检测的准确性。
在另一个实施例中,如图2所示,本申请实施例提供一种面部表情识别方法,该方法可以应用于图1A中的终端设备12或者服务器13,以终端设备12为例进行说明。该方法还可以包括下述步骤:
201、获取人脸图像。
202、对人脸图像进行全局特征提取得到全局特征向量。
本申请实施例中,针对步骤201~202的描述,请参照实施例一中针对步骤101~102的详细描述,本申请实施例不再赘述。
203、通过全连接层网络模型对全局特征向量进行特征分类,以确定人脸图像对应的全局表情分类概率。
在本申请实施例中,终端设备可以将全局特征向量输入到全连接层网络模型中,以使得全连接层网络模型对全局特征向量进行特征分类,从而确定人脸图像对应的全局表情分类概率。
需要说明的是,该全连接层网络模型中包括全连接层以及激活函数,其中激活函数是为了提高该全连接层网络模型的非线性表达能力,全连接层中的每一层都是由许多神经元组成的平铺结构,全连接层的作用主要就是实现分类,即对全局特征向量进行分类,以确定对应的全局表情分类概率。
可选的,该全连接层网络可以预先进行样本训练,即可以预先将大量的人脸图像以及每张人脸图像对应的已经标注过的面部表情类别进行训练,这样全连接层网络可以通过训练学习到人脸图像与面部表情类别之间的对应关系,但由于人脸图像中特征较多,因此人脸图像可能会对应不止一个面部表情类别,这样就可以对每个面部表情类别赋予分类概率,该分类概率越高,分类概率对应的面部表情类别越可能成为人脸图像对应的面部表情。因此在使用全连接层网络的时候,只需要输入人脸图像,就可以得到该人脸图像对应的面部表情类别的分类概率。
204、通过第一神经网络模型,对人脸图像进行超分辨率处理及降噪处理,得到第一图像。
在本申请实施例中,终端设备可以将人脸图像输入到第一神经网络模型中,以使得第一神经网络模型对人脸图像进行超分辨率处理及降噪处理,从而得到第一图像。训练后的神经网络模型包括第一神经网络模型和第二神经网络模型。
其中,超分辨率处理是将图片的分辨率进行放大的处理方式,可以将一张低清晰度、小尺寸的图片转变为一张高清晰度、大尺寸的图片。超分辨率处理的具体方法可以有多种,比如:插值法、重建法、模型训练等;其中,插值法较为常用且直观,可以通过原始图像中目标像素点的像素值及周围多个像素点的像素值,确定超分辨率处理后的新图像中与原始图像中目标像素点对应像素点的像素值。降噪处理是目前图像处理中较为常见的处理方式,通常可以直接使用滤波器对图像进行降噪,去除掉因为设备因素和环境干扰等造成的影响。
需要说明的是,该第一神经网络模型是预先通过大量的人脸测试图像进行训练得到的,在训练的过程中,可以根据预先设置的低分辨率小尺寸图片与高分辨率大尺寸图片的联系,生成相应的模型参数,以得到能同时实现超分辨率、降噪的卷积神经网络。第一神经网络神经网络模型的结构可以是根据预设数量依次连接的卷积块,每个卷积块包括依次连接的卷积层和激活层,其中,激活层的激活函数可以是Sigmoid函数、Relu函数、LeakyReLU函数、Tanh函数、softmax函数中的一种或多种组合。
可选的,人脸图像输入到第一神经网络模型中之后,第一神经网络模型可以通过卷积函数和激活函数,对人脸图像中像素点进行处理,以得到分辨率更高、更加清晰的第一图像,并且实时更新第一神经网络模型中的低清小尺寸图片与高清大尺寸图片的联系,这样可以提高第一神经网络模型对人脸图像处理的准确性,并且可以提高第一神经网络模型的收敛速度,进一步提高了图像处理的效率。
205、通过第二神经网络模型对第一图像进行局部特征提取,以得到局部特征向量。
在本申请实施例中,终端设备可以将第一图像输入到第二神经网络模型,以使得第二神经网络模型对该第一图像进行局部特征提取,从而得到局部特征向量。
可选的,该第二神经网络模型可以是卷积神经网络模型,可以通过大量的样本图像以及样本图像对应的特征向量对该第二神经网络模型进行训练,以使得该第二神经网络模型在使用时,可以根据输入的第一图像,快速的提取出第一图像对应的局部特征向量。
进一步的,第二神经网络模型的训练方式可以包括:获取多个样本图像以及对应的样本类别;通过待训练的第二神经网络模型对多个样本图像进行特征提取,得到第二神经网络模型对应的样本图像的参考特征;确定参考特征与对应的样本类别之间的损失值;按照损失值调整相应的第二神经网络模型中的模型参数,直至所确定的损失值达到训练停止条件。
其中,参考特征是待训练的第二神经网络模型对样本图像进行特征提取后所得到的样本图像特征。随着第二神经网络模型的训练次数增加,参考特征也会变化。第二神经网络模型可以采用和深度学习、神经网络等方法进行训练学习所得到的网络。
需要说明的是,训练停止条件是各个样本图像中的参考特征与对应的已知的样本类别的损失值达到预设范围内,即每个样本图像的预测准确率达到预设范围内。
具体的,终端设备获取多个样本图像以及对应的样本类别,通过运行在终端设备上的第二神经网络模型,分别提取每个样本图像的图像特征,得到对应的样本图像的参考特征;其中,参考特征与第二神经网络模型对应的表情分类概率相关,可以更好的表征属于相应表情分类概率的特征。进一步的,终端采用损失函数确定参考特征与已知的样本类别的损失值,并根据损失值调整第二神经网络模型中的模型参数,直至损失值符合预设范围内,则停止第二神经网络模型的训练。其中,损失函数可以采用均方差损失函数、平均绝对值损失函数、交叉熵损失函数等。
206、根据局部特征向量确定人脸图像对应的局部表情分类概率。
可选的,终端设备在根据局部特征向量确定人脸图像对应的局部表情分类概率的时候,可以将局部特征向量输入到全连接层网络模型中,以使得全连接层网络模型对局部特征向量进行特征分类,从而确定人脸图像对应的局部表情分类概率。
需要说明的是,该全连接层网络模型与上述203步骤中的全连接层网络模型相同,均是为了对特征向量进行分类,以得到表情分类概率。
207、获取全局表情分类概率对应的第一权重和局部表情分类概率对应的第二权重。
在本申请实施例中,终端设备确定全局表情分类概率和局部表情分类概率之后,可以获取全局表情分类概率对应的第一权重,以及局部表情分类概率对应的第二权重。需要说明的是,该全局表情分类概率对应的第一权重和局部表情分类概率对应的第二权重可以是根据经验确定的,也可以是根据历史训练数据确定的。
其中,第一权重和第二权重的和为1。
可选的,终端设备可以预先构建第一权重和全局表情分类概率的映射关系,以及第二权重和局部表情分类概率的映射关系,并存储在终端设备或者服务器的数据库中,这样终端设备在获取全局表情分类概率和局部表情分类概率之后,就可以从数据库中确定对应的第一权重和第二权重。
示例性的,如果全局特征向量对应的全局表情分类概率对于面部表情识别的准确性更高一点,那么第一权重就大于第二权重,第一权重可能为0.7,第二权重可能为0.3;如果局部特征向量对应的局部表情分类概率对于面部表情识别的准确性更高一点,那么第二权重就大于第一权重,第一权重可能为0.26,第二权重可能为0.74,但不限于此。
208、根据全局表情分类概率、第一权重、局部表情分类概率和第二权重,确定人脸图像对应的目标表情分类概率。
在本申请实施例中,终端设备将全局表情分类概率和局部表情分类概率进行融合的过程中,会结合全局表情分类概率和局部表情分类概率分别的权重。
需要说明的是,终端设备可以根据第一公式确定目标表情分类概率,该第一公式为:P=wPG+(1-w)Pc;其中,P为目标表情分类概率,w为全局表情分类概率对应的第一权重,(1-w)即为局部表情分类概率对应的第二权重,PG为全局表情分类概率,Pc为局部表情分类概率。
可选的,如果全局表情分类概率和局部表情分类概率均包括每个面部表情类别对应的概率,那么在将全局表情分类概率和局部表情分类概率带入上述第一公式时,就需要将每个面部表情类别对应的概率分别带入第一公式,计算得到该面部表情类别对应的目标表情分类概率,最后根据每个面部表情类别对应的目标表情分类概率,选择概率最高的目标表情分类概率,以确定为人脸图像对应的目标表情分类概率。
示例性的,假设全局表情分类概率包括:悲伤的概率为99%,愤怒的概率为32%,厌恶的概率为26%,恐惧的概率为33%;局部表情分类概率包括:悲伤的概率为95%,愤怒的概率为41%,厌恶的概率为33%,恐惧的概率为29%;那么可以将悲伤对应的全局表情分类概率99%和对应的局部表情分类概率95%带入第一公式,得到悲伤对应的目标表情分类概率99%,同理得到愤怒对应的目标表情分类概率35%,厌恶对应的目标表情分类概率28%和恐惧对应的目标表情分类概率31%,最后将这四个目标表情分类概率中最高的99%确定为人脸图像对应的目标表情分类概率。
209、根据目标表情分类概率确定人脸图像对应的面部表情。
本申请实施例中,针对步骤209的描述,请参照实施例一中针对步骤104的详细描述,本申请实施例不再赘述。
在本申请实施例中,可以通过全局特征和局部特征两个分支架构,分别计算出全局表情分类概率和局部表情分类概率,并对全局表情分类概率和局部表情分类概率,结合各自的权重进行融合以确定面部表情,以及结合神经网络模型对图像特征进行提取,可以有效的提高人脸图像的分辨率和对环境的鲁棒性,更准确的提取全局特征和局部特征,更好的表达面部表情,从而提高了分类准确率,这样有效的降低环境因素分别对全局特征和局部特征造成的影响,提高面部表情检测的准确性。
在一个实施例中,如图3所示,本申请实施例提供一种面部表情识别方法,该方法可以应用于图1A中的终端设备12或者服务器13,以终端设备12为例进行说明。该方法还可以包括下述步骤:
301、通过摄像头,获取初始图像。
在本申请实施例中,终端设备可以通过终端设备上设置的摄像头进行拍摄,以得到初始图像。
302、对初始图像进行识别,得到面部区域图。
在本申请实施例中,终端设备可以对该初始图像进行人脸识别,确定初始图像中的面部区域图,除了面部区域图的部分即为背景区域图。
可选的,对初始图像进行人脸识别的过程中,可以对初始图像中的面部特征点进行检测,如果检测到初始图像中存在一定数量的面部特征点,那么就可以确定该初始图像中存在面部区域图。
303、根据面部区域图,对初始图像进行裁剪,得到包括面部区域的人脸图像。
在本申请实施例中,由于面部区域图可能只占初始图像中的一部分,因此终端设备可以对该初始图像进行裁剪,将除了面部区域图的背景区域图都剔除掉,得到包括面部区域图的人脸图像。
304、对人脸图像进行全局特征提取得到全局特征向量。
305、通过全连接层网络模型对全局特征向量进行特征分类,以确定人脸图像对应的全局表情分类概率。
本申请实施例中,针对步骤304~305的描述,请参照实施例二中针对步骤202~203的详细描述,本申请实施例不再赘述。
306、将人脸图像进行放大,并根据预设方向和预设尺寸,对放大后的人脸图像进行裁剪,得到多个第一子图像。
在本申请实施例中,终端设备在对人脸图像进行裁剪的时候,可以西安将人脸图像放大,再根据预设方向和预设尺寸裁剪,得到多个第一子图像。
其中,由于人脸图像是由多个像素点组成的,因此预设尺寸即为预设的像素点数量,预设方向即为固定的裁剪方向。
可选的,该剪裁方向即为对人脸图像进行裁剪的顺序,可以是从左到右平行边界遍历裁剪,也可以是从上到下平行边界遍历裁剪,也可以是从左上到右下对角线遍历裁剪。
需要说明的是,在对人脸图像进行裁剪的时候,可以重叠剪裁,即一个像素点可以存在于多个第一子图像中,也可以不重叠裁剪,即一个像素点只存在于一个第一子图像中。
示例性的,如图4和图5所示,假设人脸图像为12*12个像素点的图像,每一个格子代表一个像素点,预设尺寸为4*4,预设方式是从左到右,以及从上到下。
当终端设备重叠剪裁时,图4只示出了部分裁剪步骤,按照4*4的预设尺寸从人脸图像的左上角开始裁剪,按照2像素的步长进行移动裁剪,即按照图4中的a所示在左上角进行裁剪得到一个如图4中的h所示的第一子图像之后,就按照图4中的b所示向右移动两个像素点进行裁剪得到一个如图4中的h所示的第一子图像,以此不断的向右移动裁剪,当按照图4中的c所示在右上角进行裁剪得到一个如图4中的h所示的第一子图像之后,就可以按照图4中的d所示,在图4中的a所示的基础上向下移动两个像素点进行裁剪得到一个如图4中的h所示的第一子图像,以此不断的向右向下循环移动裁剪,直至按照图4中的e所示在左下角进行裁剪得到一个如图4中的h所示的第一子图像之后,只向右移动裁剪,最后按照图4中的f所示在右下角进行裁剪得到一个如图4中的h所示的第一子图像;这样最终就可以得到25个如图4中的h所示的第一子图像。
当终端设备非重叠剪裁时,图5示出了全部裁剪步骤,按照4*4的预设尺寸从人脸图像的左上角开始裁剪,即按照图5中的a所示在左上角进行裁剪得到一个如图5中的j所示的第一子图像之后,就按照图5中的b所示向右移动四个(即预设尺寸)像素点进行裁剪得到一个如图5中的j所示的第一子图像,以及按照图5中的c所示在右上角进行裁剪得到一个如图5中的j所示的第一子图像之后,就可以按照图5中的d所示,在图5中的a所示的基础上向下移动四个(即预设尺寸)像素点进行裁剪得到一个如图5中的j所示的第一子图像,再按照图5中的e和5中的f所示依次向右移动四个(即预设尺寸)像素点进行裁剪得到两个如图5中的j所示的第一子图像,然后按照图5中的g所示在图5中的d所示的基础上再向下移动四个(即预设尺寸)像素点在左下角进行裁剪得到一个如图5中的j所示的第一子图像,并按照图5中的h所示向右移动四个(即预设尺寸)像素点进行裁剪,直至按照5中的i所示向右移动四个(即预设尺寸)像素点在右下角进行裁剪得到如图5中的j所示的第一子图像;这样最终就可以得到9个如图5中的j所示的第一子图像。
在本申请实施例中,在根据预设方向和预设尺寸,对人脸图像进行裁剪之前,可以先将人脸图像进行放大,得到放大了预设倍数的放大图,并根据预设方向和预设尺寸,对该放大图进行裁剪。
由于对初始图像剔除背景区域得到的人脸图像可能会较小,如果再剪裁为多个第一子图像,那么该第一子图像会更小,不方便后续图像处理,因此终端设备可以先将人脸图像放大预设倍数,再进行裁剪。
307、通过第一神经网络模型,对多个第一子图像分别进行超分辨率处理及降噪处理,得到多个第二子图像。
在本申请实施例中,由于终端设备将人脸图像裁剪得到了多个第一子图像,因此终端设备可以将每个第一子图像都输入第一神经网络模型中,以使得第一神经网络模型对每个第一子图像都进行超分辨率处理及降噪处理,从而得到多个第二子图像。
其中,每个第一子图像输入到第一神经网络模型之后都可以一个第二子图像,即多个第二子图像和多个第一子图像一一对应。
308、将多个第二子图像进行拼接,得到第一图像。
在本申请实施例中,终端设备得到多个第二子图像之后,可以再次将多个第二子图像拼接起来,从而得到第一图像。
可选的,将多个第二子图像进行拼接,得到第一图像,具体可以包括:获取每个第一子图像在人脸图像中的位置标识;根据位置标识,将多个第二子图像分别进行拼接,得到第一图像。
其中,第一子图像在人脸图像中的位置标识,可用于表征该第一子图像在人脸图像中对应的图像区域位置,目标第一子图像在人脸图像中的位置标识与目标第二子图像在第一图像中的位置标识相同,目标第一子图像为多个第一子图像中的任一个,目标第二子图像为多个第二子图像中与目标第一子图像对应的图像。
在该实现方式中,由于每个第一子图像经过第一神经网络模型的超分辨率处理及降噪处理之后,都会得到一个第二子图像,因此该第一子图像的位置和第二子图像的位置也应该是对应的,因此,终端设备对人脸图像进行裁剪的时候可以同时获取目标第一子图像在人脸图像中的位置标识,然后经过第一神经网络模型得到与目标第一子图像对应的目标第二子图像之后,就可以将目标第二子图像按照该位置标识放置在第一图像中,从而得到第一图像。
需要说明的是,目标第一子图像在人脸图像中的位置标识,可以是目标第一子图像中某一个像素点在人脸图像中的位置坐标,也可以是每个像素点在人脸图像中的位置坐标的平均值,本申请实施例不做限定。
示例性的,如图5所示,由于终端设备非重叠剪裁,因此可以将每个预设尺寸的区域看做一个整体,那么如图5中的a所示得到的第一子图像对应的位置标识可为(1,1),如图5中的b所示得到的第一子图像对应的位置标识可为(1,2),如图5中的c所示得到的第一子图像对应的位置标识可为(1,3),如图5中的d所示得到的第一子图像对应的位置标识可为(2,1),如图5中的e所示得到的第一子图像对应的位置标识可为(2,2),如图5中的f所示得到的第一子图像对应的位置标识可为(2,3),如图5中的g所示得到的第一子图像对应的位置标识可为(3,1),如图5中的h所示得到的第一子图像对应的位置标识可为(3,2),如图5中的i所示得到的第一子图像对应的位置标识可为(3,3)。
309、对第一图像进行局部关键点检测,得到眼部关键点和嘴部关键点。
在本申请实施例中,终端设备可以在第一图像中识别关键点,由于用户在产生面部表情变化的时候,一般眼睛和嘴巴的变化会比其他五官的变化大,因此终端设备可以只识别得到眼睛关键点和嘴巴关键点。
可选的,终端设备可以通过人脸68关键点算法对第一图像进行检测,该人脸68关键点算法为目前较为常用的识别面部关键点的算法,一般可以在面部图像中确定68个关键点,通过人脸68关键点算法,可以在第一图像中标注出多个关键点,这些关键点可以描述用户的眼睛轮廓,眉毛轮廓,鼻子轮廓,嘴巴轮廓,以及面部轮廓。
310、根据眼部关键点和嘴部关键点,对第一图像进行提取,以得到眼部区域图和嘴部区域图。
在本申请实施例中,终端设备获取了眼部关键点和嘴部关键点之后,可以根据这些眼部关键点和嘴部关键点描绘的局部轮廓,在第一图像中将眼部关键点和嘴部关键点分别表示的局部区域提取出来,从而得到眼部区域图和嘴部区域图。
311、通过第二神经网络模型分别对眼部区域图和嘴部区域图进行局部特征提取,以得到眼部区域图和嘴部区域图分别对应的局部特征向量。
在本申请实施例中,由于终端设备确定了眼部区域图和嘴部区域图,那么就可以将眼部区域图和嘴部区域图都输入第二神经网络模型中,通过第二神经网络模型对眼部区域图和嘴部区域图都进行局部特征提取,从而得到眼部区域图和嘴部区域图分别对应的局部特征向量。
可选的,通过第二神经网络模型分别对眼部区域图和嘴部区域图进行局部特征提取,以得到眼部区域图和嘴部区域图分别对应的局部特征向量,具体可以包括:通过第二神经网络模型中的预设滑动窗口,按照预设滑动距离在眼部区域图和嘴部区域图上分别滑动至多个预设位置,并在每个预设位置上进行局部特征提取,以得到眼部区域图和嘴部区域图分别对应的多个局部特征向量。
其中,预设滑动窗口的尺寸是分别根据眼部区域图和嘴部区域图的宽和高确定的。
在该实现方式中,终端设备可以将眼部区域图和嘴部区域图都输入第二神经网络模型之后,第二神经网络模型中设置有预设滑动窗口,该预设滑动窗口可以为该第二神经网络模型的卷积核,该预设滑动窗口可以按照一定的预设滑动距离在眼部区域图和嘴部区域图上分别进行滑动并分别提取局部特征,该预设滑动距离即为预设滑动窗口滑动的步长,该预设滑动距离越大,第二神经网络模型计算的工作量越小,该预设滑动距离越小,第二神经网络模型计算的误差越小准确性越高,因此预设滑动距离可以是根据经验确定的,也可以是根据历史训练数据确定的。
需要说明的是,终端设备可以根据第二公式确定预设滑动窗口的尺寸,该第二公式为:RC=aw*ah;其中,RC为预设滑动窗口的尺寸,w为眼部区域图和嘴部区域图的宽,h为眼部区域图和嘴部区域图的高,a为预设窗口阈值,该预设窗口阈值为大于0且小于或等于1的数值。
可选的,从上述第二公式中可以看出,预设滑动窗口的尺寸是根据眼部区域图和嘴部区域图的宽和高确定的,眼部区域图和嘴部区域图的尺寸可能都不同,因此对眼部区域图和嘴部区域图提取局部特征的预设滑动窗口可能都是不同的尺寸。
可选的,预设窗口阈值可以是根据经验确定的,也可以是根据历史训练数据确定的。该预设窗口阈值越大,第二神经网络模型计算的工作量越小;该预设滑动距离越小,第二神经网络模型计算的误差越小准确性越高。
进一步的,在每个预设位置上进行局部特征提取,以得到眼部区域图和嘴部区域图分别对应的多个局部特征向量,具体可以包括:在每个预设位置上,分别对眼部区域图和嘴部区域图进行裁剪,得到多个眼部特征图和多个嘴部特征图;对每个眼部特征图和每个嘴部特征图进行局部特征提取,以得到眼部区域图对应的多个眼部特征向量和嘴部区域图对应的多个嘴部特征向量。
在该实现方式中,第二神经网络模型对眼部区域图和嘴部区域图的特征提取方式是相同的,以眼部区域图为例。当预设滑动窗口滑动至眼部区域图中的一个预设位置,就按照预设滑动窗口的尺寸对眼部区域图进行裁剪,得到一个眼部特征图,这样对眼部区域图滑动完成后,就可以得到多个眼部特征图,同理也可以得到多个嘴部特征图;然后终端设备再对该多个眼部特征图和多个嘴部特征图提取局部特征,就可以得到多个眼部区域图对应的多个眼部特征向量和多个嘴部区域图对应的多个嘴部特征向量。
312、根据眼部区域图和嘴部区域图分别对应的局部特征向量确定人脸图像对应的局部表情分类概率。
可选的,由于终端设备获取了多个眼部区域图对应的多个眼部特征向量和多个嘴部区域图对应的多个嘴部特征向量,就可以将多个眼部特征向量和多个嘴部特征向量分别对应输入全连接层网络模型中,在输入的过程中,是分别将一个眼部特征向量和一个嘴部特征向量输入全连接层网络模型中,得到一个表情分类概率,这样依次将多个眼部特征向量和多个嘴部特征向量分别输入全连接层网络模型中,就可以得到多个表情分类概率;然后终端设备再对该多个表情分类概率取平均值,该平均值即为局部表情分类概率。
313、获取全局表情分类概率对应的第一权重和局部表情分类概率对应的第二权重。
314、根据全局表情分类概率、第一权重、局部表情分类概率和第二权重,确定人脸图像对应的目标表情分类概率。
315、根据目标表情分类概率确定人脸图像对应的面部表情。
本申请实施例中,针对步骤312~315的描述,请参照实施例二中针对步骤206~209的详细描述,本申请实施例不再赘述。
需要说明的是,下述步骤可以应用于图1A中的终端设备12。
316、确定与面部表情对应的目标渲染图。
在本申请实施例中,终端设备确定面部表情之后,可以在预存的多个渲染图中确定与面部表情对应的目标渲染图。
可选的,目标渲染图可以显示在拍摄预览画面中,也可以显示在拍摄交互区域中。目标渲染图可以是与面部表情对应的图像,比如人脸表情是哭,相应的展示出与哭相关的网络表情包,或者展示出与哭相对立的笑的网络表情包;目标渲染图也可以是与面部表情对应的人脸局部图,比如与面部表情对应的眼睛渲染图像,与面部表情对应的嘴巴渲染图像等。
可选的,终端设备可以确定出与面部表情对应的多个渲染图,并显示在终端设备的显示屏上,用户可以在多个渲染图中选择任意一个渲染图,终端设备响应用户的确定操作,将该用户选中的任意一个渲染图作为目标渲染图。
317、通过目标渲染图对人脸图像进行渲染,得到目标渲染面部图像。
在本申请实施例中,终端设备可以根据目标渲染图,将目标渲染图和人脸图像进行合成处理,即通过目标渲染图对人脸图像进行渲染,从而得到目标渲染面部图像。
可选的,通过目标渲染图对人脸图像进行渲染,得到目标渲染面部图像,具体可以包括但不限于一下实现方式:
实现方式一:对目标渲染图进行面部识别,确定目标渲染图中的与人脸图像中的眼部区域图和嘴部区域图对应的五官区域图,并用人脸图像中的眼部区域图和嘴部区域图替换目标渲染图中的五官区域图,以得到目标渲染面部图像。
示例性的,如图6所示为目标渲染图61,在目标渲染图61中包括右眼渲染图611、左眼渲染图612和嘴部渲染图613,右眼渲染图611与图1C中的右眼区域图b对应,左眼渲染图612与图1C中的左眼区域图c对应,嘴部渲染图613与图1C中的嘴部区域图d对应。终端设备可以将目标渲染图61中的右眼渲染图611替换为图1C中的右眼区域图b,将目标渲染图61中的左眼渲染图612替换为图1C中的左眼区域图c,目标渲染图61中的嘴部渲染图613替换为图1C中的嘴部区域图d,以得到目标渲染面部图像62。
实现方式二:对目标渲染图进行面部识别,确定目标渲染图中的与人脸图像中的眼部区域图和嘴部区域图对应的五官区域图,并用目标渲染图中的五官区域图替换人脸图像中的眼部区域图和嘴部区域图,以得到目标渲染面部图像。
在上述两种实现方式中,使用目标渲染图中的五官区域图替换人脸图像中的眼部区域图和嘴部区域图,或者使用人脸图像中的眼部区域图和嘴部区域图替换目标渲染图中的五官区域图,均可以实现目标渲染图对人脸图像进行渲染的效果,丰富了面部表情识别的应用场景,有效的体现出了趣味性。
318、输出目标渲染面部图像。
在本申请实施例中,终端设备可以将目标渲染面部图像显示在终端设备的显示屏上。
在本申请实施例中,可以对人脸图像进行裁剪得到多个第一子图像,对第一子图像分别进行处理,然后再拼接为第一图像,这样可以使得图像处理更加细节化,相比较对人脸图像进行处理,本申请中对多个第一子图像进行处理,可以使得超分辨率处理和降噪处理更加精细化;并且通过全局特征和局部特征两个分支架构,分别计算出全局表情分类概率和局部表情分类概率,并对全局表情分类概率和局部表情分类概率,结合各自的权重进行融合以确定面部表情,以及结合神经网络模型对图像特征进行提取,可以有效的提高人脸图像的分辨率和对环境的鲁棒性,更准确的提取全局特征和局部特征,可以更好的表达面部表情,从而提高了分类准确率,这样有效的降低环境因素分别对全局特征和局部特征造成的影响,提高面部表情检测的准确性。
如图7所示,本申请实施例提供一种面部表情识别装置,该面部表情识别装置包括:
获取模块701,用于获取人脸图像;
特征提取模块702,用于对人脸图像进行全局特征提取得到全局特征向量;
处理模块703,用于根据全局特征向量确定人脸图像对应的全局表情分类概率;
特征提取模块702,还用于通过训练后的神经网络模型提取人脸图像的局部特征得到局部特征向量;
处理模块703,还用于根据局部特征向量确定人脸图像对应的局部表情分类概率;
处理模块703,还用于根据全局表情分类概率和局部表情分类概率,确定人脸图像对应的目标表情分类概率,并根据目标表情分类概率确定人脸图像对应的面部表情。
可选的,处理模块703,具体用于通过第一神经网络模型,对人脸图像进行超分辨率处理及降噪处理,得到第一图像;
特征提取模块702,具体用于通过第二神经网络模型对第一图像进行局部特征提取,以得到局部特征向量。
可选的,处理模块703,具体用于对第一图像进行局部关键点检测,得到眼部关键点和嘴部关键点;
处理模块703,具体用于根据眼部关键点和所述嘴部关键点,对第一图像进行提取,以得到眼部区域图和嘴部区域图;
特征提取模块702,具体用于通过第二神经网络模型分别对眼部区域图和嘴部区域图进行局部特征提取,以得到眼部区域图和嘴部区域图分别对应的局部特征向量。
可选的,特征提取模块702,具体用于通过第二神经网络模型中的预设滑动窗口,按照预设滑动距离在眼部区域图和嘴部区域图上分别滑动至多个预设位置,并在每个预设位置上进行局部特征提取,以得到眼部区域图和嘴部区域图对应的多个局部特征向量;
其中,预设滑动窗口的尺寸是分别根据眼部区域图和嘴部区域图的宽和高确定的。
可选的,处理模块703,具体用于在每个预设位置上,分别对眼部区域图和嘴部区域图进行裁剪,得到多个眼部特征图和多个嘴部特征图;
特征提取模块702,具体用于对每个眼部特征图和每个嘴部特征图进行局部特征提取,以得到多个眼部区域图对应的多个眼部特征向量和多个嘴部区域图对应的多个嘴部特征向量。
可选的,处理模块703,具体用于将多个眼部特征向量和多个嘴部特征向量分别对应输入全连接层网络模型,以得到多个眼部特征向量和多个嘴部特征向量对应的多个表情分类概率,每个表情分类概率对应一个眼部特征向量以及对应一个嘴部特征向量;
处理模块703,具体用于对多个表情分类概率取平均值,以确定人脸图像对应的局部表情分类概率。
可选的,处理模块703,具体用于将人脸图像进行放大,并根据预设方向和预设尺寸,对放大后的人脸图像进行裁剪,得到多个第一子图像;
处理模块703,具体用于通过第一神经网络模型,对多个第一子图像分别进行超分辨率处理及降噪处理,得到多个第二子图像,多个第二子图像与多个第一子图像一一对应;
处理模块703,具体用于将多个第二子图像进行拼接,得到第一图像。
可选的,获取模块701,具体用于获取每个第一子图像在人脸图像中的位置标识;
处理模块703,具体用于根据位置标识,将多个第二子图像分别进行拼接,得到第一图像;
其中,目标第一子图像在人脸图像中的位置标识与目标第二子图像在第一图像中的位置标识相同,目标第一子图像为多个第一子图像中的任一个,目标第二子图像为多个第二子图像中与目标第一子图像对应的图像。
可选的,获取模块701,具体用于获取全局表情分类概率对应的第一权重和局部表情分类概率对应的第二权重,其中,第一权重与第二权重的和为1;
处理模块703,具体用于根据全局表情分类概率、第一权重、局部表情分类概率和第二权重,确定人脸图像对应的目标表情分类概率。
可选的,处理模块703,还用于确定与面部表情对应的目标渲染图;
处理模块703,还用于通过目标渲染图对人脸图像进行渲染,得到目标渲染面部图像;
处理模块703,还用于输出目标渲染面部图像。
本申请实施例中,各模块可以实现上述方法实施例提供的面部表情识别方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
如图8所示,本申请实施例还提供一种终端设备,该终端设备可以包括:
存储有可执行程序代码的存储器801;
与存储器801耦合的处理器802;
其中,处理器802调用存储器801中存储的可执行程序代码,执行上述各方法实施例中的面部表情识别方法的步骤。
本申请实施例提供一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
本申请实施例还提供一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
本申请实施例还提供一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
Claims (12)
1.一种面部表情识别方法,其特征在于,所述方法包括:
获取人脸图像;
对所述人脸图像进行全局特征提取得到全局特征向量,并根据所述全局特征向量确定所述人脸图像对应的全局表情分类概率;
通过训练后的神经网络模型提取所述人脸图像的局部特征得到局部特征向量,并根据所述局部特征向量确定所述人脸图像对应的局部表情分类概率;
根据所述全局表情分类概率和所述局部表情分类概率,确定所述人脸图像对应的目标表情分类概率,并根据所述目标表情分类概率确定所述人脸图像对应的面部表情。
2.根据权利要求1所述的方法,其特征在于,所述训练后的神经网络模型包括:第一神经网络模型和第二神经网络模型,所述通过训练后的神经网络模型提取所述人脸图像的局部特征得到局部特征向量,包括:
通过所述第一神经网络模型,对所述人脸图像进行超分辨率处理及降噪处理,得到第一图像;
通过所述第二神经网络模型对所述第一图像进行局部特征提取,以得到所述局部特征向量。
3.根据权利要求2所述的方法,其特征在于,所述通过所述第二神经网络模型对所述第一图像进行局部特征提取,以得到所述局部特征向量,包括:
对所述第一图像进行局部关键点检测,得到眼部关键点和嘴部关键点;
根据所述眼部关键点和所述嘴部关键点,对所述第一图像进行提取,以得到眼部区域图和嘴部区域图;
通过所述第二神经网络模型分别对所述眼部区域图和所述嘴部区域图进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的局部特征向量。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第二神经网络模型分别对所述眼部区域图和所述嘴部区域图进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的局部特征向量,包括:
通过所述第二神经网络模型中的预设滑动窗口,按照预设滑动距离在所述眼部区域图和所述嘴部区域图上分别滑动至多个预设位置,并在每个所述预设位置上进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的多个局部特征向量;
其中,所述预设滑动窗口的尺寸是分别根据所述眼部区域图和所述嘴部区域图的宽和高确定的。
5.根据权利要求4所述的方法,其特征在于,所述在每个所述预设位置上进行局部特征提取,以得到所述眼部区域图和所述嘴部区域图分别对应的多个局部特征向量,包括:
在每个所述预设位置上,分别对所述眼部区域图和所述嘴部区域图进行裁剪,得到多个眼部特征图和多个嘴部特征图;
对每个所述眼部特征图和每个所述嘴部特征图进行局部特征提取,以得到所述多个眼部区域图对应的多个眼部特征向量和所述多个嘴部区域图对应的多个嘴部特征向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述局部特征向量确定所述人脸图像对应的局部表情分类概率,包括:
将所述多个眼部特征向量和所述多个嘴部特征向量分别对应输入全连接层网络模型,以得到所述多个眼部特征向量和所述多个嘴部特征向量对应的多个表情分类概率,每个表情分类概率对应一个眼部特征向量以及对应一个嘴部特征向量;
对所述多个表情分类概率取平均值,以确定所述人脸图像对应的所述局部表情分类概率。
7.根据权利要求2所述的方法,其特征在于,所述通过第一神经网络模型,对所述人脸图像进行超分辨率处理及降噪处理,得到第一图像,包括:
将所述人脸图像进行放大,并根据预设方向和预设尺寸,对放大后的人脸图像进行裁剪,得到多个第一子图像;
通过所述第一神经网络模型,对所述多个第一子图像分别进行超分辨率处理及降噪处理,得到多个第二子图像,所述多个第二子图像与所述多个第一子图像一一对应;
将所述多个第二子图像进行拼接,得到所述第一图像。
8.根据权利要求7所述的方法,其特征在于,所述将所述多个第二子图像进行拼接,得到所述第一图像,包括:
获取每个第一子图像在所述人脸图像中的位置标识;
根据所述位置标识,将所述多个第二子图像分别进行拼接,得到所述第一图像;
其中,目标第一子图像在所述人脸图像中的位置标识与目标第二子图像在所述第一图像中的位置标识相同,所述目标第一子图像为所述多个第一子图像中的任一个,所述目标第二子图像为所述多个第二子图像中与所述目标第一子图像对应的图像。
9.根据权利要求1至8任一项所述的方法,其特征在于,所述根据所述全局表情分类概率和所述局部表情分类概率,确定所述人脸图像对应的目标表情分类概率,包括:
获取所述全局表情分类概率对应的第一权重和所述局部表情分类概率对应的第二权重,其中,所述第一权重与所述第二权重的和为1;
根据所述全局表情分类概率、所述第一权重、所述局部表情分类概率和所述第二权重,确定所述人脸图像对应的所述目标表情分类概率。
10.根据权利要求1至8任一项所述的方法,其特征在于,所述方法还包括:
确定与所述面部表情对应的目标渲染图;
通过所述目标渲染图对所述人脸图像进行渲染,得到目标渲染面部图像;
输出所述目标渲染面部图像。
11.一种终端设备,其特征在于,包括:
存储有可执行程序代码的存储器;
以及所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行如权利要求1至10任一项所述的面部表情识别方法的步骤。
12.一种计算机可读存储介质,其特征在于,包括:所述计算机可读存储介质上存储计算机指令,所述计算机指令被处理器执行时实现如权利要求1至10任一项所述的面部表情识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210738438.4A CN115035581A (zh) | 2022-06-27 | 2022-06-27 | 面部表情识别方法、终端设备及存储介质 |
PCT/CN2022/140931 WO2024001095A1 (zh) | 2022-06-27 | 2022-12-22 | 面部表情识别方法、终端设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210738438.4A CN115035581A (zh) | 2022-06-27 | 2022-06-27 | 面部表情识别方法、终端设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035581A true CN115035581A (zh) | 2022-09-09 |
Family
ID=83126260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210738438.4A Pending CN115035581A (zh) | 2022-06-27 | 2022-06-27 | 面部表情识别方法、终端设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115035581A (zh) |
WO (1) | WO2024001095A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128734A (zh) * | 2023-04-17 | 2023-05-16 | 湖南大学 | 一种基于深度学习的图像拼接方法、装置、设备和介质 |
CN117315749A (zh) * | 2023-09-25 | 2023-12-29 | 惠州市沃生照明有限公司 | 用于台灯的灯光智能调控方法及*** |
WO2024001095A1 (zh) * | 2022-06-27 | 2024-01-04 | 闻泰通讯股份有限公司 | 面部表情识别方法、终端设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102629321B (zh) * | 2012-03-29 | 2014-03-26 | 天津理工大学 | 基于证据理论的人脸表情识别方法 |
CN105095827B (zh) * | 2014-04-18 | 2019-05-17 | 汉王科技股份有限公司 | 人脸表情识别装置和方法 |
US10679042B2 (en) * | 2018-10-09 | 2020-06-09 | Irene Rogan Shaffer | Method and apparatus to accurately interpret facial expressions in American Sign Language |
CN109934173B (zh) * | 2019-03-14 | 2023-11-21 | 腾讯科技(深圳)有限公司 | 表情识别方法、装置及电子设备 |
CN110580461A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种结合多级卷积特征金字塔的人脸表情识别算法 |
CN111144348A (zh) * | 2019-12-30 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN115035581A (zh) * | 2022-06-27 | 2022-09-09 | 闻泰通讯股份有限公司 | 面部表情识别方法、终端设备及存储介质 |
-
2022
- 2022-06-27 CN CN202210738438.4A patent/CN115035581A/zh active Pending
- 2022-12-22 WO PCT/CN2022/140931 patent/WO2024001095A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024001095A1 (zh) * | 2022-06-27 | 2024-01-04 | 闻泰通讯股份有限公司 | 面部表情识别方法、终端设备及存储介质 |
CN116128734A (zh) * | 2023-04-17 | 2023-05-16 | 湖南大学 | 一种基于深度学习的图像拼接方法、装置、设备和介质 |
CN117315749A (zh) * | 2023-09-25 | 2023-12-29 | 惠州市沃生照明有限公司 | 用于台灯的灯光智能调控方法及*** |
Also Published As
Publication number | Publication date |
---|---|
WO2024001095A1 (zh) | 2024-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359538B (zh) | 卷积神经网络的训练方法、手势识别方法、装置及设备 | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN109657554B (zh) | 一种基于微表情的图像识别方法、装置以及相关设备 | |
CN106960202B (zh) | 一种基于可见光与红外图像融合的笑脸识别方法 | |
KR101198322B1 (ko) | 얼굴 표정 인식 방법 및 시스템 | |
CN106056064B (zh) | 一种人脸识别方法及人脸识别装置 | |
JP4755202B2 (ja) | 顔特徴の検出方法 | |
CN112419170B (zh) | 遮挡检测模型的训练方法及人脸图像的美化处理方法 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
WO2020078119A1 (zh) | 模拟用户穿戴服装饰品的方法、装置和*** | |
CN115035581A (zh) | 面部表情识别方法、终端设备及存储介质 | |
US20110299774A1 (en) | Method and system for detecting and tracking hands in an image | |
CN109271930B (zh) | 微表情识别方法、装置与存储介质 | |
CN102332095A (zh) | 一种人脸运动跟踪方法和***以及一种增强现实方法 | |
KR101265466B1 (ko) | 얼굴표정을 이용한 감정인식 장치, 감정인식 방법 및 그 기록매체 | |
US20230334235A1 (en) | Detecting occlusion of digital ink | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN115205933A (zh) | 面部表情识别方法、装置、设备及可读存储介质 | |
KR101344851B1 (ko) | 영상처리장치 및 영상처리방법 | |
US20160140748A1 (en) | Automated animation for presentation of images | |
KR101408344B1 (ko) | 얼굴 검출 장치 | |
CN117392578A (zh) | 基于两阶段时空注意力的动作检测方法及*** | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
CN110620877B (zh) | 位置信息生成方法、装置、终端及计算机可读存储介质 | |
Wang et al. | Human action categorization using conditional random field |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |