CN115578773A - 一种基于焦点损失Focal Loss的面部运动单元检测方法 - Google Patents

一种基于焦点损失Focal Loss的面部运动单元检测方法 Download PDF

Info

Publication number
CN115578773A
CN115578773A CN202211324308.2A CN202211324308A CN115578773A CN 115578773 A CN115578773 A CN 115578773A CN 202211324308 A CN202211324308 A CN 202211324308A CN 115578773 A CN115578773 A CN 115578773A
Authority
CN
China
Prior art keywords
focal
loss
samples
batch
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211324308.2A
Other languages
English (en)
Inventor
李烁
王凯
张琛馨
闫波
范柏翔
龚亚强
马嘉麟
安红娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211324308.2A priority Critical patent/CN115578773A/zh
Publication of CN115578773A publication Critical patent/CN115578773A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于焦点损失Focal Loss的面部运动单元检测方法,针对面部运动单元数据集的AU样本分布不平衡以及难分类样本的问题,提出使用焦点损失Focal Loss来解决这一问题,并针对焦点损失的控制正负样本参数α和控制难易样本参数γ的多种取值进行实验,还设计了AU多标签共现关系损失函数来隐式学习AU之间的联系,隐含地增加样本较小的类别数据量,该算法在CK+数据集和BP4D数据集上均取得了良好的精度,证明在面部运动单元检测任务中,使用焦点损失和AU多标签共现关系损失函数对检测精度提升是有效的。

Description

一种基于焦点损失Focal Loss的面部运动单元检测方法
技术领域
本发明属于信息技术领域,涉及面部运动单元检测技术,尤其是一种基于焦点损失Focal Loss的面部运动单元检测方法。
背景技术
面部运动单元检测是识别面部表情的基础,也是情绪分析的基础,目前在人机交互领域有着广泛的应用。例如在安防感知场景中通过AU识别群体的情绪,对突发事件进行警报;在网络教育中也可以通过摄像头捕捉学生的面部表情,判断学生是否专注;在心理咨询中也可以通过捕捉患者的微表情来进行心理分析。
AU描述的是人脸的肌肉活动所引起的面部表情变化,不同的AU可以组成不同的表情。 happiness是生活中较常见出现的表情,该表情对应的肌肉组合为AU6和AU12,图1展示了现有技术中BP4D数据集中AU的出现频次,可以看出在采集AU数据集时,AU6和AU12频次也相对较高,而描述眉毛内角变化的AU1和AU2却不常常出现。这种不平衡的标签在分类器的学***衡问题的,因此专利申请技术创新使用焦点损失函数来解决AU样本分布不平衡的问题,并设计了AU共现关系损失函数,来学习AU之间的联系,起到隐含增加样本较小的类别的数据量的作用。
发明内容
本发明的目的在于克服现有技术的不足之处,提供一种基于焦点损失Focal Loss的面部运动单元检测方法,针对面部运动单元数据集的AU样本分布不平衡以及难分类样本的问题,提出使用焦点损失Focal Loss来解决这一问题,并针对焦点损失的控制正负样本参数α和控制难易样本参数γ的多种取值进行实验,还设计了AU多标签共现关系损失函数来隐式学习AU 之间的联系,隐含地增加样本较小的类别数据量,该算法在CK+数据集和BP4D数据集上均取得了良好的精度,证明在面部运动单元检测任务中,使用焦点损失和AU多标签共现关系损失函数对检测精度提升是有效的。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于焦点损失Focal Loss的面部运动单元检测方法,包括如下方法步骤:
(1)建立MTCNN多任务级联卷积神经网络的面部检测深度模型:
进行AU识别之前,先对原始的面部图像使用MTCNN进行预处理,使用卷积模型ResNet50 对图像进行深化,经过残差块连续的卷积层运算后再通过Flatten层将特征图像素矩阵转化为适当的分辨率,最后再将像素矩阵输入完全连接层FC;
(2)利用多标签Sigmoid型交叉熵损失函数设计输出每种AU的输出概率,训练损失函数为:
Figure BDA0003911801830000021
其中,Y=(Y1,Y2,...,YS)表示这批输入图像对应的AU标签,Yi表示这一批输入图片的第i张照片对应的AU标签,其中,
Figure BDA0003911801830000022
当两个不同的AU同时出现,即标签同时为1,或者两个不同的AU同时不现,即标签同时为0,具有正向相关性,否则则具有负向相关性,α用来控制正负样本对总损失的共享权重,γ是调制系数,用来通过减少易分类样本的权重,λc为拟合共现关系任务的损失加权系数。
而且,所述的卷积模型ResNet50的网络结构中包含49个卷积层和1个全连接层,其中第二阶段到第五阶段中的ID BLOCK是表示不改变尺寸的残差块,CONV BLOCK表示添加尺度的残差块,ID BLOCK和CONV BLOCK均包括三个卷积层,在卷积模型ResNet50的网络结构中, CONV代表卷积层,批量正则化处理用Batch Norm表示,激活函数用Relu表示,MAX POOL表示最大池化层,AVG POOL表示全局平均池化层。
而且,在对原始的面部图像使用MTCNN进行预处理时,输入的面部图像需要经过MTCNN 的预处理将大小规格不同的数据剪切为224×224×3大小的图片,进行归一化处理,以满足 ResNet50的输入尺寸,通过Flatten层将特征图像素矩阵转化为1×2048的大小。
而且,所述的多标签Sigmoid型交叉熵损失函数中,假设X=(X1,X2,...,XS)是某批输入网络中的输入图片的数据,Xi表示这一批输入图片的第i张图片,Y=(Y1,Y2,...,YS)表示这批输入图像对应的AU标签,Yi表示这一批输入图片的第i张照片对应的AU标签,S表示每批训练样本的图片个数,由于面部运动单元检测是一个多标签分类任务,也就是说一张输入图片对应着多个AU类别的标签,假设模型要检测N种AU,则Yi=(yi1,yi2,...,yiN),(Y1,Y2,...,YS)是一个S×N维的0,1矩阵,假设训练数据经过网络的前向传播后得到的AU预测结果
Figure BDA0003911801830000023
其中样本Xs的第n类AU的预测概率为
Figure BDA0003911801830000024
样本Xs的第n类AU的真实标签为Ysn,则模型对于这一批样本的第s个图片的第n类AU的Sigmoid交叉熵损失函数为:
Figure BDA0003911801830000031
这一批样本数据的多标签交叉熵损失函数为:
Figure BDA0003911801830000032
进一步,为了解决多种AU类别不平衡的问题,可以通过设定α来控制总的损失的共享权重,若则模型对于这一批样本的第s个图片的第n类AU的损失函数为:
Figure BDA0003911801830000033
进一步,为了解决难易样本的分类问题,将模型对于这一批样本的第s个图片的第n类 AU损失函数为:
Figure BDA0003911801830000034
进一步,若同时考虑正负样本不平衡和难易样本不平衡问题,将模型对于这一批样本的第s个图片的第n类AU损失函数调整为:
Figure BDA0003911801830000035
α用来控制正负样本对总损失的共享权重,γ是调制系数,用来通过减少易分类样本的权重,而使得模型在训练时跟专注于难分类的样本,则最终该批训练数据的多标签交叉熵损失函数为:
Figure BDA0003911801830000036
进一步,因为AU识别任务属于多标签预测任务,而不同的AU之间可能存在某种相关性,损失函数是由多个彼此独立的损失加权得到的,而没有考虑到AU之间的相关性,针对这一问题,增加AU多标签共现关系的损失函数,即:
Figure BDA0003911801830000037
其中,
Figure BDA0003911801830000041
当两个不同的AU同时出现,即标签同时为1,或者两个不同的AU同时不现,即标签同时为0,具有正向相关性,否则则具有负向相关性。
本发明的优点和积极效果是:
本发明涉及一种基于焦点损失Focal Loss的面部运动单元检测方法,针对面部运动单元数据集的AU样本分布不平衡以及难分类样本的问题,提出使用焦点损失Focal Loss来解决这一问题,并针对焦点损失的控制正负样本参数α和控制难易样本参数γ的多种取值进行实验,还设计了AU多标签共现关系损失函数来隐式学习AU之间的联系,隐含地增加样本较小的类别数据量,该算法在CK+数据集和BP4D数据集上均取得了良好的精度,证明在面部运动单元检测任务中,使用焦点损失和AU多标签共现关系损失函数对检测精度提升是有效的。
附图说明
图1为现有技术中BP4D数据集中AU的出现频次数据;
图2为现有技术中基于ResNet50的面部运动单元检测网络结构图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
1、建立模型方法:
为了对面部图像进行检测并对齐,本专利申请选用可以同时完成这两项任务的MTCNN[2], MTCNN是多任务级联卷积神经网络的面部检测深度模型,而且相比于其他传统面部检测对齐算法,它的性能也更好,检测速度也更快。因此进行AU识别之前,先对原始的面部图像使用 MTCNN进行预处理,裁剪出面部区域是为了将与面部运动单元检测无关的背景噪声排除,而对齐的步骤可以使深度网络在特征提取的过程中着重学习面部关键点周围的相对结构信息,而不必学习绝对位置的信息,这样可以降低学习的复杂度。
本方法使用的卷积模型为ResNet50,如图2所示,展示了ResNet50的网络结构,ResNet50 通过使用残差网络,可以避免因为网络加深而导致的网络退化、梯度耗散和梯度***问题,导致检测准确率下降。ResNet50使得网络性能在网络深度增加的同时也可以得到提升。
ResNet50中包含49个卷积层和1个全连接层,其中第二阶段到第五阶段中的IDBLOCK 是表示不改变尺寸的残差块,CONV BLOCK表示添加尺度的残差块。不管是ID BLOCK还是CONV BLOCK都包括三个卷积层。图中的CONV代表卷积层,批量正则化处理用BatchNorm表示,激活函数用Relu表示,MAX POOL表示最大池化层,AVG POOL表示全局平均池化层。输入的面部图像需要经过MTCNN的预处理将大小规格不同的数据剪切为224×224×3大小的图片,进行归一化处理,以满足ResNet50的输入尺寸。经过残差块的连续的卷积层运算后,特征图的通道会越来越深,然后再通过Flatten层将特征图像素矩阵转化为1×2048的大小,最后再将像素矩阵输入完全连接层FC,以BP4D为例,因为BP4D要检测12种AU的概率,因此将像素矩阵输入到大小为1×12的完全连接层中,每种AU的概率由Sigmoid分类器输出。
2、确定损失函数:
考虑到面部运动单元检测是一个多标签分类问题,所以将最后的输出层设计为多标签 Sigmoid型交叉熵损失。假设X=(X1,X2,...,XS)是某批输入网络中的输入图片的数据,Xi表示这一批输入图片的第i张图片,Y=(Y1,Y2,...,YS)表示这批输入图像对应的AU标签,Yi表示这一批输入图片的第i张照片对应的AU标签,S表示每批训练样本的图片个数。由于面部运动单元检测是一个多标签分类任务,也就是说一张输入图片对应着多个AU类别的标签,假设模型要检测N种AU,则Yi=(yi1,yi2,...,yiN),(Y1,Y2,...,YS)是一个S×N维的0,1矩阵。假设训练数据经过网络的前向传播后得到的AU预测结果
Figure BDA0003911801830000051
其中样本Xs的第n类AU的预测概率为
Figure BDA0003911801830000052
样本Xs的第n类AU的真实标签为Ysn。则模型对于这一批样本的第s个图片的第n类AU的Sigmoid交叉熵损失函数为:
Figure BDA0003911801830000053
这一批样本数据的多标签交叉熵损失函数为:
Figure BDA0003911801830000054
但是因为很多种AU都具有类别不平衡的问题,而以公式(4-8)作为损失函数会使得训练出的模型更倾向于预测多数类,比如对于AU5(抬起眉毛外角)这一面部运动单元,在DISFA 数据集中眉毛外角抬起的样本远少于眉毛外角未抬起的样本,而对于一张新的面部图像,预测AU5出现的概率也会大大降低。为了解决面部运动单元检测的正负样本严重失衡的问题,常见的方法是给正负样本添加权重,如果负样本出现的频次高,就降低负样本的权重,并提高正样本的权重。因此可以通过设定α来控制总的损失的共享权重,若则模型对于这一批样本的第s个图片的第n类AU的损失函数为:
Figure BDA0003911801830000055
而面对一些难分类的样本,比如AU数据库会将AU的强度按照A、B、C、D、E进行强度分类,但是强度较低的AU样本很难被网络检测正确,强度较高的AU样本更容易被检测出来。公式(4-9)虽然可以控制正负样本的权重,但是没有考虑到难易样本的分类问题,所以将模型对于这一批样本的第s个图片的第n类AU损失函数为:
Figure BDA0003911801830000061
这样使得模型在训练过程中将注意力多集中在难分类的样本上。若同时考虑正负样本不平衡和难易样本不平衡问题,结合公式(4-9)和公式(4-10),将模型对于这一批样本的第s个图片的第n类AU损失函数调整为:
Figure BDA0003911801830000062
在公式(4-11)中,α用来控制正负样本对总损失的共享权重,γ是调制系数,用来通过减少易分类样本的权重,而使得模型在训练时跟专注于难分类的样本。则最终该批训练数据的多标签交叉熵损失函数为:
Figure BDA0003911801830000063
又因为AU识别任务属于多标签预测任务,而不同的AU之间可能存在某种相关性,公式 (4-12)的损失函数是由多个彼此独立的损失加权得到的,而没有考虑到AU之间的相关性,针对这一问题,本章加入了AU多标签共现关系的损失函数,即:
Figure BDA0003911801830000064
其中,
Figure BDA0003911801830000065
当两个不同的AU同时出现,即标签同时为1,或者两个不同的AU同时不现,即标签同时为0,具有正向相关性,否则则具有负向相关性,注意到AU之间的关联性,而每种AU作为独立的存在,并驱使网络去学习AU之间隐藏的标签共现关系。
因此本章最终的训练损失函数为:
Figure BDA0003911801830000066
其中,λc为拟合共现关系任务的损失加权系数。
为了证明焦点损失函数Lfl和AU多标签共现关系损失函数Lcooccur对面部运动单元检测任务性能提升是有效的,首先进行消融实验,表1展示的是在BP4D数据集下的12种AU在消融实验下的F1-score值,可以看出在ResNet50模型下,使用焦点损失函数Lfl,可以是F1-score 的平均值由52.5提升至54.2,提升了3%,因为在BP4D数据集中存在正负样本分布不平衡的问题,比如AU1(抬起眉毛内角)、AU2(抬起眉毛外角)、AU4(皱眉)、AU15(拉动嘴角向下)、 AU23(收紧嘴唇)和AU24(嘴唇相互按压)的样本数量远小于其余6种AU,通过实验结果可以看出,样本量小的AU的F1-score提升得更明显,所以使用焦点损失使得模型更关注这些难分类的样本,从而提升面部运动单元检测模型的整体性能;使用AU多标签共现关系损失函数Lcooccur,也使得F1-score从52.5提升至53.2,提升了1.3%,说明该损失函数可以驱动网络去学习隐式的AU共现标签关系,从而提升AU检测模型的精度。
表1 BP4D数据集中的12种AU消融实验的F1-score(单位:%)
Figure BDA0003911801830000071
最后使用ResNet50和焦点损失Lfl和AU多标签共现关系损失函数Lcooccur进行试验,在这里设置λc为0.5,其F1-score的平均值,从最初的52.5增长到54.6,提升了4个百分点,而且较只添加Lfl或者只添加Lcooccur效果都要好,说明这两种损失函数对提升AU检测模型的准确率都是有效的。
表2显示的是不同方法对BP4D数据集的F1-score和Accuracy的结果,其中最优值加粗表示,次优值用“[]”表示。在相同的3折交叉验证设置下,将本专利提出的方法同基于图像的AU检测工作进行比较,从表2可以得知,本专利提出的基于两种损失函数的方法是优于先前的工作,优于传统方法LSVM和JPML,体现了基于深度学习方法的优势,和深度学习方法DRML方法比较,本专利提出的方法使得BP4D数据集中的7种AU达到了最优的检测性能,3种AU达到次优的检测性能,AU1(抬起眉毛内角)和AU23(收紧嘴唇)取得最优检测性能的原因是因为其样本量较小,而使用焦点损失Lfl可以提升难分类样本的检测性能, AU14(收紧嘴角)并没有在对比的方法中取得较佳的性能,一方面因为AU14的样本数量比较大,而使用焦点损失的优势不明显,另一方面由于本专利提出的方法没有涉及区域学习,而 AU14占面部区域的比例较小,因此总体上的性能不如DRML。但是与DRML相比,我们的方法对F1-score和Accuracy分别提升了13%和17%,这也验证了焦点损失Focal Loss和AU 多标签共现关系损失的有效性。
表2本专利提出的方法与BP4D数据集最新方法的12种AU的F1-score和AUC(单位:%)
Figure BDA0003911801830000081
对于CK+数据集,在实验中设置初始学***均值作为结果并记录。将本专利提出的算法与其他四种面部运动单元检测算法在CK+数据集上进行比较,实验结果如表3所示,本专利提出的算法在F1-score和正确率Accuracy上都高于其余4 种算法。
表3本专利提出的方法与CK+数据集开源方法的F1-score和AUC对比结果
Figure BDA0003911801830000082
为了验证焦点损失Focal Loss的有效性,因此对Focal Loss的参数α和γ的多种取值进行实验,其对比结果如表4所示。
表4焦点损失参数α和γ的不同取值的对比结果
Figure BDA0003911801830000091
表4的实验结果表明,在CK+数据集上,当γ=2,α=0.25时,在ResNet50模型下,其正确率和F1-score均达到最优,而当γ=5时,往往会因为忽略了置信度较高的样本,导致样本权重接近于0,虽然这些样本已经分类正确,但是如果忽视这部分样本,也会导致面部运动单元检测模型的精度下降。
尽管为说明目的公开了本发明的实施例,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例所公开的内容。

Claims (9)

1.一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:包括如下方法步骤:
(1)建立MTCNN多任务级联卷积神经网络的面部检测深度模型:
进行AU识别之前,先对原始的面部图像使用MTCNN进行预处理,使用卷积模型ResNet50对图像进行深化,经过残差块连续的卷积层运算后再通过Flatten层将特征图像素矩阵转化为适当的分辨率,最后再将像素矩阵输入完全连接层FC;
(2)利用多标签Sigmoid型交叉熵损失函数设计输出每种AU的输出概率,训练损失函数为:
Figure FDA0003911801820000011
其中,Y=(Y1,Y2,...,YS)表示这批输入图像对应的AU标签,Yi表示这一批输入图片的第i张照片对应的AU标签,其中,
Figure FDA0003911801820000012
当两个不同的AU同时出现,即标签同时为1,或者两个不同的AU同时不现,即标签同时为0,具有正向相关性,否则则具有负向相关性,α用来控制正负样本对总损失的共享权重,γ是调制系数,用来通过减少易分类样本的权重,λc为拟合共现关系任务的损失加权系数。
2.根据权利要求1所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:所述的卷积模型ResNet50的网络结构中包含49个卷积层和1个全连接层,其中第二阶段到第五阶段中的ID BLOCK是表示不改变尺寸的残差块,CONV BLOCK表示添加尺度的残差块,ID BLOCK和CONV BLOCK均包括三个卷积层。
3.根据权利要求2所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:在卷积模型ResNet50的网络结构中,CONV代表卷积层,批量正则化处理用BatchNorm表示,激活函数用Relu表示,MAX POOL表示最大池化层,AVG POOL表示全局平均池化层。
4.根据权利要求1所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:在对原始的面部图像使用MTCNN进行预处理时,输入的面部图像需要经过MTCNN的预处理将大小规格不同的数据剪切为224×224×3大小的图片,进行归一化处理,以满足ResNet50的输入尺寸,通过Flatten层将特征图像素矩阵转化为1×2048的大小。
5.根据权利要求1所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:所述的多标签Sigmoid型交叉熵损失函数中,假设X=(X1,X2,...,XS)是某批输入网络中的输入图片的数据,Xi表示这一批输入图片的第i张图片,Y=(Y1,Y2,...,YS)表示这批输入图像对应的AU标签,Yi表示这一批输入图片的第i张照片对应的AU标签,S表示每批训练样本的图片个数,由于面部运动单元检测是一个多标签分类任务,也就是说一张输入图片对应着多个AU类别的标签,假设模型要检测N种AU,则Yi=(yi1,yi2,...,yiN),(Y1,Y2,...,YS)是一个S×N维的0,1矩阵,假设训练数据经过网络的前向传播后得到的AU预测结果
Figure FDA0003911801820000021
其中样本Xs的第n类AU的预测概率为
Figure FDA0003911801820000022
样本Xs的第n类AU的真实标签为Ysn,则模型对于这一批样本的第s个图片的第n类AU的Sigmoid交叉熵损失函数为:
Figure FDA0003911801820000023
这一批样本数据的多标签交叉熵损失函数为:
Figure FDA0003911801820000024
6.根据权利要求5所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:为了解决多种AU类别不平衡的问题,可以通过设定α来控制总的损失的共享权重,若则模型对于这一批样本的第s个图片的第n类AU的损失函数为:
Figure FDA0003911801820000025
7.根据权利要求5所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:为了解决难易样本的分类问题,将模型对于这一批样本的第s个图片的第n类AU损失函数为:
Figure FDA0003911801820000026
8.根据权利要求5所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:若同时考虑正负样本不平衡和难易样本不平衡问题,将模型对于这一批样本的第s个图片的第n类AU损失函数调整为:
Figure FDA0003911801820000027
α用来控制正负样本对总损失的共享权重,γ是调制系数,用来通过减少易分类样本的权重,而使得模型在训练时跟专注于难分类的样本,则最终该批训练数据的多标签交叉熵损失函数为:
Figure FDA0003911801820000031
9.根据权利要求8所述的一种基于焦点损失Focal Loss的面部运动单元检测方法,其特征在于:因为AU识别任务属于多标签预测任务,而不同的AU之间可能存在某种相关性,损失函数是由多个彼此独立的损失加权得到的,而没有考虑到AU之间的相关性,针对这一问题,增加AU多标签共现关系的损失函数,即:
Figure FDA0003911801820000032
其中,
Figure FDA0003911801820000033
当两个不同的AU同时出现,即标签同时为1,或者两个不同的AU同时不现,即标签同时为0,具有正向相关性,否则则具有负向相关性。
CN202211324308.2A 2022-10-27 2022-10-27 一种基于焦点损失Focal Loss的面部运动单元检测方法 Pending CN115578773A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211324308.2A CN115578773A (zh) 2022-10-27 2022-10-27 一种基于焦点损失Focal Loss的面部运动单元检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211324308.2A CN115578773A (zh) 2022-10-27 2022-10-27 一种基于焦点损失Focal Loss的面部运动单元检测方法

Publications (1)

Publication Number Publication Date
CN115578773A true CN115578773A (zh) 2023-01-06

Family

ID=84586487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211324308.2A Pending CN115578773A (zh) 2022-10-27 2022-10-27 一种基于焦点损失Focal Loss的面部运动单元检测方法

Country Status (1)

Country Link
CN (1) CN115578773A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117653042A (zh) * 2024-01-31 2024-03-08 中船凌久高科(武汉)有限公司 基于多模态的被看护人员疼痛级别判定方法及测试装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117653042A (zh) * 2024-01-31 2024-03-08 中船凌久高科(武汉)有限公司 基于多模态的被看护人员疼痛级别判定方法及测试装置
CN117653042B (zh) * 2024-01-31 2024-04-26 中船凌久高科(武汉)有限公司 基于多模态的被看护人员疼痛级别判定方法及测试装置

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
US7190829B2 (en) Speedup of face detection in digital images
CN112949673B (zh) 一种基于全局注意力的特征融合目标检测与识别方法
CN107967456A (zh) 一种基于人脸关键点的多神经网络级联识别人脸方法
CN110633604B (zh) 信息处理方法和信息处理装置
Lei et al. A skin segmentation algorithm based on stacked autoencoders
Salunke et al. A new approach for automatic face emotion recognition and classification based on deep networks
CN111209818A (zh) 视频个体识别方法、***、设备及可读存储介质
WO2021238586A1 (zh) 一种训练方法、装置、设备以及计算机可读存储介质
CN113177612B (zh) 一种基于cnn少样本的农业病虫害图像识别方法
CN105956570B (zh) 基于唇部特征和深度学习的笑脸识别方法
TW201308254A (zh) 適用複雜場景的移動偵測方法
CN115578773A (zh) 一种基于焦点损失Focal Loss的面部运动单元检测方法
CN115797827A (zh) 一种基于双流网络架构的ViT的人体行为识别方法
Nie Research on facial expression recognition of robot based on CNN convolution neural network
Yifei et al. Flower image classification based on improved convolutional neural network
Kumar et al. Facial emotion recognition and detection using cnn
CN116797799A (zh) 一种基于通道注意力和时空感知的单目标跟踪方法及跟踪***
US20230066331A1 (en) Method and system for automatically capturing and processing an image of a user
CN113343773B (zh) 基于浅层卷积神经网络的人脸表情识别***
CN115578774A (zh) 一种基于非局部通道注意力的面部运动单元检测方法
CN112487927B (zh) 一种基于物体关联注意力的室内场景识别实现方法及***
CN112084922B (zh) 一种基于手势和面部表情的行为异常人群检测方法
CN111950586B (zh) 一种引入双向注意力的目标检测方法
TWI722383B (zh) 應用於深度學習之預特徵萃取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination