CN117576765A - 一种基于分层特征对齐的面部动作单元检测模型构建方法 - Google Patents
一种基于分层特征对齐的面部动作单元检测模型构建方法 Download PDFInfo
- Publication number
- CN117576765A CN117576765A CN202410054740.7A CN202410054740A CN117576765A CN 117576765 A CN117576765 A CN 117576765A CN 202410054740 A CN202410054740 A CN 202410054740A CN 117576765 A CN117576765 A CN 117576765A
- Authority
- CN
- China
- Prior art keywords
- feature
- unit detection
- sample
- action unit
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 70
- 230000001815 facial effect Effects 0.000 title claims abstract description 54
- 238000010276 construction Methods 0.000 title claims abstract description 27
- 230000009471 action Effects 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000008447 perception Effects 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 16
- 238000009499 grossing Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 6
- 230000008451 emotion Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 210000001097 facial muscle Anatomy 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000001943 fluorescence-activated cell sorting Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/169—Holistic features and representations, i.e. based on the facial image taken as a whole
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于分层特征对齐的面部动作单元检测模型构建方法,属于计算机视觉与情感计算领域,包括:搭建面部动作单元检测模型,并采用训练样本集对面部动作单元检测模型训练,训练样本为面部运动图片,标签为每个样本对应的AU组合;构建类内一致性对齐、类间一致性对齐及样本级别一致性对齐的分层特征对齐框架,通过分层的方式提升对跨身份一致性引入的微弱变化的感知能力。同时,在AU特征嵌入之前,通过重要性感知融合层对融合的特征图中每个位置进行区域重要性感知,得到重要性感知的局部特征嵌入,以增强重要区域的特征,提高面部动作特征的可区分性。本发明能够提升面部动作单元检测的准确度。
Description
技术领域
本发明属于计算机视觉与情感计算领域,更具体地,涉及一种基于分层特征对齐的面部动作单元检测模型构建方法。
背景技术
面部表情是日常交流中传递信息的重要方式之一。根据面部运动编码***FACS的定义,面部动作单元(Action Unit,AU)描述了由特定肌肉运动引起的面部外观变化,其定义不随身份的变化而改变。通过检测自动面部AU可以进行人类情感感知。
通过提取AU相关特征、采用知识驱动的表示学习方法,或者基于时域建模等方法可以进行自动面部AU检测,这些方法主要集中在区分不同AU类别之间的特征,忽视了跨不同个体之间面部运动外观差异(也即由于身份信息导致的样本之间的特征差异)。实际上,虽然AU描述了明确的面部肌肉变化,但是由于个体面部脂肪分布、个性化的表情习惯以及非加法性面部外观变化的复杂性质,使得个体之间的面部差异引入了显著的多样性。而现有技术中,通过基于特征分解的方式进行面部特征提取以进行跨身份一致性的面部运动单元检测方法中,先进行身份信息移除后再进行特征提取,仅仅利用了AU中的动作信息,在身份信息移除的过程中,丢失了人脸外观辅助信息,而人脸外观辅助信息作为AU的识别的有效信息,移除之后当模型遇到具有不同面部特征的新主体时,可能会出现泛化问题,导致识别的准确率不高。并且,如果从训练中学到的情感数据包含个人特征,可能会泄露测试主体的身份信息。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种基于分层特征对齐的面部动作单元检测模型构建方法,其目的在于提升面部动作单元检测的准确度。
为实现上述目的,按照本发明的第一方面,提供了一种基于分层特征对齐的面部动作单元检测模型构建方法,包括:搭建面部动作单元检测模型,并采用训练样本集对所述面部动作单元检测模型进行训练,训练样本为面部运动图片,标签为每个样本对应的AU组合;所述面部动作单元检测模型包括依次连接的骨干网络、局部特征提取模块和局部特征映射模块;所述局部特征映射模块用于将所述局部特征提取模块提取的局部特征进行低维度特征映射,得到输入样本的每个局部低维度特征;
构建类内一致性对齐损失和类间一致性对齐损失的分层特征对齐损失对所述面部动作单元检测模型进行损失计算:
将输入样本的每个局部低维度特征依次作为锚点,与锚点具有相同标签的局部低维度特征作为正样本,其它的局部低维度特征作为负样本,则所述类内一致性对齐损失为正样本与负样本之间的特征损失;
计算任意两个局部低维度特征之间的特征相似度,并计算所述两个局部低维度特征对应的标签之间的相关系数,则所述类间一致性对齐损失为特征相似度与对应相关系数之间的交叉熵损失。
进一步地,所述面部动作单元检测模型还包括:全局特征提取模块和全局特征映射模块;所述全局特征映射模块用于将所述全局特征提取模块提取的全局特征进行低维度特征映射,得到输入样本的每个全局低维度特征;
所述分层特征对齐损失还包括样本级别一致性对齐损失:
将一批样本中的每个样本依次作为锚点,计算锚点与其它样本对应的标签组合之间的第一相似度;
将所述第一相似度大于设定阈值对应的样本作为锚点的正样本,其它的作为锚点的负样本,并将负样本对应的第一相似度设为0;
计算锚点与对应正样本的全局低维度特征之间的第二相似度;
所述样本级别一致性对齐损失为所述第一相似度与所述第二相似度之间的交叉熵损失。
进一步地,所述类内一致性对齐损失为:
其中,表示所述类内一致性对齐损失;/>表示标签中AU类别数量;/>表示第s张输入图像的第c个局部低维度特征,s取/>,/>或/>;/>是锚点的索引,/>表示当前批样本对应的局部低维度特征总数;/>表示第c个AU的正样本索引集合,是/>的基数;/>表示除了锚点之外的其它局部低维度特征;/>,是平滑参数;/>表示点积,/>和/>是用于平衡数据分布的参数。
进一步地,所述类间一致性对齐损失为:
其中,表示所述类间一致性对齐损失;/>表示第/>个样本的第/>个局部低维度特征,/>表示第/>个样本的第/>个局部低维度特征;/>是第/>个和第/>个AU之间的相关系数,/>。
进一步地,所述样本级别一致性对齐损失为:
其中,表示所述样本级别一致性对齐损失;/>是锚点的正样本集合,/>为设定阈值,/>为第一相似度;/>表示第s张输入图像的第g个全局低维度特征,s取/>,/>或/>;/>,是平滑参数;/>表示点积;/>是/>的基数;表示除了锚点之外的其它全局低维度特征。
进一步地,所述局部特征提取模块包括:
局部级别特征层,用于提取所述骨干网络输出的基础特征对应的个空间注意力图,并将每个空间注意力图分别和所述基础特征相乘,得到对应的特征图;其中,/>表示标签中AU类别数量;
重要性感知融合层,用于将每个空间注意力图与对应的特征图进行特征融合,得到融合的特征图;并根据每个空间注意力图,计算对应的融合的特征图中每个位置的重要性,用每个位置的重要性和融合的特征图进行特征加权,得到每个AU的特征嵌入;
基于自注意力机制的全局嵌入层,用于将所述AU的特征嵌入进行自注意力计算,得到全局关系感知的局部特征。
进一步地,所述每个位置的重要性为:
其中,表示所述每个位置的重要性;/>表示融合的特征图中位置(i,j)处的第n个通道特征图的元素;/>表示平滑参数。
按照本发明的第二方面,提供了一种基于分层特征对齐的面部动作单元检测方法,包括:
将待测人脸图像输入至采用第一方面所述的面部动作单元检测模型构建方法所构建的面部动作单元检测模型中,预测识别人脸的多个面部运动单元。
按照本发明的第三方面,提供了一种电子设备,包括计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令执行第一方面任一项所述的面部动作单元检测模型构建方法,或/和,实现如第二方面所述的面部动作单元检测方法。
按照本发明的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面任一项所述的面部动作单元检测模型构建方法,或/和,实现如第二方面所述的面部动作单元检测方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明的基于分层特征对齐的面部动作单元检测模型构建方法,在模型的训练过程中,通过构建类内一致性对齐损失和类间一致性对齐损失的分层特征对齐损失使模型关注由于跨不同个体之间面部运动外观差异带来的微弱多样性,以发挥对比学习中对于微弱变化的特征的识别能力。具体地,通过类内一致性对齐促使同一类别内具有AU特定特征的语义对齐,而来自不同类别的表示相互远离;基于关系驱动的类间一致性对齐增强了AU特征的语义结构,使模型能够捕获由于面部肌肉之间的生理相互联系形成的AUs之间的内在相关性信息,通过提取AU之间的相互关联关系,强化特征之间可判别性的同时,关注了特征之间的关联关系,提升了特征表征的有效性。因此,通过本发明的分层特征对齐框架,通过分层的方式,降低了由于跨不同个体之间面部运动外观差异带来的微弱多样性,提升了面部特征的一致性和可判别性。并且,本发明的分层特征对齐框架通过损失约束的方式隐式的进行特征提取,而非对身份信息移除之后在进行特征提取,使得提取的特征保留了人脸外观辅助信息,提升了面部动作单元检测的准确度。
同时,通过类内一致性对齐,显式移除由身份信息导致的类内差异,实现了测试主体的隐私保护。
(2)进一步地,考虑到不同样本之间的标签相似性能够反映它们在表示空间内的语义相似性,通过样本级别标签组合相似性和潜在特征相似性之间的交叉熵作为样本级别一致性对齐损失,提取样本之间相互关联的语义特征,使不同样本的AU标签之间的融合值(也即第一相似度)能够反映样本间的全局特征接近程度,增强了样本间的对齐。同时,考虑到现有的正负样本构建方法存在可能会破坏特征的内在语义结构或影响正样本的泛化的问题,本发明在样本级别一致性对齐损失的正负样本构建过程中,通过多标签软对比学习方式,计算给定锚点与其它样本对应的标签组合之间的软融合值,也即第一相似度,将第一相似度大于设定阈值对应的样本作为给定锚点的正样本,其它的作为给定锚点的负样本,并将负样本对应的第一相似度设为0,将对比值的软融合值与对应正样本的全局低维度特征的相似性之间的交叉熵作为样本级别一致性对齐损失,以追求基于全局表示的样本级对齐,打破了正负样本之间的硬边界,并根据它们之间的软融合值将对比拉近,从而实现更灵活和细致的学习过程。
(3)作为优选,类内一致性对齐、类间一致性对齐及样本级别一致性对齐共同构成本发明的分层特征对齐框架,采用该框架进行跨身份一致的面部AU检测,能够提升对跨身份一致性引入的微弱变化的感知能力,通过分层的方式对特征进行隐式自动提取,并能够保留面部外观辅助信息,提升了面部动作单元检测的准确度。
(4)进一步地,考虑到面部运动表达的是局部运动信息,现有的通过全局平均相应的特征图以制定AU特定的嵌入的方式,对关键局部信息感知性不强,本发明设计的局部特征提取模块,在AU特征嵌入之前,通过重要性感知融合层对融合的特征图中每个位置进行区域重要性感知,得到重要性感知的局部特征嵌入,增强了重要区域的特征,能够进一步捕捉具有语义感知能力的面部动作特征,提高了面部动作特征的可区分性,进一步提升了面部动作单元检测的准确度。
总而言之,本发明的基于知识驱动的分层特征对齐框架结合了类别和样本级别的知识,以在特征空间内优化和增强语义表示。通过分层特征对齐框架,能够捕捉对于实现跨身份一致性的面部AU检测至关重要的细粒度和高度独特的特征,提升了面部动作单元检测的准确度。
附图说明
图1为本发明实施例中的基于分层特征对齐的面部动作单元检测框架。
图2(a)为现有多标签对比学习中的一种正负样本构建方法示意图。
图2(b)为现有多标签对比学习中的另一种正负样本构建方法示意图。
图2(c)为本发明实施例中多标签对比学习中的正负样本构建方法示意图。
图3为本发明实施例中AU特定嵌入与混合注意力机制的示意图。
图4为本发明实施例中重要性感知融合层的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
如图1所示,本发明的基于分层特征对齐的面部动作单元检测模型构建方法,包括:
搭建面部动作单元检测模型,并采用训练样本数据集对面部动作单元检测模型进行训练,训练样本数据集中的训练样本为面部运动图片,标签为每个样本对应的AU组合,即面部运动单元;
其中,面部动作单元检测模型包括依次连接的骨干网络、局部特征提取模块和局部特征映射模块;骨干网络用于提取训练样本中的每个基本特征;局部特征提取模块用于对骨干网络提取的基本特征进一步进行局部特征提取;局部特征映射模块用于将提取的局部特征进行低维度特征映射,得到输入样本的每个局部低维度特征;
构建类内一致性对齐损失和类间一致性对齐损失的分层特征对齐损失对面部动作单元检测模型进行损失计算;
构建类内一致性对齐损失包括:将输入样本的每个局部低维度特征依次作为给定锚点,与给定锚点具有相同标签的局部低维度特征作为正样本,其它的局部低维度特征作为负样本,则类内一致性对齐损失为正样本与负样本之间的特征损失;
构建类间一致性对齐损失包括:计算任意两个局部低维度特征之间的特征相似度;并计算这两个局部低维度特征对应的标签之间的相关系数;类间一致性对齐损失为特征相似度与对应相关系数之间的交叉熵损失。
具体地,本发明实施例中,通过局部特征提取模块得到的局部特征为,/>表示局部特征提取模块输出的特征维度;局部特征映射模块输出的局部低维度特征为/>,/>表示局部特征映射模块输出的特征维度,/>表示标签中AU类别数量。
设计的类内一致性对齐损失为:
其中,表示第s张输入图像的第c个AU嵌入(局部低维度特征),s取/>,/>或/>;是锚点的索引,/>表示当前批样本对应的局部低维度特征总数;/>表示第c个AU的正样本索引集合,/>是/>的基数;/>表示除了锚点之外的其它所有局部低维度特征;/>,是平滑参数;/>表示点积,/>和/>是用于平衡数据分布的参数,/>为来自训练数据集的第c个AU对应的正样本率的倒数,/>。
本发明实施例中构建的类内一致性对齐损失为NT-Xent损失的一种变体,能够确保标签级别的嵌入之间的一致性,并在数据不平衡的情况下保持鲁棒性。
具体地,本发明实施例中,设计的类间一致性对齐损失为:
其中,表示第/>个样本的第/>个局部低维度特征,/>表示第/>个样本的第/>个局部低维度特征;/>是第/>个和第/>个AU之间的相关系数,本发明实施例中,通过统计得到AU之间的相关系数,/>;如果/>,则/>,。
本发明的基于分层特征对齐的面部动作单元检测模型构建方法,在模型的训练过程中,通过构建类内一致性对齐损失和类间一致性对齐损失的分层特征对齐损失使模型关注由于跨不同个体之间面部运动外观差异带来的微弱多样性,以发挥对比学习中对于微弱变化的特征的识别能力。具体地,通过类内一致性对齐促使同一类别内具有AU特定特征的语义对齐,而来自不同类别的表示相互远离;基于关系驱动的类间一致性对齐增强了AU特征的语义结构,使模型能够捕获由于面部肌肉之间的生理相互联系形成的AUs之间的内在相关性信息,通过提取AU之间的相互关联关系,强化特征之间可判别性的同时,关注了特征之间的关联关系,提升了特征表征的有效性。因此,通过本发明的分层特征对齐框架,通过分层的方式,降低了由于跨不同个体之间面部运动外观差异带来的微弱多样性,提升了面部特征的一致性和可判别性。并且,本发明的分层特征对齐框架通过损失约束的方式隐式的进行特征提取,而非对身份信息移除之后在进行特征提取,使得提取的特征保留了人脸外观辅助信息,提升了面部动作单元检测的准确度。同时,通过类内一致性对齐,显式移除由身份信息导致的类内差异,实现了测试主体的隐私保护。
作为本发明的进一步设计,面部动作单元检测模型还包括全局特征提取模块和全局特征映射模块;全局特征提取模块用于对骨干网络提取的基础特征进一步进行全局特征提取,全局特征映射模块用于对全局特征进行低维度特征映射,得到输入样本的每个全局低维度特征。
分层特征对齐损失还包括:样本级别一致性对齐损失,用于提取样本之间的相关联性特征。
构建样本级别一致性对齐损失包括:将一批样本中的每个样本依次作为给定锚点,计算给定锚点与其它样本对应的标签组合之间的第一相似度;
将第一相似度大于设定阈值对应的样本作为给定锚点的正样本,其它的作为给定锚点的负样本;并将负样本对应的第一相似度设为0;
计算给定锚点与对应正样本的全局低维度特征之间的第二相似度;
样本级别一致性对齐损失为第一相似度与第二相似度之间的交叉熵损失。
具体地,本发明实施例中,设计的样本级别一致性对齐损失为:
其中,是给定锚点的正样本集合;/>为设定阈值,是一个超参数;/>表示决定对比之间相似性的融合值(第一相似度),如果当前给定锚点/>和其它样本/>的标签集相等,即它们包含相同的AU,则/>,否则,/>被赋予小于1的值,本发明实施例中,通过对比对之间标签的余弦距离计算对应/>的值;/>表示第s张输入图像的第g个全局低维度特征,s取/>,/>或/>;如果阈值/>为0,那么/>将等于/>;是/>的基数;/>表示除了锚点之外的其它全局低维度特征。
本发明的基于分层特征对齐的面部动作单元检测模型构建方法,考虑到不同样本之间的标签相似性能够反映它们在表示空间内的语义相似性,通过样本级别标签组合相似性和潜在特征相似性之间的交叉熵作为样本级别一致性对齐损失,提取样本之间相互关联的语义特征,使不同样本的AU标签之间的融合值(也即第一相似度)能够反映样本间的全局特征接近程度,增强了样本间的对齐。同时,考虑到现有的正负样本构建方法,如图2(a)所示,将与锚点标签组合完全一样的视为正样本,其它视为负样本,可能会破坏特征的内在语义结构;或者,如图2(b)所示,将与锚点标签组合中至少共享一个AU即视为正样本,可能会影响正样本的泛化;为了在捕捉AU组合和保持特征表示的基础整体一致性之间取得平衡,本发明在样本级别一致性对齐损失的正负样本构建过程中,通过多标签软对比学习方式,如图2(c)所示,计算给定锚点与其它样本对应的标签组合之间的软融合值,也即第一相似度,将第一相似度大于设定阈值对应的样本作为给定锚点的正样本,其它的作为给定锚点的负样本,并将负样本对应的第一相似度设为0,将对比值的软融合值与对应正样本的全局低维度特征的相似性之间的交叉熵作为样本级别一致性对齐损失,以追求基于全局表示的样本级对齐,打破了正负样本之间的硬边界,并根据它们之间的软融合值(第一相似度)将对比拉近,从而实现更灵活和细致的学习过程。
作为优选,类内一致性对齐、类间一致性对齐及样本级别一致性对齐共同构成本发明实施例中的基于知识驱动的分层特征对齐(Knowledge-driven HierarchicalFeature Alignment,KHFA)框架。采用该框架进行跨身份一致的面部AU检测,能够提升对跨身份一致性引入的微弱变化的感知能力,通过分层的方式对特征进行隐式自动提取,并能够保留面部外观辅助信息,提升了面部动作单元检测的准确度。
本发明中,构建类级别双一致性对齐(类内一致性对齐和类间一致性对齐)和样本级别一致性对齐式时,采用的低维度特征相比于AU特征具有更低维度,也即具有更紧凑的特征,而紧凑的特征移除了更多特征中的冗余信息,能够使模型从更有效的信息中对比出特征间的差异,进一步提升面部动作单元检测的准确度。
为了自动检测多标签面部AU,本发明中的面部动作单元检测模型还包括设置在局部特征提取模块之后分类网络;该分类网络包括个独立的AU特定线性分类器,用于预测每个AU发生的概率。分类网络的损失/>为预测的AU与标签之间的损失,本发明实施例中的分类损失为每个AU的加权二院交叉熵损失和Dice损失,可以表示为:
其中,,/>,/>和/>分别是第i个AU的实际概率和预测概率,/>,/>是训练数据集中第i个AU的正样本率,用于进行数据平衡,/>,/>用于处理零偏差问题。
因此,本发明实施例中,KHFA的总的损失为:
其中,为类级别一致性损失,包括类内一致性对齐损失/>和类间一致性对齐损失/>,/>为样本级别一致性对齐损失;/>、/>和/>为对应的超参数。
作为本发明的进一步设计,为了进一步捕捉具有语义感知能力的面部动作特征,提高面部动作特征的可区分性,本发明的局部特征提取模块为基于混合注意力的AU级别嵌入模块,如图3所示,基于混合注意力的AU级别嵌入模块包括:串联的局部级别特征层、重要性感知融合层及基于自注意力机制的全局嵌入层;其中,本发明实施例中,局部级别特征层和重要性感知融合层构成图1和图3中的局部级别特征嵌入层;基于自注意力机制的全局嵌入层为全局级别特征嵌入层。图3中的FF表示重要性感知融合层。
局部级别特征层用于提取骨干网络输出的基础特征对应的个空间注意力图,并将每个空间注意力图分别和基础特征相乘,得到对应的特征图,也即AU局部区域感知特征;
重要性感知融合层用于对提取的AU局部区域感知特征进行重要性感知融合,得到每个AU特征嵌入;
基于自注意力机制的全局嵌入层用于将每个AU特征嵌入进行自注意力计算,得到全局关系感知的局部特征。
具体地,局部级别特征层包括个独立的空间注意力层,/>表示标签中AU类别的数量;每个空间注意力层的输出可用表示为:
其中,表示骨干网络输出的基础特征,/>表示输出的特征维度;/>表示第c个注意力模块(空间注意力层)。
具体地,如图4所示,重要性感知融合层对提取的AU局部区域感知特征进行重要性感知融合,得到每个AU特征嵌入,包括:
将每个空间注意力图与对应的特征图进行特征融合,得到融合的特征图;
根据每个空间注意力图,计算对应的融合的特征图中每个位置的重要性;
用每个位置的重要性和融合的特征图进行特征加权,得到每个AU的特征嵌入。
本发明实施例中,根据每个空间注意力图,计算对应的融合的特征图中每个位置的重要性为:
其中,表示融合的特征图中位置(i,j)处的第n个通道特征图的元素;/>表示平滑参数,用于有效调节每个值的重要性;当平滑参数值接近零时,特征融合层将逐渐类似于最大池化,当平滑参数值接近无穷大时,融合层将逼***均池化。
因此,特征嵌入的第n个维度值为:
则得到的第c个AU特征嵌入。
本发明中,考虑到面部运动表达的是局部运动信息,现有的通过全局平均相应的特征图以制定AU特定的嵌入的方式,对关键局部信息感知性不强,本发明设计的基于混合注意力的AU级别嵌入模块,在AU特征嵌入之前,通过重要性感知融合层对融合的特征图中每个位置进行区域重要性感知,得到重要性感知的局部特征嵌入,增强了重要区域的特征,能够进一步捕捉具有语义感知能力的面部动作特征,提高了面部动作特征的可区分性,进一步提升了面部动作单元检测的准确度。
实施例2
本发明实施例中,提供了一种基于分层特征对齐的面部动作单元检测方法,包括:
将待测人脸图像输入至采用实施例1中的基于分层特征对齐的面部动作单元检测模型构建方法所构建的面部动作单元检测模型中,预测识别人脸的多个面部运动单元。相关技术方案具体参见实施例1,此处不再赘述。
实施例3
本发明实施例中,提供了一种电子设备,包括计算机可读存储介质和处理器;
计算机可读存储介质用于存储可执行指令;
处理器用于读取计算机可读存储介质中存储的可执行指令执行实施例1中的基于分层特征对齐的面部动作单元检测模型构建方法,或/和,执行实施例2中的基于分层特征对齐的面部动作单元检测方法。
实施例4
本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例1中的基于分层特征对齐的面部动作单元检测模型构建方法,或/和,执行实施例2中的基于分层特征对齐的面部动作单元检测方法。
本发明的KHFA结合了类别和样本级别的知识,以在特征空间内优化和增强语义表示。通过分层特征对齐框架,能够捕捉对于实现跨身份一致性的面部AU检测至关重要的细粒度和高度独特的特征,提升了面部动作单元检测的准确度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于分层特征对齐的面部动作单元检测模型构建方法,其特征在于,包括:搭建面部动作单元检测模型,并采用训练样本集对所述面部动作单元检测模型进行训练,训练样本为面部运动图片,标签为每个样本对应的AU组合;所述面部动作单元检测模型包括依次连接的骨干网络、局部特征提取模块和局部特征映射模块;所述局部特征映射模块用于将所述局部特征提取模块提取的局部特征进行低维度特征映射,得到输入样本的每个局部低维度特征;
构建类内一致性对齐损失和类间一致性对齐损失的分层特征对齐损失对所述面部动作单元检测模型进行损失计算:
将输入样本的每个局部低维度特征依次作为锚点,与锚点具有相同标签的局部低维度特征作为正样本,其它的局部低维度特征作为负样本,则所述类内一致性对齐损失为正样本与负样本之间的特征损失;
计算任意两个局部低维度特征之间的特征相似度,并计算所述两个局部低维度特征对应的标签之间的相关系数,则所述类间一致性对齐损失为特征相似度与对应相关系数之间的交叉熵损失。
2.根据权利要求1所述的面部动作单元检测模型构建方法,其特征在于,所述面部动作单元检测模型还包括:全局特征提取模块和全局特征映射模块;所述全局特征映射模块用于将所述全局特征提取模块提取的全局特征进行低维度特征映射,得到输入样本的每个全局低维度特征;
所述分层特征对齐损失还包括样本级别一致性对齐损失:
将一批样本中的每个样本依次作为锚点,计算锚点与其它样本对应的标签组合之间的第一相似度;
将所述第一相似度大于设定阈值对应的样本作为锚点的正样本,其它的作为锚点的负样本,并将负样本对应的第一相似度设为0;
计算锚点与对应正样本的全局低维度特征之间的第二相似度;
所述样本级别一致性对齐损失为所述第一相似度与所述第二相似度之间的交叉熵损失。
3.根据权利要求1所述的面部动作单元检测模型构建方法,其特征在于,所述类内一致性对齐损失为:
其中,表示所述类内一致性对齐损失;/>表示标签中AU类别数量;/>表示第s张输入图像的第c个局部低维度特征,s取/>,/>或/>;/>是锚点的索引,/>表示当前批样本对应的局部低维度特征总数;/>表示第c个AU的正样本索引集合,/>是的基数;/>表示除了锚点之外的其它局部低维度特征;/>,是平滑参数;/>表示点积,/>和/>是用于平衡数据分布的参数。
4.根据权利要求3所述的面部动作单元检测模型构建方法,其特征在于,所述类间一致性对齐损失为:
其中,表示所述类间一致性对齐损失;/>表示第/>个样本的第/>个局部低维度特征,/>表示第/>个样本的第/>个局部低维度特征;/>是第/>个和第/>个AU之间的相关系数,/>。
5.根据权利要求2所述的面部动作单元检测模型构建方法,其特征在于,所述样本级别一致性对齐损失为:
其中,表示所述样本级别一致性对齐损失;/>是锚点的正样本集合,/>为设定阈值,/>为第一相似度;/>表示第s张输入图像的第g个全局低维度特征,s取/>,/>或/>;/>,是平滑参数;/>表示点积;/>是/>的基数;表示除了锚点之外的其它全局低维度特征。
6.根据权利要求1-5任一项所述的面部动作单元检测模型构建方法,其特征在于,所述局部特征提取模块包括:
局部级别特征层,用于提取所述骨干网络输出的基础特征对应的个空间注意力图,并将每个空间注意力图分别和所述基础特征相乘,得到对应的特征图;其中,/>表示标签中AU类别数量;
重要性感知融合层,用于将每个空间注意力图与对应的特征图进行特征融合,得到融合的特征图;并根据每个空间注意力图,计算对应的融合的特征图中每个位置的重要性,用每个位置的重要性和融合的特征图进行特征加权,得到每个AU的特征嵌入;
基于自注意力机制的全局嵌入层,用于将所述AU的特征嵌入进行自注意力计算,得到全局关系感知的局部特征。
7.根据权利要求6所述的面部动作单元检测模型构建方法,其特征在于,所述每个位置的重要性为:
其中,表示所述每个位置的重要性;/>表示融合的特征图中位置(i,j)处的第n个通道特征图的元素;/>表示平滑参数。
8.一种基于分层特征对齐的面部动作单元检测方法,其特征在于,包括:
将待测人脸图像输入至采用权利要求1-7任意一项所述的面部动作单元检测模型构建方法所构建的面部动作单元检测模型中,预测识别人脸的多个面部运动单元。
9.一种电子设备,其特征在于,包括计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令执行权利要求1-7任一项所述的面部动作单元检测模型构建方法,或/和,实现如权利要求8所述的面部动作单元检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述的面部动作单元检测模型构建方法,或/和,实现如权利要求8所述的面部动作单元检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410054740.7A CN117576765B (zh) | 2024-01-15 | 2024-01-15 | 一种基于分层特征对齐的面部动作单元检测模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410054740.7A CN117576765B (zh) | 2024-01-15 | 2024-01-15 | 一种基于分层特征对齐的面部动作单元检测模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117576765A true CN117576765A (zh) | 2024-02-20 |
CN117576765B CN117576765B (zh) | 2024-03-29 |
Family
ID=89862766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410054740.7A Active CN117576765B (zh) | 2024-01-15 | 2024-01-15 | 一种基于分层特征对齐的面部动作单元检测模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117576765B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090123077A1 (en) * | 2005-10-24 | 2009-05-14 | Nec Corporation | Coefficient determining method, feature extracting method, system, and program, and pattern checking method, system, and program |
CN108491786A (zh) * | 2018-03-20 | 2018-09-04 | 南京邮电大学 | 一种基于分级网络和聚类合并的人脸检测方法 |
CN113392822A (zh) * | 2021-08-18 | 2021-09-14 | 华中科技大学 | 基于特征分离表征学习的面部运动单元检测方法及*** |
CN114332711A (zh) * | 2021-12-29 | 2022-04-12 | 科大讯飞股份有限公司 | 面部动作识别及模型训练的方法、装置、设备和存储介质 |
US20220138495A1 (en) * | 2020-11-05 | 2022-05-05 | University Of Electronic Science And Technology Of China | Model and method for multi-source domain adaptation by aligning partial features |
CN114724226A (zh) * | 2022-04-25 | 2022-07-08 | 中国平安人寿保险股份有限公司 | 表情识别模型训练方法、电子设备、存储介质 |
JP2023010610A (ja) * | 2021-07-07 | 2023-01-20 | 富士通株式会社 | 情報処理装置及び情報処理方法 |
CN116311483A (zh) * | 2023-05-24 | 2023-06-23 | 山东科技大学 | 基于局部面部区域重构和记忆对比学习的微表情识别方法 |
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN117133035A (zh) * | 2023-08-25 | 2023-11-28 | 华中师范大学 | 一种面部表情识别方法、***及电子设备 |
CN117351542A (zh) * | 2023-09-28 | 2024-01-05 | 山东大学 | 一种面部表情识别方法及*** |
-
2024
- 2024-01-15 CN CN202410054740.7A patent/CN117576765B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090123077A1 (en) * | 2005-10-24 | 2009-05-14 | Nec Corporation | Coefficient determining method, feature extracting method, system, and program, and pattern checking method, system, and program |
CN108491786A (zh) * | 2018-03-20 | 2018-09-04 | 南京邮电大学 | 一种基于分级网络和聚类合并的人脸检测方法 |
US20220138495A1 (en) * | 2020-11-05 | 2022-05-05 | University Of Electronic Science And Technology Of China | Model and method for multi-source domain adaptation by aligning partial features |
JP2023010610A (ja) * | 2021-07-07 | 2023-01-20 | 富士通株式会社 | 情報処理装置及び情報処理方法 |
CN113392822A (zh) * | 2021-08-18 | 2021-09-14 | 华中科技大学 | 基于特征分离表征学习的面部运动单元检测方法及*** |
CN114332711A (zh) * | 2021-12-29 | 2022-04-12 | 科大讯飞股份有限公司 | 面部动作识别及模型训练的方法、装置、设备和存储介质 |
WO2023185243A1 (zh) * | 2022-03-29 | 2023-10-05 | 河南工业大学 | 基于注意力调制上下文空间信息的表情识别方法 |
CN114724226A (zh) * | 2022-04-25 | 2022-07-08 | 中国平安人寿保险股份有限公司 | 表情识别模型训练方法、电子设备、存储介质 |
CN116311477A (zh) * | 2023-05-15 | 2023-06-23 | 华中科技大学 | 一种面向跨身份一致性的面部运动单元检测模型构建方法 |
CN116311483A (zh) * | 2023-05-24 | 2023-06-23 | 山东科技大学 | 基于局部面部区域重构和记忆对比学习的微表情识别方法 |
CN117133035A (zh) * | 2023-08-25 | 2023-11-28 | 华中师范大学 | 一种面部表情识别方法、***及电子设备 |
CN117351542A (zh) * | 2023-09-28 | 2024-01-05 | 山东大学 | 一种面部表情识别方法及*** |
Non-Patent Citations (2)
Title |
---|
HUIJUAN ZHAO等: "CDRL: Contrastive Disentangled Representation Learning Scheme for Facial Action Unit Detection", 《2022 IEEE 34TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》, 18 April 2023 (2023-04-18), pages 652 - 659 * |
王德勋;虞慧群;范贵生;: "基于深度学习的面部动作单元识别算法", 华东理工大学学报(自然科学版), no. 02, 29 February 2020 (2020-02-29), pages 124 - 131 * |
Also Published As
Publication number | Publication date |
---|---|
CN117576765B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liong et al. | Less is more: Micro-expression recognition from video using apex frame | |
CN109583342B (zh) | 基于迁移学习的人脸活体检测方法 | |
CN110969626B (zh) | 基于3d神经网络的人脑核磁共振影像的海马体提取方法 | |
CN106548149B (zh) | 监控视频序列中人脸微表情图像序列的识别方法 | |
Sha et al. | Feature level analysis for 3D facial expression recognition | |
CN102938070B (zh) | 一种基于动作子空间与权重化行为识别模型的行为识别方法 | |
Zhang et al. | On the effectiveness of soft biometrics for increasing face verification rates | |
Guo | Human age estimation and sex classification | |
JP4375570B2 (ja) | 顔認識方法およびシステム | |
CN109508692B (zh) | 一种基于3d指纹图像的性别识别方法及*** | |
CN113869276B (zh) | 基于微表情的谎言识别方法及*** | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及*** | |
JP6166981B2 (ja) | 表情解析装置及び表情解析プログラム | |
CN105550642B (zh) | 基于多尺度线性差分特征低秩表示的性别识别方法及*** | |
CN117576765B (zh) | 一种基于分层特征对齐的面部动作单元检测模型构建方法 | |
Chang et al. | Using gait information for gender recognition | |
CN112818915A (zh) | 基于3dmm软生物特征的深度伪造视频检测方法及*** | |
Yuvaraj et al. | An Adaptive Deep Belief Feature Learning Model for Cognitive Emotion Recognition | |
Bazazian et al. | Context based gait recognition | |
Tiwari et al. | Personality prediction from Five-Factor Facial Traits using Deep learning | |
CN114913585A (zh) | 融合面部表情的居家老人摔倒检测方法 | |
CN115205972A (zh) | 一种基于深度学习的六步洗手评估方法及装置 | |
CN115062704A (zh) | 一种基于深度迁移学习的睡姿识别方法 | |
CN113920567A (zh) | 基于ConvLSTM网络模型的人脸图像年龄估计方法 | |
CN111860441A (zh) | 基于无偏深度迁移学习的视频目标识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |