CN112800894B - 一种基于时空流间注意力机制的动态表情识别方法及*** - Google Patents

一种基于时空流间注意力机制的动态表情识别方法及*** Download PDF

Info

Publication number
CN112800894B
CN112800894B CN202110061153.7A CN202110061153A CN112800894B CN 112800894 B CN112800894 B CN 112800894B CN 202110061153 A CN202110061153 A CN 202110061153A CN 112800894 B CN112800894 B CN 112800894B
Authority
CN
China
Prior art keywords
convolution
space
time
layer
characteristic diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110061153.7A
Other languages
English (en)
Other versions
CN112800894A (zh
Inventor
卢官明
陈浩侠
卢峻禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110061153.7A priority Critical patent/CN112800894B/zh
Publication of CN112800894A publication Critical patent/CN112800894A/zh
Application granted granted Critical
Publication of CN112800894B publication Critical patent/CN112800894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空流间注意力机制的动态表情识别方法及***。该方法首先采集面部表***片段,建立包含表情类别标签的人脸表***库;然后构建一种嵌入时空流间注意力机制模块的双流卷积神经网络模型,该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层;接着使用人脸表***库中的视频样本训练该模型;最后利用训练好的模型,对新输入的视频进行人脸表情识别。该方法通过在双流卷积神经网络中嵌入时空流间注意力机制模块,能够实现空域特征和时域特征的信息交互,从而捕捉空域特征和时域特征之间的动态关联信息,获得鉴别能力强的特征,提升人脸表情识别的准确性和鲁棒性。

Description

一种基于时空流间注意力机制的动态表情识别方法及***
技术领域
本发明属于机器学习与模式识别领域,涉及一种动态表情识别方法及***,特别涉及一种基于时空流间注意力机制的动态表情识别方法及***。
背景技术
随着计算机技术和人工智能的高速发展,人机交互的方式不断改变,这使得人们越来越倾向于与计算机进行直接的交流。在人的交流过程中,了解对方的情感状态很有必要,而在人类情感暴露的过程中,面部表情约占55%的信息比重。所以,通过计算机识别人脸表情已经成为一个非常热门的话题。
人脸表情识别是一个从图像或视频中提取面部表情特征,根据特征信息来判断表情类别标签的过程。人脸表情识别是一个横跨神经科学、心理学、计算机科学等多领域的交叉学科,它的潜在应用包括远程教育、安全驾驶和服务机器人等存在情感人机交互需求的领域。比如,目前部分智能手机的相机使用了微笑表情触发自动拍照的功能,高端汽车使用摄像头监测驾驶员的情绪状态并采取相应的安全提示措施。人脸表情识别技术研究的深入和计算机识别能力的提高,必将大大提高人类的生活质量。
目前,该领域的研究很大一部分是针对一幅静态人脸图像进行的。换句话说,这些方法只能捕捉到人脸表情的空域信息,而忽略了表情随时间的变化,而这些时域信息可能包含了更多的表情特征。相比基于静止图像的表情识别方法,双流卷积神经网络能够对动态表情进行识别。该网络分别使用空间流支路和时间流支路对从视频中提取的单帧人脸图像和表示表情变化的堆叠光流图进行特征提取,可以同时获得面部表情的空域特征和时域特征,具有时空信息互补的效果。
类似于人脸识别,非受控自然环境下人脸表情识别受人脸的遮挡和姿态影响较大。为了缓解这些因素对人脸表情识别的影响,利用人脸局部信息是比较公认的有效策略。根据人类视觉***和认知过程的相关研究可知,人类视觉***在处理图像数据时会优先处理其中较为重要的显著性区域的信息,并选择性忽略非显著性区域。在人脸表情识别任务中引入注意力机制,可以使卷积神经网络自适应地为人脸图像中的显著性区域赋予较高的权重信息,使这些区域的信息对下一阶段学习更高层次的深层特征产生更大的影响,而弱化那些非显著性区域,从而进一步提高表情识别的准确度。但是,对于双流卷积神经网络来说,现有的技术仅局限于在空间流支路和时间流支路中分别引入注意力机制,这虽然能发挥注意力机制最基本的作用,但无法充分利用空间流支路和时间流支路的互补优势,达到两条支路之间信息交互的目的。
中国专利申请“一种基于注意力机制模块的人脸表情识别方法”(专利申请号CN202010783432.X,公开号CN111967359A),通过将裁剪出来的人脸图像送入一种基于注意力机制模块的网络模型,得到人脸图像注意力特征,然后采用两个卷积层进行特征提取操作,得到人脸图像的特征图,再利用全局平均池化层进行特征降维,最后利用Softmax分类器对降维特征进行分类识别,输出人脸表情识别结果。该方法存在的问题是只能对一幅静态人脸图像进行识别,这忽略了人脸表情的时域信息,难以达到最好的识别效果。
中国专利申请“基于时空融合网络的面部表情识别方法”(专利申请号CN202010221398.7,公开号CN111709266A),对输入视频序列预处理后,使用DMF模块提取面部表情的空域特征,使用LTCNN模块提取面部表情的时域特征,最后使用基于微调的融合策略将两个模块学习到的表情时空特征进行融合。该方法存在的问题是使用DMF模块提取面部表情的空域特征和使用LTCNN模块提取面部表情的时域特征是两个独立的过程,没有做到充分的信息交互,这可能会影响最后的识别效果。
发明内容
发明目的:针对双流卷积神经网络分别使用空间流支路和时间流支路提取面部表情的空域特征和时域特征的过程相对独立这个问题,本发明的目的是提供一种基于时空流间注意力机制的动态表情识别方法及***,通过在双流卷积神经网络中嵌入时空流间注意力机制模块,捕捉空域特征和时域特征中的动态关联信息,在空间流支路和时间流支路之间建立联系,进一步发挥空间流支路和时间流支路的互补作用,获得鉴别能力强的特征,提升人脸表情识别的准确性和鲁棒性。
技术方案:本发明为实现上述发明目的采用以下技术方案:
一种基于时空流间注意力机制的动态表情识别方法,包括以下步骤:
步骤1:采集面部表***片段,建立包含表情类别标签的人脸表***库;
步骤2:构建一种嵌入时空流间注意力机制模块的双流卷积神经网络模型,该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层;
所述数据处理层,用于对输入视频进行预处理,预处理过程包括:对视频进行分帧处理,从得到的图像中按时间顺序,提取一个长度为u帧的图像序列,u为设定的序列长度;对所述图像序列中的每幅图像进行人脸检测、裁剪与对齐,并对处理后的每幅图像进行归一化,得到一个长度为u帧的人脸表情图像序列;从所述长度为u帧的人脸表情图像序列中随机选取一幅图像,作为该输入视频对应的单帧人脸图像;计算所述长度为u帧的人脸表情图像序列中每两幅相邻图像之间的光流图,将所得光流图按时间顺序在通道维上堆叠,作为该输入视频对应的堆叠光流图;
所述空间流支路,包括多个卷积模块,该支路的输入为数据处理层输出的单帧人脸图像,用于提取面部表情的空域特征;
所述时间流支路,包括与空间流支路相同数量的卷积模块,该支路的输入为数据处理层输出的堆叠光流图,用于提取面部表情的时域特征;
所述时空流间注意力机制模块,嵌入于空间流支路和时间流支路的各个卷积模块之间,该模块的输入为双流卷积神经网络中上一层卷积模块的输出,该模块的输出为双流卷积神经网络中下一层卷积模块的输入,用于对空域特征和时域特征进行信息交互;所述时空流间注意力机制模块首先计算输入的空域特征图和时域特征图的关联度权重矩阵,然后分别计算空域特征图和时域特征图的映射矩阵,并根据关联度权重矩阵和映射矩阵分别计算空域残差特征图和时域残差特征图,最后再使用残差连接将空域残差特征图与输入的空域特征图相加得到输出的空域特征图,将时域残差特征图与输入的时域特征图相加,得到输出的时域特征图;
所述特征融合层,用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作,并将得到的两个特征向量拼接后输出一个特征向量;
所述全连接层,用于全连接特征融合层与分类层;
所述分类层,用于计算输入视频中的人脸表情属于各表情类别的概率;
步骤3:使用建立的人脸表***库中的视频样本对构建的网络模型进行训练;
步骤4:利用训练好的网络模型,对新输入的视频进行人脸表情识别。
进一步地,所述空间流支路,包括顺序连接的多个卷积模块;所述卷积模块,包含一个或多个卷积层以及一个池化层,其中,卷积层包含ReLU非线性激活函数层,选用m1个k1×k1的卷积核对上一层的输出进行卷积运算,其中,m1在32、64、128、256、512数值中选取,k1在3、5、7数值中选取;池化层选用k2×k2的池化核对上一层卷积层的输出进行下采样操作,其中,k2在1、2、3数值中选取。
进一步地,所述时间流支路,包括顺序连接的与空间流支路相同数量的卷积模块;所述卷积模块,包含一个或多个卷积层以及一个池化层,其中,卷积层包含ReLU非线性激活函数层,选用m2个k3×k3的卷积核对上一层的输出进行卷积运算,其中,m2在32、64、128、256、512数值中选取,k3在3、5、7数值中选取;池化层选用k4×k4的池化核对上一层卷积层的输出进行下采样操作,其中,k4在1、2、3数值中选取。
进一步地,所述时空流间注意力机制模块,分别用XS和XT表示该模块输入的空域特征图和时域特征图,XS和XT的大小分别为HS×WS×CS和HT×WT×CT,该模块的计算步骤包括:
(1)计算空域特征图XS和时域特征图XT的关联度权重矩阵F1和F2:分别选用CO个1×1卷积核对空域特征图XS和时域特征图XT进行卷积运算,得到两个大小分别为HS×WS×CO和HT×WT×CO的特征图;通过维度变换将这两个特征图的大小分别调整为HSWS×CO和CO×HTWT,得到两个二维矩阵,并将这两个二维矩阵相乘,得到一个大小为HSWS×HTWT的矩阵F;对矩阵F的每一个行向量执行Softmax操作,得到关联度权重矩阵F1,对矩阵F的每一个列向量执行Softmax操作,得到关联度权重矩阵F2
(2)计算空域特征图XS的映射矩阵GS:选用CO个1×1卷积核对空域特征图XS进行卷积运算,得到一个大小为HS×WS×CO的特征图,通过维度变换将该特征图的大小调整为CO×HSWS,得到XS的映射矩阵GS
(3)计算时域特征图XT的映射矩阵GT:选用CO个1×1卷积核对时域特征图XT进行卷积运算,得到一个大小为HT×WT×CO的特征图,通过维度变换将该特征图的大小调整为HTWT×CO,得到XT的映射矩阵GT
(4)计算空域残差特征图YS:将矩阵F1和矩阵GT相乘,得到一个大小为HSWS×CO的矩阵,通过维度变换将该矩阵的大小调整为HS×WS×CO,再选用CS个1×1卷积核对其进行卷积运算,得到大小为HS×WS×CS的空域残差特征图YS
(5)计算时域残差特征图YT:将矩阵GS和矩阵F2相乘,得到一个大小为CO×HTWT的矩阵,通过维度变换将该矩阵的大小调整为HT×WT×CO,再选用CT个1×1卷积核对其进行卷积运算,得到大小为HT×WT×CT的时域残差特征图YT
(6)计算该模块输出的空域特征图ZS:使用残差连接,将空域残差特征图YS与该模块输入的空域特征图XS相加,得到该模块输出的空域特征图ZS
(7)计算该模块输出的时域特征图ZT:使用残差连接,将时域残差特征图YT与该模块输入的时域特征图XT相加,得到该模块输出的时域特征图ZT
基于相同的发明构思,本发明公开的一种基于时空流间注意力机制的动态表情识别***,包括以下模块:
数据预处理模块,用于采集面部表***片段,建立包含表情类别标签的人脸表***库;
网络构建模块,构建嵌入时空流间注意力机制模块的双流卷积神经网络模型,该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层;
所述数据处理层,用于对输入视频进行预处理,预处理过程包括:对视频进行分帧处理,从得到的图像中按时间顺序,提取一个长度为u帧的图像序列,u为设定的序列长度;对所述图像序列中的每幅图像进行人脸检测、裁剪与对齐,并对处理后的每幅图像进行归一化,得到一个长度为u帧的人脸表情图像序列;从所述长度为u帧的人脸表情图像序列中随机选取一幅图像,作为该输入视频对应的单帧人脸图像;计算所述长度为u帧的人脸表情图像序列中每两幅相邻图像之间的光流图,将所得光流图按时间顺序在通道维上堆叠,作为该输入视频对应的堆叠光流图;
所述空间流支路,包括多个卷积模块,该支路的输入为数据处理层输出的单帧人脸图像,用于提取面部表情的空域特征;
所述时间流支路,包括与空间流支路相同数量的卷积模块,该支路的输入为数据处理层输出的堆叠光流图,用于提取面部表情的时域特征;
所述时空流间注意力机制模块,嵌入于空间流支路和时间流支路的各个卷积模块之间,该模块的输入为双流卷积神经网络中上一层卷积模块的输出,该模块的输出为双流卷积神经网络中下一层卷积模块的输入,用于对空域特征和时域特征进行信息交互;所述时空流间注意力机制模块首先计算输入的空域特征图和时域特征图的关联度权重矩阵,然后分别计算空域特征图和时域特征图的映射矩阵,并根据关联度权重矩阵和映射矩阵分别计算空域残差特征图和时域残差特征图,最后再使用残差连接将空域残差特征图与输入的空域特征图相加得到输出的空域特征图,将时域残差特征图与输入的时域特征图相加,得到输出的时域特征图;
所述特征融合层,用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作,并将得到的两个特征向量拼接后输出一个特征向量;
所述全连接层,用于全连接特征融合层与分类层;
所述分类层,用于计算输入视频中的人脸表情属于各表情类别的概率;
网络训练模块,用于使用建立的人脸表***库中的视频样本对构建的网络模型进行训练;
以及表情识别模块,用于利用训练好的网络模型,对新输入的视频进行人脸表情识别。
基于相同的发明构思,本发明公开的一种基于时空流间注意力机制的动态表情识别***,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现所述的一种基于时空流间注意力机制的动态表情识别方法。
有益效果:与现有技术相比,本发明具有以下技术效果:
(1)本发明构建了一种深度学习网络模型,不需要进行繁琐的人工特征提取和特征降维等操作,通过训练网络模型自适应地调整参数,可以自主提取能够反映视频样本中人脸表情的特征,提取到的特征可以更好地表征人脸表情的变化,相比于传统的人脸表情识别,具有更强的拟合能力。
(2)本发明采用双流卷积神经网络,分别使用空间流支路和时间流支路对从视频中提取的单帧人脸图像和表示表情变化的堆叠光流图进行特征提取,可以同时获得面部表情的空域特征和时域特征,这将特征提取从静态图像拓展到视频,在利用面部表情的空域信息外还充分捕捉了面部表情的时域信息,具有更强的表征能力和泛化能力。
(3)本发明通过在双流卷积神经网络中的各个卷积模块之间嵌入时空流间注意力机制模块,能够让模型中各个阶段的空域特征和时域特征进行信息交互,学习对方特征中和自己有关的信息,忽略和自己无关的信息,从而捕捉空域特征和时域特征之间的动态关联信息(比如,当一个人微笑时,从空间上看,他的嘴角上扬,眼角下拉,这会引起光流图中的两处光流朝两个方向变化),进一步发挥空间流支路和时间流支路的互补作用,可以得到更具有区分度和代表性的特征。
(4)本发明将时空流间注意力机制模块嵌入于双流卷积神经网络的两条支路之间,不但能使网络自适应地为人脸图像或光流图中的显著性区域赋予较高的权重信息,使这些区域的信息对下一阶段学习更高层次的深层特征产生更大的影响,而弱化那些非显著性区域更加关注图像局部重点特征,又能在空间流支路和时间流支路之间建立联系,实现两条支路互相学习对方的局部重点特征,可以获得鉴别能力强的特征,提升人脸表情识别的准确性和鲁棒性。
附图说明
图1是本发明实施例的方法流程图;
图2是本发明实施例中使用的网络模型结构图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。
如图1所示,本发明实施例提供的一种基于时空流间注意力机制的动态表情识别方法,主要包括如下步骤:
步骤1:采集面部表***片段,建立包含表情类别标签的人脸表***库。
本实施例选用AFEW人脸表***库。AFEW人脸表***库中的视频样本出自不同电影,共包含1809个视频样本,每个视频样本中的人物面部对应一种表情类别,包括生气、害怕、厌恶、高兴、悲伤、惊讶和中性七种类别。在实际中,也可以采用其他的人脸表***库,或自行采集面部表***,建立包含人脸表情类别标签的人脸表***库。
步骤2:构建一种嵌入时空流间注意力机制模块的双流卷积神经网络模型,该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层。
数据处理层,用于对输入视频进行预处理,预处理过程包括:对视频进行分帧处理,从得到的图像中按时间顺序,提取一个长度为u帧的图像序列,u为设定的序列长度;对图像序列中的每幅图像进行人脸检测、裁剪与对齐,并对处理后的每幅图像进行归一化,得到一个长度为u帧的人脸表情图像序列;从长度为u帧的人脸表情图像序列中随机选取一幅图像,作为该输入视频对应的单帧人脸图像;计算长度为u帧的人脸表情图像序列中每两幅相邻图像之间的光流图,将所得光流图按时间顺序在通道维上堆叠,作为该输入视频对应的堆叠光流图。
空间流支路,包括多个卷积模块,该支路的输入为数据处理层输出的单帧人脸图像,用于提取面部表情的空域特征;卷积模块包含一个或多个卷积层以及一个池化层,其中,卷积层包含ReLU非线性激活函数层,选用m1个k1×k1的卷积核对上一层的输出进行卷积运算,其中,m1在32、64、128、256、512数值中选取,k1在3、5、7数值中选取;池化层选用k2×k2的池化核对上一层卷积层的输出进行下采样操作,其中,k2在1、2、3数值中选取。
时间流支路,包括与空间流支路相同数量的卷积模块,该支路的输入为数据处理层输出的堆叠光流图,用于提取面部表情的时域特征。卷积模块包含一个或多个卷积层以及一个池化层,其中,卷积层包含ReLU非线性激活函数层,选用m2个k3×k3的卷积核对上一层的输出进行卷积运算,其中,m2在32、64、128、256、512数值中选取,k3在3、5、7数值中选取;池化层选用k4×k4的池化核对上一层卷积层的输出进行下采样操作,其中,k4在1、2、3数值中选取。
时空流间注意力机制模块,嵌入于空间流支路和时间流支路的各个卷积模块之间,该模块的输入为双流卷积神经网络中上一层卷积模块的输出,该模块的输出为双流卷积神经网络中下一层卷积模块的输入,用于对空域特征和时域特征进行信息交互;时空流间注意力机制模块首先计算输入的空域特征图和时域特征图的关联度权重矩阵,然后分别计算空域特征图和时域特征图的映射矩阵,并根据关联度权重矩阵和映射矩阵分别计算空域残差特征图和时域残差特征图,最后再使用残差连接将空域残差特征图与输入的空域特征图相加得到输出的空域特征图,将时域残差特征图与输入的时域特征图相加,得到输出的时域特征图。
特征融合层,用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作,并将得到的两个特征向量拼接后输出一个特征向量。
全连接层,用于全连接特征融合层与分类层。
分类层,用于计算输入视频中的人脸表情属于各表情类别的概率。
本实施例构建的一种基于时空流间注意力机制的动态表情识别网络模型,如图2所示,具体结构如下:
(1)数据处理层,首先使用FFmpeg软件将输入视频进行分帧处理,从得到的图像中按时间顺序,提取一个长度为9帧的图像序列;然后采用Dlib人脸检测算法对所述图像序列中的每幅图像进行人脸检测、裁剪与对齐,并将处理后的每幅图像归一化为224×224像素,得到一个长度为9帧的人脸表情图像序列;接着从所述长度为9帧的人脸表情图像序列中随机选取一幅图像,作为该输入视频对应的单帧人脸图像;最后用TVL1算法计算所述长度为9帧的人脸表情图像序列中每两幅相邻图像之间的光流图,将所得光流图按时间顺序在通道维上堆叠,作为该输入视频对应的堆叠光流图;
(2)空间流支路和时间流支路,采用两种结构相同、参数不同的卷积神经网络,分别包括顺序连接的5个卷积模块:
卷积模块A和卷积模块A′:包括2个卷积层和1个池化层,2个卷积层均选用64个3×3的卷积核对特征图进行卷积操作,卷积步长为1,补零加边长度为1,卷积后经过ReLU非线性映射,输出大小为224×224×64的特征图;池化层选用2×2的最大池化核,以步长2对特征图进行下采样操作,输出大小为112×112×64的特征图;
卷积模块B和卷积模块B′:包括2个卷积层和1个池化层,2个卷积层均选用128个3×3的卷积核对特征图进行卷积操作,卷积步长为1,补零加边长度为1,卷积后经过ReLU非线性映射,输出大小为112×112×128的特征图;池化层选用2×2的最大池化核,以步长2对特征图进行下采样操作,输出大小为56×56×128的特征图;
卷积模块C和卷积模块C′:包括3个卷积层和1个池化层,3个卷积层均选用256个3×3的卷积核对特征图进行卷积操作,卷积步长为1,补零加边长度为1,卷积后经过ReLU非线性映射,输出大小为56×56×256的特征图;池化层选用2×2的最大池化核,以步长2对特征图进行下采样操作,输出大小为28×28×256的特征图;
卷积模块D和卷积模块D′:包括3个卷积层和1个池化层,3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作,卷积步长为1,补零加边长度为1,卷积后经过ReLU非线性映射,输出大小为28×28×512的特征图;池化层选用2×2的最大池化核,以步长2对特征图进行下采样操作,输出大小为14×14×512的特征图;
卷积模块E和卷积模块E′:包括3个卷积层和1个池化层,3个卷积层均选用512个3×3的卷积核对特征图进行卷积操作,卷积步长为1,补零加边长度为1,卷积后经过ReLU非线性映射,输出大小为14×14×512的特征图;池化层选用2×2的最大池化核,以步长2对特征图进行下采样操作,输出大小为7×7×512的特征图,该特征图即为对应支路的输出特征图;
(3)时空流间注意力机制模块,嵌入于空间流支路和时间流支路的各个卷积模块之间,因为空间流支路和时间流支路的卷积模块各有5个,所以一共嵌入4个时空流间注意力机制模块,下面以时空流间注意力机制模块A为例说明实施细节:
时空流间注意力机制模块A的输入为卷积模块A输出的空域特征图XS和卷积模块A′输出的时域特征图XT,XS和XT的大小均为112×112×64,该模块的操作步骤包括:
计算空域特征图XS和时域特征图XT的关联度权重矩阵F1和F2:分别选用32个1×1卷积核对XS和XT进行卷积运算,得到两个大小均为112×112×32的特征图;通过维度变换将这两个特征图的大小分别调整为1122×32和32×1122,得到两个二维矩阵,并将这两个二维矩阵相乘,得到一个大小为1122×1122的矩阵F;对矩阵F的每一个行向量执行Softmax操作,得到关联度权重矩阵F1,对矩阵F的每一个列向量执行Softmax操作,得到关联度权重矩阵F2
计算空域特征图XS的映射矩阵GS:选用32个1×1卷积核对空域特征图XS进行卷积运算,得到一个大小为112×112×32的特征图,通过维度变换将该特征图的大小调整为32×1122,得到XS的映射矩阵GS
计算时域特征图XT的映射矩阵GT:选用32个1×1卷积核对时域特征图XT进行卷积运算,得到一个大小为112×112×32的特征图,通过维度变换将该特征图的大小调整为1122×32,得到XT的映射矩阵GT
计算空域残差特征图YS:将矩阵F1和矩阵GT相乘,得到一个大小为1122×32的矩阵,通过维度变换将该矩阵的大小调整为112×112×32,再选用64个1×1卷积核对其进行卷积运算,得到大小为112×112×64的空域残差特征图YS
计算时域残差特征图YT:将矩阵GS和矩阵F2相乘,得到一个大小为32×1122的矩阵,通过维度变换将该矩阵的大小调整为112×112×32,再选用64个1×1卷积核对其进行卷积运算,得到大小为112×112×64的时域残差特征图YT
计算该模块输出的空域特征图ZS:使用残差连接,将空域残差特征图YS与该模块输入的空域特征图XS相加,得到该模块输出的空域特征图ZS,其大小为112×112×64,是卷积模块B的输入;
计算该模块输出的时域特征图ZT:使用残差连接,将时域残差特征图YT与该模块输入的时域特征图XT相加,得到该模块输出的时域特征图ZT,其大小为112×112×64,是卷积模块B′的输入;
同样地,时空流间注意力机制模块B的输入为卷积模块B和卷积模块B′输出的特征图,大小均为56×56×128;时空流间注意力机制模块C的输入为卷积模块C和卷积模块C′输出的特征图,大小均为28×28×256;时空流间注意力机制模块D的输入为卷积模块D和卷积模块D′输出的特征图,大小均为14×14×512;其他实施细节与上述说明类似;
(4)特征融合层,输入为空间流支路输出的空域特征图和时间流支路输出的时域特征图,大小均为7×7×512,分别对这两个特征图进行全局平均池化操作,得到两个512维的特征向量,将这两个特征向量拼接,输出一个1024维的特征向量;
(5)全连接层,包含256个神经元,用于全连接特征融合层与分类层;
(6)分类层,采用Softmax分类器,包含7个神经元,输出一个7维向量,该向量每个维度的数值就是输入视频中的人脸表情属于各表情类别的概率,数值最大的元素对应的表情类别就是该网络模型对输入视频的识别标签。
步骤3:使用建立的人脸表***库中的视频样本对构建的网络模型进行训练。
步骤4:利用训练好的网络模型,对新输入的视频进行人脸表情识别。
基于相同的发明构思,本发明实施例公开的一种基于时空流间注意力机制的动态表情识别***,包括:数据预处理模块,用于采集面部表***片段,建立包含表情类别标签的人脸表***库;网络构建模块,构建嵌入时空流间注意力机制模块的双流卷积神经网络模型,网络训练模块,用于使用建立的人脸表***库中的视频样本对构建的网络模型进行训练;以及表情识别模块,用于利用训练好的网络模型,对新输入的视频进行人脸表情识别。
其中所构建的嵌入时空流间注意力机制模块的双流卷积神经网络模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层;具体地:数据处理层,用于对输入视频进行预处理;空间流支路,包括多个卷积模块,该支路的输入为数据处理层输出的单帧人脸图像,用于提取面部表情的空域特征;时间流支路,包括与空间流支路相同数量的卷积模块,该支路的输入为数据处理层输出的堆叠光流图,用于提取面部表情的时域特征;时空流间注意力机制模块,嵌入于空间流支路和时间流支路的各个卷积模块之间,该模块的输入为双流卷积神经网络中上一层卷积模块的输出,该模块的输出为双流卷积神经网络中下一层卷积模块的输入,用于对空域特征和时域特征进行信息交互;特征融合层,用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作,并将得到的两个特征向量拼接后输出一个特征向量;全连接层,用于全连接特征融合层与分类层;分类层,用于计算输入视频中的人脸表情属于各表情类别的概率。
基于相同的发明构思,本发明实施例公开的一种基于时空流间注意力机制的动态表情识别***,包括至少一台计算设备,该计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该计算机程序被加载至处理器时实现上述的一种基于时空流间注意力机制的动态表情识别方法。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于时空流间注意力机制的动态表情识别方法,其特征在于,该方法包括以下步骤:
步骤1:采集面部表***片段,建立包含表情类别标签的人脸表***库;
步骤2:构建一种嵌入时空流间注意力机制模块的双流卷积神经网络模型,该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层;
所述数据处理层,用于对输入视频进行预处理,预处理过程包括:对视频进行分帧处理,从得到的图像中按时间顺序,提取一个长度为u帧的图像序列,u为设定的序列长度;对所述图像序列中的每幅图像进行人脸检测、裁剪与对齐,并对处理后的每幅图像进行归一化,得到一个长度为u帧的人脸表情图像序列;从所述长度为u帧的人脸表情图像序列中随机选取一幅图像,作为该输入视频对应的单帧人脸图像;计算所述长度为u帧的人脸表情图像序列中每两幅相邻图像之间的光流图,将所得光流图按时间顺序在通道维上堆叠,作为该输入视频对应的堆叠光流图;
所述空间流支路,包括多个卷积模块,该支路的输入为数据处理层输出的单帧人脸图像,用于提取面部表情的空域特征;
所述时间流支路,包括与空间流支路相同数量的卷积模块,该支路的输入为数据处理层输出的堆叠光流图,用于提取面部表情的时域特征;
所述时空流间注意力机制模块,嵌入于空间流支路和时间流支路的各个卷积模块之间,该模块的输入为双流卷积神经网络中上一层卷积模块的输出,该模块的输出为双流卷积神经网络中下一层卷积模块的输入,用于对空域特征和时域特征进行信息交互;所述时空流间注意力机制模块首先计算输入的空域特征图和时域特征图的关联度权重矩阵,然后分别计算空域特征图和时域特征图的映射矩阵,并根据关联度权重矩阵和映射矩阵分别计算空域残差特征图和时域残差特征图,最后再使用残差连接将空域残差特征图与输入的空域特征图相加得到输出的空域特征图,将时域残差特征图与输入的时域特征图相加,得到输出的时域特征图;
所述特征融合层,用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作,并将得到的两个特征向量拼接后输出一个特征向量;
所述全连接层,用于全连接特征融合层与分类层;
所述分类层,用于计算输入视频中的人脸表情属于各表情类别的概率;
步骤3:使用建立的人脸表***库中的视频样本对构建的网络模型进行训练;
步骤4:利用训练好的网络模型,对新输入的视频进行人脸表情识别。
2.根据权利要求1所述的一种基于时空流间注意力机制的动态表情识别方法,其特征在于,所述空间流支路,包括顺序连接的多个卷积模块;
所述卷积模块,包含一个或多个卷积层以及一个池化层,其中,卷积层包含ReLU非线性激活函数层,选用m1个k1×k1的卷积核对上一层的输出进行卷积运算,其中,m1在32、64、128、256、512数值中选取,k1在3、5、7数值中选取;池化层选用k2×k2的池化核对上一层卷积层的输出进行下采样操作,其中,k2在1、2、3数值中选取。
3.根据权利要求1所述的一种基于时空流间注意力机制的动态表情识别方法,其特征在于,所述时间流支路,包括顺序连接的与空间流支路相同数量的卷积模块;
所述卷积模块,包含一个或多个卷积层以及一个池化层,其中,卷积层包含ReLU非线性激活函数层,选用m2个k3×k3的卷积核对上一层的输出进行卷积运算,其中,m2在32、64、128、256、512数值中选取,k3在3、5、7数值中选取;池化层选用k4×k4的池化核对上一层卷积层的输出进行下采样操作,其中,k4在1、2、3数值中选取。
4.根据权利要求1所述的一种基于时空流间注意力机制的动态表情识别方法,其特征在于,所述时空流间注意力机制模块,分别用XS和XT表示该模块输入的空域特征图和时域特征图,XS和XT的大小分别为HS×WS×CS和HT×WT×CT,该模块的计算步骤包括:
(1)计算空域特征图XS和时域特征图XT的关联度权重矩阵F1和F2:分别选用CO个1×1卷积核对空域特征图XS和时域特征图XT进行卷积运算,得到两个大小分别为HS×WS×CO和HT×WT×CO的特征图;通过维度变换将这两个特征图的大小分别调整为HSWS×CO和CO×HTWT,得到两个二维矩阵,并将这两个二维矩阵相乘,得到一个大小为HSWS×HTWT的矩阵F;对矩阵F的每一个行向量执行Softmax操作,得到关联度权重矩阵F1,对矩阵F的每一个列向量执行Softmax操作,得到关联度权重矩阵F2
(2)计算空域特征图XS的映射矩阵GS:选用CO个1×1卷积核对空域特征图XS进行卷积运算,得到一个大小为HS×WS×CO的特征图,通过维度变换将该特征图的大小调整为CO×HSWS,得到XS的映射矩阵GS
(3)计算时域特征图XT的映射矩阵GT:选用CO个1×1卷积核对时域特征图XT进行卷积运算,得到一个大小为HT×WT×CO的特征图,通过维度变换将该特征图的大小调整为HTWT×CO,得到XT的映射矩阵GT
(4)计算空域残差特征图YS:将矩阵F1和矩阵GT相乘,得到一个大小为HSWS×CO的矩阵,通过维度变换将该矩阵的大小调整为HS×WS×CO,再选用CS个1×1卷积核对其进行卷积运算,得到大小为HS×WS×CS的空域残差特征图YS
(5)计算时域残差特征图YT:将矩阵GS和矩阵F2相乘,得到一个大小为CO×HTWT的矩阵,通过维度变换将该矩阵的大小调整为HT×WT×CO,再选用CT个1×1卷积核对其进行卷积运算,得到大小为HT×WT×CT的时域残差特征图YT
(6)计算该模块输出的空域特征图ZS:使用残差连接,将空域残差特征图YS与该模块输入的空域特征图XS相加,得到该模块输出的空域特征图ZS
(7)计算该模块输出的时域特征图ZT:使用残差连接,将时域残差特征图YT与该模块输入的时域特征图XT相加,得到该模块输出的时域特征图ZT
5.一种基于时空流间注意力机制的动态表情识别***,其特征在于,该***包括以下模块:
数据预处理模块,用于采集面部表***片段,建立包含表情类别标签的人脸表***库;
网络构建模块,构建嵌入时空流间注意力机制模块的双流卷积神经网络模型,该模型包括数据处理层、空间流支路、时间流支路、时空流间注意力机制模块、特征融合层、全连接层以及分类层;
所述数据处理层,用于对输入视频进行预处理,预处理过程包括:对视频进行分帧处理,从得到的图像中按时间顺序,提取一个长度为u帧的图像序列,u为设定的序列长度;对所述图像序列中的每幅图像进行人脸检测、裁剪与对齐,并对处理后的每幅图像进行归一化,得到一个长度为u帧的人脸表情图像序列;从所述长度为u帧的人脸表情图像序列中随机选取一幅图像,作为该输入视频对应的单帧人脸图像;计算所述长度为u帧的人脸表情图像序列中每两幅相邻图像之间的光流图,将所得光流图按时间顺序在通道维上堆叠,作为该输入视频对应的堆叠光流图;
所述空间流支路,包括多个卷积模块,该支路的输入为数据处理层输出的单帧人脸图像,用于提取面部表情的空域特征;
所述时间流支路,包括与空间流支路相同数量的卷积模块,该支路的输入为数据处理层输出的堆叠光流图,用于提取面部表情的时域特征;
所述时空流间注意力机制模块,嵌入于空间流支路和时间流支路的各个卷积模块之间,该模块的输入为双流卷积神经网络中上一层卷积模块的输出,该模块的输出为双流卷积神经网络中下一层卷积模块的输入,用于对空域特征和时域特征进行信息交互;所述时空流间注意力机制模块首先计算输入的空域特征图和时域特征图的关联度权重矩阵,然后分别计算空域特征图和时域特征图的映射矩阵,并根据关联度权重矩阵和映射矩阵分别计算空域残差特征图和时域残差特征图,最后再使用残差连接将空域残差特征图与输入的空域特征图相加得到输出的空域特征图,将时域残差特征图与输入的时域特征图相加,得到输出的时域特征图;
所述特征融合层,用于分别对空间流支路输出的空域特征图和时间流支路输出的时域特征图进行全局平均池化操作,并将得到的两个特征向量拼接后输出一个特征向量;
所述全连接层,用于全连接特征融合层与分类层;
所述分类层,用于计算输入视频中的人脸表情属于各表情类别的概率;
网络训练模块,用于使用建立的人脸表***库中的视频样本对构建的网络模型进行训练;
以及表情识别模块,用于利用训练好的网络模型,对新输入的视频进行人脸表情识别。
6.一种基于时空流间注意力机制的动态表情识别***,其特征在于,包括至少一台计算设备,所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序被加载至处理器时实现根据权利要求1-4任一项所述的一种基于时空流间注意力机制的动态表情识别方法。
CN202110061153.7A 2021-01-18 2021-01-18 一种基于时空流间注意力机制的动态表情识别方法及*** Active CN112800894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110061153.7A CN112800894B (zh) 2021-01-18 2021-01-18 一种基于时空流间注意力机制的动态表情识别方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110061153.7A CN112800894B (zh) 2021-01-18 2021-01-18 一种基于时空流间注意力机制的动态表情识别方法及***

Publications (2)

Publication Number Publication Date
CN112800894A CN112800894A (zh) 2021-05-14
CN112800894B true CN112800894B (zh) 2022-08-26

Family

ID=75809973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110061153.7A Active CN112800894B (zh) 2021-01-18 2021-01-18 一种基于时空流间注意力机制的动态表情识别方法及***

Country Status (1)

Country Link
CN (1) CN112800894B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255530B (zh) * 2021-05-31 2024-03-29 合肥工业大学 基于注意力的多通道数据融合网络架构及数据处理方法
CN113705328A (zh) * 2021-07-06 2021-11-26 合肥工业大学 基于面部特征点与面部运动单元的抑郁检测方法和***
CN113627349B (zh) * 2021-08-12 2023-12-05 南京信息工程大学 一种基于自注意力变换网络的动态人脸表情识别方法
CN113971826B (zh) * 2021-09-02 2024-06-21 合肥工业大学 估计连续的效价和唤醒水平的动态情感识别方法和***
CN116021506A (zh) * 2021-10-26 2023-04-28 美智纵横科技有限责任公司 机器人控制方法、装置和存储介质
CN114067435A (zh) * 2021-11-15 2022-02-18 山东大学 一种基于伪3d卷积网络与注意力机制的睡眠行为检测方法和***
CN114494981B (zh) * 2022-04-07 2022-08-05 之江实验室 一种基于多层次运动建模的动作视频分类方法及***
CN114863520B (zh) * 2022-04-25 2023-04-25 陕西师范大学 一种基于c3d-sa的视频表情识别方法
CN115273186A (zh) * 2022-07-18 2022-11-01 中国人民警察大学 基于图像特征融合的深度伪造人脸视频检测方法及***
CN115381467B (zh) * 2022-10-31 2023-03-10 浙江浙大西投脑机智能科技有限公司 一种基于注意力机制的时频信息动态融合解码方法及装置
CN115457643B (zh) * 2022-11-09 2023-04-07 暨南大学 一种基于增量技术和注意力机制的公平人脸表情识别方法
CN116071809B (zh) * 2023-03-22 2023-07-14 鹏城实验室 一种基于多类表征时空交互的人脸时空表征生成方法
CN116434343B (zh) * 2023-04-25 2023-09-19 天津大学 基于高低频双支路的视频动作识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596069A (zh) * 2018-04-18 2018-09-28 南京邮电大学 基于深度3d残差网络的新生儿疼痛表情识别方法及***
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及***
CN111401117A (zh) * 2019-08-14 2020-07-10 南京邮电大学 基于双流卷积神经网络的新生儿疼痛表情识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596039A (zh) * 2018-03-29 2018-09-28 南京邮电大学 一种基于3d卷积神经网络的双模态情感识别方法及***
CN108596069A (zh) * 2018-04-18 2018-09-28 南京邮电大学 基于深度3d残差网络的新生儿疼痛表情识别方法及***
CN111401117A (zh) * 2019-08-14 2020-07-10 南京邮电大学 基于双流卷积神经网络的新生儿疼痛表情识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于注意力机制的视频人脸表情识别;何晓云等;《信息技术》;20200220(第02期);全文 *

Also Published As

Publication number Publication date
CN112800894A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800894B (zh) 一种基于时空流间注意力机制的动态表情识别方法及***
CN112541503B (zh) 基于上下文注意力机制和信息融合的实时语义分割方法
Zhang et al. Multimodal learning for facial expression recognition
CN107527007B (zh) 在车辆图像处理***中检测关注对象的方法
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
CN112580617B (zh) 自然场景下的表情识别方法和装置
CN111160350A (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN111428664B (zh) 一种基于深度学习技术的计算机视觉的实时多人姿态估计方法
CN115131880B (zh) 一种多尺度注意力融合的双重监督人脸活体检测方法
Podder et al. Time efficient real time facial expression recognition with CNN and transfer learning
Sharma et al. Deepfakes Classification of Faces Using Convolutional Neural Networks.
Singh et al. Feature based method for human facial emotion detection using optical flow based analysis
Kumar et al. Facial emotion recognition and detection using cnn
Gowada et al. Unethical human action recognition using deep learning based hybrid model for video forensics
Hong et al. Characterizing subtle facial movements via Riemannian manifold
Ruan et al. Facial expression recognition in facial occlusion scenarios: A path selection multi-network
CN114882405B (zh) 一种基于时空双流金字塔网络架构的视频显著性检测方法
CN115965898A (zh) 多级分支卷积与膨胀交互采样结合的视频情感分类方法
CN113221824B (zh) 基于个体模型生成的人体姿态识别方法
CN113887373B (zh) 基于城市智慧体育的并行融合网络的姿态识别方法和***
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
CN114782995A (zh) 一种基于自注意力机制的人交互行为检测方法
Aouayeb et al. Micro-expression recognition from local facial regions
Deshpande et al. Abnormal Activity Recognition with Residual Attention-based ConvLSTM Architecture for Video Surveillance.
CN115546885A (zh) 一种基于增强时空特征的动作识别方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant