CN116580453A - 一种基于空间和时序双通道融合模型的人体行为识别方法 - Google Patents

一种基于空间和时序双通道融合模型的人体行为识别方法 Download PDF

Info

Publication number
CN116580453A
CN116580453A CN202310463831.1A CN202310463831A CN116580453A CN 116580453 A CN116580453 A CN 116580453A CN 202310463831 A CN202310463831 A CN 202310463831A CN 116580453 A CN116580453 A CN 116580453A
Authority
CN
China
Prior art keywords
model
video
space
time sequence
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310463831.1A
Other languages
English (en)
Inventor
王宇华
焦培元
徐悦竹
刘世友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202310463831.1A priority Critical patent/CN116580453A/zh
Publication of CN116580453A publication Critical patent/CN116580453A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于空间和时序双通道融合模型的人体行为识别方法,构建融合ER3D模型和Space‑TimeTransformer模型的深度学习网络架构,并通过对公开人体行为识别数据集进行端到端的预训练,得到初始化网络,接着读取人体行为训练视频,对训练视频做固定间隔采样和数据增强,将数据增强后的视频帧送入经过预训练的网络架构进行训练,生成人体行为识别模型。在测试阶段,读取测试集中的人体行为视频,对其进行采样和裁剪后送入训练好的识别模型进行识别,整个过程实现端到端的检测视频中的人体行为。本发明根据ER3D模型和Space‑TimeTransformer模型可以分别对视频帧中包含的空间信息和时序信息有效建模的特点,从而构建并训练出一种可以准确识别人体行为的深度学习网络架构。

Description

一种基于空间和时序双通道融合模型的人体行为识别方法
技术领域
本发明属于行为识别技术领域,具体涉及一种基于空间和时序双通道融合模型的人体行为识别方法。
背景技术
人体行为识别旨在理解人类的行为,主要研究的是从视频图像中判断出目标处于何种行为,并为每个行为分配一个标签,例如常见的走、坐、躺、跑、跳等行为,在计算机视觉中是一个极具吸引力及挑战性的任务。人体行为识别作为一个新兴的前沿研究领域,涉及到模式识别,图像处理,目标检测,深度学习等多门学科,并且它可以广泛应用于许多领域,如:智能监控、信息检索、人机交互等等。
传统的方法采用手动对视频特征提取,然后对提取到的特征进行特征编码,使用相应的分类器进行分类,手工制作特性既耗时又费力,不适用于所有类型的数据集,且难以扩展和部署。随着深度学习的发展,人们尝试让计算机从视频中提取信息,基于深度学习的方法能够从原始数据中自动学习特征,然后将学习到的特征送入模型训练,从而实现对输入视频的高效分类和识别。
但在实际应用中仍然有很多的难点,首先就是行为识别姿态的多样性。每个人穿的衣服不同,不同的相机处于不同的视角拍到的角度也不同,而且每个人动作的时间跨度也不一样,拿物品的方式也不同,此外,遮挡也给行为识别带来了非常大的挑战。关键性行为的界限同样具有不确定性,比如擦嘴和喝水,这两个动作有很强的混淆作用,站在不同的角度会带来许多错误的判断。
发明内容
为了解决现有技术存在的上述问题,更好地对人体行为视频数据中的空间信息和时序信息进行建模,本发明提出了一种基于空间和时序双通道融合模型的人体行为识别方法。该方法构建融合ER3D模型和Space-Time Transformer模型的深度学习网络架构,利用公开数据集进行预训练,对训练视频做固定间隔采样和数据增强,将数据增强后的视频帧送入经过预训练的网络架构进行训练,生成人体行为识别模型。融合模型能够以较高的准确率对视频中的人体行为进行识别分类,且整个过程实现端到端的检测视频中的人体行为。
本发明所采用的具体技术方案如下:
一种基于空间和时序双通道融合模型的人体行为识别方法,主要包括以下步骤:
步骤1、搭建空间和时序双通道融合模型;
步骤2、读取人体行为数据训练集中的视频数据;
步骤3、针对所述步骤2读取的视频数据进行固定间隔采样与数据增强操作,得到视频帧序列;
步骤4、将所述步骤3中得到的视频帧序列输入到已通过预训练的空间和时序双通道融合模型中,进行模型训练;
步骤5、读取测试数据集中的人体行为视频数据;
步骤6、将所述步骤5读取的视频数据进行采样、裁剪,得到视频帧序列;
步骤7、将所述步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入,平均每次预测的结果得到测试视频中人体行为的所属类别。
进一步地,所述步骤1搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成;
其中,ER3D模型对传统的残差网络ResNet-52进行优化和改进,使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量,增加基础通道数和卷积核尺寸,同时减少了激活函数和归一化层的使用,接着把卷积核的尺寸从二维扩展到三维以适应视频数据。最后输出特征尺寸为1×768,损失函数选择了在多分类任务中经常使用的交叉熵损失函数,其表达式为:
式中N代表样本数量,C表示类别个数,表示第i个样本的标记值,当该样本属于类别c时为1,否则为0,/>表示模型将第i个样本预测为类别c的概率;
Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络,提出顺序分块和压缩分块两种视频帧分块方式,并使用多头注意力机制提取视频帧之间的时序动作特征。最后用于分类的特征向量尺寸为1×768,Space-Time Transformer模型中注意力机制的运算过程为:
式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果,l=1,2,…,L表示编码器的个数,a=1,2,…,A表示多头注意力机制中头的个数,Dh=D/A表示多头注意力机制中每个头的维度,K(0,0)和V(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z(0,0)只参与了一次注意力机制的点积运算。
进一步地,所述步骤3具体包括以下过程:
由于训练集中每段视频的时长不固定,因此需要先从每段视频中随机裁剪出16秒的连续视频片段,接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧,然后对32张视频帧按照固定间隔d1=8和d2=4进行采样,采样后保留下的4张视频帧后续会送入SR3D模型,保留下的8张视频帧后续会送入Space-Time Transformer模型。
把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值,长边长度也按相同比例进行缩放,接着从中随机裁剪出尺寸为224×224的图片,为了做数据增广还会再对图片做水平翻转处理。
更进一步地,所述步骤4具体包括以下过程:
将所述步骤3得到经过采样和增强的视频帧输入到已通过UCF101数据集完成预训练的融合模型进行训练。
所述融合模型的预训练与训练过程中,该融合模型的两条通道分别使用ER3D空间特征提取模型和Space-Time Transformer时序特征提取模型,由于两个模型最后提取到用于分类的特征图尺寸相同,都为1×768,因此把两个特征图在经过全连接层前进行特征融合,融合后新的特征图尺寸为1×1536,包含了更全面的视频信息。
本发明的优点在于,本发明提供的一种基于空间和时序双通道融合模型的人体行为识别方法,在全连接层进行分类前将两个通道提取到视频帧的空间特征和时序特征进行融合,利用提取到不同特征之间的互补性,融合不同特征之间的优点,有效提高行为识别准确率。
附图说明
图1是本发明提供的ER3D模型结构图。
图2是本发明提供的Space-Time Transformer模型结构图。
图3是本发明提供的一种基于空间和时序双通道融合模型的结构图。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种基于空间和时序双通道融合模型的人体行为识别方法进行详细说明。
参阅图3,本发明实施例提供的一种基于空间和时序双通道融合模型的人体行为识别方法,包括以下步骤:
步骤1、搭建空间和时序双通道融合模型。
搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成。其中,ER3D模型对传统的残差网络ResNet-52进行优化和改进,使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量,增加基础通道数和卷积核尺寸,同时减少了激活函数和归一化层的使用,接着把卷积核的尺寸从二维扩展到三维以适应视频数据。最后输出特征尺寸为1×768,损失函数选择了在多分类任务中经常使用的交叉熵损失函数,其表达式为:
式中N代表样本数量,C表示类别个数,表示第i个样本的标记值,当该样本属于类别c时为1,否则为0,/>表示模型将第i个样本预测为类别c的概率;
Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络,提出顺序分块和压缩分块两种视频帧分块方式,并使用多头注意力机制提取视频帧之间的时序动作特征。最后用于分类的特征向量尺寸为1×768,Space-Time Transformer模型中注意力机制的运算过程为:
式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果,l=1,2,…,L表示编码器的个数,a=1,2,…,A表示多头注意力机制中头的个数,Dh=D/A表示多头注意力机制中每个头的维度,K(0,0)和V(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z(0,0)只参与了一次注意力机制的点积运算。
步骤2、读取训练集中的人体行为视频数据。
在本实施例中,训练集由400段包含人体行为的短视频组成,视频的分辨率为1080×720,时长均为90秒左右,每段视频均进行了人体行为类别标注,共有20种类别。
步骤3、对训练集中的视频数据进行固定间隔采样与数据增强操作。
由于训练集中每段视频的时长不固定,因此需要先从每段视频中随机裁剪出16秒的连续视频片段,接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧,然后对32张视频帧按照固定间隔d1=8和d2=4进行采样,采样后保留下的4张视频帧后续会送入SR3D模型,保留下的8张视频帧后续会送入Space-Time Transformer模型。
把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值,长边长度也按相同比例进行缩放,接着从中随机裁剪出尺寸为224×224的图片,为了做数据增广还会再对图片做水平翻转处理。
步骤4、利用步骤3生成的视频帧序列针对步骤1搭建的空间和时序双通道融合模型进行训练,得到识别模型。
在本实施例中,需要事先针对步骤1搭建的空间和时序双通道融合模型进行预训练,模型预训练阶段使用UCF101数据集,该数据集共有13320个视频片段,主要内容为人与物体交互、人与人交互和仅身体动作等。预训练完成后,利用步骤3生成的视频帧序列对模型进行进一步训练。
步骤5、读取测试集中的人体行为视频数据。
在本实施例中,训练集由100段包含人体行为的短视频组成,视频的分辨率为1080×720,时长均为90秒左右。
步骤6、对测试集中的数据进行采样与裁剪。
在本实施例中,针对每段视频,沿着时间轴均匀采样出5段16秒连续视频片段,接着对视频片段的剩余操作同步骤3。
视频帧的缩放过程同步骤3,接着使用中心裁剪的方式得到尺寸为224×224的图片。
步骤7、将步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入,平均每次预测的结果得到视频中人体行为的所属类别。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。

Claims (3)

1.一种基于空间和时序双通道融合模型的人体行为识别方法,其特征在于,包括以下步骤:
步骤1、搭建空间和时序双通道融合模型:
搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成:
ER3D模型对传统的残差网络ResNet-52进行优化和改进,使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量,增加基础通道数和卷积核尺寸,同时减少了激活函数和归一化层的使用,接着把卷积核的尺寸从二维扩展到三维以适应视频数据,最后输出特征尺寸为1×768,损失函数选择了在多分类任务中经常使用的交叉熵损失函数,其表达式为:
式中N代表样本数量,C表示类别个数,表示第i个样本的标记值,当该样本属于类别c时为1,否则为0,/>表示模型将第i个样本预测为类别c的概率;
Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络,提出顺序分块和压缩分块两种视频帧分块方式,并使用多头注意力机制提取视频帧之间的时序动作特征,最后用于分类的特征向量尺寸为1×768,Space-Time Transformer模型中注意力机制的运算过程为:
式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果,l=1,2,…,L表示编码器的个数,a=1,2,…,A表示多头注意力机制中头的个数,Dh=D/A表示多头注意力机制中每个头的维度,K(0,0)和V(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z(0,0)只参与了一次注意力机制的点积运算;
步骤2、读取人体行为数据训练集中的视频数据;
步骤3、针对所述步骤2读取的视频数据进行固定间隔采样与数据增强操作,得到视频帧序列;所述步骤3具体包括以下过程:
由于训练集中每段视频的时长不固定,因此需要先从每段视频中随机裁剪出16秒的连续视频片段,接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧,然后对32张视频帧按照固定间隔d1=8和d2=4进行采样,采样后保留下的4张视频帧后续会送入SR3D模型,保留下的8张视频帧后续会送入Space-Time Transformer模型;
把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值,长边长度也按相同比例进行缩放,接着从中随机裁剪出尺寸为224×224的图片,为了做数据增广还会再对图片做水平翻转处理;
步骤4、将所述步骤3中得到的视频帧序列输入到已通过预训练的空间和时序双通道融合模型中,进行模型训练;
步骤5、读取测试数据集中的人体行为视频数据;
步骤6、将所述步骤5读取的视频数据进行采样、裁剪,所述步骤6具体包括以下过程:
对测试数据集中的视频沿着时间轴均匀采样出5段16秒连续视频片段,对视频片段的剩余操作同步骤3;
视频帧的缩放过程同步骤3,接着使用中心裁剪的方式得到尺寸为224×224的图片;
步骤7、将所述步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入,平均每次预测的结果得到测试视频中人体行为的所属类别。
2.如权利要求1所述的一种基于空间和时序双通道融合模型的人体行为识别方法,其特征在于,所述步骤4具体包括以下过程:
将所述步骤3得到经过采样和增强的视频帧输入到已通过UCF101数据集完成预训练的融合模型进行训练。
3.如权利要求2所述的一种基于空间和时序双通道融合模型的人体行为识别方法,其特征在于,所述融合模型的预训练与训练过程中,该融合模型的两条通道分别使用ER3D空间特征提取模型和Space-Time Transformer时序特征提取模型,由于两个模型最后提取到用于分类的特征图尺寸相同,都为1×768,因此把两个特征图在经过全连接层前进行特征融合,融合后新的特征图尺寸为1×1536,包含了更全面的视频信息。
CN202310463831.1A 2023-04-26 2023-04-26 一种基于空间和时序双通道融合模型的人体行为识别方法 Pending CN116580453A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310463831.1A CN116580453A (zh) 2023-04-26 2023-04-26 一种基于空间和时序双通道融合模型的人体行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310463831.1A CN116580453A (zh) 2023-04-26 2023-04-26 一种基于空间和时序双通道融合模型的人体行为识别方法

Publications (1)

Publication Number Publication Date
CN116580453A true CN116580453A (zh) 2023-08-11

Family

ID=87538843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310463831.1A Pending CN116580453A (zh) 2023-04-26 2023-04-26 一种基于空间和时序双通道融合模型的人体行为识别方法

Country Status (1)

Country Link
CN (1) CN116580453A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116895038A (zh) * 2023-09-11 2023-10-17 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质
CN117649630A (zh) * 2024-01-29 2024-03-05 武汉纺织大学 一种基于监控视频流的考场作弊行为识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116895038A (zh) * 2023-09-11 2023-10-17 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质
CN116895038B (zh) * 2023-09-11 2024-01-26 中移(苏州)软件技术有限公司 视频动作识别方法、装置、电子设备及可读存储介质
CN117649630A (zh) * 2024-01-29 2024-03-05 武汉纺织大学 一种基于监控视频流的考场作弊行为识别方法
CN117649630B (zh) * 2024-01-29 2024-04-26 武汉纺织大学 一种基于监控视频流的考场作弊行为识别方法

Similar Documents

Publication Publication Date Title
CN106919903B (zh) 一种鲁棒的基于深度学习的连续情绪跟踪方法
Adouani et al. Comparison of Haar-like, HOG and LBP approaches for face detection in video sequences
CN112085012B (zh) 项目名称和类别识别方法及装置
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及***
Jiang et al. Action unit detection using sparse appearance descriptors in space-time video volumes
CN116580453A (zh) 一种基于空间和时序双通道融合模型的人体行为识别方法
US11908240B2 (en) Micro-expression recognition method based on multi-scale spatiotemporal feature neural network
CN109389045B (zh) 基于混合时空卷积模型的微表情识别方法与装置
CN110532900A (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN110070029B (zh) 一种步态识别方法及装置
CN106648078B (zh) 应用于智能机器人的多模态交互方法及***
CN106845513B (zh) 基于条件随机森林的人手检测器及方法
CN109063626B (zh) 动态人脸识别方法和装置
Xu et al. Fast and accurate human detection using a cascade of boosted MS-LBP features
Le et al. Dynamic image for micro-expression recognition on region-based framework
KR20210018600A (ko) 얼굴 표정 인식 시스템
CN113191216A (zh) 基于姿态识别和c3d网络的多人实时动作识别方法和***
He et al. What catches the eye? Visualizing and understanding deep saliency models
Sinha et al. Real time facial emotion recognition using deep learning
CN115862120A (zh) 可分离变分自编码器解耦的面部动作单元识别方法及设备
CN109886160B (zh) 一种非限定条件下的人脸识别方法
CN115205581A (zh) 一种钓鱼检测方法、钓鱼检测设备和计算机可读存储介质
CN113014923B (zh) 一种基于压缩域表征运动向量的行为识别方法
CN109840513B (zh) 一种人脸微表情识别方法及识别装置
Gupta et al. Progression modelling for online and early gesture detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination