CN116580453A - 一种基于空间和时序双通道融合模型的人体行为识别方法 - Google Patents
一种基于空间和时序双通道融合模型的人体行为识别方法 Download PDFInfo
- Publication number
- CN116580453A CN116580453A CN202310463831.1A CN202310463831A CN116580453A CN 116580453 A CN116580453 A CN 116580453A CN 202310463831 A CN202310463831 A CN 202310463831A CN 116580453 A CN116580453 A CN 116580453A
- Authority
- CN
- China
- Prior art keywords
- model
- video
- space
- time sequence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006399 behavior Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000005070 sampling Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000000903 blocking effect Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000013434 data augmentation Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于空间和时序双通道融合模型的人体行为识别方法,构建融合ER3D模型和Space‑TimeTransformer模型的深度学习网络架构,并通过对公开人体行为识别数据集进行端到端的预训练,得到初始化网络,接着读取人体行为训练视频,对训练视频做固定间隔采样和数据增强,将数据增强后的视频帧送入经过预训练的网络架构进行训练,生成人体行为识别模型。在测试阶段,读取测试集中的人体行为视频,对其进行采样和裁剪后送入训练好的识别模型进行识别,整个过程实现端到端的检测视频中的人体行为。本发明根据ER3D模型和Space‑TimeTransformer模型可以分别对视频帧中包含的空间信息和时序信息有效建模的特点,从而构建并训练出一种可以准确识别人体行为的深度学习网络架构。
Description
技术领域
本发明属于行为识别技术领域,具体涉及一种基于空间和时序双通道融合模型的人体行为识别方法。
背景技术
人体行为识别旨在理解人类的行为,主要研究的是从视频图像中判断出目标处于何种行为,并为每个行为分配一个标签,例如常见的走、坐、躺、跑、跳等行为,在计算机视觉中是一个极具吸引力及挑战性的任务。人体行为识别作为一个新兴的前沿研究领域,涉及到模式识别,图像处理,目标检测,深度学习等多门学科,并且它可以广泛应用于许多领域,如:智能监控、信息检索、人机交互等等。
传统的方法采用手动对视频特征提取,然后对提取到的特征进行特征编码,使用相应的分类器进行分类,手工制作特性既耗时又费力,不适用于所有类型的数据集,且难以扩展和部署。随着深度学习的发展,人们尝试让计算机从视频中提取信息,基于深度学习的方法能够从原始数据中自动学习特征,然后将学习到的特征送入模型训练,从而实现对输入视频的高效分类和识别。
但在实际应用中仍然有很多的难点,首先就是行为识别姿态的多样性。每个人穿的衣服不同,不同的相机处于不同的视角拍到的角度也不同,而且每个人动作的时间跨度也不一样,拿物品的方式也不同,此外,遮挡也给行为识别带来了非常大的挑战。关键性行为的界限同样具有不确定性,比如擦嘴和喝水,这两个动作有很强的混淆作用,站在不同的角度会带来许多错误的判断。
发明内容
为了解决现有技术存在的上述问题,更好地对人体行为视频数据中的空间信息和时序信息进行建模,本发明提出了一种基于空间和时序双通道融合模型的人体行为识别方法。该方法构建融合ER3D模型和Space-Time Transformer模型的深度学习网络架构,利用公开数据集进行预训练,对训练视频做固定间隔采样和数据增强,将数据增强后的视频帧送入经过预训练的网络架构进行训练,生成人体行为识别模型。融合模型能够以较高的准确率对视频中的人体行为进行识别分类,且整个过程实现端到端的检测视频中的人体行为。
本发明所采用的具体技术方案如下:
一种基于空间和时序双通道融合模型的人体行为识别方法,主要包括以下步骤:
步骤1、搭建空间和时序双通道融合模型;
步骤2、读取人体行为数据训练集中的视频数据;
步骤3、针对所述步骤2读取的视频数据进行固定间隔采样与数据增强操作,得到视频帧序列;
步骤4、将所述步骤3中得到的视频帧序列输入到已通过预训练的空间和时序双通道融合模型中,进行模型训练;
步骤5、读取测试数据集中的人体行为视频数据;
步骤6、将所述步骤5读取的视频数据进行采样、裁剪,得到视频帧序列;
步骤7、将所述步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入,平均每次预测的结果得到测试视频中人体行为的所属类别。
进一步地,所述步骤1搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成;
其中,ER3D模型对传统的残差网络ResNet-52进行优化和改进,使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量,增加基础通道数和卷积核尺寸,同时减少了激活函数和归一化层的使用,接着把卷积核的尺寸从二维扩展到三维以适应视频数据。最后输出特征尺寸为1×768,损失函数选择了在多分类任务中经常使用的交叉熵损失函数,其表达式为:
式中N代表样本数量,C表示类别个数,表示第i个样本的标记值,当该样本属于类别c时为1,否则为0,/>表示模型将第i个样本预测为类别c的概率;
Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络,提出顺序分块和压缩分块两种视频帧分块方式,并使用多头注意力机制提取视频帧之间的时序动作特征。最后用于分类的特征向量尺寸为1×768,Space-Time Transformer模型中注意力机制的运算过程为:
式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果,l=1,2,…,L表示编码器的个数,a=1,2,…,A表示多头注意力机制中头的个数,Dh=D/A表示多头注意力机制中每个头的维度,K(0,0)和V(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z(0,0)只参与了一次注意力机制的点积运算。
进一步地,所述步骤3具体包括以下过程:
由于训练集中每段视频的时长不固定,因此需要先从每段视频中随机裁剪出16秒的连续视频片段,接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧,然后对32张视频帧按照固定间隔d1=8和d2=4进行采样,采样后保留下的4张视频帧后续会送入SR3D模型,保留下的8张视频帧后续会送入Space-Time Transformer模型。
把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值,长边长度也按相同比例进行缩放,接着从中随机裁剪出尺寸为224×224的图片,为了做数据增广还会再对图片做水平翻转处理。
更进一步地,所述步骤4具体包括以下过程:
将所述步骤3得到经过采样和增强的视频帧输入到已通过UCF101数据集完成预训练的融合模型进行训练。
所述融合模型的预训练与训练过程中,该融合模型的两条通道分别使用ER3D空间特征提取模型和Space-Time Transformer时序特征提取模型,由于两个模型最后提取到用于分类的特征图尺寸相同,都为1×768,因此把两个特征图在经过全连接层前进行特征融合,融合后新的特征图尺寸为1×1536,包含了更全面的视频信息。
本发明的优点在于,本发明提供的一种基于空间和时序双通道融合模型的人体行为识别方法,在全连接层进行分类前将两个通道提取到视频帧的空间特征和时序特征进行融合,利用提取到不同特征之间的互补性,融合不同特征之间的优点,有效提高行为识别准确率。
附图说明
图1是本发明提供的ER3D模型结构图。
图2是本发明提供的Space-Time Transformer模型结构图。
图3是本发明提供的一种基于空间和时序双通道融合模型的结构图。
具体实施方式
下面结合附图和具体实施例对本发明提供的一种基于空间和时序双通道融合模型的人体行为识别方法进行详细说明。
参阅图3,本发明实施例提供的一种基于空间和时序双通道融合模型的人体行为识别方法,包括以下步骤:
步骤1、搭建空间和时序双通道融合模型。
搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成。其中,ER3D模型对传统的残差网络ResNet-52进行优化和改进,使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量,增加基础通道数和卷积核尺寸,同时减少了激活函数和归一化层的使用,接着把卷积核的尺寸从二维扩展到三维以适应视频数据。最后输出特征尺寸为1×768,损失函数选择了在多分类任务中经常使用的交叉熵损失函数,其表达式为:
式中N代表样本数量,C表示类别个数,表示第i个样本的标记值,当该样本属于类别c时为1,否则为0,/>表示模型将第i个样本预测为类别c的概率;
Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络,提出顺序分块和压缩分块两种视频帧分块方式,并使用多头注意力机制提取视频帧之间的时序动作特征。最后用于分类的特征向量尺寸为1×768,Space-Time Transformer模型中注意力机制的运算过程为:
式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果,l=1,2,…,L表示编码器的个数,a=1,2,…,A表示多头注意力机制中头的个数,Dh=D/A表示多头注意力机制中每个头的维度,K(0,0)和V(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z(0,0)只参与了一次注意力机制的点积运算。
步骤2、读取训练集中的人体行为视频数据。
在本实施例中,训练集由400段包含人体行为的短视频组成,视频的分辨率为1080×720,时长均为90秒左右,每段视频均进行了人体行为类别标注,共有20种类别。
步骤3、对训练集中的视频数据进行固定间隔采样与数据增强操作。
由于训练集中每段视频的时长不固定,因此需要先从每段视频中随机裁剪出16秒的连续视频片段,接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧,然后对32张视频帧按照固定间隔d1=8和d2=4进行采样,采样后保留下的4张视频帧后续会送入SR3D模型,保留下的8张视频帧后续会送入Space-Time Transformer模型。
把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值,长边长度也按相同比例进行缩放,接着从中随机裁剪出尺寸为224×224的图片,为了做数据增广还会再对图片做水平翻转处理。
步骤4、利用步骤3生成的视频帧序列针对步骤1搭建的空间和时序双通道融合模型进行训练,得到识别模型。
在本实施例中,需要事先针对步骤1搭建的空间和时序双通道融合模型进行预训练,模型预训练阶段使用UCF101数据集,该数据集共有13320个视频片段,主要内容为人与物体交互、人与人交互和仅身体动作等。预训练完成后,利用步骤3生成的视频帧序列对模型进行进一步训练。
步骤5、读取测试集中的人体行为视频数据。
在本实施例中,训练集由100段包含人体行为的短视频组成,视频的分辨率为1080×720,时长均为90秒左右。
步骤6、对测试集中的数据进行采样与裁剪。
在本实施例中,针对每段视频,沿着时间轴均匀采样出5段16秒连续视频片段,接着对视频片段的剩余操作同步骤3。
视频帧的缩放过程同步骤3,接着使用中心裁剪的方式得到尺寸为224×224的图片。
步骤7、将步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入,平均每次预测的结果得到视频中人体行为的所属类别。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (3)
1.一种基于空间和时序双通道融合模型的人体行为识别方法,其特征在于,包括以下步骤:
步骤1、搭建空间和时序双通道融合模型:
搭建的空间和时序双通道融合模型由ER3D模型和Space-Time Transformer模型共同组成:
ER3D模型对传统的残差网络ResNet-52进行优化和改进,使用深度可分离卷积和反向瓶颈结构来减少模型的计算参数量,增加基础通道数和卷积核尺寸,同时减少了激活函数和归一化层的使用,接着把卷积核的尺寸从二维扩展到三维以适应视频数据,最后输出特征尺寸为1×768,损失函数选择了在多分类任务中经常使用的交叉熵损失函数,其表达式为:
式中N代表样本数量,C表示类别个数,表示第i个样本的标记值,当该样本属于类别c时为1,否则为0,/>表示模型将第i个样本预测为类别c的概率;
Space-Time Transformer模型采用Vision Transformer作为特征提取的主干网络,提出顺序分块和压缩分块两种视频帧分块方式,并使用多头注意力机制提取视频帧之间的时序动作特征,最后用于分类的特征向量尺寸为1×768,Space-Time Transformer模型中注意力机制的运算过程为:
式中Q、K、V这三个向量是由对输入序列特征编码后和三个参数可学习矩阵相乘得到的结果,l=1,2,…,L表示编码器的个数,a=1,2,…,A表示多头注意力机制中头的个数,Dh=D/A表示多头注意力机制中每个头的维度,K(0,0)和V(0,0)被单独提出来是因为在经过线性映射生成序列中的第一个位置加上用于分类的Z(0,0)只参与了一次注意力机制的点积运算;
步骤2、读取人体行为数据训练集中的视频数据;
步骤3、针对所述步骤2读取的视频数据进行固定间隔采样与数据增强操作,得到视频帧序列;所述步骤3具体包括以下过程:
由于训练集中每段视频的时长不固定,因此需要先从每段视频中随机裁剪出16秒的连续视频片段,接着对16秒的视频片段以每0.5秒抽一帧的方式生成32张视频帧,然后对32张视频帧按照固定间隔d1=8和d2=4进行采样,采样后保留下的4张视频帧后续会送入SR3D模型,保留下的8张视频帧后续会送入Space-Time Transformer模型;
把固定间隔采样后保留的所有视频帧中的短边长度resize到[256,320]中的一个随机值,长边长度也按相同比例进行缩放,接着从中随机裁剪出尺寸为224×224的图片,为了做数据增广还会再对图片做水平翻转处理;
步骤4、将所述步骤3中得到的视频帧序列输入到已通过预训练的空间和时序双通道融合模型中,进行模型训练;
步骤5、读取测试数据集中的人体行为视频数据;
步骤6、将所述步骤5读取的视频数据进行采样、裁剪,所述步骤6具体包括以下过程:
对测试数据集中的视频沿着时间轴均匀采样出5段16秒连续视频片段,对视频片段的剩余操作同步骤3;
视频帧的缩放过程同步骤3,接着使用中心裁剪的方式得到尺寸为224×224的图片;
步骤7、将所述步骤6得到的5组视频帧序列依次作为所述步骤4训练完成后模型的输入,平均每次预测的结果得到测试视频中人体行为的所属类别。
2.如权利要求1所述的一种基于空间和时序双通道融合模型的人体行为识别方法,其特征在于,所述步骤4具体包括以下过程:
将所述步骤3得到经过采样和增强的视频帧输入到已通过UCF101数据集完成预训练的融合模型进行训练。
3.如权利要求2所述的一种基于空间和时序双通道融合模型的人体行为识别方法,其特征在于,所述融合模型的预训练与训练过程中,该融合模型的两条通道分别使用ER3D空间特征提取模型和Space-Time Transformer时序特征提取模型,由于两个模型最后提取到用于分类的特征图尺寸相同,都为1×768,因此把两个特征图在经过全连接层前进行特征融合,融合后新的特征图尺寸为1×1536,包含了更全面的视频信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310463831.1A CN116580453A (zh) | 2023-04-26 | 2023-04-26 | 一种基于空间和时序双通道融合模型的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310463831.1A CN116580453A (zh) | 2023-04-26 | 2023-04-26 | 一种基于空间和时序双通道融合模型的人体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116580453A true CN116580453A (zh) | 2023-08-11 |
Family
ID=87538843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310463831.1A Pending CN116580453A (zh) | 2023-04-26 | 2023-04-26 | 一种基于空间和时序双通道融合模型的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580453A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116895038A (zh) * | 2023-09-11 | 2023-10-17 | 中移(苏州)软件技术有限公司 | 视频动作识别方法、装置、电子设备及可读存储介质 |
CN117649630A (zh) * | 2024-01-29 | 2024-03-05 | 武汉纺织大学 | 一种基于监控视频流的考场作弊行为识别方法 |
-
2023
- 2023-04-26 CN CN202310463831.1A patent/CN116580453A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116895038A (zh) * | 2023-09-11 | 2023-10-17 | 中移(苏州)软件技术有限公司 | 视频动作识别方法、装置、电子设备及可读存储介质 |
CN116895038B (zh) * | 2023-09-11 | 2024-01-26 | 中移(苏州)软件技术有限公司 | 视频动作识别方法、装置、电子设备及可读存储介质 |
CN117649630A (zh) * | 2024-01-29 | 2024-03-05 | 武汉纺织大学 | 一种基于监控视频流的考场作弊行为识别方法 |
CN117649630B (zh) * | 2024-01-29 | 2024-04-26 | 武汉纺织大学 | 一种基于监控视频流的考场作弊行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919903B (zh) | 一种鲁棒的基于深度学习的连续情绪跟踪方法 | |
Adouani et al. | Comparison of Haar-like, HOG and LBP approaches for face detection in video sequences | |
CN112085012B (zh) | 项目名称和类别识别方法及装置 | |
CN112784763B (zh) | 基于局部与整体特征自适应融合的表情识别方法及*** | |
Jiang et al. | Action unit detection using sparse appearance descriptors in space-time video volumes | |
CN116580453A (zh) | 一种基于空间和时序双通道融合模型的人体行为识别方法 | |
US11908240B2 (en) | Micro-expression recognition method based on multi-scale spatiotemporal feature neural network | |
CN109389045B (zh) | 基于混合时空卷积模型的微表情识别方法与装置 | |
CN110532900A (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN110070029B (zh) | 一种步态识别方法及装置 | |
CN106648078B (zh) | 应用于智能机器人的多模态交互方法及*** | |
CN106845513B (zh) | 基于条件随机森林的人手检测器及方法 | |
CN109063626B (zh) | 动态人脸识别方法和装置 | |
Xu et al. | Fast and accurate human detection using a cascade of boosted MS-LBP features | |
Le et al. | Dynamic image for micro-expression recognition on region-based framework | |
KR20210018600A (ko) | 얼굴 표정 인식 시스템 | |
CN113191216A (zh) | 基于姿态识别和c3d网络的多人实时动作识别方法和*** | |
He et al. | What catches the eye? Visualizing and understanding deep saliency models | |
Sinha et al. | Real time facial emotion recognition using deep learning | |
CN115862120A (zh) | 可分离变分自编码器解耦的面部动作单元识别方法及设备 | |
CN109886160B (zh) | 一种非限定条件下的人脸识别方法 | |
CN115205581A (zh) | 一种钓鱼检测方法、钓鱼检测设备和计算机可读存储介质 | |
CN113014923B (zh) | 一种基于压缩域表征运动向量的行为识别方法 | |
CN109840513B (zh) | 一种人脸微表情识别方法及识别装置 | |
Gupta et al. | Progression modelling for online and early gesture detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |