CN117315776A - 人体行为的识别方法、装置、终端设备和存储介质 - Google Patents

人体行为的识别方法、装置、终端设备和存储介质 Download PDF

Info

Publication number
CN117315776A
CN117315776A CN202311187120.2A CN202311187120A CN117315776A CN 117315776 A CN117315776 A CN 117315776A CN 202311187120 A CN202311187120 A CN 202311187120A CN 117315776 A CN117315776 A CN 117315776A
Authority
CN
China
Prior art keywords
human body
human
key point
model
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311187120.2A
Other languages
English (en)
Inventor
刘润瑞
刘晨飞
张金圣
王之纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Teamway Electric Co ltd
Original Assignee
Shenzhen Teamway Electric Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Teamway Electric Co ltd filed Critical Shenzhen Teamway Electric Co ltd
Priority to CN202311187120.2A priority Critical patent/CN117315776A/zh
Publication of CN117315776A publication Critical patent/CN117315776A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种人体行为的识别方法、装置、终端设备和存储介质,通过获取待识别图像;根据预先训练的人体检测模型,检测所述待识别图像中的人体目标框位置信息;根据所述人体目标框位置信息和预先建立的人体关键点检测模型中,确定与所述人体目标框位置信息对应的人体关键点数据;根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。

Description

人体行为的识别方法、装置、终端设备和存储介质
技术领域
本发明涉及图像识别技术领域,特别是涉及一种人体行为的识别方法、装置、终端设备和存储介质。
背景技术
随着计算机技术的不断发展,在视频监控、人机交互和虚拟现实等各种领域中,对用户的行为识别越来越重要。
目前采用视觉外观等技术对图像中的用户行为进行识别,例如,通过学习一个动作中关键点与视频帧之间的关系来判断动作类别,但单张图片并无时间概念,如何能够对单张图片的人体行为进行识别是目前急需解决的问题。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种人体行为的识别方法、装置、终端设备和存储介质。
第一个方面,本发明实施例提供一种人体行为的识别方法,所述方法包括:
获取待识别图像;
根据预先训练的人体检测模型,检测所述待识别图像中的人体目标框位置信息;
根据所述人体目标框位置信息和预先建立的人体关键点检测模型中,确定与所述人体目标框位置信息对应的人体关键点数据;
根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别。
可选地,所述预先训练的人体检测模型通过如下方式获得:
获取训练样本数据;
根据所述训练样本数据对YOLOV5模型进行训练,得到训练后的神经网络;其中,所述YOLOV5模型至少包括主干网络与特征融合网络,所述主干网络用于对所述训练样本数据进行卷积操作,提取所述训练样本数据对应的不同深度的特征图;所述特征融合网络用于接收主干网络输出的特征图,并对所述特征图进行卷积和拼接操作,得到融合特征图,输出判别依据;
在所述训练后的神经网络收敛的情况下,将所述训练后的神经网络确定为所述人体检测模型。
可选地,所述预先建立的人体关键点检测模型通过如下方式:
对所述训练样本数据中的不同姿态的人体进行标注,得到不同姿态的人体标注框;
基于深度卷积神经网络架构,通过多个卷积、池化和残差块对所述训练样本数据进行特征提取,得到与所述训练样本数据对应的特征输入向量;
将所述特征输入向量输入到深度卷积神经网络模型中,得到与不同姿态人体对应的热力图,其中,所述热力图中包括人体关键点数据和置信度;
根据所述不同姿态的人体标注框对所述深度卷积神经网络模型进行训练,得到人体关键点检测模型。
可选地,所述方法还包括:
计算两点关键点数据之间的距离和夹角;
分别对所述距离和夹角进行归一化处理,得到不同姿态人体的特征向量数据集。
可选地,所述人体分类器模型通过如下方式获得:
根据所述不同姿态人体的特征向量数据集,对多层感知机进行训练,得到所述人体分类器,其中,所述多层感知机至少包括多个神经元层,每个神经元层与前一层全连接,多层感知机的每个神经元层至少包括多个神经元,输入层接收输入特征,输出层给出最终的预测结果,中间的隐藏层用于提取特征和进行非线性变换,每个神经元层接收前一层的输出,进行加权和和激活函数运算,得到当前层的输出。
可选地,所述根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别,包括:
对所述人体关键点数据的数量进行判断;
若所述人体关键点数据的数量大于预设值,则将所述人体关键点数据输入到所述预先训练的人体分类器模型中,确定所述待识别图像中的人体的人体行为类别。
第二个方面,本发明实施例提供一种人体行为的识别装置,所述装置包括:
获取模块,用于获取待识别图像;
检测模块,用于根据预先训练的人体检测模型,检测所述待识别图像中的人体目标框位置信息;
确定模块,用于根据所述人体目标框位置信息和预先建立的人体关键点检测模型中,确定与所述人体目标框位置信息对应的人体关键点数据;
分类模块,用于根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别。
可选地,所述装置还包括模型训练模块,所述模型训练模块用于:
获取训练样本数据;
根据所述训练样本数据对YOLOV5模型进行训练,得到训练后的神经网络;其中,所述YOLOV5模型至少包括主干网络与特征融合网络,所述主干网络用于对所述训练样本数据进行卷积操作,提取所述训练样本数据对应的不同深度的特征图;所述特征融合网络用于接收主干网络输出的特征图,并对所述特征图进行卷积和拼接操作,得到融合特征图,输出判别依据;
在所述训练后的神经网络收敛的情况下,将所述训练后的神经网络确定为所述人体检测模型。
可选地,所述模型训练模块用于:
对所述训练样本数据中的不同姿态的人体进行标注,得到不同姿态的人体标注框;
基于深度卷积神经网络架构,通过多个卷积、池化和残差块对所述训练样本数据进行特征提取,得到与所述训练样本数据对应的特征输入向量;
将所述特征输入向量输入到深度卷积神经网络模型中,得到与不同姿态人体对应的热力图,其中,所述热力图中包括人体关键点数据和置信度;
根据所述不同姿态的人体标注框对所述深度卷积神经网络模型进行训练,得到人体关键点检测模型。
可选地,所述模型训练模块用于:
计算两点关键点数据之间的距离和夹角;
分别对所述距离和夹角进行归一化处理,得到不同姿态人体的特征向量数据集。
可选地,所述模型训练模块用于:
根据所述不同姿态人体的特征向量数据集,对多层感知机进行训练,得到所述人体分类器,其中,所述多层感知机至少包括多个神经元层,每个神经元层与前一层全连接,多层感知机的每个神经元层至少包括多个神经元,输入层接收输入特征,输出层给出最终的预测结果,中间的隐藏层用于提取特征和进行非线性变换,每个神经元层接收前一层的输出,进行加权和和激活函数运算,得到当前层的输出。
可选地,所述分类模块用于:
对所述人体关键点数据的数量进行判断;
若所述人体关键点数据的数量大于预设值,则将所述人体关键点数据输入到所述预先训练的人体分类器模型中,确定所述待识别图像中的人体的人体行为类别。
第三个方面,本发明实施例提供一种终端设备,包括:至少一个处理器和存储器;
所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以实现第一个方面提供的人体行为的识别方法。
第四个方面,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现第一个方面提供的人体行为的识别方法。
本发明实施例包括以下优点:
本发明实施例提供的人体行为的识别方法、装置、终端设备和可读存储介质,通过获取待识别图像;根据预先训练的人体检测模型,检测所述待识别图像中的人体目标框位置信息;根据所述人体目标框位置信息和预先建立的人体关键点检测模型中,确定与所述人体目标框位置信息对应的人体关键点数据;根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。
附图说明
图1是本发明的一种人体行为的识别方法实施例的步骤流程图;
图2是本发明的一种人体行为的识别装置实施例的结构框图;
图3是本发明的一种终端设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明一实施例提供一种人体行为的识别方法,用于对图像中的人体行为进行识别。本实施例的执行主体为人体行为的识别装置,设置在终端设备上,其中,该终端设备至少包括计算机、平板终端等。
参照图1,示出了本发明的一种人体行为的识别方法实施例的步骤流程图,该方法具体可以包括如下步骤:
S101、获取待识别图像;
S102、根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;
S103、根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;
S104、根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别。
具体地,本发明实例中使用YOLOV5人员目标检测器对图片中的人员进行检测,获取人员的目标框位置,将输出的人员目标框输入至RTMPose(Real-time Multi-personPose Estimation Network)人体关键点算法中,输出关键点数据,将RTMPose人体关键点检测算法输出的人体关键点输入至人员行为分类器进行分类,划分出人体行为类别。
本发明实施例提供的人体行为的识别方法,通过获取待识别图像;根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。
可选地,预先训练的人体检测模型通过如下方式获得:
获取训练样本数据;
根据训练样本数据对YOLOV5模型进行训练,得到训练后的神经网络;其中,YOLOV5模型至少包括主干网络与特征融合网络,主干网络用于对训练样本数据进行卷积操作,提取训练样本数据对应的不同深度的特征图;特征融合网络用于接收主干网络输出的特征图,并对特征图进行卷积和拼接操作,得到融合特征图,输出判别依据;
在训练后的神经网络收敛的情况下,将训练后的神经网络确定为人体检测模型。
具体地,终端设备基于人员数据集训练YOLOV5,得到人员目标检测器。其中,YOLOV5算法原理为:包括主干网络与特征融合网络,主干网络为CSPDarkNet,特征融合网络为PANNet;
其工作原理如下:主干网络通过对图像进行卷积等操作进行处理提取出四个不同深度的特征图,特征融合网络接收主干网络输出的四个特征图进行卷积、拼接等操作进行特征图的融合,最后输出判别依据;在本实施例中YOLOV5采用的模型为YOLOV5m模型,图像尺寸设置为1024,训练批次大小为24。
可选地,预先建立的人体关键点检测模型通过如下方式:
对训练样本数据中的不同姿态的人体进行标注,得到不同姿态的人体标注框;
基于深度卷积神经网络架构,通过多个卷积、池化和残差块对训练样本数据进行特征提取,得到与训练样本数据对应的特征输入向量;
将特征输入向量输入到深度卷积神经网络模型中,得到与不同姿态人体对应的热力图,其中,热力图中包括人体关键点数据和置信度;
根据不同姿态的人体标注框对深度卷积神经网络模型进行训练,得到人体关键点检测模型。
具体的,终端设备利用倒地人员、蹲伏人员、站立人员的数据集中标注文件的目标框坐标以及RTMPose人体关键点算法,分别对倒地人员、蹲伏人员、站立人员构建对应类别的特征向量数据集,即构建不同姿态的特征向量数据集。
RTMPose人体关键点算法原理为:基于深度卷积神经网络架构,将图像分解为多个特征图,然后通过多个卷积、池化和残差块对图像特征进行提取。模型的输出是一个包含多个人体关节位置和置信度的热力图,每个热力图对应一个人的姿态。热力图中的每个像素值表示该像素位置上是否存在人体关节,并给出了该关节位置的置信度。
RTMPose模型的主要优点是高效性和准确性。由于其优化的网络结构和高效的实现,RTMPose可以在实时性要求较高的场景中实现快速的姿态估计。
可选地,该方法还包括:
计算两点关键点数据之间的距离和夹角;
分别对距离和夹角进行归一化处理,得到不同姿态人体的特征向量数据集。
具体的,构建向量数据集的步骤如下:
首先分别读取倒地人员、蹲伏人员、站立人员的数据集中标注文件的目标框坐标,将其输入到RTMPose模型中,输出相应的关键点数据;
接下来对每组关键点数据求取两点间的距离以及向量夹角并分别对距离和夹角进行归一化处理,组成42维的特征向量,其中两点间距离公式为:
|AB|=√(x1-x2)2+(y1-y2)2
向量夹角计算公式为:
归一化计算公式为:
即可得到倒地人员、蹲伏人员、站立人员的特征向量数据集。
可选地,人体分类器模型通过如下方式获得:
根据不同姿态人体的特征向量数据集,对多层感知机进行训练,得到人体分类器,其中,多层感知机至少包括多个神经元层,每个神经元层与前一层全连接,多层感知机的每个神经元层至少包括多个神经元,输入层接收输入特征,输出层给出最终的预测结果,中间的隐藏层用于提取特征和进行非线性变换,每个神经元层接收前一层的输出,进行加权和和激活函数运算,得到当前层的输出。
具体的,基于倒地人员、蹲伏人员、站立人员的特征向量数据集训练多层感分类算法,得到人员行为识别分类器。
多层感知机分类算法原理为:是一种基于前馈神经网络的深度学习模型,由多个神经元层组成,其中每个神经元层与前一层全连接。
多层感知机的每个神经元层由许多神经元组成,输入层接收输入特征,输出层给出最终的预测结果,中间的隐藏层用于提取特征和进行非线性变换。每个神经元接收前一层的输出,进行加权和和激活函数运算,得到当前层的输出。
通过不断迭代训练,多层感知机可以自动学习到输入特征之间的复杂关系,并对新的数据进行预测。本实施例中,将三个类别的关键点向量数据随机打乱构成数据集,以8:2的比例划分为训练集和验证集,多层感知机的隐藏层数量设置为42,选取Adam函数为激活函数,迭代次数设置500代。
可选地,根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别,包括:
对人体关键点数据的数量进行判断;
若人体关键点数据的数量大于预设值,则将人体关键点数据输入到预先训练的人体分类器模型中,确定待识别图像中的人体的人体行为类别。
示例性地,本发明实施例提供一种从图片输入检测器到输出人员行为结果的流程图,包括:
1.构造倒地人员、蹲伏人员、站立人员的特征向量数据集。采集三种人体行为的数据集进行标注,将人员目标框输入到开源RTMPose模型中,输出相应的关键点数据组;接下来对每组关键点数据求取两点间的距离以及向量夹角并分别对距离和夹角进行归一化处理,构成相应的42维的特征向量,得到倒地人员、蹲伏人员、站立人员的特征向量数据集。
2.训练人员行为分类器。将倒地人员、蹲伏人员、站立人员的的特征向量数据集随机打乱构成多层感知机训练数据集,以8:2的比例划分为训练集和验证集,输入数据集进行训练,得到人体行为分类器。
3.训练人员目标检测器。利用人员行为数据集标注人员目标框进行YOLOV5算法训练,直至算法收敛,得到人员目标检测器。
4.输入图片至人员目标检测器中,输出人员目标框,并将其输入RTMPose算法中,推理人员目标框中的人体关键点。若人体关键点数量小于16个则舍弃,若人体关键点数量等于16个则输入至多层感知机分类器中进行人员行为分类,得到分类结果,判断用户属于何种行为。
本发明实施例所提供的技术方案所达到的有益效果是:
1.YOLOV5m算法以及RTMPose算法均为轻量级算法,分析速度快,准确性较高,对于硬件要求低。
2.YOLOV5输出的人员目标框与RTMPose输出的关键点数组进行对照,可过滤掉大部分被遮挡的人员,人员误检率低。
3.多层感知机人员行为分类模型平均准确率为92%,分类效果较为可靠。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
本发明实施例提供的人体行为的识别方法,通过获取待识别图像;根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。
本发明另一实施例提供一种人体行为的识别装置,用于执行上述实施例提供的人体行为的识别方法。
参照图2,示出了本发明的一种人体行为的识别装置实施例的结构框图,该装置具体可以包括如下模块:获取模块201、检测模块202、确定模块203和分类模块204,其中:
获取模块201用于获取待识别图像;
检测模块202用于根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;
确定模块203用于根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;
分类模块204用于根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别。
本发明实施例提供的人体行为的识别装置,通过获取待识别图像;根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。
本发明又一实施例对上述实施例提供的人体行为的识别装置做进一步补充说明。
可选地,该装置还包括模型训练模块,模型训练模块用于:
获取训练样本数据;
根据训练样本数据对YOLOV5模型进行训练,得到训练后的神经网络;其中,YOLOV5模型至少包括主干网络与特征融合网络,主干网络用于对训练样本数据进行卷积操作,提取训练样本数据对应的不同深度的特征图;特征融合网络用于接收主干网络输出的特征图,并对特征图进行卷积和拼接操作,得到融合特征图,输出判别依据;
在训练后的神经网络收敛的情况下,将训练后的神经网络确定为人体检测模型。
可选地,模型训练模块用于:
对训练样本数据中的不同姿态的人体进行标注,得到不同姿态的人体标注框;
基于深度卷积神经网络架构,通过多个卷积、池化和残差块对训练样本数据进行特征提取,得到与训练样本数据对应的特征输入向量;
将特征输入向量输入到深度卷积神经网络模型中,得到与不同姿态人体对应的热力图,其中,热力图中包括人体关键点数据和置信度;
根据不同姿态的人体标注框对深度卷积神经网络模型进行训练,得到人体关键点检测模型。
可选地,模型训练模块用于:
计算两点关键点数据之间的距离和夹角;
分别对距离和夹角进行归一化处理,得到不同姿态人体的特征向量数据集。调度模块用于:
调度任务对应的调度节点继承于节点基类,在检测到添加新的调度节点的情况下,监听响应调度节点的析构消息。
可选地,模型训练模块用于:
根据不同姿态人体的特征向量数据集,对多层感知机进行训练,得到人体分类器,其中,多层感知机至少包括多个神经元层,每个神经元层与前一层全连接,多层感知机的每个神经元层至少包括多个神经元,输入层接收输入特征,输出层给出最终的预测结果,中间的隐藏层用于提取特征和进行非线性变换,每个神经元层接收前一层的输出,进行加权和和激活函数运算,得到当前层的输出。
可选地,分类模块用于:
对人体关键点数据的数量进行判断;
若人体关键点数据的数量大于预设值,则将人体关键点数据输入到预先训练的人体分类器模型中,确定待识别图像中的人体的人体行为类别。
需要说明的是,本实施例中各可实施的方式可以单独实施,也可以在不冲突的情况下以任意组合方式结合实施本申请不做限定。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的人体行为的识别装置,通过获取待识别图像;根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。
本发明再一实施例提供一种终端设备,用于执行上述实施例提供的人体行为的识别方法。
图3是本发明的一种终端设备的结构示意图,如图3所示,该终端设备包括:至少一个处理器301和存储器302;
存储器存储计算机程序;至少一个处理器执行存储器存储的计算机程序,以实现上述实施例提供的人体行为的识别方法。
本实施例提供的终端设备,通过获取待识别图像;根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。
本申请又一实施例提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,计算机程序被执行时实现上述任一实施例提供的人体行为的识别方法。
根据本实施例的计算机可读存储介质,通过获取待识别图像;根据预先训练的人体检测模型,检测待识别图像中的人体目标框位置信息;根据人体目标框位置信息和预先建立的人体关键点检测模型中,确定与人体目标框位置信息对应的人体关键点数据;根据人体关键点数据和预先训练的人体分类器模型,确定待识别图像中的人体的人体行为类别,本发明实施例中通过建立人体检测模型、人体关键点检测模型和人体分类器模型,对单张图像中的人体行为进行识别,计算量小,检测效率高。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、电子设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理电子设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理电子设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理电子设备上,使得在计算机或其他可编程电子设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程电子设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者电子设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者电子设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者电子设备中还存在另外的相同要素。
以上对本发明所提供的一种人体行为的识别方法和一种人体行为的识别装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种人体行为的识别方法,其特征在于,所述方法包括:
获取待识别图像;
根据预先训练的人体检测模型,检测所述待识别图像中的人体目标框位置信息;
根据所述人体目标框位置信息和预先建立的人体关键点检测模型中,确定与所述人体目标框位置信息对应的人体关键点数据;
根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别。
2.根据权利要求1所述的方法,其特征在于,所述预先训练的人体检测模型通过如下方式获得:
获取训练样本数据;
根据所述训练样本数据对YOLOV5模型进行训练,得到训练后的神经网络;其中,所述YOLOV5模型至少包括主干网络与特征融合网络,所述主干网络用于对所述训练样本数据进行卷积操作,提取所述训练样本数据对应的不同深度的特征图;所述特征融合网络用于接收主干网络输出的特征图,并对所述特征图进行卷积和拼接操作,得到融合特征图,输出判别依据;
在所述训练后的神经网络收敛的情况下,将所述训练后的神经网络确定为所述人体检测模型。
3.根据权利要求2所述的方法,其特征在于,所述预先建立的人体关键点检测模型通过如下方式:
对所述训练样本数据中的不同姿态的人体进行标注,得到不同姿态的人体标注框;
基于深度卷积神经网络架构,通过多个卷积、池化和残差块对所述训练样本数据进行特征提取,得到与所述训练样本数据对应的特征输入向量;
将所述特征输入向量输入到深度卷积神经网络模型中,得到与不同姿态人体对应的热力图,其中,所述热力图中包括人体关键点数据和置信度;
根据所述不同姿态的人体标注框对所述深度卷积神经网络模型进行训练,得到人体关键点检测模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
计算两点关键点数据之间的距离和夹角;
分别对所述距离和夹角进行归一化处理,得到不同姿态人体的特征向量数据集。
5.根据权利要求4所述的方法,其特征在于,所述人体分类器模型通过如下方式获得:
根据所述不同姿态人体的特征向量数据集,对多层感知机进行训练,得到所述人体分类器,其中,所述多层感知机至少包括多个神经元层,每个神经元层与前一层全连接,多层感知机的每个神经元层至少包括多个神经元,输入层接收输入特征,输出层给出最终的预测结果,中间的隐藏层用于提取特征和进行非线性变换,每个神经元层接收前一层的输出,进行加权和和激活函数运算,得到当前层的输出。
6.根据权利要求1所述的方法,其特征在于,所述根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别,包括:
对所述人体关键点数据的数量进行判断;
若所述人体关键点数据的数量大于预设值,则将所述人体关键点数据输入到所述预先训练的人体分类器模型中,确定所述待识别图像中的人体的人体行为类别。
7.一种人体行为的识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别图像;
检测模块,用于根据预先训练的人体检测模型,检测所述待识别图像中的人体目标框位置信息;
确定模块,用于根据所述人体目标框位置信息和预先建立的人体关键点检测模型中,确定与所述人体目标框位置信息对应的人体关键点数据;
分类模块,用于根据所述人体关键点数据和预先训练的人体分类器模型,确定所述待识别图像中的人体的人体行为类别。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括模型训练模块,所述模型训练模块用于:
获取训练样本数据;
根据所述训练样本数据对YOLOV5模型进行训练,得到训练后的神经网络;其中,所述YOLOV5模型至少包括主干网络与特征融合网络,所述主干网络用于对所述训练样本数据进行卷积操作,提取所述训练样本数据对应的不同深度的特征图;所述特征融合网络用于接收主干网络输出的特征图,并对所述特征图进行卷积和拼接操作,得到融合特征图,输出判别依据;
在所述训练后的神经网络收敛的情况下,将所述训练后的神经网络确定为所述人体检测模型。
9.一种终端设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机程序;所述至少一个处理器执行所述存储器存储的计算机程序,以实现权利要求1-6中任一项所述的人体行为的识别方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现权利要求1-6中任一项所述的人体行为的识别方法。
CN202311187120.2A 2023-09-13 2023-09-13 人体行为的识别方法、装置、终端设备和存储介质 Pending CN117315776A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311187120.2A CN117315776A (zh) 2023-09-13 2023-09-13 人体行为的识别方法、装置、终端设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311187120.2A CN117315776A (zh) 2023-09-13 2023-09-13 人体行为的识别方法、装置、终端设备和存储介质

Publications (1)

Publication Number Publication Date
CN117315776A true CN117315776A (zh) 2023-12-29

Family

ID=89236361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311187120.2A Pending CN117315776A (zh) 2023-09-13 2023-09-13 人体行为的识别方法、装置、终端设备和存储介质

Country Status (1)

Country Link
CN (1) CN117315776A (zh)

Similar Documents

Publication Publication Date Title
Chen et al. A survey on an emerging area: Deep learning for smart city data
CN110728209B (zh) 一种姿态识别方法、装置、电子设备及存储介质
CN109978893B (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN111666857B (zh) 基于环境语义理解的人体行为识别方法、装置及存储介质
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN107169454B (zh) 一种人脸图像年龄估算方法、装置及其终端设备
CN111178183B (zh) 人脸检测方法及相关装置
CN109145766B (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN111079658B (zh) 基于视频的多目标连续行为分析方法、***、装置
Dimokranitou Adversarial autoencoders for anomalous event detection in images
CN105574550A (zh) 一种车辆识别方法及装置
CN109800682B (zh) 驾驶员属性识别方法及相关产品
CN112149616B (zh) 基于动态信息的人物交互行为识别方法
CN113761259A (zh) 一种图像处理方法、装置以及计算机设备
CN113569598A (zh) 图像处理方法和图像处理装置
CN112926522B (zh) 一种基于骨骼姿态与时空图卷积网络的行为识别方法
CN108875456A (zh) 目标检测方法、目标检测装置和计算机可读存储介质
CN111523421A (zh) 基于深度学习融合各种交互信息的多人行为检测方法及***
Defriani et al. Recognition of regional traditional house in Indonesia using Convolutional Neural Network (CNN) method
CN115223239A (zh) 一种手势识别方法、***、计算机设备以及可读存储介质
CN114255377A (zh) 一种智能货柜的差异商品检测分类方法
CN111860056A (zh) 基于眨眼的活体检测方法、装置、可读存储介质及设备
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images
CN117315776A (zh) 人体行为的识别方法、装置、终端设备和存储介质
CN110717544B (zh) 一种垂直鱼眼镜头下行人属性分析方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination