CN115035599A - 一种融合装备与行为特征的武装人员识别方法和*** - Google Patents
一种融合装备与行为特征的武装人员识别方法和*** Download PDFInfo
- Publication number
- CN115035599A CN115035599A CN202210641120.4A CN202210641120A CN115035599A CN 115035599 A CN115035599 A CN 115035599A CN 202210641120 A CN202210641120 A CN 202210641120A CN 115035599 A CN115035599 A CN 115035599A
- Authority
- CN
- China
- Prior art keywords
- behavior
- frame
- image
- personnel
- armed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种融合装备与行为特征的武装人员识别方法和***,方法包括以下步骤:获取装备检测数据集,基于所述装备检测数据集训练装备检测模型;获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别训练样本集;基于所述武装人员行为识别训练样本集训练武装人员行为识别模型;提取待识别视频流中的每帧图像输入训练好的装备检测模型,得到每帧图像的装备检测结果;提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果;基于所述装备检测结果和行为识别结果,计算每帧图像人员的危险系数,若危险系数高于预设阈值,则判断该人员为武装人员。
Description
技术领域
本发明涉及武装人员识别技术领域,尤其涉及一种融合装备与行为特征的武装人员识别方法和***。
背景技术
在实际的反恐侦察工作中,武装人员并没有明确的定义,只依靠目标检测难以准确地辨别武装人员。由于武装人员不仅仅在外形装备有明显的特点,还有很多有明显特征的行为。如站立射击、半蹲射击等等。现有的识别方法往往仅进行单一方向的识别,因此识别准确率低,难以准确辨识武装人员。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种融合装备与行为特征的武装人员识别方法和***,用以解决现有识别准确率低难以准确辨识武装人员的问题。
一方面,本发明实施例提供了一种融合装备与行为特征的武装人员识别方法,包括以下步骤:
获取装备检测数据集,基于所述装备检测数据集训练装备检测模型;
获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别训练样本集;基于所述武装人员行为识别训练样本集训练武装人员行为识别模型;
提取待识别视频流中的每帧图像输入训练好的装备检测模型,得到每帧图像的装备检测结果;提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果;基于所述装备检测结果和行为识别结果,计算每帧图像人员的危险系数,若危险系数高于预设阈值,则判断该人员为武装人员。
基于上述方法的进一步改进,采用如下方式计算每帧图像人员的危险系数:
Danger=Pi·IoUi+Pact,其中,Pi表示检测的第i种装备的置信度,IoUi表示检测的第i种装备与人类ROI的交并比,Pact表示行为识别结果的危险度。
进一步地,根据以下公式计算行为识别结果的危险度:
进一步地,所述装备检测模型为动态神经网络模型;所述动态神经网络模型包括第一子网络和第二子网络,所述第一子网络用于检测图像中的人类;当所述第一子网络检测图像中包含人类时,提取人类ROI传输至第二子网络;所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测;基于所述装备检测数据集训练所述动态神经网络模型,得到训练好的武装人员装备检测模型。
进一步地,基于所述视频流数据构建武装人员行为识别训练样本集,包括:
提取所述视频流数据中每帧图像的骨骼关节点数据;为每帧图像添加行为标签;将所述行为标签与所述骨骼关节点数据对应,得到初始训练样本集;
对所述初始训练样本集中的行为标签进行标签平滑,得到行为识别训练样本集。
进一步地,对所述初始训练样本集中的行为标签进行标签平滑,得到行为识别训练样本集,包括:
对初始训练样本集中的所有行为标签进行整体平滑;
确定初始训练样本集中的行为转换帧,对行为转换帧前的一组图像进行组内行为标签平滑;
所述骨骼关节点数据包括骨骼关节点的置信度;基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑,得到行为识别训练样本集。
进一步地,采用以下公式对初始训练样本集中的所有行为标签进行整体平滑:
进一步地,对行为转换帧前的一组图像进行组内行为标签平滑,包括:
对于每个行为转换帧,根据行为转换帧前一帧图像的标签值和行为转换帧的标签值确定转换前图像组的活跃索引和目标索引;
根据公式Labels[j][活跃索引]=标签最大值*(i-j)/k,计算行为转换帧前k个图像的标签中活跃索引对应的标签值;
其中,j=i-k,i-(k-1),i.-1.,第i帧为行为转换帧,Labels[j][活跃索引]表示第j帧图像的行为标签中活跃索引对应的标签值;Labels[j][目标索引]表示第j帧图像的行为标签中目标索引对应的标签值,活跃索引是第i-1帧图像的行为标签中标签最大值所在的索引,目标索引是第i帧图像的行为标签中标签最大值所在的索引。
进一步地,基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑,包括:
对每帧图像帧,将主要骨骼关节点的置信度设置为1,其他骨骼关节点置信度不变,计算所有骨骼关节点的置信度的均值;
将所述置信度的均值与该帧图像的标签值相乘,得到该帧图像基于置信度的平滑标签。
另一方面,本发明实施例提供了一种融合装备与行为特征的武装人员识别***,包括以下模块:
装备检测模型训练模块,用于获取装备检测数据集,基于所述装备检测数据集训练装备检测模型;
行为识别模型训练模块,用于获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别训练样本集;基于所述武装人员行为识别训练样本集训练武装人员行为识别模型;
武装人员识别模块,用于提取待识别视频流中的每帧图像输入训练好的装备检测模型,得到每帧图像的装备检测结果;提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果;基于所述装备检测结果和行为识别结果,计算每帧图像人员的危险系数,若危险系数高于预设阈值,则判断该人员为武装人员。
与现有技术相比,本发明通过构建和训练装备检测模型以及武装人员行为识别模型,将装备特征和行为特征结合,从而实现高效准确的识别武装人员,为准确高效反恐提供技术支持。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例融合装备与行为特征的武装人员识别方法的流程图;
图2为本发明实施融合装备与行为特征的武装人员识别***的框图;
图3为本发明实施例武装人员行为分类图;
图4为本发明实施例的姿态识别算法识别的骨骼关节点;
图5为本发明实施例的组内标签平滑前的部分标签数据;
图6为本发明实施例的组内标签平滑后的部分标签数据;
图7为本发明实施例的置信度平滑后的部分标签数据;
图8为本发明实施例的骨骼关节点时空图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本发明的一个实施例公开了一种融合装备与行为特征的武装人员识别方法,如图1所示,包括以下步骤:
S1、获取装备检测数据集,基于所述装备检测数据集训练装备检测模型;
S2、获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别训练样本集;基于所述武装人员行为识别训练样本集训练武装人员行为识别模型;
S3、提取待识别视频流中的每帧图像输入训练好的装备检测模型,得到每帧图像的装备检测结果;提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果;基于所述装备检测结果和行为识别结果,计算每帧图像人员的危险系数,若危险系数高于预设阈值,则判断该人员为武装人员。
本发明通过构建和训练装备检测模型以及武装人员行为识别模型,将装备特征和行为特征结合,从而实现高效准确的识别武装人员,为准确高效反恐提供技术支持。
在实际的反恐侦察工作中,武装人员身上携带的装备较小,在远距离范围内难以辨别,为了准确识别不同距离的装备,步骤S1中,采用可变焦的高分辨率相机采集不同距离下的武装人员图像,以构建装备检测数据集。
对于采集得到的各图像进行人员和装备标注,形成装备检测数据集,具体包括:
S11、采用标注框对武装人员图像中的人员和装备进行标注。
具体的,对图像中的人员和装备进行标注就是采用标注框,标注出图像中人员和装备的位置,并标注出对应的装备的类型。
S12、对标注后的图像采用标注框尺度扭曲、标注框镜像翻转、图像随机缩放、图像随机裁剪和/或图像随机排布进行数据集增强,得到增强后的数据集,将增强前的数据集与增强后的数据集作为装备检测数据集。
为了增大数据集的规模,提高模型的检测能力,对于标注后的图像进行数据增强。具体的,数据增强包括对标注后的图像采用标注框尺度扭曲、标注框镜像翻转、图像随机缩放、图像随机裁剪和/或图像随机排布进行数据集增强,得到增强后的数据集。
实施时,尺度扭曲方法为:标注框的坐标原点不变,将标注框内图像进行相应的尺度变换后覆盖在原来的目标位置,标注框的坐标随尺度变换而变换,得到新的图像及对应的标注信息。
实施时,镜像翻转方法为:标注框的坐标原点不变,将标注框内图像进行相应的翻转变换后覆盖在原来的目标位置,标注框的坐标不变,得到新的图像及对应的标注信息。
实施时,武装人员装备包括:头套、***(包含步枪、***及火箭筒)、***、刀具,再加上人类本身,一共是5类目标。最终检测数据集包含人、头套、***、刀具、***5类目标;数据集包含实景图像共17000余张。
对于自行构建的数据集,需要确定检测模型初始锚框的大小。因此,在基于所述武装人员图像构建装备检测数据集之后,构建动态神经网络模型之前,还包括:根据所述数据集中的所有图像的标注框,确定所述动态神经网络模型的初始锚框。
具体的,根据所述数据集中的所有图像的标注框,确定所述动态神经网络模型的初始锚框,包括:
S13、将所述数据集中各图像等比例缩放至指定大小,得到缩放后的标注框;
示例性的,自建数据集所有图像的尺寸为1920×1080;将每张图片中宽与高的最大值等比例缩放到指定大小,例如指定大小为1080×1080,较小的边也相应缩放;将缩放后图像对应的标注框从相对坐标改为绝对坐标,计算缩放后标注框的大小,即标注框的长和宽。
为了筛除无效数据,对更改后的标注框进行筛选,保留所有宽与高都不小于2个像素的标注框,其余删除。
S14、对缩放后的标注框进行聚类,采用遗传算法对每类标注框进行变异,基于预测正确率选择最优标注框作为初始锚框。
对于缩放后的所有标注框进行聚类,实施时,可采用k-means聚类算法对标注框进行聚类,得到km类不同的标注框。
在目标识别任务中,由于大的特征图包含更多小目标信息,往往希望在大的特征图中检测小目标。因此,大特征图上的锚框通常设置为小数值,而小特征图的锚框设置为较大的数值。实施时,若动态神经网络中包含四级分类器,则需设置4组初始化锚框,每组锚框包含3对值。因此,在k-means聚类算法中,类数量km为12。
对于得到的每类标注框,采用遗传算法进行变异,基于适应度函数选择其中最优的作为该类对应的初始锚框。具体的,对标注框进行随机变异,即对标注框的长和宽进行随机变异生成该类对应的一簇锚框。对于生成的一簇锚框,计算每个锚框的预测正确率,选择预测正确率最高的锚框为该类对应的初始锚框。
具体的,步骤S1中的装备检测模型为动态神经网络模型;所述动态神经网络模型包括第一子网络和第二子网络,所述第一子网络用于检测图像中的人类;当所述第一子网络检测图像中包含人类时,提取人类ROI传输至第二子网络;所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测;基于所述装备检测数据集训练所述动态神经网络模型,得到训练好的武装人员装备检测模型。
实施时,第一子网络可采用了YOLOv3-tiny的结构,该网络具有轻量化、易部署且精度高的特点。适合进行简单的人员检测任务。若第一子网络检测到图像中包含人类,则裁剪出人类ROI,即人类感兴趣区域,人类ROI传输至第二子网络,否则停止前向传播,从而提高模型的检测效率。
第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测,即根据从第一子网络中接收到的人类ROI的分辨率,在不同的网络深度处进行装备检测。
实施时,第二子网络可采用改进的yolov5l模型。第二子网络包括主干网络单元、Neck网络单元和预测单元;所述主干网络单元用于提取人类ROI不同尺度的特征图;所述Neck网络用于对主干网络单元提取的不同尺度的特征图进行上采样和特征融合,获得不同尺度的张量数据;所述预测单元包括多个浅层分类器,用于根据不同尺度的张量数据进行目标检测;
所述Neck网络单元中包括多级CSP和CBL组合块,在所述不同级的CSP和CBL组合块后连接浅层分类器,所述浅层分类器用于根据当前尺度的张量数据进行目标检测。
为了便于针对不同分辨率的样本,采用不同的网络深度(对应不同级别的CSP和CBL组合块)处的浅层分类器进行识别检测,从而提高模型效率,减少算力冗余。具体的,Neck网络单元中包括多级CSP和CBL组合块,级数越高,代表网络深度越深,通过将检测单元的多个分类器连接在不同级的CSP和CBL组合块之后,能够针对不同分辨率的样本进行快速识别检测,大大减少了运算量,节约了运算资源。
其中,CBL块包括全连接层、批量归一化层和Leaky Relu层。CSP块为CSP2_x结构块,用于将输入分为两个分支,一个分支先通过CBL,再经过x个残差结构,再进行一次卷积;另一个分支直接进行卷积;然后将两个分支进行concat拼接,再经过BN层和激活层后输出。
示例性的,对Neck网络单元的倒数4级CSP和CBL组合块后连接分类器,为了便于描述,分别表示为第一浅层分类器、第二浅层分类器、第三浅层分类器和第四浅层分类器。每级CSP和CBL组合块的输出分为两路,一路连接该层级对应的浅层分类器,一路依次经过CBL层和concat层继续前向传播,进入下一级CSP和CBL组合块。对CSP和CBL组合块的输出首先进行分辨率判断,若分辨率在预设的范围内,则将特征图输入当前层级对应的浅层分类器进行检测识别,停止前向传播,否则,将特征图继续前向传播,进一步提取深层特征。例如在倒数第4级CSP和CBL组合块后首先判断输入图像的分辨率,若分辨率大于等于400,则将特征图输入第一浅层分类器进行检测识别;若图像分辨率小于400,则继续前向传播提取深层特征。在倒数第3级CSP和CBL组合块后首先判断输入图像的分辨率,若分辨率小于400并且大于等于200,则将特征图输入第二浅层分类器进行检测识别;否则,则继续前向传播提取深层特征。在倒数第2级CSP和CBL组合块后首先判断输入图像的分辨率,若分辨率小于200并且大于等于50,则将特征图输入第三浅层分类器进行检测识别;否则,则继续前向传播特征。在倒数第1级CSP和CBL组合块后则无需进行判断,直降将特征输入对应的分类器进行检测识别。通过在不同深度连接分类器,不同分辨率的样本将会在不同的深度早退,只有分辨率小于50的样本才会进入到网络深层进行计算。这大大提升了模型的运行效率,减少了算力的冗余。
具体的,浅层分类器包括依次连接的卷积层、concat层和sigmoid层;所述卷积层用于提取图像特征,所述concat层用于对特征进行拼接,所述sigmoid层用于进行分类;不同层级的浅层分类器的卷积核大小和个数不同。
实施时,第一浅层分类器的卷积层由128个卷积核组成,每个卷积核的大小为1,stride=1。第二浅层分类器的卷积层由128个卷积核组成,每个卷积核大小为3,stride=2。第三浅层分类器的卷积层由256个卷积核组成,每个卷积核大小为3,stride=2。第四浅层分类器的卷积层由384个卷积核组成,每个卷积核的大小为3,stride=2。
实施时,浅层分类器的concat层用于将卷积层输出的特征与主干网络中某层输出的特征拼接,从而融合主干网络提取的特征和neck网络提取的特征,使分类更加准确。实施时,选择主干网络中输出特征维度与浅层分类器的卷积层输出特征维度相同的层,将其输出的特征与当前分类器的卷积层输出的特征拼接。
通过在不同深度的分类器中设置不同规模大小的卷积核,从而提取不同深度的特征,对于分辨率较高的图像,不需要提取深层特征即可准确进行检测识别,从而减少了运算量,提高了检测效率。
构建好动态神经网络模型后,基于所述装备检测数据集训练所述动态神经网络模型,得到训练好的武装人员装备检测模型。具体的,在进行模型训练时,通过以下公式计算模型的检测框损失:
其中,dis_2表示预测框与标注框的中心点的欧氏距离,dis_C表示预测框与标注框的最小外接矩形的对角线距离,IOU表示预测框和标注框的交并比。
模型的分类损失则采用交叉熵损失函数:
其中,M代表类别的数量,例如识别四类装备,故M=4。pic表示样本i属于类别c的置信度,yic为0-1变量,当样本i的真实类别为c时取1,否则取0。N表示一个batch中样本的数量。
最终得到模型的整体损失函数为:
根据模型的整体损失,进行反向传播,优化模型参数,从而得到训练好的武装人员装备检测模型。
训练后的装备识别模型内存在大量无效、低效冗余结构和参数,进一步提高推理效率成为难题。剪枝正是提高推理效率的方法之一,它通过剪裁低效分支与参数可以高效生成规模更小、内存利用率更高、能耗更低、推断速度更快、推断准确率损失最小的模型。
通过采用动态神经网络模型构建武装人员装备检测模型,对于不同分辨率的图像,可以采用不同的网络深度进行识别,从而减少冗余计算,提高检测效率。
具体的,基于所述装备检测数据集训练所述动态神经网络模型,得到训练好的武装人员装备检测模型之后,还包括采用以下步骤对所述武装人员装备检测模型进行剪枝:
S15、对模型各通道进行稀疏化处理计算稀疏化处理后每个通道的尺度因子;
因为网络中不同的通道对模型识别的效果影响不同,稀疏化处理的目的在于将影响较小的通道的BN层的系数(也叫尺度因子)逼近于0,得到稀疏化的尺度因子。在训练时,对每个通道中BN层的尺度因子加入正则项,对于数值较小的尺度因子来说,在训练完以后会更接近于0。从而实现了稀疏化尺度因子的目的。
S16、若尺度因子小于预设的阈值,则将该通道剪除;否则,保留该通道。
示例性的,若裁剪百分比设置为了55%,即要剪去55%的通道数。根据百分比和模型中所有的尺度因子,确定阈值,将所有尺度因子小于阈值的通道剪去(即将其对应尺度因子设置为0),从而对模型进行剪枝。
S17、对剪枝后的模型进行重新训练,得到训练好的武装人员装备检测模型。
进行剪枝后的模型由于通道数降低,模型参数减少,其识别精度肯定会有所下降。因此需要再进行训练对其进行微调,以弥补因剪枝而损失的精度。当精度达到预设值后,训练结束,得到剪枝后的武装人员装备检测模型。
由于目前还没有武装人员行为数据集,因此需要自行构建数据集。实施时,可以30fps的帧频流,640×480的分辨率录制武装人员行为视频,获取武装人员行为视频流数据。基于获取的视频流数据,采用人工标注的方式对视频进行逐帧行为标注。
具体的,步骤S2中基于所述视频流数据构建武装人员行为识别训练样本集,包括:
S21、提取所述视频流数据中每帧图像的骨骼关节点数据;为每帧图像添加行为标签;将所述行为标签与所述骨骼关节点数据对应,得到初始训练样本集;
具体的,人工为每帧图像添加武装人员行为标签。武装人员的行为共分为6类(见附图3):站立、行走、蹲下、站起、站射、蹲射。为了规范标注结果,约束射击角度为水平射击±30°,将满足射击角度的行为定义为射击行为。
采用姿态识别算法提取图像中人员的骨骼关节点数据。实施时,可采用AlphaPose姿态识别算法逐帧提取视频中武装人员的骨骼关节点数据(见附图4),骨骼关节点数据包括骨骼关节点坐标以及置信度。共提取14个骨骼关节点:面部中心、颈部、右肩、左肩、右手肘、左手肘、右手腕、左手腕、右髋、左髋、右膝、左膝、右脚踝、左脚踝。
将每帧图像的骨骼关节点数据和行为标签对应,生成初始训练样本集。由于姿态识别算法可能会存在空数据,因此将空数据剔除,即将没有骨骼挂接点数据的图像帧剔除,从而保证数据的有效性。
S22、对所述初始训练样本集中的行为标签进行标签平滑,得到行为识别训练样本集。
对于多分类模型,标签通常采用one-hot的形式编码,例如将第一类标签“站立”编码为(1,0,0,0,0,0),以此类推。采用one-hot形式的标签无法保证模型的泛化能力,使网络容易过拟合。为了解决这个问题,得到初始训练样本集后,对所述初始样本集中的行为标签进行标签平滑,得到行为识别训练样本集。具体的,标签平滑包括:
S221、对初始训练样本集中的所有行为标签进行整体平滑
具体的,采用以下公式对初始训练样本集中的所有行为标签进行整体平滑:
实施时,ε可取0.1。整体行为标签经过平滑后,为概率较低的类别分配了一点概率,为学***滑后变为(0.90,0.02,0.02,0.02,0.02,0.02)。
S222、确定初始训练样本集中的行为转换帧,对行为转换帧前的一组图像进行组内行为标签平滑;
具体的,若第i-1帧的行为标签和第i帧的行为标签不同,则第i帧即为行为转换帧。对于每一个行为转换帧,对其之前的一组图像进行组内平滑。具体包括:
对于每个行为转换帧,根据行为转换帧前一帧图像的标签值和行为转换帧的标签值确定转换前图像组的活跃索引和目标索引;
根据公式Labels[j][活跃索引]=标签最大值*(i-j)/k,计算行为转换帧前k个图像的标签中活跃索引对应的标签值;
其中,j=i-k,i-(k-1),i.-1.,第i帧为行为转换帧,Labels[j][活跃索引]表示第j帧图像的行为标签中活跃索引对应的标签值;Labels[j][目标索引]表示第j帧图像的行为标签中目标索引对应的标签值,活跃索引是第i-1帧图像的行为标签中标签最大值所在的索引,目标索引是第i帧图像的行为标签中标签最大值所在的索引。
具体的,以附图5中的行为标签为例对组内行为标签平滑的过程进行说明。附图5中的最后一行标签为行为转换帧,假设其为第i帧。则提取第i帧前的一组,即k个行为标签进行组内标签平滑。实施时,k可根据动作时长、平滑精度要求确定,取行为转换帧前的一部分连续行为标签进行组内平滑,例如k取7,即对第i帧前的7个行为标签进行组内平滑。在第i-1帧图像的行为标签中,标签最大值所在的索引为0,因此活跃索引为0。在第i帧图像的行为标签中的,标签最大值所在的索引为1,因此目标索引为1。
例如,对于标签(0.90,0.02,0.02,0.02,0.02,0.02),标签最大值为0.9,标签最小值为0.2。组内平滑后的标签值如图6所示,由于人的行为是连续变化的,通过将标签转换帧前的行为标签进行平滑,使得行为标签可以平滑的过渡到行为转换帧,最终使标签能更加体现人的实际行为,增强了后续学习的泛化空间,为准确识别武装人员的动作提供数据基础。
S223、所述骨骼关节点数据包括骨骼关节点的置信度;基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑,得到行为识别训练样本集。
具体的,对每帧图像帧,将主要骨骼关节点的置信度设置为1,其他骨骼关节点的置信度不变,计算所有骨骼关节点的置信度的均值;其中,主要骨骼关节点包括颈部、左肩、右肩、左髋、右髋。
将所述置信度的均值与该帧图像的标签值相乘,得到该帧图像基于置信度的平滑标签。从而进一步增强了学***滑后的行为标签数据如图7所示。
对行为标签平滑后,实施时,还包括对初始训练样本集中的骨骼关节点坐标数据进行归一化处理。具体的,可利用各组骨骼关节点坐标的最大/最小值对骨骼关节点坐标进行归一化处理,将全部骨骼关节点坐标归一化到(-1,1)的范围内。
实施时,本申请所构建的训练样本集共包含29757帧标注数据用于训练。
具体的,步骤S2中,武装人员行为识别模型为基于时空图卷积网络构建的模型,具体包括:
S23、以骨骼关节点为节点、以骨骼关节点之间的自然连接关系为空间边,以连续两帧中相同骨骼关节点的连接关系为时间边构建骨骼关节点时空图;
人体的骨骼点序列通常可利用每帧图像中的人体关节坐标表示。为了更好地利用图卷积来提取人体骨骼点的动态信息,图的节点之间的边不仅包含表示人体关节之间的自然连接的空间边,还应包含连接连续时间步上的相同关节点的时间边,将传统的图卷积扩展到时间邻域上。构建的骨骼关节点时空图如图8所示。
人体骨骼时空图的结构为G=(V,E),骨骼关节点作为时空图的节点通过空间边与时间边进行连接。时空图的信息包含了骨骼关节点的数量N,输入视频流包含的帧数T,以及每个关节点对应的特征矩阵vti。时空图中所有关节点的特征矩阵可表示如下:
V={vti|t=1,2,...T,i=1,2,...N}
其中,vti表示第t帧的第i个关节点的特征矩阵,包含了关节点的坐标以及置信度。时空图中的节点之间通过空间边和时间边进行连接,空间边和时间边分别表示如下:
Es={vti,vtj|(i,j)∈H}
Et={vtiv(t+1)i}
其中,H为人体自然连接的关节点集合。通过构建人体骨骼关节点时空图描述人体行为随时间变化的轨迹信息。
S24、构建时空图卷积神经网络,所述时空图卷积网络包含多个顺序连接的时空图卷积块;
每个所述时空图卷积块包括依次相连的空间图卷积层和时间图卷积层;所述空间图卷积层用于对输入特征进行图卷积提取骨骼关节点时空图的空域特征;所述时间图卷积层用于对输入特征进行标准二维卷积提取骨骼关节点时空图的时域特征;
具体的,所述空间图卷积层用于对输入特征进行图卷积提取骨骼关节点时空图的空域特征,包括:
采用基于距离的划分法对骨骼关节点时空图中每个节点的邻域进行子集划分;基于划分后的子集构建每个节点的邻接矩阵;
在传统卷积神经网络中,采样函数可以理解为卷积核的大小,即每次进行卷积运算(特征提取)时所覆盖的范围。例如,一个3*3的卷积核,在对某一个像素点进行卷积操作时,实际是将该像素点与其相邻的8个像素点的信息进行计算、聚合。
在时空图卷积网络中,节点等同于传统卷积的图像像素点,采样函数就是负责指定对每个节点进行图卷积操作时,所涉及到的相邻节点范围。本申请采用基于距离的划分法对骨骼关节点时空图中每个节点的邻域进行子集划分。在本申请根据一阶相邻节点(直接相连的节点),将邻域集划分为两个子集:1)d=0代表根节点;2)d=1代表与根节点距离为1的邻域子集。因此本发明中划分的子集数量K=2,对应存在两类权重函数,则将邻域中的点映射到划分之后的子集中,使其具有相同标签的过程可表示为:lti:B(vti)→{0,1,...K-1},此时权重函数w可表示为w(vtj,vti)=w(lti(vtj))。B(vti)表示第t帧的第i个关节点的邻接节点集合,lti表示邻接节点的子集标签。单帧中人体骨骼关节之间的连接可表达为邻接矩阵A,单位矩阵I表示自连接。对于基于关节距离的划分策略而言,邻接矩阵将被拆解成若干个矩阵Aj,有j=0,1。在基于距离的划分策略中:A0=I,A1=A。
实施的,构建的时空图卷积网络包含多个顺序连接的时空图卷积块,例如包含9个顺序连接的时空图卷积块。前三个时空图卷积块有64个通道用于输出,紧接的三个时空图卷积块有128个通道用于输出,最后三个时空图卷积块有256个通道用于输出。
其中,每个时空图卷积块包括依次相连的空间图卷积层和时间图卷积层。
空间图卷积层根据公式进行图卷积操作提取空域特征;其中,fin表示空间图卷积层的输入特征,fout表示空间图卷积层的输出特征,Αj为第j个子集的邻接矩阵表示,Λj为第j个子集的邻接矩阵的度矩阵,Wj表示第j个子集的权重,表示节点的重要性掩模矩阵,表示按位相乘。
人体在运动时,某几个关节经常是成团运动(如手腕和肘),并且可能出现在身体的各个部分,因此这些关节的建模应包含有不同的重要性。因此,本申请在每层空间图卷积层中添加了一个可学习的掩膜M,它基于骨骼关节点时空图中边的信息学习到的重要性权重来衡量该节点特征对其相邻节点的贡献度。即所述空间图卷积层中包括重要性掩模单元,用于自适应调整每个节点对其它邻接节点的重要性。
所述重要性掩模单元包括依次连接的批归一化层、Relu层、dropout层、卷积层和Sigmoid层;
所述归一化层用于使所述重要性掩模矩阵具有非对称性;Relu层用于非线性变换;所述dropout层用于防止过拟合;所述卷积层的卷积核为1×1,用于使所述掩模矩阵与对应的图卷积层维度一致;所述Sigmoid层用于将输出结果映射到[0,1]的范围内。
时间图卷积层用于对输入特征进行标准二维卷积提取骨骼关节点时空图的时域特征。将节点vti的邻域扩充为包含时间连接节点,可表示如下其中,参数Γ控制邻域图中的时间跨度,称为时间核尺寸。由于时间轴是有序的,因此可将构建的标签映射函数修改为如下映射函数:vtj表示第t帧的第j个关节点的特征矩阵,vqj表示第q帧的第j个关节点的特征矩阵。
构建时空图卷积网络后,基于步骤S22得到的行为识别训练样本集,训练时空图卷积网络,得到训练好的武装人员行为识别模型。
实施时,batch_size可设置为32,共训练30个epoch,损失函数使用BCE损失,优化器使用Adadelta。初始学习率设置为0.01,每经过10个epoch学习率乘以0.1。本发明训练好的武装人员行为识别模型在构建的数据集上对武装人员行为识别的准确率可达到99.2%。
本发明通过根据武装人员行为视频流数据构建训练数据集,对数据集中的标签进行平滑从而为训练模型提供具有一定泛化空间的训练数据,从而防止训练模型出现过拟合;通过采用时空图卷积网络构建武装人员行为识别模型,从而从时间域和空间域提取特征,从而提取更加丰富深层的特征,提高行为识别的准确性。
具体的,训练好装备检测模型和武装人员行为识别模型后,执行步骤S3,对于待识别视频流,提取其中的每帧图像输入训练好的装备检测模型,得到每帧图像的武装人员装备检测结果。提取待识别视频流中每帧图像的武装人员骨骼关键点数据,将骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果。
步骤S3中,基于装备检测结果和行为识别结果,采用如下方式计算每帧图像人员的危险系数:
Danger=Pi·IoUi+Pact,其中,Pi表示检测的第i种装备的置信度,IoUi表示检测的第i种装备与人类ROI的交并比,Pact表示行为识别结果的危险度。
具体的,根据以下公式计算行为识别结果的危险度:
实施时,行为识别结果的危险度也可采用行为识别分类得到的概率最大的行为类型对应的危险系数。
具体的每种行为类别的危险系数可根据每种行为的危险性设置。
通过将装备特征和行为特征融合,从两方面共同判断武装人员,最终实现对武装人员的高效准确判别。
本发明的一个实施例公开了一种融合装备与行为特征的武装人员识别***,如图2所示,包括以下模块:
装备检测模型训练模块,用于获取装备检测数据集,基于所述装备检测数据集训练装备检测模型;
行为识别模型训练模块,用于获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别训练样本集;基于所述武装人员行为识别训练样本集训练武装人员行为识别模型;
武装人员识别模块,用于提取待识别视频流中的每帧图像输入训练好的装备检测模型,得到每帧图像的装备检测结果;提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果;基于所述装备检测结果和行为识别结果,计算每帧图像人员的危险系数,若危险系数高于预设阈值,则判断该人员为武装人员。
上述方法实施例和***实施例,基于相同的原理,其相关之处可相互借鉴,且能达到相同的技术效果。具体实施过程参见前述实施例,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种融合装备与行为特征的武装人员识别方法,其特征在于,包括以下步骤:
获取装备检测数据集,基于所述装备检测数据集训练装备检测模型;
获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别训练样本集;基于所述武装人员行为识别训练样本集训练武装人员行为识别模型;
提取待识别视频流中的每帧图像输入训练好的装备检测模型,得到每帧图像的装备检测结果;提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果;基于所述装备检测结果和行为识别结果,计算每帧图像人员的危险系数,若危险系数高于预设阈值,则判断该人员为武装人员。
2.根据权利要求1所述的融合装备与行为特征的武装人员识别方法,其特征在于,采用如下方式计算每帧图像人员的危险系数:
Danger=Pi·IoUi+Pact,其中,Pi表示检测的第i种装备的置信度,IoUi表示检测的第i种装备与人类ROI的交并比,Pact表示行为识别结果的危险度。
4.根据权利要求1所述的融合装备与行为特征的武装人员识别方法,其特征在于,所述装备检测模型为动态神经网络模型;所述动态神经网络模型包括第一子网络和第二子网络,所述第一子网络用于检测图像中的人类;当所述第一子网络检测图像中包含人类时,提取人类ROI传输至第二子网络;所述第二子网络用于根据图像的不同分辨率采用不同网络深度处的分类器进行装备检测;基于所述装备检测数据集训练所述动态神经网络模型,得到训练好的武装人员装备检测模型。
5.根据权利要求1所述的融合装备与行为特征的武装人员识别方法,其特征在于,基于所述视频流数据构建武装人员行为识别训练样本集,包括:
提取所述视频流数据中每帧图像的骨骼关节点数据;为每帧图像添加行为标签;将所述行为标签与所述骨骼关节点数据对应,得到初始训练样本集;
对所述初始训练样本集中的行为标签进行标签平滑,得到行为识别训练样本集。
6.根据权利要求5所述的融合装备与行为特征的武装人员识别方法,其特征在于,对所述初始训练样本集中的行为标签进行标签平滑,得到行为识别训练样本集,包括:
对初始训练样本集中的所有行为标签进行整体平滑;
确定初始训练样本集中的行为转换帧,对行为转换帧前的一组图像进行组内行为标签平滑;
所述骨骼关节点数据包括骨骼关节点的置信度;基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑,得到行为识别训练样本集。
8.根据权利要求6所述的融合装备与行为特征的武装人员识别方法,其特征在于,对行为转换帧前的一组图像进行组内行为标签平滑,包括:
对于每个行为转换帧,根据行为转换帧前一帧图像的标签值和行为转换帧的标签值确定转换前图像组的活跃索引和目标索引;
根据公式Labels[j][活跃索引]=标签最大值*(i-j)/k,计算行为转换帧前k个图像的标签中活跃索引对应的标签值;
其中,j=i-k,i-(k-1),i.-1.,第i帧为行为转换帧,Labels[j][活跃索引]表示第j帧图像的行为标签中活跃索引对应的标签值;Labels[j][目标索引]表示第j帧图像的行为标签中目标索引对应的标签值,活跃索引是第i-1帧图像的行为标签中标签最大值所在的索引,目标索引是第i帧图像的行为标签中标签最大值所在的索引。
9.根据权利要求6所述的武装人员行为识别方法,其特征在于,基于骨骼关节点的置信度对每个图像的行为标签进行置信度平滑,包括:
对每帧图像帧,将主要骨骼关节点的置信度设置为1,其他骨骼关节点置信度不变,计算所有骨骼关节点的置信度的均值;
将所述置信度的均值与该帧图像的标签值相乘,得到该帧图像基于置信度的平滑标签。
10.一种融合装备与行为特征的武装人员识别***,其特征在于,包括以下模块:
装备检测模型训练模块,用于获取装备检测数据集,基于所述装备检测数据集训练装备检测模型;
行为识别模型训练模块,用于获取武装人员行为视频流数据,基于所述视频流数据构建武装人员行为识别训练样本集;基于所述武装人员行为识别训练样本集训练武装人员行为识别模型;
武装人员识别模块,用于提取待识别视频流中的每帧图像输入训练好的装备检测模型,得到每帧图像的装备检测结果;提取待识别视频流中每帧图像的骨骼关节点数据;将所述骨骼关节点数据输入训练好的武装人员行为识别模型,得到视频流中每帧图像的人员行为识别结果;基于所述装备检测结果和行为识别结果,计算每帧图像人员的危险系数,若危险系数高于预设阈值,则判断该人员为武装人员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641120.4A CN115035599A (zh) | 2022-06-08 | 2022-06-08 | 一种融合装备与行为特征的武装人员识别方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210641120.4A CN115035599A (zh) | 2022-06-08 | 2022-06-08 | 一种融合装备与行为特征的武装人员识别方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115035599A true CN115035599A (zh) | 2022-09-09 |
Family
ID=83123698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210641120.4A Pending CN115035599A (zh) | 2022-06-08 | 2022-06-08 | 一种融合装备与行为特征的武装人员识别方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115035599A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503737A (zh) * | 2023-05-10 | 2023-07-28 | 中国人民解放军61646部队 | 基于空间光学图像的船舶检测方法和装置 |
WO2024066044A1 (zh) * | 2022-09-27 | 2024-04-04 | 深圳先进技术研究院 | 基于超分辨率重建的危险行为识别方法、***及相关设备 |
-
2022
- 2022-06-08 CN CN202210641120.4A patent/CN115035599A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024066044A1 (zh) * | 2022-09-27 | 2024-04-04 | 深圳先进技术研究院 | 基于超分辨率重建的危险行为识别方法、***及相关设备 |
CN116503737A (zh) * | 2023-05-10 | 2023-07-28 | 中国人民解放军61646部队 | 基于空间光学图像的船舶检测方法和装置 |
CN116503737B (zh) * | 2023-05-10 | 2024-01-09 | 中国人民解放军61646部队 | 基于空间光学图像的船舶检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322446B (zh) | 一种基于相似性空间对齐的域自适应语义分割方法 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
CN110232350B (zh) | 一种基于在线学习的实时水面多运动目标检测跟踪方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN111797716A (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN115035599A (zh) | 一种融合装备与行为特征的武装人员识别方法和*** | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN112884742A (zh) | 一种基于多算法融合的多目标实时检测、识别及跟踪方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN110942471A (zh) | 一种基于时空约束的长时目标跟踪方法 | |
CN112651998A (zh) | 基于注意力机制和双流多域卷积神经网络的人体跟踪算法 | |
CN113095251B (zh) | 一种人体姿态估计方法及*** | |
CN114022372B (zh) | 一种引入语义损失上下文编码器的掩膜图像修补方法 | |
Chen et al. | SWIPENET: Object detection in noisy underwater images | |
CN113554679A (zh) | 一种面向计算机视觉应用的无锚框目标跟踪算法 | |
Manssor et al. | Real-time human detection in thermal infrared imaging at night using enhanced Tiny-yolov3 network | |
Kadim et al. | Deep-learning based single object tracker for night surveillance. | |
CN113657414B (zh) | 一种物体识别方法 | |
CN114067128A (zh) | 一种基于语义特征的slam回环检测方法 | |
Ahmed et al. | Robust Object Recognition with Genetic Algorithm and Composite Saliency Map | |
Poostchi et al. | Feature selection for appearance-based vehicle tracking in geospatial video | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN114882595A (zh) | 一种武装人员行为识别方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |