CN112257527A

CN112257527A - 基于多目标融合与时空视频序列的手机检测方法

Info

Publication number: CN112257527A
Application number: CN202011079614.5A
Authority: CN
Inventors: 龚勋; 王琛中; 王立
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2020-10-10
Filing date: 2020-10-10
Publication date: 2021-01-22
Anticipated expiration: 2040-10-10
Also published as: CN112257527B

Abstract

本发明涉及基于多种目标融合与时空视频序列的手机检测方法，包括对改进的yolo模型进行训练得到检测模型，并输入视频图像帧运行检测模型得到第一帧预测值；对第一帧预测值进行解码，去掉score值低于预设值的框并以Diou阈值实现NMS，并根据某帧图像的解码结果在只出现手机框时，对手机框进行抑制；将抑制后的结果作为目标模板，输入视频图像帧作为候选框搜索区域，输入到全连接孪生网络，并选择score map相似度最大的结果对视频图像帧中的手机进行画框标记；如果已跟踪设定帧数，则重复上述步骤直到视频图像输入结束。本发明基于One‑stage检测算法中的轻量化检测网络，对网络结构和训练、检测方式进行精细化修改，在不降低检测速度的情况下，获取了较高的检测精度。

Description

基于多目标融合与时空视频序列的手机检测方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种多目标融合与时空视频序列的手机检测方法。

背景技术

检测精度、速度一直是目标检测的核心问题，在进行目标检测过程中，为了获取更精确的检测效果，通常会选择能获得高精度的重量级检测算法，这也就使得***在移动端设备的推理速度受到了极大的限制。

申请号为202010048048.5的中国发明专利申请公布了一种识别手机防拍照的智能监测方法、设备及可读介质，其通过智能监测***对海量的手机外观进行机器学习；在需要布置防拍的场所架设摄像探头，所述摄像探头与智能监测***实时通讯；所述摄像头将拍摄影像实时传输至智能监测***；通过智能监测***识别是否存在手机；若存在手机，则所述智能监测***根据所述拍摄影像，判断是否有利用手机进行拍照的行为；所述智能监测***判断有利用手机进行拍照的行为，则实时输出告警信息，提醒工作人员进行及时的提醒。使用以Darknet53为Backbone的检测算法进行初步检测，再配合骨骼生成、动作识别等方法进行监测；另外也有一些方法是使用类似算法进行初步定位，再进行从整体到局部的搜索方法进行检测。但是诸如此类的方式都使得检测***在移动端的推理速度基本达不到实时性。

发明内容

本发明的目的在于克服现有技术的缺点，提供了一种多种目标融合与时空视频序列的手机检测方法，解决了现在检测方法存在的不足。

本发明的目的通过以下技术方案来实现：基于多种目标融合与时空视频序列的手机检测方法，所述手机检测方法包括：

对改进的yolo模型进行训练得到检测模型，并输入视频图像帧运行检测模型得到第一帧预测值；

对所述第一帧预测值进行解码，去掉score值低于预设值的框并以Diou阈值实现NMS(非极大抑制)，并根据某帧图像的解码结果在只出现手机框时，对手机框进行抑制；

将抑制后的结果作为目标模板，输入视频图像帧作为候选框搜索区域，将二者同时输入到全连接孪生网络，并选择score map相似度最大的结果对视频图像帧中的手机进行画框标记；

如果已跟踪设定帧数，则重复上述步骤直到视频图像输入结束。

进一步地，所述手机检测方法还包括如果没有设定帧数，则重复将抑制后的结果作为目标模板，输入视频图像帧作为候选框搜索区域，将二者同时输入到全连接孪生网络，并选择score map相似度最大的结果对视频图像帧中的手机进行画框标记的步骤。

进一步地，所述手机检测方法还包括在对执行改进的yolo模型进行训练得到检测模型，并输入视频图像帧运行检测模型得到第一帧预测值步骤之前需要执行获取训练集和测试集的步骤。

进一步地，所述获取训练集和测试集的步骤包括：对录制视频进行分帧处理并对处理后的视频图片进行标注，隔帧提取部分图片构建数据集，将数据集按照一定比例划分为训练集和测试集。

进一步地，所述对所述第一帧预测值进行解码，去掉score值低于预设值的框并以Diou阈值实现NMS，并根据某帧图像的解码结果在只出现手机框时，对手机框进行抑制包括：

根据解码公式bx＝sigmoid(t_x)+cx、by＝sigmoid(t_y)+cy、bw＝p_we^tw、bh＝p_he^th、conf＝sigmoid(raw_conf)和prob＝sigmoid(raw_prob)对所述第一帧预测值进行解码；

以0.4的score阈值去掉置信度或者类别概率不满足要求的框并以0.1的Diou阈值实现NMS；

针对某帧图像的解码结果，若出现手机框而未出现人体框或者手部框或者摄像头框的情况时，并剔相应图像中关于手机的预测框，从而对手机框进行抑制。

进一步地，对yolo模型的改进包括以下内容：

对yolov3-tiny增加检测细小物体的s分支，以改善对摄像头等小物体的检测效果；

在上一步模型结构的基础上，增加SPP(Spatial Pyramid Pooling)、SAM(SpatialAttention Module)、CAM(Channel Attention Module)模块与残差连接，改善特征提取能力。

本发明具有以下优点：基于多目标融合与时空视频序列的手机检测方法，基于One-stage检测算法中的轻量化检测网络，对网络结构和训练、检测方式进行精细化修改，在不降低检测速度的情况下，获取了较高的检测精度，同时利用跟踪算法对检测到的目标进行跟踪，解决了一些存在较大遮挡与角度倾斜的难样本检测，同时降低***对资源的消耗，从而在整体上极大地提高了***在移动端的推理速度。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的保护范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。下面结合附图对本发明做进一步的描述。

如图1所示，本发明涉及一种基于多目标融合与时空视频序列的手机检测方法，其具体包括的内容如下：

S1、对实际应用场景的摄像头录制视频进行分帧处理，隔帧随机提取部分图片构建数据集。使用LabelImg标注软件标注每张图像中的手机、人体、手部、摄像头，将数据集按一定比例分为训练集与测试集。

S2、使用经改进的yolov3网络训练检测模型，网络训练输入为训练集图片与相应的标注标签，网络输出为预测的t_x,t_y,t_w,t_h偏移值、原始置信度及原始类别概率。

进一步地，在训练过程中，针对置信度损失的focalloss，考虑到yolov3网络模型的正负样本失衡远低于ReTinanet，因而将α的值选取为0.4，置信度损失的计算公式如下：

L_focalloss＝-α_t(1-p_t)^μ*γlog(p_t)

S3、运行检测模型得到第一帧的预测值。

S4、根据如下的解码公式对预测值进行解码，以0.40的score阈值去掉置信度或类别概率较低的框并以0.1的Diou阈值实现NMS；

bx＝sigmoid(t_x)+cx

by＝sigmoid(t_y)+cy

bw＝p_we^tw

bh＝p_he^th

conf＝sigmoid(raw_conf)

prob＝sigmoid(raw_prob)

其中：b_x、b_y、b_h、b_w分别表示预测框的中心横纵坐标与高宽，p_h和p_w分别表示先验框的高和宽。t_x和t_y表示的是物体中心距离网格左上角位置的预测偏移量，t_w和t_h表示的是物体相对于先验框的预测偏移量，c_x和c_y则代表网格左上角的坐标，score＝conf(置信度)×prob(类别概率)。

S5、针对某帧图片的解码结果，若出现手机框而未出现人体框或手部框或摄像头框的情况，将对手机框进行抑制。

S6、将抑制后的结果作为目标模板，视频图像帧作为候选框搜索区域，两者同时送入全连接孪生网络，得到模板匹配得到相似性度量结果score map。

S7、选取相似度最大的结果对视频图像帧中的手机进行画框标记。

S8、判断是否已跟踪设定帧数，如果没有，则重复步骤S6-S8，如果有，则执行步骤S9；

S9、重新步骤S3-S9，直到视频图像输入结束。

在多目标关联方面，本发明的贡献点如下：

发现了基于GIoU(Generalized Intersection over Union)的位置损失(本发明使用的位置损失)会出现与基于差方的位置损失相反的不平衡情况，为此偏泛化得统计s、m、l分支的平均标签框大小和平均位置损失，并结合各分支框的数量比例，采用负指数函数(a·e^-b/x)为基本函数进行不平衡的拟合修正，解决了基于GIoU的大小框不平衡的位置损失问题。

遵循在数据量足够大时，各分支框的平均位置损失应几乎相等的前提假设，在训练过程中偏泛化得统计第一个warm-up epoch(预热期，即训练初始时，学***均标签框大小和平均位置损失，并结合各分支框的数量比例，采用负指数函数(a·e^-b/x)为基本函数进行不平衡的拟合修正，调整后面迭代过程中的各分支位置损失权重，解决了基于GIoU的大小框不平衡的位置损失问题。

发现了yolo中存在的重写标签问题，即给某物体分配的位移anchor框有几率被后面的物体覆盖，导致被覆盖的无法训练，其具体改进步骤如下：

如果某anchor框已被某原物体赋予标签，则判定为原物体是否有唯一框；

如果原物体有唯一框，则判断现物体是否能够赋值anchor，，如果存在，则现物体取消对某anchor框的赋值，否则现物体往下寻找下一个iou值最高的anchor框进行赋值；

如果原物体没有唯一框，则判断是否有现物体最高iou的anchor和原物体非最高的iou的anchor覆盖原赋值；如果有，则判断是否有现物体非最高iou的anchor和原物体最高iou的anchor；如果有，则判断现物体是否能够存在赋值anchor，如果存在，则现物体取消对某anchor框的赋值，否则覆盖原赋值；如果有现物体非最高iou的anchor和原物体非最高iou的anchor，则iou低者被覆盖。

考虑了手机与其他辅助检测目标需要存在一个主辅区分，对手机类的所有损失，乘上了一个优先系数，本发明此系数采用1.10。

限制了ATSS(Adaptive Training Sample Selection)得出的阈值，在其阈值小于一定值的时候，认为得出的阈值对应的训练样本质量偏低，因此将摒弃阈值的选取方式，只选择待选择训练样本中IoU最高的一个。本发明中该一定值取0.10。

对多目标物体进行了基本不消耗计算资源的关联，减少了认知型检测方式的计算资源消耗。

在时空信息融合方面，本发明利用了时域和空域两个维度的上下文信息，显著地改善了跟踪过程中的遮挡和漂移问题。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.基于多种目标融合与时空视频序列的手机检测方法，其特征在于：所述手机检测方法包括：

对所述第一帧预测值进行解码，去掉score值低于预设值的框并以Diou阈值实现NMS，并根据某帧图像的解码结果在只出现手机框时，对手机框进行抑制；

2.根据权利要求1所述的基于多种目标融合与时空视频序列的手机检测方法，其特征在于：所述手机检测方法还包括如果没有设定帧数，则重复将抑制后的结果作为目标模板，输入视频图像帧作为候选框搜索区域，将二者同时输入到全连接孪生网络，并选择scoremap相似度最大的结果对视频图像帧中的手机进行画框标记的步骤。

3.根据权利要求1所述的基于多种目标融合与时空视频序列的手机检测方法，其特征在于：所述手机检测方法还包括在对执行改进的yolov3模型进行训练得到检测模型，并输入视频图像帧运行检测模型得到第一帧预测值步骤之前需要执行获取训练集和测试集的步骤。

4.根据权利要求3所述的基于多种目标融合与时空视频序列的手机检测方法，其特征在于：所述获取训练集合测试集的步骤包括：对录制视频进行分帧处理并对处理后的视频图片进行标注，隔帧提取部分图片构建数据集，将数据集按照一定比例划分为训练集和测试集。

5.根据权利要求1所述的基于多种目标融合与时空视频序列的手机检测方法，其特征在于：所述对所述第一帧预测值进行解码，去掉score值低于预设值的框并以Diou阈值实现NMS，并根据某帧图像的解码结果在只出现手机框时，对手机框进行抑制包括：

6.根据权利要求1所述的基于多种目标融合与时空视频序列的手机检测方法，其特征在于：对yolo模型的改进包括以下内容：

在上一步模型结构的基础上，增加SPP、SAM、CAM模块与残差连接，改善特征提取能力。