CN114612933B

CN114612933B - 单目社交距离检测追踪方法

Info

Publication number: CN114612933B
Application number: CN202210241439.8A
Authority: CN
Inventors: 匡平; 冯旭东
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2023-04-07
Anticipated expiration: 2042-03-11
Also published as: CN114612933A

Abstract

本发明公开了一种单目社交距离检测追踪方法，包括以下步骤：S1、利用YOLOv5模型对视频图像进行行人检测；S2、利用DeepSORT算法来完成对行人的跟踪和每个行人ID的匹配工作；S3、通过张氏标定法对摄像机进行标定，获得相机的内参和畸变参数；S4、在真实场景划定形状为矩形的感兴趣区域，通过逆透视变换生成鸟瞰图，利用鸟瞰图和道路平面比例系数对行人间的距离进行估计；S4、如果行人间的距离小于预设阈值，记录行人ID信息并提出预警。本发明基于YOLOv5模型和DeepSORT实现对行人的检测和追踪，再配合上摄像机标定和鸟瞰图变换可以准确检测出视频中行人间的距离。对行人的检测和跟踪的准确率高，实时性好。

Description

单目社交距离检测追踪方法

技术领域

本发明属于计算机视觉领域，特别涉及一种单目社交距离检测追踪方法。

背景技术

世界卫组织的报告指出，冠状病毒有两种传播方式，即呼吸道飞沫和任何形式的身体接触。这些飞沫是在感染者咳嗽或打喷嚏时通过呼吸***产生的。如果一个人出现在距离2米以内的地方，他很有可能吸入这些引起感染的飞沫。保持一定的社交距离是防止病毒传播的有效途径，是除了戴口罩之外阻止疫情传播的最好方法之一。在医院、商场、车站等人员密集流动场所，需要由工作人员提醒人们保持安全的社交距离，并且佩戴口罩。在这种情况下，人工智能可以在促进社会距离监测方面发挥重要作用。作为人工智能的一个子集，计算机视觉已经非常成功地解决了各种复杂的医疗保健问题，并在基于胸部ct扫描或x射线的COVID-19识别中实现了应用，因此考虑可以将计算机视觉的知识应用到行人社交距离检测中来。

在社交距离检测***中，主要要考虑三个关键问题：

(1)如何应用机器视觉的知识将视频中的行人检测出来，并且保证较高的准确率和实时性。

(2)如何对检测出的行人进行追踪。

(3)如何对行人进行三维距离估计。

1、行人检测方法

在计算机视觉与目标检测领域中，行人检测始终都是近些年来的研究热点之一，行人检测主要是利用图像处理和机器学习的方法来对图像中的行人进行定位，准确地预测出每个行人的大致位置，一个较为准确的行人检测模型也是后续如追踪、重识别、检索等图像智能分析的先验条件之一。随着目标检测技术的高速发展，目前常用的行人检测算法在对简单场景下的行人已经能取得较好的检测效果，但在现实生活如街道、商场这类大量人群聚集的场景下，行人检测的性能仍然有着较大的提升空间。

行人检测模型可以分为两大类。一个是两阶段模型，该类模型主要包含目标定位和目标识别，包围盒的生成和判断被分成两个过程，首先生成候选框，然后再对候选框进行判断，现有模型主要有R-CNN、Fast R-CNN和Faster R-CNN。另一种是一阶段模型，该类模型的检测速度快，能够满足实时性要求，现有的模型主要有SSD和YOLO系列。

2、行人追踪方法

SORT算法是由A Bewley等人在2016年提出的基于TBD(Tracking and Detection)的简单实时多目标跟踪算法，该算法结合了卡尔曼滤波和匈牙利算法，它可以根据新目标的进入(旧目标的离开)来创建新的ID(销毁旧的ID)，从而节省大量数据空间。2017年，该团队提出了DeepSORT算法，该算法继续使用SORT算法和匈牙利算法中的卡尔曼滤波器框架，利用匈牙利算法区分当前帧目标与前一帧中的目标是否相同，并利用卡尔曼滤波对目标进行追踪。DeepSORT增加了行人重识别网络和外观信息来判断检测到的行人是否重复，并且实现遮挡目标的长时间追踪，同时DeepSORT还利用CNN进行特征提取和匹配，减少了SORT中的ID切换，在高速视频下也可以实现良好的跟踪效果。

3、三维空间距离估计方法

三维空间距离估计主要有两种解决方法，单目视觉和双目视觉。双目视觉通过利用两台摄像机对同一个对象从不同角度的拍摄图像建立空间模型来测量距离，这种方法一般比较准确，但是也带来成本的提高，目前大多数的商场、车站、飞机场等公共场所都是站桩的单个摄像头。单目视觉即通过一台摄像机来测量三维空间距离，这种测量方法没有双目的方案准确，但是它的成本较低。由于摄像头拍摄的图像有近大远小的特征，因此仅仅通过单目摄像头是无法进行距离测量的，必须要配合其他条件，常用的方法就是对单目摄像机进行标定，因此还要了解摄像机标定技术，目前常用的摄像机标定技术主要有三种：

(1)传统标定法：这类方法通过一个已知尺寸大小的参照物，通常为黑白棋格标定板，利用几何模型和数学运算，建立以参照物建立的3D世界坐标系和2D图像坐标系的对应关系，得到镜头的内外参。这种方法的精度高，而且可以对任意一个摄像机进行标定，但是，经过标定后摄像机的位置就不能改变，否则需要重新进行标定。传统标定法中发展比较成熟的主要有张正友平面标定法和Tsai提出的两步标定法。

(2)自标定法：和传统标定法不同，自标定法不需要参照物的辅助，可以通过摄像机拍摄的多幅图像直接标定摄像机，得到内外参。经过这种方法标定的摄像机通常是可以变换位置的，因此比较灵活，但是，它的精度一般比较低，适合对精度要求不高的场合的摄像机标定。

(3)基于主动视觉的标定方法：这种方法是由Ma提出的，在掌握摄像机运动参数的前提下，对摄像机进行标定。这种方法和自标定法一样，不需要参照物模板，但是，需要控制摄像机做一些平移或者旋转的运动。这种方法的精确性一般比较高，但是仅适合在摄像机支持运动的场景，对大多数的场景并不适用。

目前对于社交距离检测追踪***的研究现状如下：

Kavita A.Sultanpure等人提出了一个物体识别模型，可以帮助人们在公共场所持续利用视频和图片的YOLO对象进行定位，提醒人们保持适当的社交距离检测和带口罩。ShashiYadav提出了一种基于计算机视觉的方法，该方法以持续观察个体为中心，通过在***树莓派上通过屏蔽运动来执行模型，并且识别侵权行为，从而对社交距离和口罩进行检测。在这个框架中，现代深度学习算法和数学策略和几何技术相结合，构建了涵盖识别、跟踪和校准三个部分的强大模型。S.Agarwal等人组装了一个***，该***利用YOLOv3对象识别模型来检测行人，并利用Deepsort方法在边界盒和分配的id的帮助下跟踪被检测到的个体，然后将YOLOv3模型的结果与其他著名的模型(Faster RCNN和SSD)在mAP、FPS和loss上进行对比。Imran Ahmed等人提供了一个利用YOLOv3的***来识别视频分组中的人，该算法在神经网络中增加了额外的层用来计算行人信息索引，识别模型利用识别出的边界框数据来区分人，最后，利用欧几里得距离来计算个体区分边界盒质心的距离。MahdiRezaei等人建立了一个基于计算机视觉和YOLOv4的模型，利用常见的闭路电视监控摄像机在室内和露天条件下进行机械化行人识别，此外，他们还提出了深度神经网络模型与调整后的IPM方法和SORT跟踪算法相结合，进一步增强了行人检测和社交距离检查。Sergio Saponara等人提出了一个利用热图片进行社交距离分组的人工框架，使用基于YOLOv2的方法，编写了一个基于深度学习的检测程序，用于在室外和室内情况下区分和跟踪行人。Rinkal Keniya等人将着重点放在识别周围的人是否保持社交距离，他们利用自己制作的名为“SocialdistancingNet-19”的模型来感知个人的边缘并显示姓名，如果距离小于某个特定值，他们就被划分为危险人群。

目前的社交距离检测***或多或少的在行人检测和追踪的准确率和距离估计的准确率上存在缺陷。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于YOLOv5模型和DeepSORT实现对行人的检测和追踪，再配合上摄像机标定和鸟瞰图变换可以准确检测出视频中行人间的距离，对违反社交距离的行人进行提醒，准确率高，实时性好的单目社交距离检测追踪方法。

本发明的目的是通过以下技术方案来实现的：单目社交距离检测追踪方法，包括以下步骤：

S1、利用YOLOv5模型对视频图像进行行人检测；

S2、利用DeepSORT算法来完成对行人的跟踪和每个行人ID的匹配工作；

S3、通过张氏标定法对摄像机进行标定，获得相机的内参和畸变参数；

S4、在真实场景划定形状为矩形的感兴趣区域，并且测量真实世界中矩形的长度，然后通过逆透视变换生成鸟瞰图，利用鸟瞰图和道路平面比例系数对行人间的距离进行估计；

S5、如果行人间的距离小于预设阈值，记录行人ID信息并提出预警。

进一步地，所述步骤S1中的YOLOv5模型有四大模块，分别是Input、Backbone、Neck和Head；Backbone模块依次包括Focus结构、四个Conv结构和SPP金字塔结构，每两个Conv结构之间设有GhostBottleneck模块，共有三个GhostBottleneck模块；第二个Conv结构与第二个GhostBottleneck模块、第三个Conv结构与第三个GhostBottleneck模块、第四个Conv结构与SPP金字塔结构之间均设有SE层。

进一步地，所述GhostBottleneck模块由两个Ghost模块组成，第一个Ghost模块充当扩展层，用来增加通道的数量；第二个Ghost模块用于减少通道数量；第二个Ghost模块的输出与第一个Ghost模块的输入相加后作为GhostBottleneck模块的输出。

进一步地，SE层建立在任意一个映射F_tr：X∈R^{H′×W′×C′}→U∈R^H×W×C上，卷积核为V＝[v₁，v₂，...，v_c]，其中v_c表示第c个卷积核，那么输出表示为U＝[u₁，u₂，...，u_c]，u_c表示为：

其中*代表卷积运算，

X＝[x¹，x²，...，x^C′]，u_c∈R^H×W，

表示一个s通道的2维卷积核；SE层将卷积得到的空间特征关系和通道特征关系分开，使得模型直接学习到通道的特征关系；

对通道的特征关系，SE层执行两个操作，分别是Squeeze操作和Excitation操作；首先对输入的通道特征图进行Squeeze操作得到所有通道的全局特征；然后再进行Excitation操作，学习各个通道之间的依赖关系，得到各个通道的权值，最后将权值和原来特征图相乘得到最终的特征。

进一步地，所述步骤S4中，道路平面比例系数k_x和k_y表示为：

其中，k_x和k_y分别代表X方向和Y方向的比例系数，w和h分别为感兴趣区域的长和宽的实际长度，w'和h'分别为鸟瞰图中感兴趣区域的长和宽的像素长度。

本发明的有益效果是：和现有的社交距离检测器相比，本发明基于改进的YOLOv5模型和DeepSORT实现对行人的检测和追踪，再配合上摄像机标定和鸟瞰图变换可以准确检测出视频中行人间的距离，对违反社交距离的行人进行提醒。对行人的检测和跟踪的准确率高，实时性好。

附图说明

图1为本发明的单目社交距离检测追踪方法的流程图；

图2为现有的YOLOv5模块组成结构图；

图3为本发明的YOLOv5模块组成结构图；

图4为本发明的Ghost模块结构示意图；

图5为本发明的Stride分别为1和2时的GhostBottleneck结构图；

图6为本发明SE模块结构示意图；

图7为本发明感兴趣区域图；

图8为本发明感兴趣区域的鸟瞰图。

具体实施方式

本发明所述的单目，是指单个摄像头。下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种单目社交距离检测追踪方法，包括以下步骤：

S1、利用YOLOv5模型对视频图像进行行人检测；

虽然YOLOv5模型采用了可能降低网络参数的CSP结构、可能减少信息丢失的Focus结构和适用于多尺寸输入的SPP金字塔结构，但是实时性也是社交距离检测追踪***需要考虑到的，因此本发明以此为切入点，考虑如何改进模型以提高行人检测的速度。YOLOv5里有四大模块，分别是Input、Backbone、Neck和Head；Backbone的结构如图2所示，在Backbone模块中，有4个conv和3个BottleneckCSP交替组成的结构。本发明对Backbone进行改进，使用GhostBottleneck模块来代替Backbone模块中原有的3个BottleneckCSP模块，可以在不降低检测精度的前提下提高检测速度。此外，本发明采用增加SE层的方式，在适当的情景下适当增加计算成本，提高网络特征学习的能力。改进后的模型如图3所示。Backbone模块依次包括Focus结构、四个Conv(卷积)结构和SPP金字塔结构，每两个Conv结构之间设有GhostBottleneck模块，共有三个GhostBottleneck模块；第二个Conv结构与第二个GhostBottleneck模块、第三个Conv结构与第三个GhostBottleneck模块、第四个Conv结构与SPP金字塔结构之间均设有SE层，前两个SE层的输出与SPP金字塔结构的输出共同输入Head模块。

所述GhostBottleneck模块由两个Ghost模块组成，Ghost模块可以通过廉价的操作生成更多的特征图。在一组特征图的基础上，采用一系列的线性变换，通过以较低的代价生成许多能充分包含特征信息的Ghost特征图。Ghost模块分为三个部分：卷积、Ghost生成和特征图拼接。首先使用传统的卷积方法得到特征映射，然后对每个通道的特征图进行Φ运算生成Ghost特征图，最后将第一步得到的特征图和Ghost特征图拼接起来，得到最终的输出。图4展示了Ghost模块在输出同样数量的特征图时所做的操作，卷积层conv的输出包含了很多冗余的特征图，Φ运算是一种廉价运算，类似于3×3卷积运算，经过原始卷积层产生的特征图尺寸通常很小，再经过Φ运算生成对应特征图的“重影”。

第一个Ghost模块充当扩展层，用来增加通道的数量，第二个Ghost模块用于减少通道数量，第二个Ghost模块的输出与第一个Ghost模块的输入相加后作为GhostBottleneck模块的输出，通过Ghost模块调整通道数量，使两路相加的数据的通道数匹配。图5展示了步长stride分别为1和2时的GhostBottleneck结构。当stride为1时，在第一个Ghost模块使用BN和ReLU，第二个Ghost只是用BN。当stride为2时，在两个Ghost模块之间***stride为2的DepthWise卷积。最后考虑到效率问题，在实际应用中Ghost模块的卷积采用pointwise卷积。Stride就是步长的意思，一次移动一步和一次移动两步，移动两步的时候中间需要加一个深度卷积，移动一步特征图和原来几乎一样；移动两步会使计算量更小，用户可以根据需要自行选择移动一部还是两步。

一般的CNN网络主要将输入的特征图送入卷积核，经过卷积核的运算输出新的特征图，而卷积的本质是空间(H、W)和通道(C)维度的特征融合。通过SE操作将卷积核学习到的空间特征关系(H和W维度)和通道特征关系(C)分开，使得模型直接学习到通道(C维度)的特征关系，SE层的基本结构如图6所示。

SE层可以建立在任意一个映射F_tr：X∈R^{H′×W′×C′}→U∈R^H×W×C上，如果卷积核为V＝[v₁，v₂，...，v_c]，其中v_c表示第c个卷积核，那么输出可以表示为U＝[u₁，u₂，...，u_c]，u_c可以表示为：

其中*代表卷积运算，

X＝[x¹，x²，...，x^C′]，u_c∈R^H×W，

表示一个s通道的2维卷积核。从公式可以看出输出是由所有通道的卷积结果求和产生的，所以卷积核学习到的空间特征关系和通道特征关系会混合在一起，而SE层就是为了将二者分离开来，使模型可以直接学习到通道特征关系。

对通道的特征关系，SE层执行两个操作，分别是Squeeze操作和Excitation操作；首先对输入的通道特征图进行Squeeze操作得到所有通道的全局特征；然后再进行Excitation操作，学习各个通道之间的依赖关系，得到各个通道的权值，最后将权值和原来特征图相乘得到最终的特征；

Squeeze操作通过使用全局平均池将全局空间特征用压缩到一个通道中，生成通道的统计信息；输出U通过缩小它的空间维度H×W来生成统计量z∈R^C，R^C表示C维空间R；第c个统计量z_c表示为：

Excitation操作采用sigmoid形式的阀门机制：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

δ()为ReLU函数，

降维系数为r是个超参数；Excitation操作采用包含两个FC层的bottleneck结构，首先经过第一个FC层进行降维处理，然后经过ReLU激活，最后经过第二个FC层转化到原来的维度；

将学习到的所有通道的sigmoid激活值乘以U上的初始特征得到最终特征：

x'_C＝F_scale(u_c,s)＝su_c。

S2、利用DeepSORT算法来完成对行人的跟踪和每个行人ID的匹配工作；DeepSORT主要利用匈牙利算法区分当前帧目标与前一帧中的目标是否相同，并利用卡尔曼滤波对目标进行追踪。搭配步骤S1的行人检测模型，对一个人们在广场上行走的12分钟的视频进行跟踪匹配，视频中经常出现遮挡、重叠和拥挤的情况，而且还体现了真实世界公共场所中行人服装和外观的多样性。和目前先进的行人检测模型Faster R-CNN、SSD、YOLOv5在精度、召回率、FPS、IDSW、MOTA进行了对比。其对比结果如表1所示。

表1

模型	精度	召回率	FPS	IDSW	MOTA
						Faster R-CNN	96.9	83.6	28	381	30.9
SSD	79.1	80.0	36	357	30.0
						YOLOv5	83.6	61.1	53	306	30.4
改进后YOLOv5	92.6	75.3	68	289	30.6

S3、通过张氏标定法对摄像机进行标定，获得相机的内参和畸变参数；标定原理参考张正友教授的标定方法；对图像进行去畸变处理；

S4、在真实场景划定形状为矩形的感兴趣区域，并且测量真实世界中矩形的长度，如图7所示；然后通过逆透视变换生成鸟瞰图，如图8所示，利用鸟瞰图和道路平面比例系数对行人间的距离进行估计；通过透视变化可以实现原图像平面中任意一点到鸟瞰图中对应点的映射。得到感兴趣区域的鸟瞰图后，由于鸟瞰图具有在水平方向和垂直方向均匀分布的特性，而且水平和垂直方向的比例不同，因此还需获取鸟瞰图与道路平面的比例系数k_x和k_y才能准确地在鸟瞰图中进行行人间距离的估计；道路平面比例系数k_x和k_y表示为：

相当于看两个人之间水平方向距离多少像素，每个像素代表水平多少距离，垂直方向距离多少像素，每个像素代表多少距离，然后再计算两个人的距离。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.单目社交距离检测追踪方法，其特征在于，包括以下步骤：

S1、利用YOLOv5模型对视频图像进行行人检测；YOLOv5模型有四大模块，分别是Input、Backbone、Neck和Head；Backbone模块依次包括Focus结构、四个Conv结构和SPP金字塔结构，每两个Conv结构之间设有GhostBottleneck模块，共有三个GhostBottleneck模块；第二个Conv结构与第二个GhostBottleneck模块、第三个Conv结构与第三个GhostBott1eneck模块、第四个Conv结构与SPP金字塔结构之间均设有SE层；

所述GhostBottleneck模块由两个Ghost模块组成，第一个Ghost模块充当扩展层，用来增加通道的数量；第二个Ghost模块用于减少通道数量；第二个Ghost模块的输出与第一个Ghost模块的输入相加后作为GhostBottleneck模块的输出；

SE层建立在任意一个映射F_tr：X∈R^{H′×W′×C′}→U∈R^H×W×C上，卷积核为V＝[v₁，v₂，...，v_c]，其中v_c表示第c个卷积核，那么输出表示为U＝[u₁，u₂，...，u_c]，u_c表示为：

其中*代表卷积运算，

X＝[x¹，x²，...，x^C′]，u_c∈R^H×W，

Excitation操作采用sigmoid形式的阀门机制：

s＝F_ex(z，W)＝σ(g(z，W))＝σ(W₂δ(W₁z))

δ()为ReLU函数，

x′_C＝F_scale(u_c，s)＝su_c；

2.根据权利要求1所述的单目社交距离检测追踪方法，其特征在于，所述步骤S4中，道路平面比例系数k_x和k_y表示为：

其中，k_x和k_y分别代表X方向和Y方向的比例系数，w和h分别为感兴趣区域的长和宽的实际长度，w’和h’分别为鸟瞰图中感兴趣区域的长和宽的像素长度。