CN114267082B

CN114267082B - 基于深度理解的桥侧坠落行为识别方法

Info

Publication number: CN114267082B
Application number: CN202111088471.9A
Authority: CN
Inventors: 朱家祥; 成孝刚; 张博; 汪兆斌; 高波; 倪杰; 蔡聪聪; 徐风雷
Original assignee: Nanjing Municipal Public Security Bureau; Nanjing University of Posts and Telecommunications
Current assignee: Nanjing Municipal Public Security Bureau; Nanjing University of Posts and Telecommunications
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-08-11
Anticipated expiration: 2041-09-16
Also published as: CN114267082A

Abstract

本发明公开了一种基于深度理解的桥侧坠落行为识别方法，利用一直监测大桥的摄像头捕捉到人员从桥侧坠落的信号并发出报警信号，使坠落者能够得到及时救援。***在江面大桥上的摄像机中嵌入计算机视觉算法，其中包括人员翻越栏杆行为监测模块、人员坠落监测模块、坠落水花监测模块、人员漂浮检测以及救援区域预测模块。本***通过前三个模块的交叉验证来判定是否有人翻越跨江大桥栏杆以及从桥侧坠落，若检测到，可及时进行报警并呼叫救援，防止错过最佳救援时间；利用后两个模块来预测落水者大致所在的位置并通知救援队，为救援工作创造便利。

Description

基于深度理解的桥侧坠落行为识别方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于深度理解的桥侧坠落行为识别方法。

背景技术

在现实生活中，经常会听到有行人坠桥的事故发生。但由于其发生的随机性和偶然性，很难在第一时间发现并进行救治。目前，我国主要靠人工巡检和路人报警的方式相结合的方式，效率较低。因此，研制一种“7天×24小时”监测且准确率较高的桥侧坠落行为识别***，就有重大的社会意义。

目标检测算法大致分为两类：“两阶段”和“一阶段”方法。“两阶段”是指检测和识别两个阶段，该方法是基于区域推荐的。代表算法有RCNN、Fast-RCNN、Faster-RCNN等。而“一阶段”是基于回归的，直接回归物体的类别概率和位置坐标值。代表算法有YOLO系列和SSD系列算法等。其中“一阶段”方法检测速度比“两阶段”方法快，适合本方法需要及时的特点，故本方法利用了“一阶段”方法。

注意力模型(Attention Model，AM)就是模拟大脑处理信息的模型。在计算机视觉领域已成为网络结构的重要组成部分，已经被广泛的应用到图像分类、目标检测等领域。而注意力机制(Attention Mechanism)是从大量信息筛选出有用信息的一种资源分配手段，重点关注所需信息，然后投入更多注意力到这些地方，以获得所需要目标的细节信息，而忽略掉不重要的区域。比如在读一篇文章的时候，我们会首先关注文章题目，看这是哪种类型的文章，接着看每一章节的标题，把握文章的整体脉络。这是人类利用有限注意力从大量信息中快速筛选出高价值信息的手段。对计算机视觉而言，注意力机制就是通过学习得到一个权重分布，再把权重分布施加到原来的特征上面，以获取更多所需要关注目标的细节信息，而抑制其它无用信息。

注意力机制可分为3类：通道域注意力机制、空间域注意力机制、混合域注意力机制。通道域注意力易忽略了每一个通道内的局部信息，空间域注意力易忽略同一通道不同空间位置的局部信息。混合域的注意力模型就结合了两者的思路，同时对通道注意力和空间注意力打分，有效的整合了两者的优点。其中最具代表性的是CBAM模块(ConvolutionBlock Attention Module)。

针对多类目标场景，目标检测方法旨在精准判别图像中目标的类别与位置，则two-stage方法能够解决这类问题。研究人员主要通过Region Proposal方法先生成候选框，再根据候选框进行坐标回归预测。Ross Girshick等人采用CNN网络提取图像特征，从经验驱动的人造特征范式HOG、SIFT到数据驱动的表示学习范式，提高特征对样本的表示能力，并采用大样本下有监督预训练和小样本微调的方式解决小样本难以训练甚至过拟合等问题，一定程度上提高了目标检测的准确率。Ross Girshick等人提出了一个快速的基于区域推荐的卷积网络方法(Fast R-CNN)用于目标检测。Fast R-CNN在前人工作的基础上使用深度卷积网络，可以更有效地分类物体。相比之前的工作，Fast R-CNN进行了多项创新，在提高了检测精度的同时，也提高了训练和测试速度。

公开号为CN112487920A的中国专利公开了一种基于卷积神经网络的翻越行为识别方法，应用于目标识别领域，针对现有技术在行人翻越栏杆的行为识别中存在的检测精度不高的问题；该专利通过绘制与人物大小相同的边界框，克服了传统目标检测方法中实时性不高以及边界框为不可变大小的缺点；采用Yolo目标检测网络进行图像特征类别预测，采用GOTURN网络中进行目标跟踪；最后通过先验知识的方法快速运用栏杆与轨迹点集合的相对位置关系判定是否为翻越行为，若是翻越行为则输出翻越标签并发起警告。

该专利虽然可以较为准确地识别行人翻越栏杆的行为，但其目的是根据实时采集的视频帧图像数据预测行人下一步可能翻越栏杆的行为，若用于桥侧坠落行为检测识别中，由于该算法没有结合行人不同行为阶段的检测结果，导致误检率较高；且该算法只能用于翻越栏杆的行为检测，不能用于人员坠落检测和人员落水检测，不适用于桥测坠落行为检测。因此，亟需提出一种基于深度学习的检测方法来实现桥测坠落行为的自动检测，以争取黄金救援5分钟。

发明内容

本发明的目的是提供一种基于深度理解的桥侧坠落行为识别方法，能够有效实现桥侧坠落行为的检测，有效防止行人在桥侧坠落但是救援却不及时导致悲剧发生的情况。

为实现上述目的，本发明采用的技术方案是：

一种基于深度理解的桥侧坠落行为识别方法，包括以下步骤：

S1，实时采集在江边大桥旁监控大桥全景摄像头的视频数据，并对所述视频数据进行预处理；

S2，利用预处理后的视频数据预判桥上是否有行人从桥侧坠落；将桥边围栏及围栏***作为兴趣域，利用训练好的YOLO-Attention模型识别是否有人翻越围栏，并且通过桥面上的监控摄像头与警戒区域算法辅助验证是否有人翻越围栏；大桥上若识别到人翻越围栏，则产生栏杆越界信号，进入步骤S3；否则返回步骤S1；

S3，检测桥边围栏是否有人员坠落；将桥下、江面作为兴趣域，利用训练好的YOLO-Attention模型检测是否有人坠落，若是检测到了人员坠落，则发出人员坠落信号，并进入步骤S4；

S4，检测桥下江面是否有坠落水花；将桥下江面设置为兴趣域，利用训练好的YOLO-Attention模型检测是否有人坠落后产生的坠落水花出现，若出现坠落水花，则判定有人落水，发出坠落水花信号，并进入步骤S5；

S5，利用训练好的YOLO-Attention模型检测江面是否有人员漂浮，若检测到有人员漂浮，则将漂浮人员的位置发送给救援人员；若未检测到人员漂浮，则判定人员沉入江中，进入步骤S6；

S6，根据江中水流速度和坠落水花的位置，构建水流模型预测落水者的大致位置，并将预测的位置信息发送给救援人员。

具体地，步骤S1中，对所述视频数据进行预处理的方法为：采用自适应的去雾算法来判定视频图像是否需要进行去雾处理，若判定图像中的总有界变差TBV大于设定阈值，则无需对图像进行去雾处理，否则需要对图像进行去雾处理。

本发明提出了一种基于DeblurGANv2的去雾方法，能够有效地去除江面的雾气，使后续的桥测坠落行为检测更加精准；其中DeblurGANv2是去雾算法的核心，其采用特征金字塔(FPN)结构作为生成器的核心模块，特征金字塔提取的低层特征信息所含的语义信息较少但是其目标位置准确，提取的高层语义信息较为丰富但是目标位置模糊，高层特征通过上采样和低层特征做融合，每一层的特征融合后再分别独立做出预测。

生成器骨干网(backbone)这里选择了较为复杂的Inception-ResNet-v2，它将Inception 模块与ResNet的结构相结合。Inception模块输入后有多条路径可供选择，由网络自行选择使用哪个过滤器，能很好地获取同一层上的稀疏或者非稀疏特征；ResNet则是残差模块的堆叠，神经元学习目标函数与输入之差，随着网络深度的增加，可以大大加速神经网络的收敛，降低训练误差，提高网络的精度。

生成器损失函数由像素级损失、感知损失、局部损失的加权和组成。

L_G＝0.5×L_pix+0.006×L_p+0.01×L_adv

其中，L_pix为最小均方误差；L_p为感知损失，由VGG19网络的3×3的卷积核提取的特征图计算欧几里德距离；L_adv为Patch大小为70×70的局部损失。L_G为生成器损失；这样的损失组合保证了网络的收敛兼顾了局部图像细节和整体图像风格。

DeblurGAN-v2的判别器采用了双判别器的结构，不仅保留了PatchGAN结构作为Local Discriminator对大小为70×70的Patch进行鉴别，还引入了一个全局鉴别器对整体图像进行鉴别。这样鉴别器能在图像整体信息与局部信息之间寻找一个平衡点达到兼顾的效果。

判别器损失函数使用了对Least Squares GANS(LSGAN)改进的损失函数——RaGAN-LS loss，如下式所示，有助于网络更平稳、高效地收敛。

其中，D(·)为判别器函数，G(·)为生成器函数，L_D为判别器损失，E为数学期望，x～p_data(x)为服从数据生成分布p_data(x)中的数据样本x,s～p_s(s)为服从数据生成的噪声先验分布p_s(s)中的噪声样本s。

具体地，步骤S2和步骤S5中，人员翻越时在监控画面中非常小；步骤S3中，人员坠落时速度很快；步骤S4中，江面上也偶尔会出现水花，但是其特征与人员落水水花不同；综合以上挑战，所述YOLO-Attention模型中加入了混合域注意力机制，用于提高检测精度。

进一步地，本发明采用CBAM混合域注意力机制，其将通道注意力机制与空间注意力机制结合，在此机制下，特征图会经过共两个模型，先经过通道注意力模型，再经过空间注意力模型，然后输出被重构的特征图。CBAM采用与人的注意力机制相似的思想，通过不断的自我学习，给特征图的权重进行重新赋值，以重视权值大的特征抑制无用特征，从而提升网络性能。

进一步地，所述CBAM模块中的通道域注意力机制根据不同通道重要性的差异，学习并赋予不同通道的权值分布，重点关注重要特征通道，削弱其他特征的影响，从而达到提升网络性能的目的，并通过三步操作对得到的特征图基于通道重新赋予权值分布。具体实现方法如下：

第一步，挤压操作(Squeeze)，通过全局池化(Global Pooling)将每个通道的二维特征 (H×W)压缩为一个实数，这属于空间维度的一种特征压缩，因为这个实数是根据二维特征所有值算出来的，所以在某种程度上具有全局的感受野，通道数保持不变，所以通过squeeze操作后变为1×1×C。具体操作公式为：

其中，F_sq(·)为挤压函数，W、H分别是待处理特征图的宽和高，u_c(i,j)为特征图第c层通道坐标是(i,j)的元素，z_c表示第c层通道被挤压的输出特征；经过挤压操作后，形成了一个长度和通道数相同的一维张量；

第二步，激励操作(Excitation)，通过参数W为每个特征通道生成一个权重值，并输出和输入特征同样数目的权重值，具体操作公式为：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，F_ex表示激励操作，z是挤压操作的输出，是大小为1×1×C的张量，C为特征图的通道数；W₁和W₂为权重，其中这里的r是一个缩放参数，目的是为了减少channel个数从而降低计算量，R表示；δ表示ReLU激活函数，σ表示Sigmoid 激活函数；s为激励函数的输出，用来刻画特征图的权重；从最后一个等号开始看，先用W₁乘以z，就是一个全连接操作，相乘的结果维度为/>然后再经过一个ReLU层，输出维度不变，再和W₂相乘，又是一个全连接的过程，此时输出维度变成1×1×C，最后经过Sigmoid函数得到s。这个s是SE模块的核心，它用来刻画特征图的权重，而且这个权重是通过前面的全连接层和非线性层学习得到的。

第三步，特征重标定(Scale)，将激励操作得到的权重值加权到每个通道特征上，逐通道乘以权重系数，完成在通道维度引入attention机制，具体操作公式如下：

其中，F_scale(·)代表标识函数，代表输出第c层通道特征，s_c代表第c层通道权重， u_c代表输入特征图第c层通道的特征。

进一步地，所述CBAM模块中的空间域注意力机制是利用特征的空间结构来形成特征图，用特征在空间上的关系进行建模；首先，对特征图做基于通道维度的最大池化和平均池化操作，得到两个W×H×1的通道描述，然后将它们按照通道连接起来生成一个有效的特征描述符。同时应用卷积层生成一个空间注意力图M_s(F)∈R^H×W，这个空间注意力图代表着权重系数，它编码了需要关注或者抑制的位置，通过两个池化(Pooling)操作生成两个特征图，依次代表平均池化特征和最大池化特征，两者经过激活函数得到最终的结果；具体操作公式如下：

M_S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

其中，σ表示sigmoid激活函数，f^7×7表示卷积核大小为7×7的卷积层；M_s(F)为最终的空间注意力图；AvgPool(F)为对特征图做基于通道维度的平均池化操作，MaxPool(F) 为对特征图做基于通道维度的最大池化操作；为最大池化特征，/>为平均池化特征。

进一步地，步骤S2中，由于人员在监控画面中较小，周围行人对于模型的检测会造成干扰，造成误检。故在步骤S2中引入警戒区域算法，并且将大桥上路面上的摄像头也嵌入桥侧坠落预判模块的检测算法。将警戒区域算法与桥面摄像头检测作为辅助验证，并且结合yolo-attention的检测，形成交叉验证，提示算法精度。

具体地，步骤S2中的警戒区域算法具体实施方法如下：

第一步：警戒区域背景模板设定：

将桥面护栏区域无人时的图像设定为背景模板，并将背景模板区域的特征图输入深度学习检测网络进行训练，通过一定量的训练，使网络能够自适应地寻找出警戒区域。

第二步：预警特征设定：

将桥面护栏上有人时的图像帧与背景模板图像帧做图像差分运算，提取护栏上有人时的图像模板与背景模板的差分信息作为预警特征图，并输入检测网络训练，使网络获得预警效果。当有人翻越桥边护栏时，警戒区域的特征相应地会变化成为预警特征，此时检测模型便会做出预警。

第三步：影响因子筛除：

由于光流雨水影响，从桥面扔下的垃圾杂物以及飞鸟等飞行物掠过警戒区域时也会产生图像特征的变化，可能会被网络作为预警特征而导致误检。故本方法将光流雨水特征，垃圾等杂物特征，以及飞鸟等飞行物件略过警戒区域时的特征定义为影响因子，需要进行筛除。首先将警戒区域有影响因子特征出现时的图像帧与背景模板图像帧做差分运算，提取护栏影响因子的图像与背景模板的差分信息作为影响因子特征图，并输入检测网络训练，使网络具有识别影响因子的能力。当网络检测到视频中有特征变化但却是影响因子时，对影响因子进行筛除。

具体地，步骤S3中，若未产生人员坠落信号，则返回步骤S2再次检测是否有人翻越围栏，若未产生栏杆越界信号，则判定栏杆越界信号为误判；若仍产生栏杆越界信号，则再次执行步骤S3检测是否有人员坠落，若仍未产生人员坠落信号，则判定栏杆越界信号为误判。

具体地，步骤S4中，若未产生坠落水花信号，则返回步骤S3再次检测是否有人员坠落，若未检测到有人员坠落，则判定人员坠落信号为误判；若仍产生人员坠落信号，则再次执行步骤S4检测是否有坠落水花，若仍未产生坠落水花信号，则判定人员坠落信号为误判。

具体地，步骤S6中，本发明采用了救援区域预测算法来预测落水者的大致位置，该算法对漂流者的漂流轨迹进行预测，河流的水看似是直线流的，却因各种因素影响导致落水者不是直线漂流的，简单的预测精度不高；本方法考虑落水者落水时的风速风向，以及水流流速流向建立目标漂流的运动方程：

其中，V_c为风速场，V_w为水流流速场；x(t)为人员落水时刻的位置，x(t+Δt)为人员落水后经过Δt时间的位置；本方法通过利用假人在江中进行模拟漂浮实验获取各种参数形式下的漂流数据，并根据所得数据拟合出人员漂流运动轨迹。风力与流速都是记录的离散数据，并且记录到的数据有限。为了进一步提高预测轨迹的准确率，本方法将风速场与水流流速场采样分成更小的间隔，对其应用拉格朗日插值法来获得未知数据，进一步减小预测误差。

由于人工实验实施方法难度高，时间成本大，本方法在基于人工实验数据拟合与拉格朗日插值法的基础上，利用蒙特卡洛模拟法对人员漂流轨迹进行模拟。蒙特卡洛模拟法是一种通过随机过程设定，不断生成时间序列，通过计算时间序列中的统计量来研究该过程分布的方法。具体操作步骤为先将漂流人员抽象成粒子，对每个粒子都赋予受江中风速与水流速等因素的影响因子。再将该粒子大量复制，使粒子群产生漂移。最后将粒子群集中部分的漂流轨迹作为人员漂流轨迹的预测。

与现有技术相比，本发明的有益效果是：(1)本发明采用基于DeblurGANv2的去雾方法，可以提升视频图像细节纹理、江面区域色差和局部伪影的还原效果，能够有效地去除江面的雾气，使后续的桥测坠落行为检测更加精准；且本发明采用的去雾算法具有自适应功能，只在江面起雾时才运用去雾算法，极大地节省了***资源；(2)本发明在识别桥测坠落行为的检测阶段，通过在桥面栏杆边沿建立警戒线，以检测越界人员，由于大桥的行人、游客较多会产生诸多干扰，此时会产生大量误报现象；为了降低误报，有效发现潜在的目标人员，本发明通过实测数据与人工模拟，建立大量的训练样本，将attention机制与Yolo网络融合，检测攀爬行为；通过警戒区域算法、桥面摄像头和Yolo-attention的交叉验证，筛选出可能会从桥侧坠落的人员；该方法将准确率提升至75％；(3)本发明利用人员越界、人员坠落以及坠落水花三大模块联合检测的方法，并且建立了三大模块严格的信号传递回归机制，大大降低了误报的概率；同时利用实测数据对；落水者漂流轨迹进行严格的数学分析来预测出落水人员的大概位置，为救援人员的救援寻找提供了巨大便利。

附图说明

图1为本发明一种基于深度理解的桥侧坠落行为识别方法的流程图。

图2为本发明实施例去雾算法中DeblurGAN-v2生成器的结构示意图。

图3为本发明实施例中CBAM模块的结构示意图。

图4为本发明实施例中加入了注意力机制的YOLO算法的主干网络结构示意图。

图5为本发明实施例中行人越界示意图。

图6为本发明实施例中大桥警戒区域示意图。

图7为本发明实施例中桥面公路摄像机辅助验证示意图。

图8为本发明实施例中人员坠落示意图。

图9为本发明实施例中落水水花示意图。

图10为本发明实施例中人员漂浮示意图。

具体实施方式

下面将结合本发明中的附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动条件下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本实施例提供了一种基于深度理解的桥侧坠落行为识别方法，通过严格的交叉验证法与信号传递机制，能够准确地测出江边人员从桥侧坠落的行为，包括以下步骤：

S2，利用预处理后的视频数据预判桥上是否有行人从桥侧坠落；将桥边围栏及围栏***作为兴趣域，利用训练好的YOLO-Attention模型识别是否有人翻越围栏，并且通过桥面上的监控摄像头与警戒区域算法辅助验证是否有人翻越围栏。若识别到人翻越围栏，则产生栏杆越界信号，进入步骤S3；否则返回步骤S1；

具体地，步骤S1中，对所述视频数据进行预处理的方法为：采用自适应的去雾算法来判定视频图像是否需要进行去雾处理，若判定图像中的总有界变差TBV大于设定阈值，则无需对图像进行去雾处理，否则需要对图像进行去雾处理。本实施例在大桥旁和桥面上均设有摄像头，桥面上的摄像头可以永远辅助检测越界，提高检测的有效性和全面性。

在水气丰富的江边大桥上，起雾通常是非常常见的现象，然而当雾气遮盖了江边大桥后，会使摄像机识别发生困难，在起雾时则需要对摄像机捕获到的视频进行去雾，本发明提出了一种基于DeblurGANv2的去雾方法，能够有效地去除江面的雾气，使后续的桥测坠落行为检测更加精准；其中DeblurGANv2是去雾算法的核心，其采用特征金字塔(FPN)结构作为生成器的核心模块，特征金字塔提取的低层特征信息所含的语义信息较少但是其目标位置准确，提取的高层语义信息较为丰富但是目标位置模糊，高层特征通过上采样和低层特征做融合，每一层的特征融合后再分别独立做出预测。

如图2所示，生成器骨干网(backbone)这里选择了较为复杂的Inception-ResNet-v2，它将Inception模块与ResNet的结构相结合。Inception模块输入后有多条路径可供选择，由网络自行选择使用哪个过滤器，能很好地获取同一层上的稀疏或者非稀疏特征；ResNet则是残差模块的堆叠，神经元学习目标函数与输入之差，随着网络深度的增加，可以大大加速神经网络的收敛，降低训练误差，提高网络的精度。

L_G＝0.5×L_pix+0.006×L_p+0.01×L_adv

具体地，步骤S2和步骤S5中，人员在监控画面中很小；步骤S3中，人员坠落速度非常快；步骤S4中，除人员落水外，江面上也偶尔会出现水花，但是其特征与人员落水水花不同；综合以上挑战，所述YOLO-Attention模型中加入了混合域注意力机制，用于提高检测精度。

进一步地，如图3所示，本发明采用CBAM混合域注意力机制，其将通道注意力机制与空间注意力机制结合，在此机制下，特征图会经过共两个模型，先经过通道注意力模型，再经过空间注意力模型，然后输出被重构的特征图。CBAM采用与人的注意力机制相似的思想，通过不断的自我学习，给特征图的权重进行重新赋值，以重视权值大的特征抑制无用特征，从而提升网络性能。

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，F_ex表示激励操作，z是挤压操作的输出，是大小为1×1×C的张量，C为特征图的通道数；W₁和W₂为权重，其中这里的r是一个缩放参数，目的是为了减少channel个数从而降低计算量，R表示实数域上的线性空间；δ表示ReLU激活函数，σ表示Sigmoid激活函数；s为激励函数的输出，用来刻画特征图的权重；从最后一个等号开始看，先用W₁乘以z，就是一个全连接操作，相乘的结果维度为/>然后再经过一个ReLU层，输出维度不变，再和W₂相乘，又是一个全连接的过程，此时输出维度变成1×1×C，最后经过Sigmoid函数得到s。这个s是SE模块的核心，它用来刻画特征图的权重，而且这个权重是通过前面的全连接层和非线性层学习得到的。

M_S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

进一步地，步骤S2中，行人在将要轻生时通常会跨过大桥的边缘的护栏随后跳下，大部分人会在护栏上犹豫一会再跳下，如图5所示，此时本方法就会进行人员越界检测，判定是否有人想要轻生以进行提前预警，若检测到人员越界，***则会产生人员越界信号。本方法利用加入注意力机制的YOLO对越界的人员进行检测，由于人员越界时在护栏上，距离旁边的人行道较近，若路边的行人距离护栏很近的话容易造成误判，故此时通过桥面上监控交通的摄像头配合远景摄像头进行辅助验证，如图7所示，并且在检测模型中加入混合域注意力机制；除此之外，本方法还在人员越界检测时加入警戒区域算法。通过网络的训练自适应地寻找出桥边的护栏区域，并且在图像将其标为警戒区域，如图6所示，通过特征比对的方式判定是否有人想要翻越护栏，若有人越过，便可做出预警。警戒区域算法，桥面摄像头辅助验证与加入混合域注意力机制的YOLO结合，形成交叉验证方式，大大提高了人员越界检测的准确率。

本发明利用“7天×24小时”监测大桥的摄像头，捕捉到人员坠落信号并发出报警信号，以争取黄金救援5分钟，确保坠落人员得到及时救援、救治。***在江面大桥上的摄像机中嵌入计算机视觉算法，其中包括：1)人员翻越栏杆行为监测模块；2)人员坠落监测模块；3)坠落水花监测模块；4)人员漂浮检测模块；5)救援区域预测模块。

本发明在人员翻越栏杆行为监测模块中，采用三种子模块进行交叉验证，以判定人员是否翻越栏杆，三个子模块分别是：a)桥面路侧摄像头目标检测子模块；b)end-to-end检测子模块；c)警戒区域目标检测子模块。

所述end-to-end检测子模块和警戒区域目标检测子模块均采用可以拍摄整个桥面和水面区域的全景摄像头来采集图像数据(例如，应用于南京长江大桥时，可将全景摄像头安装在大桥的南堡和北堡上)；所述end-to-end检测子模块用于识别桥面栏杆外是否有人，所述警戒区域目标检测子模块用于识别人员是否翻越大桥栏杆；识别网络利用 Yolo-attention算法来实现；所述end-to-end检测子模块的输入为一整张图，输出为是否有人，若识别到有人，就画一个框把人框起来；所述警戒区域目标检测子模块利用前后帧比对来识别是否有人员翻越大桥栏杆；通过在大桥栏杆外侧人员站立的位置画一个框，这个框的区域作为兴趣域，网络的输入为整个兴趣域的图，输出为是否检测到人(即是否有人翻越栏杆)。

所述桥面路侧摄像头安装在桥面路灯杆上(摄像头较矮，3～5米范围，只能看到局部栏杆越界)，由于桥面路侧摄像头离大桥栏杆更近，可以拍摄更清晰的画面，因此，将桥面路侧摄像头与全景摄像头结合起来，可以降低识别错误率；本实施例在具体实施过程中，需要多个桥面路侧摄像头联合工作。

本发明通过前三个模块的交叉验证来判定是否有人翻越跨江大桥栏杆以及从桥侧坠落，若检测到有人员翻越栏杆以及从桥侧坠落，可及时进行报警并呼叫救援，防止错过最佳救援时间；利用后两个模块来预测落水者大致所在的位置，并通知救援队，为救援工作创造便利，使救援队能在最短的时间内对落水者实施救援，提高落水者的存活率。

具体地，所述警戒区域目标检测子模块采用的警戒区域算法具体实施方法如下：

第一步：警戒区域背景模板设定：

第二步：预警特征设定：

第三步：影响因子筛除：

由于光线、雨水的影响，以及偶尔杂物飘落、大桥上游客趴在栏杆上露出脑袋的影响以及飞鸟掠过警戒区域时也会产生图像特征的变化，可能会被网络作为预警特征而导致误检。故本方法将光线、雨水、杂物、大桥上游客趴在栏杆上露出脑袋以及飞鸟等特征定义为影响因子，需要进行筛除。首先将警戒区域有影响因子特征出现时的图像帧与背景模板图像帧做差分运算，提取护栏影响因子的图像与背景模板的差分信息作为影响因子特征图，并输入检测网络训练，使网络具有识别影响因子的能力。当网络检测到视频中有特征变化但却是影响因子时，对影响因子进行筛除。

人员在越过护栏跳入江中时，会有一个朝着江中坠落的自由落体过程，如图8所示，如在此时将其检测出来并进行报警，救援队通常能够很快地到达并将其救下。人员坠落时的速度非常快，故本方法在人员坠落检测时利用加入空间域注意力机制的检测模型来对人员坠落进行检测，如果检测到人员坠落事件，***就发出人员坠落信号，进行人员水花检测。若是收到了人员越界的信号并且人员已从越界区域消失，但是没有检测到人员坠落情况，则需要考虑漏检，需要读取之前视频流重新进行人员坠落检测，若是重新检测还是无人员坠落事件，则考虑为人员越界检测误检。

人员在坠落到江中时，通常会引起较大的水花，如图9所示，本发明也需要将人员落水时产生的水花检测出来，由于其他种种因素也有可能导致江面起水花，虽然其特征与落水水花有明显差异，但仍有误检的可能性，所以为了减少误检，节约***资源，落水水花检测也需要建立在***已经收到人员坠落信号的前提下；在进行水花检测时，江面上也偶尔会产生一些浪花，但其特征与人员坠落时的水花还是存在明显差别，故本方法在检测模型中加入通道域注意力机制来检测江面的水花。若是在人员坠落后检测到落水水花，***立马标定水花位置，作为救援区域预测起点，并且立马报警向江面屯兵点请求救援，并且进入下一步人员漂浮检测。

具体地，步骤S5中，在人员落水后，有的人会沉底，有的人会漂浮在水面上挣扎，有的人会经历了溺水后浮在水面上，为了后续救援的便捷，本方法会对漂浮在江面上的人进行检测以确定待救援人员的位置并通报给救援人员。由于在人员落水后，通常浮在水面上的部分，只有少许身体部位，其特征会相对较少，如图10所示，并且落水者也会因为水流移动位置，故本***在检测人员漂浮时，使用加入了混合域注意力机制的检测模型，提高检测的精确程度。若在人员落水后没有检测到人员漂浮情况，则判定人员为沉入水中状态，需要进行下一步救援区域预测。

具体地，步骤S6中，本发明采用了救援区域预测算法来预测落水者的大致位置，该算法对漂流者的漂流轨迹进行预测，河流的水看似是直线流的，却因各种因素影响导致落水者不是直线漂流的，简单的预测精度不高。本方法考虑落水者落水时的风速风向，以及水流流速流向建立目标漂流的运动方程：

其中，V_c为风速场，V_w为水流流速场；x(t)为人员落水时刻的位置，x(t+Δt)为人员落水后经过Δt时间的位置；本方法通过利用假人在江中进行模拟漂浮实验获取各种参数形式下的漂流数据，并根据所得数据拟合出人员漂流运动轨迹。风力与流速都是记录的离散数据，并且记录到的数据有限。为了进一步提高预测轨迹的准确率，本方法将风速场与水流流速场将采样间隔分成更小的间隔，对其应用拉格朗日插值法来获得未知数据，进一步减小预测误差。

由于人工实验实施方法难度高，时间成本大，本方法在基于人工实验数据拟合与拉格朗日插值法的基础上，利用蒙特卡洛模拟法对人员漂流轨迹进行模拟。蒙特卡洛模拟法是一种通过随机过程设定，不断生成时间序列，通过计算时间序列中的统计量来研究该过程分布的方法。具体操作步骤为先将漂流人员抽象成粒子，对每个粒子都赋予受江中风速与水流速等因素的影响因子。再将该例子大量复制，使粒子群产生漂移。最后将粒子群中心部分的漂流轨迹作为人员漂流轨迹的预测。

本实施例中，在人员越界检测、人员坠落检测、坠落水花检测和人员漂浮检测这四大模块中，均采用加入了混合注意力机制的YOLO算法来进行检测，其中YOLO算法作为本方法的核心技术，如图4所示，其概述如下：

1)工作原理

检测模型的输入图像为固定尺寸(本方法采用608×608输入大小)，其中通过DarkNet-53 网络结构提取特征，在三个尺寸的特征图上做检测，得到三种预测输出y1,y2,y3,并通过非极大值抑制算法(Non-Maximum Suppression，NMS)，获得最后的预测结果，输出检测的目标位置和类别信息。YOLO的基础组件为CBL,也就是Conv层、BN层(BatchNormalization) 与Leaky ReLU激活函数层三者组成。整个网络是没有池化层和全连接层的。其中存在Res unit为残差单元块，该单元块可以缓解网络模型的退化问题。DarkNet-53作为本方法检测模型的主干网络，其主要组件是ResX，它是由一个CBL和X个残差组件构成，同时也是 YOLO中的大组件。每个Res模块前面的CBL都起到下采样的作用，因此经过5次Res模块后，得到的特征图是608×608->304×304->152×152->76×76->38×38->19×19大小。ResX 中的残差组件借鉴了ResNet网络中的残差结构，可以让网络构建的更深。上采样默认使用最近邻插值法，作用是放大特征图，得到不同尺度的预测特征图。Concat是张量拼接操作，将DarkNet中间层和后面某一层的上采样结果进行拼接，达到维度扩充的目的。add与之不同的是，它是将两个张量直接相加，不会扩充维度。

2)特征提取网络

作为YOLO的主干网络，该网络主要由一系列的1×1和3×3的卷积层后都跟一个BN层和一个LeakyReLU层，一共有53层，故称之为DarkNet-53。该网络借鉴了ResNet残差的思想，大量使用了残差的“跳层连接”，每个残差模块由一个1×1的卷积层、一个3×3的卷积层和一个跳跃连接组成。它解决了深层网络带来的训练困难问题，并且为了降低池化带来的梯度负面效果，本方法使用的YOLO摒弃了Pooling，用conv的stride来实现降采样。

3)损失函数

损失函数对于目标检测来说尤其重要，接下来确定本方法中YOLO的损失函数。

已知网格数为S*S，每个网格产生候选框anchor box的数量为B，每个候选框会经过网络最终得到相应的boundingbox。最终会得到boundingbox的数量为S*S*B；

首先声明的含义：若第i个网格的第j个anchor box负责当前object，则否则为0。

的含义为第i个网格的第j个anchor box不负责该目标。

接下来是参数置信度C_ij ^*训练中，C_ij ^*表示真实值，C_ij ^*的取值取决于grid cell的boundingbox是否负责预测某个对象。若负责，C_ij ^*＝1，否则C_ij ^*＝0。

接下来开始分析损失函数的每一项，首先是中心坐标误差，如下所示：

上述公式含义为当第i个网格的第j个anchor负责某个真实目标时，将预测框的中心坐标与真实框的中心坐标进行比较，得到中心坐标误差。其中，x_ij表示中心x坐标预测值，x_ij ^*表示中心x坐标真值；y_ij表示中心y坐标预测值，y_ij ^*表示中心y坐标真值。

接下来是宽高误差，如下所示：

上述公式含义为当第i个网格的第j个anchor负责某个真实目标时，将产生预测框的宽度与高度与真实框的宽高进行比较，计算得到宽高的误差；其中，w_ij表示预测anchorbox 的宽度，w_ij ^*表示实际anchorbox的宽度；h_ij表示预测anchorbox的高度，h_ij ^*表示实际anchor box的高度。

接下来是置信度误差，置信度误差使用交叉熵来表示,不管anchorbox是否负责某个目标，都计算置信度误差，则置信度误差如下所示：

其中，C_ij表示参数置信度预测值，C_ij ^*表示参数置信度真值；α_noobj表示无目标时权值，表示有目标时权值。

接下来是分类误差，分类误差也是选择了交叉熵作为损失函数。当第i个网格的第j 个anchorbox负责某一个真实目标时，那么这个anchorbox所产生的boundingbox才会去计算分类损失函数，如下式所示：

其中c∈classes为分类类别中属于总类别classes中的某个类别c,P_ij表示分类概率预测值，P_ij ^*表示分类概率真值；

综上所述，最后可以得出本方法YOLO的损失函数如下式所示：

其中，x_ij表示中心x坐标预测值，x_ij ^*表示中心x坐标真值，y_ij表示中心y坐标预测值，y_ij ^*表示中心y坐标真值；w_ij表示预测anchorbox的宽度，w_ij ^*表示实际anchorbox 的宽度，h_ij表示预测anchorbox的高度，h_ij ^*表示实际anchorbox的高度；C_ij表示参数置信度预测值，C_ij ^*表示参数置信度真值；c∈classes为分类类别中属于总类别classes中的某个类别c,P_ij表示分类概率预测值，P_ij ^*表示分类概率真值；β_coord表示坐标权值，α_noobj表示无目标时权值，α_obj表示有目标时权值。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施列的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每--流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于深度理解的桥侧坠落行为识别方法，其特征在于，包括以下步骤：

S2，利用预处理后的视频数据预判桥上是否有行人坠落；将桥边围栏及围栏***作为兴趣域，利用训练好的YOLO-Attention模型识别是否有人翻越围栏，且通过桥面路灯上的监控摄像头与警戒区域算法交叉验证是否有人翻越围栏；若识别到人翻越围栏，则产生栏杆越界信号，进入步骤S3；否则返回步骤S1；

所述的警戒区域算法为：

第一步：警戒区域背景模板设定：

将桥面护栏区域无人时的图像设定为背景模板，并将背景模板区域的特征图输入深度学习检测网络进行训练，使网络能够自适应地寻找出警戒区域；

第二步：预警特征设定：

将桥面护栏上有人时的图像帧与背景模板图像帧做图像差分运算，提取护栏上有人时的图像模板与背景模板的差分信息作为预警特征图，并输入检测网络训练，使网络获得预警效果；当有人翻越桥边护栏时，警戒区域的特征相应地会变化成为预警特征，此时检测模型便会做出预警；

第三步：影响因子筛除：

由于光流雨水影响，从桥面扔下的垃圾杂物以及飞鸟或其它飞行物掠过警戒区域时也会产生图像特征的变化，可能会被网络作为预警特征而导致误检；故将光流雨水特征，垃圾杂物特征，以及飞鸟或其它飞行物略过警戒区域时的特征定义为影响因子，需要进行筛除；首先将警戒区域有影响因子特征出现时的图像帧与背景模板图像帧做差分运算，提取护栏影响因子的图像与背景模板的差分信息作为影响因子特征图，并输入检测网络训练，使网络具有识别影响因子的能力；当网络检测到视频中有特征变化但却是影响因子时，对影响因子进行筛除；

2.根据权利要求1所述的基于深度理解的桥侧坠落行为识别方法，其特征在于，步骤S1中，对所述视频数据进行预处理的方法为：采用自适应的去雾算法来判定视频图像是否需要进行去雾处理，若判定图像中的总有界变差TBV大于设定阈值，则无需对图像进行去雾处理，否则需要对图像进行去雾处理。

3.根据权利要求1所述的基于深度理解的桥侧坠落行为识别方法，其特征在于，步骤S2到步骤S5，所述YOLO-Attention模型中加入了混合域注意力机制，用于提高检测精度。

4.根据权利要求3所述的基于深度理解的桥侧坠落行为识别方法，其特征在于，所述混合域注意力机制，其将通道注意力机制与空间注意力机制结合，在此机制下，特征图会经过共两个模型，先经过通道注意力模型，再经过空间注意力模型，然后输出被重构的特征图。

5.根据权利要求4所述的基于深度理解的桥侧坠落行为识别方法，其特征在于，所述混合域注意力机制中的通道域注意力机制具体实现方法如下：

第一步，挤压操作，通过全局池化将每个通道的二维特征压缩为一个实数，具体操作公式为：

其中，F_sq(·)为挤压函数，D、H分别是待处理特征图的宽和高，u_c(i,j)为特征图第c层通道坐标是(i,j)的元素，z_c表示第c层通道被挤压的输出特征，u_c代表输入特征图第c层通道的特征；

第二步，激励操作，通过参数W为每个特征通道生成一个权重值，并输出和输入特征同样数目的权重值，具体操作公式为：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中，F_ex表示激励操作，z是挤压操作的输出，是大小为1×1×C的张量，C为特征图的通道数；W₁和W₂为权重；δ表示ReLU激活函数，σ表示Sigmoid激活函数；s为激励函数的输出，用来刻画特征图的权重；

第三步，特征重标定，将激励操作得到的权重值加权到每个通道特征上，逐通道乘以权重系数，完成在通道维度的attention机制，具体操作公式如下：

其中，F_scale(·)代表标识函数，代表输出第c层通道特征，s_c代表第c层通道权重，u_c代表输入特征图第c层通道的特征。

6.根据权利要求4所述的基于深度理解的桥侧坠落行为识别方法，其特征在于，所述混合域注意力机制中的空间域注意力机制具体实现方法如下：

利用特征的空间结构来形成特征图，用特征在空间上的关系进行建模；首先，对特征图做基于通道维度的最大池化和平均池化操作，得到两个特征图，分别代表最大池化特征和平均池化特征；再应用卷积层和激活函数得到最终的空间注意力图；具体操作公式如下：

M_S(F)＝σ(f^7×7([AvgPool(F)；MaxPool(F)]))

其中，σ表示sigmoid激活函数，f^7×7表示卷积核大小为7×7的卷积层；M_s(F)为最终的空间注意力输出特征图；AvgPool(F)为对特征图做基于通道维度的平均池化操作，MaxPool(F)为对特征图做基于通道维度的最大池化操作；为最大池化特征，/>为平均池化特征。

7.根据权利要求1所述的基于深度理解的桥侧坠落行为识别方法，其特征在于，步骤S4中，若未产生坠落水花信号，则返回步骤S3再次检测是否有人员坠落，若未检测到有人员坠落，则判定人员坠落信号为误判；若仍产生人员坠落信号，则再次执行步骤S4检测是否有坠落水花，若仍未产生坠落水花信号，则判定人员坠落信号为误判。

8.根据权利要求1所述的基于深度理解的桥侧坠落行为识别方法，其特征在于，步骤S6中，所述落水者的漂流轨迹的预测方法为：

考虑落水者落水时的风速，以及水流流速建立目标漂流的运动方程：

其中，V_c为风速场，V_w为水流流速场；x(t)为人员落水时刻的位置，x(t+Δt)为人员落水后经过Δt时间的位置；通过利用假人在江中进行模拟漂浮实验获取各种参数形式下的漂流数据，并根据所得数据拟合出人员漂流运动轨迹；应用拉格朗日插值法来获得风速场与水流流速场未知数据，进一步减小预测误差；在此基础上，应用蒙特卡洛模拟法模拟人员漂流轨迹。