CN115482489A - 基于改进YOLOv3的配电房行人检测和轨迹追踪方法及*** - Google Patents

基于改进YOLOv3的配电房行人检测和轨迹追踪方法及*** Download PDF

Info

Publication number
CN115482489A
CN115482489A CN202211141822.2A CN202211141822A CN115482489A CN 115482489 A CN115482489 A CN 115482489A CN 202211141822 A CN202211141822 A CN 202211141822A CN 115482489 A CN115482489 A CN 115482489A
Authority
CN
China
Prior art keywords
layer
pedestrian
pedestrian detection
image
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211141822.2A
Other languages
English (en)
Inventor
王增煜
陈申宇
陈泽涛
刘秦铭
张攀
黄海波
马灿桂
陈志健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority to CN202211141822.2A priority Critical patent/CN115482489A/zh
Publication of CN115482489A publication Critical patent/CN115482489A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进YOLO v3的配电房行人检测和轨迹追踪方法及***,方法包括:S1、视频选帧并进行格式转换,设计合理的视频选帧间隔,将截取的单帧图片转化为模型可处理的JPG格式图片;S2、图像预处理和行人检测,对格式转换后的图片进行图片预处理,输入到行人检测模型中以判断是否检测到行人;若检测到行人,进行步骤S3,若没有检测到行人,方法结束;S3、图像分割,对图像进行识别前的预处理操作;S4、轨迹追踪识别并得出结果,根据轨迹追踪结果,判断是否符合告警条件,若符合,则进行告警。本发明将改进后的YOLOv3模型作为Deep SORT的检测器,克服了传统模型检测跟踪不准确的问题,实现了对配电房内行人的有效监控。

Description

基于改进YOLOv3的配电房行人检测和轨迹追踪方法及***
技术领域
本发明属于行人检测技术领域,具体涉及一种基于改进YOLO v3的配电房行人检测和轨迹追踪方法及***。
背景技术
随着配电房作业施工作业工作量的逐年增加,虽然电力企业单位制定了完善的安全风险管理体系,但是配电房现场工作点多面广,工作环境较为复杂,仅依靠管理规定、现场工作负责人、***人员履行职责,仍无法全面防范安全风险。“人防”的不足,迫切需要“技防”予以弥补,即借助有效的技术手段,构建现场安全防控***可有效保障关键风险点的落实,并实时向作业施工工作人员发布高危风险点预警,实现减少安全事故发生的最终目标。
传统的行人识别模型检测跟踪不准确,难以实现对配电房内行人的有效监控。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提出一种基于改进YOLO v3的配电房行人检测和轨迹追踪方法及***。
为了达到上述目的,本发明采用以下技术方案:
基于改进YOLOv3的配电房行人检测和轨迹追踪方法,包括以下步骤:
S1、视频选帧并进行格式转换,根据场景、需求以及性能综合考虑,设计合理的视频选帧间隔,将截取的单帧图片转化为模型可处理的JPG格式图片;
S2、图像预处理和行人检测,对格式转换后的图片进行图片预处理,输入到行人检测模型中以判断是否检测到行人;若检测到行人,进行步骤S3,若没有检测到行人,方法结束;
S3、图像分割,对图像进行识别前的预处理操作;
S4、轨迹追踪识别并得出结果,根据轨迹追踪结果,判断是否符合告警条件,若符合,则进行告警。
进一步的,图像预处理具体包括图像增强、锐化、平滑、去噪、灰度调整以及图像裁剪。
进一步的,行人检测模型具体为改进的YOLOv3模型,YOLOv3模型包括特征提取网络Darknet-33以及YOLO多尺度预测层;
YOLOv3模型输入图片尺寸416×416×3,特征提取网络共经过5次下采样,将得到的特征图输出到YOLO多尺度预测层,通过concat机制扩充张量维度,实现上采样与浅层特征图的相连,输出13×13、26×26和52×52三种尺寸大小的特征图,每种特征图会由相应的网格进行预测,每个网格点有3个预测框负责一个区域的预测,只要物体的中心在这个区域,这个物体就由这个网格点来确定。
进一步的,YOLOv3模型输入图片尺寸416×416×3,首先对图片进行卷积,通道变为32,进行一次残差卷积,形状变为208×208×64,再进行两次残差卷积,形状变为104×104×128,然后再进行八次残差卷积,形状变为52×52×256,将这个层作为第一个特征层输出;
进行八次残差卷积,形状变为26×26×512,将这个层作为第二个特征层输出;
再进行四次残差卷积,形状变为13×13×1024,将这个层作为第三个特征层输出,将这层特征层进行5次卷积后,一路上采样与第二层特征层相加,再进行3×3、1×1的卷积后输出形状为13×13×B的结果;与第二层特征层相加后一路进行上采样与第一层特征层相加,进行3×3、1×1的卷积输出形状为26×26×B的结果;与第一层特征层相加后进行3×3、1×1的卷积得到形状为56×56×B的输出结果,其中B为预测种类数量+1+4。
进一步的,YOLOv3模型将输入的图像缩放到416×416的尺度进行训练,然后统一划分为S×S的网格,在每个网格中预测出边界框,以进行目标检测,每次预测输出每类目标的边界框位置、类别,且分别计算每个边界框的置信度;若物体的中心点落在某个网格上,这个网格就负责预测该物体,并且在该物体上生成三个锚点框;
每个网格借助三个锚点框,通过维度聚类,逻辑回归后预测出三个边界框;负责预测每个物体的网格都需要预测5个值,分别为自身位置和该物体的概率值;其中自身位置需要4个值来确定,包括预测框的中心点坐标和预测框的宽与高,分别为tx、ty、tw、th
其中后两项与k值有关;
若中心目标在单元格中相对图像左上角偏移(cx,cy),锚点框的高度和宽度记做pw和ph,则修正后的边界框具体计算公式为:
bx=δ(tx)+cx
by=δ(ty)+cy
Figure BDA0003853929190000031
Figure BDA0003853929190000032
进一步的,YOLOv3模型包括三个方面的损失,分别为预测框、置信度和类别的损失,具体的损失函数为:
Figure BDA0003853929190000041
Figure BDA0003853929190000042
Figure BDA0003853929190000043
其中,Lloc为预测框损失,λcoord为权重系数,
Figure BDA0003853929190000044
表示第j个滑动窗口中单元格i的神经元是否包括检测目标对象的归一化值,xi、yi、wi和hi为预测值,分别代表预测单元格i的滑动窗口的中心点坐标和长、宽;与之对应的真实值表示为
Figure BDA0003853929190000045
Figure BDA0003853929190000046
Lconf为置信度损失,表示滑动窗口与真实检测对象区域的重叠面积,λnoobj为惩罚误差,Ci为预测置信度,
Figure BDA0003853929190000047
为对应的真实值;
Lcls为类别损失,pi(c)表示预测的单元格i包含第k类对象的条件概率,而
Figure BDA0003853929190000048
表示对应的真实概率值。
进一步的,改进的YOLOv3模型具体为采用Wide-Darknet-33新型特征提取网络代替Darknet-53以及增加一层104×104的检测层改进YOLOv3多尺度检测网络。
进一步的,Wide-Darknet-33包括13个残差块,32层卷积层,1个全连接层,通过减少Darknet-53的卷积层来减少深度,同时加宽网络,使得在宽度上特征提取更加准确;
在多尺度检测方面,为了减少头肩小目标在复杂背景下的漏检率,将YOLOv3模型三个YOLO层前的1×1、3×3的卷积组各去掉两组。
进一步的,获取先验框时,采用K-means++算法进行聚类,具体为:
通过轮盘法的方法选取初始的K个聚类中心点,样本总数为Q,聚为K类,具体聚类过程如下:
步骤一,首先在数据集中随机挑取一个点作为某一类的聚类中心点;
步骤二,计算每个点x到中心点之间的距离D(x),并将所求距离求和得到Sum(D(x));
步骤三,用D(x)/Sum(D(x))将数据做归一化处理,再生成一个由前N个D(x)/Sum(D(x))的和Sum(D(x)/Sum(D(x))组成的序列,N为从1开始依次加1的整数,N的范围为[1,Q];然后从[0,1]中再取一个随机值Random,然后用Random-=Sum(D(x)/Sum(D(x)),直到其小于等于0,此时的点就是下一个聚类中心;
步骤四,重复步骤二和步骤三,直到K个聚类中心被选出;
步骤五,利用这K个初始聚类中心进行K-means算法。
本发明还包括一种配电房行人检测和轨迹追踪***,***采用本发明提供的方法,***包括视频选帧模块、图像分割及预处理模块、行人检测模块以及轨迹追踪识别模块;
视频选帧模块,用于根据场景、需求以及性能综合考虑,设定一定的选帧间隔对视频进行选帧,并将截取的单帧图片转化为模型可处理的JPG格式图片;
图像分割及预处理模块,用于对格式转换后的图片进行图片预处理;还用于进行图像分割处理;
行人检测模块,基于行人检测模型对输入的预处理后的图像检测行人;
轨迹追踪识别模块,当行人检测模块检测到行人时,对其进行轨迹追踪识别并得出结果,根据轨迹追踪结果,判断是否符合告警条件,若符合,则进行告警。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明将改进后的YOLO v3算法模型作为Deep SORT的检测器,克服了传统模型检测跟踪不准确的问题,实现了对配电房内行人的有效监控;具有实时检测、准确报警、报警信息自动推送等优点,通过视频监控,实现24*7全天候、无遗漏的配电房区域内实时检测并进行自动化、智能化周界区域闯入告警信息推送至值班人员。
附图说明
图1是本发明方法的总体流程图;
图2是YOLOv3结构图;
图3a是YOLO v3在单无格内的预测边框示意图;
图3b是YOLO v3在单无格内的预测边框示意图;
图4是修正后的边界框相对位置示意图;
图5是YOLO v3与改进后的YOLO v3结构图;
图6是K-means聚类算法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明,基于改进YOLOv3的配电房行人检测和轨迹追踪方法,包括以下步骤:
S1、视频选帧并进行格式转换,根据场景、需求以及性能综合考虑,设计合理的视频选帧间隔,将截取的单帧图片转化为模型可处理的JPG格式图片;
S2、图像预处理和行人检测,对格式转换后的图片进行图片预处理,输入到行人检测模型中以判断是否检测到行人;图像预处理具体包括图像增强/锐化、平滑、去噪、灰度调整以及图像裁剪等处理。
S3、根据行人检测结果将图片进行识别前的预处理操作;
S4、轨迹追踪识别并得出结果,根据轨迹追踪结果,判断是否符合告警条件,若符合,则进行告警。
在本实施例中,行人检测模型具体为改进的YOLOv3模型,YOLOv3模型包括特征提取网络Darknet-33以及YOLO多尺度预测层;
YOLOv3模型输入图片尺寸416×416×3,特征提取网络共经过5次下采样,将得到的特征图输出到YOLO多尺度预测层,通过concat机制扩充张量维度,实现上采样与浅层特征图的相连,输出13×13、26×26和52×52三种尺寸大小的特征图,每种特征图会由相应的网格进行预测,每个网格点有3个预测框负责一个区域的预测,只要物体的中心在这个区域,这个物体就由这个网格点来确定。通过这种多尺度的方法,可以更好地对小物体进行检测。YOLOv3模型网络结构如图2所示。
YOLOv3模型输入图片尺寸416×416×3,首先对图片进行卷积,通道变为32,进行一次残差卷积,形状变为208×208×64,再进行两次残差卷积,形状变为104×104×128,然后再进行八次残差卷积,形状变为52×52×256,将这个层作为第一个特征层输出;
进行八次残差卷积,形状变为26×26×512,将这个层作为第二个特征层输出;
再进行四次残差卷积,形状变为13×13×1024,将这个层作为第三个特征层输出,将这层特征层进行5次卷积后,一路上采样与第二层特征层相加,再进行3×3、1×1的卷积后输出形状为13×13×B的结果;与第二层特征层相加后一路进行上采样与第一层特征层相加,进行3×3、1×1的卷积输出形状为26×26×B的结果;与第一层特征层相加后进行3×3、1×1的卷积得到形状为56×56×B的输出结果,其中B是预测种类数量+1+4。
YOLO v3模型将输入的图像缩放到416×416的尺度进行训练,然后统一划分为S×S的网格,在每个网格中预测出边界框,以进行目标检测,每次预测输出每类目标的边界框位置、类别,且分别计算每个边界框的置信度;若物体的中心点落在某个网格上,这个网格就负责预测该物体,并且在该物体上生成三个锚点框,如图3a和图3b所示。
每个网格借助三个锚点框,通过维度聚类,逻辑回归后预测出三个边界框;负责预测每个物体的网格都需要预测5个值,分别为自身位置和该物体的概率值;其中自身位置需要4个值来确定,包括预测框的中心点坐标和预测框的宽与高,分别为tx、ty、tw、th
其中后两项与k值有关;
若中心目标在单元格中相对图像左上角偏移(cx,cy),锚点框的高度和宽度记做pw和ph,则修正后的边界框具体计算公式为:
bx=δ(tx)+cx
by=δ(ty)+cy
Figure BDA0003853929190000081
Figure BDA0003853929190000082
如图4所示,为修正后的边界框相对位置示意图。
YOLO v3模型包括三个方面的损失,分别为预测框、置信度和类别的损失,具体的损失函数为:
Figure BDA0003853929190000091
Figure BDA0003853929190000092
Figure BDA0003853929190000093
其中,Lloc为预测框损失,λcoord为权重系数,
Figure BDA0003853929190000094
表示第j个滑动窗口中单元格i的神经元是否包括检测目标对象的归一化值,xi、yi、wi和hi为预测值,分别代表预测单元格i的滑动窗口的中心点坐标和长、宽;与之对应的真实值表示为
Figure BDA0003853929190000095
Figure BDA0003853929190000096
Lconf为置信度损失,表示滑动窗口与真实检测对象区域的重叠面积,λnoobj为惩罚误差,Ci为预测置信度,
Figure BDA0003853929190000097
为对应的真实值;
Lcls为类别损失,pi(c)表示预测的单元格i包含第k类对象的条件概率,而
Figure BDA0003853929190000098
表示对应的真实概率值。
如图5所示,改进的YOLOv3模型具体为采用Wide-Darknet-33新型特征提取网络代替Darknet-53以及增加一层104×104的检测层改进YOLOv3多尺度检测网络。
Wide-Darknet-33包括13个残差块,32层卷积层,1个全连接层,通过减少Darknet-53的卷积层来减少深度,同时加宽网络,使得在宽度上特征提取更加准确;
在多尺度检测方面,为了减少头肩小目标在复杂背景下的漏检率,将YOLOv3模型三个YOLO层前的1×1、3×3的卷积组各去掉两组。
本实施例针对YOLOv3在获取先验框时K-means算法对初始值依赖较大,导致聚类的效果不准确,获取的锚点框与数据特征匹配度低,使得检精度低的问题,在获取先验框时,采用K-means++算法进行聚类。如图6所示,为K-means算法的流程图。
采用K-means++算法进行聚类具体为:
通过轮盘法的方法选取初始的K个聚类中心点,样本总数为Q,聚为K类,具体聚类过程如下:
步骤一,首先在数据集中随机挑取一个点作为某一类的聚类中心点;
步骤二,计算每个点x到中心点之间的距离D(x),并将所求距离求和得到Sum(D(x));
步骤三,用D(x)/Sum(D(x))将数据做归一化处理,再生成一个由前N个D(x)/Sum(D(x)的和Sum(D(x)/Sum(D(x))组成的序列,N为从1开始依次加1的整数,N的范围为[1,Q];然后从[0,1]中再取一个随机值Random,然后用Random-=Sum(D(x)/Sum(D(x)),直到其小于等于0,此时的点就是下一个聚类中心;
步骤四,重复步骤二和步骤三,直到K个聚类中心被选出;
步骤五,利用这K个初始聚类中心进行K-means算法。
在另一个实施例中,还提供了一种配电房行人检测和轨迹追踪***,***采用上述实施例的方法,***包括视频选帧模块、图像分割及预处理模块、行人检测模块以及轨迹追踪识别模块;
视频选帧模块,用于根据场景、需求以及性能综合考虑,设定一定的选帧间隔对视频进行选帧,并将截取的单帧图片转化为模型可处理的JPG格式图片;
图像分割及预处理模块,用于对格式转换后的图片进行图片预处理;还用于进行图像分割处理;
行人检测模块,基于行人检测模型对输入的预处理后的图像检测行人;
轨迹追踪识别模块,当行人检测模块检测到行人时,对其进行轨迹追踪识别并得出结果,根据轨迹追踪结果,判断是否符合告警条件,若符合,则进行告警。
还需要说明的是,在本说明书中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,包括以下步骤:
S1、视频选帧并进行格式转换,根据场景、需求以及性能综合考虑,设计合理的视频选帧间隔,将截取的单帧图片转化为模型可处理的JPG格式图片;
S2、图像预处理和行人检测,对格式转换后的图片进行图片预处理,输入到行人检测模型中以判断是否检测到行人;若检测到行人,进行步骤S3,若没有检测到行人,方法结束;
S3、图像分割,对图像进行识别前的预处理操作;
S4、轨迹追踪识别并得出结果,根据轨迹追踪结果,判断是否符合告警条件,若符合,则进行告警。
2.根据权利要求1所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,图像预处理具体包括图像增强、锐化、平滑、去噪、灰度调整以及图像裁剪。
3.根据权利要求1所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,行人检测模型具体为改进的YOLOv3模型,YOLOv3模型包括特征提取网络Darknet-33以及YOLO多尺度预测层;
YOLOv3模型输入图片尺寸416×416×3,特征提取网络共经过5次下采样,将得到的特征图输出到YOLO多尺度预测层,通过concat机制扩充张量维度,实现上采样与浅层特征图的相连,输出13×13、26×26和52×52三种尺寸大小的特征图,每种特征图会由相应的网格进行预测,每个网格点有3个预测框负责一个区域的预测,只要物体的中心在这个区域,这个物体就由这个网格点来确定。
4.根据权利要求3所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,YOLOv3模型输入图片尺寸416×416×3,首先对图片进行卷积,通道变为32,进行一次残差卷积,形状变为208×208×64,再进行两次残差卷积,形状变为104×104×128,然后再进行八次残差卷积,形状变为52×52×256,将这个层作为第一个特征层输出;
进行八次残差卷积,形状变为26×26×512,将这个层作为第二个特征层输出;
再进行四次残差卷积,形状变为13×13×1024,将这个层作为第三个特征层输出,将这层特征层进行5次卷积后,一路上采样与第二层特征层相加,再进行3×3、1×1的卷积后输出形状为13×13×B的结果;与第二层特征层相加后一路进行上采样与第一层特征层相加,进行3×3、1×1的卷积输出形状为26×26×B的结果;与第一层特征层相加后进行3×3、1×1的卷积得到形状为56×56×B的输出结果,其中B为预测种类数量+1+4。
5.根据权利要求1所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,YOLOv3模型将输入的图像缩放到416×416的尺度进行训练,然后统一划分为S×S的网格,在每个网格中预测出边界框,以进行目标检测,每次预测输出每类目标的边界框位置、类别,且分别计算每个边界框的置信度;若物体的中心点落在某个网格上,这个网格就负责预测该物体,并且在该物体上生成三个锚点框;
每个网格借助三个锚点框,通过维度聚类,逻辑回归后预测出三个边界框;负责预测每个物体的网格都需要预测5个值,分别为自身位置和该物体的概率值;其中自身位置需要4个值来确定,包括预测框的中心点坐标和预测框的宽与高,分别为tx、ty、tw、th
其中后两项与k值有关;
若中心目标在单元格中相对图像左上角偏移(cx,cy),锚点框的高度和宽度记做pw和ph,则修正后的边界框具体计算公式为:
bx=δ(tx)+cx
by=δ(ty)+cy
Figure FDA0003853929180000021
Figure FDA0003853929180000022
6.根据权利要求5所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,YOLOv3模型包括三个方面的损失,分别为预测框、置信度和类别的损失,具体的损失函数为:
Figure FDA0003853929180000031
Figure FDA0003853929180000032
Figure FDA0003853929180000033
其中,Lloc为预测框损失,λcoord为权重系数,
Figure FDA0003853929180000034
表示第j个滑动窗口中单元格i的神经元是否包括检测目标对象的归一化值,xi、yi、wi和hi为预测值,分别代表预测单元格i的滑动窗口的中心点坐标和长、宽;与之对应的真实值表示为
Figure FDA0003853929180000035
Figure FDA0003853929180000036
Lconf为置信度损失,表示滑动窗口与真实检测对象区域的重叠面积,λnoobj为惩罚误差,Ci为预测置信度,
Figure FDA0003853929180000037
为对应的真实值;
Lcls为类别损失,pi(c)表示预测的单元格i包含第k类对象的条件概率,而
Figure FDA0003853929180000038
表示对应的真实概率值。
7.根据权利要求3所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,改进的YOLOv3模型具体为采用Wide-Darknet-33新型特征提取网络代替Darknet-53以及增加一层104×104的检测层改进YOLOv3多尺度检测网络。
8.根据权利要求7所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,Wide-Darknet-33包括13个残差块,32层卷积层,1个全连接层,通过减少Darknet-53的卷积层来减少深度,同时加宽网络,使得在宽度上特征提取更加准确;
在多尺度检测方面,为了减少头肩小目标在复杂背景下的漏检率,将YOLOv3模型三个YOLO层前的1×1、3×3的卷积组各去掉两组。
9.根据权利要求3所述的基于改进YOLOv3的配电房行人检测和轨迹追踪方法,其特征在于,获取先验框时,采用K-means++算法进行聚类,具体为:
通过轮盘法的方法选取初始的K个聚类中心点,样本总数为Q,聚为K类,具体聚类过程如下:
步骤一,首先在数据集中随机挑取一个点作为某一类的聚类中心点;
步骤二,计算每个点x到中心点之间的距离D(x),并将所求距离求和得到Sum(D(x));
步骤三,用D(x)/Sum(D(x))将数据做归一化处理,再生成一个由前N个D(x)/Sum(D(x))的和Sum(D(x)/Sum(D(x))组成的序列,N为从1开始依次加1的整数,N的范围为[1,Q];然后从[0,1]中再取一个随机值Random,然后用Random-=Sum(D(x)/Sum(D(x)),直到其小于等于0,此时的点就是下一个聚类中心;
步骤四,重复步骤二和步骤三,直到K个聚类中心被选出;
步骤五,利用这K个初始聚类中心进行K-means算法。
10.一种配电房行人检测和轨迹追踪***,其特征在于,***采用权利要求1-9任一项所述方法,***包括视频选帧模块、图像分割及预处理模块、行人检测模块以及轨迹追踪识别模块;
视频选帧模块,用于根据场景、需求以及性能综合考虑,设定一定的选帧间隔对视频进行选帧,并将截取的单帧图片转化为模型可处理的JPG格式图片;
图像分割及预处理模块,用于对格式转换后的图片进行图片预处理;还用于进行图像分割处理;
行人检测模块,基于行人检测模型对输入的预处理后的图像检测行人;
轨迹追踪识别模块,当行人检测模块检测到行人时,对其进行轨迹追踪识别并得出结果,根据轨迹追踪结果,判断是否符合告警条件,若符合,则进行告警。
CN202211141822.2A 2022-09-20 2022-09-20 基于改进YOLOv3的配电房行人检测和轨迹追踪方法及*** Pending CN115482489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211141822.2A CN115482489A (zh) 2022-09-20 2022-09-20 基于改进YOLOv3的配电房行人检测和轨迹追踪方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211141822.2A CN115482489A (zh) 2022-09-20 2022-09-20 基于改进YOLOv3的配电房行人检测和轨迹追踪方法及***

Publications (1)

Publication Number Publication Date
CN115482489A true CN115482489A (zh) 2022-12-16

Family

ID=84423268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211141822.2A Pending CN115482489A (zh) 2022-09-20 2022-09-20 基于改进YOLOv3的配电房行人检测和轨迹追踪方法及***

Country Status (1)

Country Link
CN (1) CN115482489A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486290A (zh) * 2023-06-21 2023-07-25 成都庆龙航空科技有限公司 一种无人机监测追踪方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486290A (zh) * 2023-06-21 2023-07-25 成都庆龙航空科技有限公司 一种无人机监测追踪方法、装置、电子设备及存储介质
CN116486290B (zh) * 2023-06-21 2023-09-05 成都庆龙航空科技有限公司 一种无人机监测追踪方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP6759474B2 (ja) 深層学習ネットワーク及び平均シフトに基づく船舶自動追跡方法及びシステム
CN113011319B (zh) 多尺度火灾目标识别方法及***
CN112101221B (zh) 一种用于交通信号灯实时检测与识别的方法
CN111553201B (zh) 一种基于YOLOv3优化算法的交通灯检测方法
CN103530600B (zh) 复杂光照下的车牌识别方法及***
CN109145836B (zh) 基于深度学习网络和卡尔曼滤波的船只目标视频检测方法
CN110223302A (zh) 一种基于旋转区域提取的舰船多目标检测方法
CN111862145B (zh) 一种基于多尺度行人检测的目标跟踪方法
CN111753682B (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN115223063B (zh) 基于深度学习的无人机遥感小麦新品种倒伏面积提取方法及***
CN107944354B (zh) 一种基于深度学习的车辆检测方法
CN111931582A (zh) 基于图像处理的高速公路交通事件检测方法
CN113743260B (zh) 一种地铁站台密集人流情况下的行人跟踪方法
CN111353496B (zh) 一种红外弱小目标实时检测方法
CN113763427B (zh) 一种基于从粗到精遮挡处理的多目标跟踪方法
CN115661569A (zh) 一种高精度的细粒度sar目标检测方法
CN115482489A (zh) 基于改进YOLOv3的配电房行人检测和轨迹追踪方法及***
CN116453033A (zh) 一种视频监控场景下高精度低算量的人群密度估计方法
CN113221760A (zh) 一种高速公路摩托车检测方法
CN117612025A (zh) 基于扩散模型的遥感图像屋顶识别方法及***
Pillai et al. Fine-Tuned EfficientNetB4 Transfer Learning Model for Weather Classification
CN108960181B (zh) 基于多尺度分块lbp和隐马尔科夫模型的黑烟车检测方法
CN116188442A (zh) 一种适用于任意场景下的高精度森林烟火检测方法
CN113496159B (zh) 一种多尺度卷积与动态权重代价函数的烟尘目标分割方法
CN115100457A (zh) 一种联合深度学习与cfar的sar图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination