CN114155551A - 基于YOLOv3改进的复杂环境下的行人检测方法及装置 - Google Patents

基于YOLOv3改进的复杂环境下的行人检测方法及装置 Download PDF

Info

Publication number
CN114155551A
CN114155551A CN202111402243.4A CN202111402243A CN114155551A CN 114155551 A CN114155551 A CN 114155551A CN 202111402243 A CN202111402243 A CN 202111402243A CN 114155551 A CN114155551 A CN 114155551A
Authority
CN
China
Prior art keywords
yolov3
network
training
diou
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111402243.4A
Other languages
English (en)
Inventor
曹利蒲
李丹阳
陈岩磊
张澈
杨继明
田长风
王军
陈婷婷
李涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huaneng Xinrui Control Technology Co Ltd
Original Assignee
Beijing Huaneng Xinrui Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huaneng Xinrui Control Technology Co Ltd filed Critical Beijing Huaneng Xinrui Control Technology Co Ltd
Priority to CN202111402243.4A priority Critical patent/CN114155551A/zh
Publication of CN114155551A publication Critical patent/CN114155551A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种基于YOLOv3改进的复杂环境下的行人检测方法及装置。所述方法包括:准备数据集,并进行数据增强模拟复杂环境下的数据;搭建YOLOv3改进网络模型;对所述YOLOv3改进网络模型进行训练;使用训练最佳模型对行人进行检测。本公开的基于YOLOv3改进的复杂环境下的行人检测方法,对YOLOv3的主干网络进行了改进,同时在输出特征层方面进行了改进,实现了高分辨图像下对行人的检测,提高了算法识别精度,解决了在复杂环境下行人互相遮挡,尺寸不一导致大量目标漏检的问题。

Description

基于YOLOv3改进的复杂环境下的行人检测方法及装置
技术领域
本公开属于人工智能技术领域,具体涉及一种基于YOLOv3改进的复杂环境下的行人检测方法及装置。
背景技术
近年来,计算机视觉技术在深度学习的支持下取得了飞速的发展,吸引了众多研究者投身其中,成千上万的科研人员尽管关注的焦点各不相同,但是最终的目标是一样的:让技术为人服务,或者说解放生产力,因此与人相关的研究就显得必不可缺。
行人检测在智能监控和安防领域发挥着重大作用,为了防止财产安全和安放部署等,大部分公众场所都装备了监控设备。但是,尽管如此,监控设备中出现的大量行人数据时,仅仅依据专人的查看,会导致以下问题的出现,一方面长时间的监控信息,人与计算机相比,肯定会出现疲惫而导致的信息错误或者遗漏,另一方面有限的处理信息的能力,不能充分将监控信息充分利用。然而人工处理问题的不足,可以通过行人检测的相关技术很好的弥补,既节省了人力也可在遇到紧急状况时及时做出预警。
行人检测技术同时也是无人驾驶领域所要攻克完善的一个重要难题。从无人驾驶技术开始发展,行人检测就一直作为一个亟待解决和完善的问题困扰着众多的研究者。尽管2005年以来行人检测进入了一个快速的发展阶段,但是依旧存在着许多问题有待解决,主要还是两方面,即速度与准确性还不能达到一个权衡。近年来,以谷歌为首的自动驾驶技术研发,正如火如荼地进行着,这也迫切需要能对行人进行有效的快速的检测方法的出现,以保证自动驾驶期间对行人的安全不会产生威胁。因此,行人检测问题的解决能从根本上优化现有的无人驾驶技术。在复杂场景下,行人存在相互遮挡,尺寸不一现象,会导致大量的漏检。
发明内容
本公开旨在至少解决现有技术中存在的技术问题之一,提供一种基于YOLOv3改进的复杂环境下的行人检测方法及装置。
本公开的一方面,提供一种基于YOLOv3改进的复杂环境下的行人检测方法,所述方法包括:
准备数据集,并进行数据增强模拟复杂环境下的数据;
搭建YOLOv3改进网络模型;
对所述YOLOv3改进网络模型进行训练;
使用训练最佳模型对行人进行检测。
在一些实施方式中,所述准备数据集,并进行数据增强模拟复杂环境下的数据,包括:
准备YOLO网络所需图像和标签数据,得到训练集;
对所述训练集进行数据增强,具体包括:
选择mixup数据增强,将所述训练集中随机两张图片进行数据混合,利用线性插值将两张图片按照不同的权重混合生成新图像,新样本的标签由原来标签混合而来。
在一些实施方式中,所述新图像满足下述关系式:
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
式中,(xn,yn)为新图像,λ∈[0,1],其取值符合Beta分布β(α,α),参数α满足α∈(0,∞);(xi,yi)和(xj,yj)是从需要增广数据中随机抽取的两个样本。
在一些实施方式中,所述搭建YOLOv3改进网络模型,包括:
对YOLOv3主干进行改进,将Darknet53替换为Efficientnet-B0;
对Efficientnet网络进行了优化,将Efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉,分别输出经过主干网络5次,4次,3次下采样后的部分,将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测;
在检测头部分加入空间池化金字塔模块,并采用三种不同的池化核对输出特征图分别进行池化,将池化后的三个特征图和原始输入进行通道合并,其中最大池化核的尺寸分别为5*5,9*9,13*13,对输入填充的大小padding为:
padding=(kernelsize-1)/2
使用DIoU算法作为边界损失函数,其中DIoU的计算公式如下:
DIoU=IoU-(ρ2(b,bgt))/C2
LDIoU=1-DIoU
式中:b,bgt分别代表了预测框和真实框的中心点,且ρ代表的是计算两个中心点间的欧式距离;C代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,LDIoU则作为边界框损失函数;
Soft-nms的计算公式如下:
Figure BDA0003364772110000031
式中,m为当前得分最高框,bi为待处理框,当bi和m的重叠度超过重叠阈值Nt时,检测框的检测分数呈线性衰减,与m相邻很近的检测框衰减程度很大,而远离m的检测框并不受影响;
使用k-means++算法来进行聚类,随机选中第一个聚类中心,之后通过选取远离这个聚类中心的点作为一个新的聚类中心,依次类推,选取出多个框作为模型的anchor值,通过上述方法,k-means++能够有效的加速模型收敛。
在一些实施方式中,所述对所述YOLOv3改进网络模型进行训练,包括:
图片输入尺寸设置为608大小,初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失,通过损失函数来进行反向传播更新网络中的各种参数,经过多次迭代后损失值会趋于稳定,将此时的网络参数保存为模型。
本公开的另一方面,提供一种基于YOLOv3改进的复杂环境下的行人检测装置,所述装置包括:
采集模块,用于准备数据集,并进行数据增强模拟复杂环境下的数据;
搭建模块,用于搭建YOLOv3改进网络模型;
训练模块,用于对所述YOLOv3改进网络模型进行训练;
检测模块,用于使用训练最佳模型对行人进行检测。
在一些实施方式中,所述采集模块,具体用于:
准备YOLO网络所需图像和标签数据,得到训练集;
对所述训练集进行数据增强,具体包括:
选择mixup数据增强,将所述训练集中随机两张图片进行数据混合,利用线性插值将两张图片按照不同的权重混合生成新图像,新样本的标签由原来标签混合而来。
在一些实施方式中,所述新图像满足下述关系式:
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
式中,(xn,yn)为新图像,λ∈[0,1],其取值符合Beta分布β(α,α),参数α满足α∈(0,∞);(xi,yi)和(xj,yj)是从需要增广数据中随机抽取的两个样本。
在一些实施方式中,所述搭建模块,具体用于:
对YOLOv3主干进行改进,将Darknet53替换为Efficientnet-B0;
对Efficientnet网络进行了优化,将Efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉,分别输出经过主干网络5次,4次,3次下采样后的部分,将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测;
在检测头部分加入空间池化金字塔模块,并采用三种不同的池化核对输出特征图分别进行池化,将池化后的三个特征图和原始输入进行通道合并,其中最大池化核的尺寸分别为5*5,9*9,13*13,对输入填充的大小padding为:
padding=(kernelsize-1)/2
使用DIoU算法作为边界损失函数,其中DIoU的计算公式如下:
DIoU=IoU-(ρ2(b,bgt))/C2
LDIoU=1-DIoU
式中:b,bgt分别代表了预测框和真实框的中心点,且ρ代表的是计算两个中心点间的欧式距离;C代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,LDIoU则作为边界框损失函数;
Soft-nms的计算公式如下:
Figure BDA0003364772110000051
式中,m为当前得分最高框,bi为待处理框,当bi和m的重叠度超过重叠阈值Nt时,检测框的检测分数呈线性衰减,与m相邻很近的检测框衰减程度很大,而远离m的检测框并不受影响;
使用k-means++算法来进行聚类,随机选中第一个聚类中心,之后通过选取远离这个聚类中心的点作为一个新的聚类中心,依次类推,选取出多个框作为模型的anchor值,通过上述方法,k-means++能够有效的加速模型收敛。
在一些实施方式中,所述训练模块,具体用于:
图片输入尺寸设置为608大小,初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失,通过损失函数来进行反向传播更新网络中的各种参数,经过多次迭代后损失值会趋于稳定,将此时的网络参数保存为模型。
本公开的基于YOLOv3改进的复杂环境下的行人检测方法及装置,对YOLOv3的主干网络进行了改进,同时在输出特征层方面进行了改进,实现了高分辨图像下对行人的检测,提高了算法识别精度,解决了在复杂环境下行人互相遮挡,尺寸不一导致大量目标漏检的问题。
附图说明
图1为本公开一实施例的基于YOLOv3改进的复杂环境下的行人检测方法的流程图;
图2为本公开另一实施例的YOLO改进网络的总体框架图;
图3a为本公开另一实施例的Efficientnet-B0网络结构图;
图3b为本公开另一实施例的Block模块图;
图4为本公开另一实施例的空间池化金字塔模块结构图;
图5为本公开另一实施例的基于YOLOv3改进的复杂环境下的行人检测装置的结构示意图。
具体实施方式
为使本领域技术人员更好地理解本公开的技术方案,下面结合附图和具体实施方式对本公开作进一步详细描述。
本实施例的一方面,如图1所示,涉及一种基于YOLOv3改进的复杂环境下的行人检测方法S100,所述方法S100包括:
S110、准备数据集,并进行数据增强模拟复杂环境下的数据。
具体地,在本步骤中,准备YOLO网络所需图像和标签数据,得到训练集。例如,挑选出KITTI数据集中存在行人目标的照片共1223张,并将图片统一调整到1024*1024尺寸,对KITTI数据集其他类别剔除,仅留下单一行人类别进行行人检测。本实施例将其中80%作为训练集,20%作为测试集。
对所述训练集进行数据增强,具体包括:
选择mixup数据增强,将所述训练集中随机两张图片进行数据混合,利用线性插值将两张图片按照不同的权重混合生成新图像,新样本的标签由原来标签混合而来,这样可能更好的模拟复杂情况下对行人的检测,提高模型的鲁棒性。其中,
所述新图像满足下述关系式:
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
式中,(xn,yn)为新图像,λ∈[0,1],其取值符合Beta分布β(α,α),参数α满足α∈(0,∞);(xi,yi)和(xj,yj)是从需要增广数据中随机抽取的两个样本。
S120、搭建YOLOv3改进网络模型。
具体地,在本步骤中,如图2所示,即为YOLO改进网络的总体框架图。首先,对YOLOv3主干进行改进,将Darknet53替换为Efficientnet-B0,其网络结构如图3a所示,图3b为Block模块。同时,对Efficientnet网络进行了优化,将Efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉,分别输出经过主干网络5次,4次,3次下采样后的部分,将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测。
在检测头部分加入空间池化金字塔模块,其结构如图4所示,并采用三种不同的池化核对输出特征图分别进行池化,将池化后的三个特征图和原始输入进行通道合并,其中最大池化核的尺寸分别为5*5,9*9,13*13,对输入填充的大小padding为:
padding=(kernelsize-1)/2
使用DIoU算法作为边界损失函数,其中DIoU的计算公式如下:
DIoU=IoU-(ρ2(b,bgt))/C2
LDIoU=1-DIoU
式中:b,bgt分别代表了预测框和真实框的中心点,且ρ代表的是计算两个中心点间的欧式距离;C代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,LDIoU则作为边界框损失函数;
Soft-nms的计算公式如下:
Figure BDA0003364772110000071
式中,m为当前得分最高框,bi为待处理框,当bi和m的重叠度超过重叠阈值Nt时,检测框的检测分数呈线性衰减,与m相邻很近的检测框衰减程度很大,而远离m的检测框并不受影响;
使用k-means++算法替代YOLOv3原文中使用的K-means算法来进行聚类。k-means算法是在一次随机选中k个点作为聚类中心,结果会受到初始点选取的影响。而k-means++算法是随机选中第一个聚类中心,之后通过选取远离这个聚类中心的点作为一个新的聚类中心,依次类推,选取出多个框作为模型的anchor值,通过上述方法,k-means++能够有效的加速模型收敛。
S130、对所述YOLOv3改进网络模型进行训练。
具体地,在本步骤中,图片输入尺寸设置为608大小,初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失,通过损失函数来进行反向传播更新网络中的各种参数,经过多次迭代后损失值会趋于稳定,将此时的网络参数保存为模型。
S140、使用训练最佳模型对行人进行检测。
本实施例的基于YOLOv3改进的复杂环境下的行人检测方法,对YOLOv3的主干网络进行了改进,同时在输出特征层方面进行了改进,实现了高分辨图像下对行人的检测,提高了算法识别精度,解决了在复杂环境下行人互相遮挡,尺寸不一导致大量目标漏检的问题。
本公开的另一方面,如图5所示,提供一种基于YOLOv3改进的复杂环境下的行人检测装置100,该装置100可以适用于前文记载的方法,所述装置100包括:
采集模块110,用于准备数据集,并进行数据增强模拟复杂环境下的数据;
搭建模块120,用于搭建YOLOv3改进网络模型;
训练模块130,用于对所述YOLOv3改进网络模型进行训练;
检测模块140,用于使用训练最佳模型对行人进行检测。
本实施例的基于YOLOv3改进的复杂环境下的行人检测装置,对YOLOv3的主干网络进行了改进,同时在输出特征层方面进行了改进,实现了高分辨图像下对行人的检测,提高了算法识别精度,解决了在复杂环境下行人互相遮挡,尺寸不一导致大量目标漏检的问题。
在一些实施方式中,所述采集模块110,具体用于:
准备YOLO网络所需图像和标签数据,得到训练集;
对所述训练集进行数据增强,具体包括:
选择mixup数据增强,将所述训练集中随机两张图片进行数据混合,利用线性插值将两张图片按照不同的权重混合生成新图像,新样本的标签由原来标签混合而来。
在一些实施方式中,所述新图像满足下述关系式:
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
式中,(xn,yn)为新图像,λ∈[0,1],其取值符合Beta分布β(α,α),参数α满足α∈(0,∞);(xi,yi)和(xj,yj)是从需要增广数据中随机抽取的两个样本。
在一些实施方式中,所述搭建模块120,具体用于:
对YOLOv3主干进行改进,将Darknet53替换为Efficientnet-B0;
对Efficientnet网络进行了优化,将Efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉,分别输出经过主干网络5次,4次,3次下采样后的部分,将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测;
在检测头部分加入空间池化金字塔模块,并采用三种不同的池化核对输出特征图分别进行池化,将池化后的三个特征图和原始输入进行通道合并,其中最大池化核的尺寸分别为5*5,9*9,13*13,对输入填充的大小padding为:
padding=(kernelsize-1)/2
使用DIoU算法作为边界损失函数,其中DIoU的计算公式如下:
DIoU=IoU-(ρ2(b,bgt))/C2
LDIoU=1-DIoU
式中:b,bgt分别代表了预测框和真实框的中心点,且ρ代表的是计算两个中心点间的欧式距离;C代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,LDIoU则作为边界框损失函数;
Soft-nms的计算公式如下:
Figure BDA0003364772110000101
式中,m为当前得分最高框,bi为待处理框,当bi和m的重叠度超过重叠阈值Nt时,检测框的检测分数呈线性衰减,与m相邻很近的检测框衰减程度很大,而远离m的检测框并不受影响;
使用k-means++算法来进行聚类,随机选中第一个聚类中心,之后通过选取远离这个聚类中心的点作为一个新的聚类中心,依次类推,选取出多个框作为模型的anchor值,通过上述方法,k-means++能够有效的加速模型收敛。
在一些实施方式中,所述训练模块130,具体用于:
图片输入尺寸设置为608大小,初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失,通过损失函数来进行反向传播更新网络中的各种参数,经过多次迭代后损失值会趋于稳定,将此时的网络参数保存为模型。
可以理解的是,以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式,然而本公开并不局限于此。对于本领域内的普通技术人员而言,在不脱离本公开的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本公开的保护范围。

Claims (10)

1.一种基于YOLOv3改进的复杂环境下的行人检测方法,其特征在于,所述方法包括:
准备数据集,并进行数据增强模拟复杂环境下的数据;
搭建YOLOv3改进网络模型;
对所述YOLOv3改进网络模型进行训练;
使用训练最佳模型对行人进行检测。
2.根据权利要求1所述的方法,其特征在于,所述准备数据集,并进行数据增强模拟复杂环境下的数据,包括:
准备YOLO网络所需图像和标签数据,得到训练集;
对所述训练集进行数据增强,具体包括:
选择mixup数据增强,将所述训练集中随机两张图片进行数据混合,利用线性插值将两张图片按照不同的权重混合生成新图像,新样本的标签由原来标签混合而来。
3.根据权利要求2所述的方法,其特征在于,所述新图像满足下述关系式:
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
式中,(xn,yn)为新图像,λ∈[0,1],其取值符合Beta分布β(α,α),参数α满足α∈(0,∞);(xi,yi)和(xj,yj)是从需要增广数据中随机抽取的两个样本。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述搭建YOLOv3改进网络模型,包括:
对YOLOv3主干进行改进,将Darknet53替换为Efficientnet-B0;
对Efficientnet网络进行了优化,将Efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉,分别输出经过主干网络5次,4次,3次下采样后的部分,将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测;
在检测头部分加入空间池化金字塔模块,并采用三种不同的池化核对输出特征图分别进行池化,将池化后的三个特征图和原始输入进行通道合并,其中最大池化核的尺寸分别为5*5,9*9,13*13,对输入填充的大小padding为:
padding=(kernelsize-1)/2
使用DIoU算法作为边界损失函数,其中DIoU的计算公式如下:
DIoU=IoU-(ρ2(b,bgt))/C2
LDIoU=1-DIoU
式中:b,bgt分别代表了预测框和真实框的中心点,且ρ代表的是计算两个中心点间的欧式距离;C代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,LDIoU则作为边界框损失函数;
Soft-nms的计算公式如下:
Figure FDA0003364772100000021
式中,m为当前得分最高框,bi为待处理框,当bi和m的重叠度超过重叠阈值Nt时,检测框的检测分数呈线性衰减,与m相邻很近的检测框衰减程度很大,而远离m的检测框并不受影响;
使用k-means++算法来进行聚类,随机选中第一个聚类中心,之后通过选取远离这个聚类中心的点作为一个新的聚类中心,依次类推,选取出多个框作为模型的anchor值,通过上述方法,k-means++能够有效的加速模型收敛。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述YOLOv3改进网络模型进行训练,包括:
图片输入尺寸设置为608大小,初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失,通过损失函数来进行反向传播更新网络中的各种参数,经过多次迭代后损失值会趋于稳定,将此时的网络参数保存为模型。
6.一种基于YOLOv3改进的复杂环境下的行人检测装置,其特征在于,所述装置包括:
采集模块,用于准备数据集,并进行数据增强模拟复杂环境下的数据;
搭建模块,用于搭建YOLOv3改进网络模型;
训练模块,用于对所述YOLOv3改进网络模型进行训练;
检测模块,用于使用训练最佳模型对行人进行检测。
7.根据权利要求6所述的装置,其特征在于,所述采集模块,具体用于:
准备YOLO网络所需图像和标签数据,得到训练集;
对所述训练集进行数据增强,具体包括:
选择mixup数据增强,将所述训练集中随机两张图片进行数据混合,利用线性插值将两张图片按照不同的权重混合生成新图像,新样本的标签由原来标签混合而来。
8.根据权利要求7所述的装置,其特征在于,所述新图像满足下述关系式:
(xn,yn)=λ(xi,yi)+(1-λ)(xj,yj)
式中,(xn,yn)为新图像,λ∈[0,1],其取值符合Beta分布β(α,α),参数α满足α∈(0,∞);(xi,yi)和(xj,yj)是从需要增广数据中随机抽取的两个样本。
9.根据权利要求6至8任一项所述的装置,其特征在于,所述搭建模块,具体用于:
对YOLOv3主干进行改进,将Darknet53替换为Efficientnet-B0;
对Efficientnet网络进行了优化,将Efficientnet中用于分类部分的最后一个卷积模块和池化部分去掉,分别输出经过主干网络5次,4次,3次下采样后的部分,将原来的多尺度输入修改为608输入尺寸用来检测复杂情况下的行人检测;
在检测头部分加入空间池化金字塔模块,并采用三种不同的池化核对输出特征图分别进行池化,将池化后的三个特征图和原始输入进行通道合并,其中最大池化核的尺寸分别为5*5,9*9,13*13,对输入填充的大小padding为:
padding=(kernelsize-1)/2
使用DIoU算法作为边界损失函数,其中DIoU的计算公式如下:
DIoU=IoU-(ρ2(b,bgt))/C2
LDIoU=1-DIoU
式中:b,bgt分别代表了预测框和真实框的中心点,且ρ代表的是计算两个中心点间的欧式距离;C代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,LDIoU则作为边界框损失函数;
Soft-nms的计算公式如下:
Figure FDA0003364772100000041
式中,m为当前得分最高框,bi为待处理框,当bi和m的重叠度超过重叠阈值Nt时,检测框的检测分数呈线性衰减,与m相邻很近的检测框衰减程度很大,而远离m的检测框并不受影响;
使用k-means++算法来进行聚类,随机选中第一个聚类中心,之后通过选取远离这个聚类中心的点作为一个新的聚类中心,依次类推,选取出多个框作为模型的anchor值,通过上述方法,k-means++能够有效的加速模型收敛。
10.根据权利要求6至9任一项所述的装置,其特征在于,所述训练模块,具体用于:
图片输入尺寸设置为608大小,初始学习率设置为1e-3,将处理好的训练数据集分批次输入到网络中进行正向传播并不断计算损失,通过损失函数来进行反向传播更新网络中的各种参数,经过多次迭代后损失值会趋于稳定,将此时的网络参数保存为模型。
CN202111402243.4A 2021-11-19 2021-11-19 基于YOLOv3改进的复杂环境下的行人检测方法及装置 Pending CN114155551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111402243.4A CN114155551A (zh) 2021-11-19 2021-11-19 基于YOLOv3改进的复杂环境下的行人检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111402243.4A CN114155551A (zh) 2021-11-19 2021-11-19 基于YOLOv3改进的复杂环境下的行人检测方法及装置

Publications (1)

Publication Number Publication Date
CN114155551A true CN114155551A (zh) 2022-03-08

Family

ID=80457246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111402243.4A Pending CN114155551A (zh) 2021-11-19 2021-11-19 基于YOLOv3改进的复杂环境下的行人检测方法及装置

Country Status (1)

Country Link
CN (1) CN114155551A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693693A (zh) * 2022-03-31 2022-07-01 四川大学华西医院 一种基于卷积神经网络的胎儿胼胝体超声图像分割方法
CN117422696A (zh) * 2023-11-08 2024-01-19 河北工程大学 基于改进YOLOv8-EfficientNet的皮带磨损状态检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693693A (zh) * 2022-03-31 2022-07-01 四川大学华西医院 一种基于卷积神经网络的胎儿胼胝体超声图像分割方法
CN117422696A (zh) * 2023-11-08 2024-01-19 河北工程大学 基于改进YOLOv8-EfficientNet的皮带磨损状态检测方法

Similar Documents

Publication Publication Date Title
CN110348376B (zh) 一种基于神经网络的行人实时检测方法
CN106960195B (zh) 一种基于深度学习的人群计数方法及装置
CN111784685B (zh) 一种基于云边协同检测的输电线路缺陷图像识别方法
CN109886085A (zh) 基于深度学习目标检测的人群计数方法
CN109978893A (zh) 图像语义分割网络的训练方法、装置、设备及存储介质
CN114743119B (zh) 基于无人机的高铁接触网吊弦螺母缺陷检测方法
CN112070729A (zh) 一种基于场景增强的anchor-free遥感图像目标检测方法及***
CN114155551A (zh) 基于YOLOv3改进的复杂环境下的行人检测方法及装置
CN113420643B (zh) 基于深度可分离空洞卷积的轻量级水下目标检测方法
CN111680705B (zh) 适于目标检测的mb-ssd方法和mb-ssd特征提取网络
CN111414807A (zh) 一种基于yolo技术的潮水识别与危机预警方法
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN112818871B (zh) 一种基于半分组卷积的全融合神经网络的目标检测方法
CN110599453A (zh) 一种基于图像融合的面板缺陷检测方法、装置及设备终端
CN114548208A (zh) 一种基于YOLOv5改进的植物种子实时分类检测方法
CN116052082A (zh) 一种基于深度学习算法的配电站房异常检测方法及装置
Lin et al. Small object detection in aerial view based on improved YoloV3 neural network
CN112163544A (zh) 一种非机动车辆乱摆放的判断方法及***
CN115661932A (zh) 一种垂钓行为检测方法
CN106682669A (zh) 一种图像处理方法及移动终端
CN111339950B (zh) 一种遥感图像目标检测方法
CN112329550A (zh) 基于弱监督学习的受灾建筑快速定位评估方法及装置
CN113570615A (zh) 一种基于深度学习的图像处理方法、电子设备及存储介质
CN116977260A (zh) 目标物的缺陷检测方法、装置、电子设备及存储介质
CN114360064B (zh) 基于深度学习的办公场所人员行为轻量级目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination