CN113486949B - 基于YOLO v4渐进定位的遮挡目标检测方法及装置 - Google Patents

基于YOLO v4渐进定位的遮挡目标检测方法及装置 Download PDF

Info

Publication number
CN113486949B
CN113486949B CN202110751594.XA CN202110751594A CN113486949B CN 113486949 B CN113486949 B CN 113486949B CN 202110751594 A CN202110751594 A CN 202110751594A CN 113486949 B CN113486949 B CN 113486949B
Authority
CN
China
Prior art keywords
network
yolo
stage
detection
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110751594.XA
Other languages
English (en)
Other versions
CN113486949A (zh
Inventor
袁国慧
周祥东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Rothwell Electric Co ltd
Original Assignee
Jiangsu Rothwell Electric Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Rothwell Electric Co ltd filed Critical Jiangsu Rothwell Electric Co ltd
Priority to CN202110751594.XA priority Critical patent/CN113486949B/zh
Publication of CN113486949A publication Critical patent/CN113486949A/zh
Application granted granted Critical
Publication of CN113486949B publication Critical patent/CN113486949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于YOLO v4渐进定位的遮挡目标检测方法及装置,该方法包括:基于YOLO v4构建YOLO v4渐进定位网络;训练YOLO v4渐进定位网络;向训练完成的YOLO v4渐进定位网络输入待检测图像;训练完成的YOLO v4渐进定位网络检测待检测图像;训练完成的YOLO v4渐进定位网络输出检测结果。本申请克服了现有技术在检测遮挡目标时容易出现漏检或误检的问题,提高了遮挡目标定位能力,改善了遮挡目标检测效果。

Description

基于YOLO v4渐进定位的遮挡目标检测方法及装置
技术领域
本发明属于目标检测领域,具体而言,涉及一种基于YOLO v4渐进定位的遮挡目标检测方法及装置。
背景技术
目标检测技术是计算机视觉中一个重要的问题,其被广泛应用于图像检测、目标识别、视频监控等领域。而遮挡检测作为目标检测问题的一个重要难点问题,在自动驾驶和安防等领域有着广泛的应用。
遮挡检测中通常存在两类遮挡,一类是待检测的目标之间存在相互遮挡;另一类是待检测的目标被干扰物体遮挡。由于遮挡目标的特征信息较为复杂,存在特征信息缺失或重叠的情况,导致常用的目标检测器在检测相互遮挡的目标时容易出现漏检或将多个物体检测为一类;检测被干扰物遮挡的目标时容易出现漏检或误检,从而降低检测性能。
最初研究者将DPM(Deformable Parts Model,可变形部件模型)与CNN(Convolutional Neural Networks,卷积神经网络)进行结合,特别是与受限Boltzmann机器耦合在一起进行遮挡目标检测,结合可以在保留DPM所有优点(即对姿态和部分遮挡的鲁棒性)的同时,用深度网络代替原始特征有效提高了***的遮挡检测能力;或者通过设计一个排斥损失,推动每个建议方案接近指定目标,同时远离其他标注的真正的对象及其相应的指定方案,然而,在处理遮挡目标的损失函数中,很难控制排斥项和吸引项之间的平衡。由于Faster R-CNN成为主导框架,一种新的基于遮挡感知的OR-CNN在Faster R-CNN检测框架的基础上被提出,并设计聚集损失AggLoss,以减轻遮挡挑战的影响。同时,一部分研究者提出的Bi-Box给出了一种辅助子网络来预测遮挡实例的可见部分,进而解决遮挡问题。但是,上述方案在处理遮挡问题上仍然存在很大不足,同时处理效率较低,因此需要一种高效的方案解决上述问题。
发明内容
本申请实施例提供了一种基于YOLO v4渐进定位的遮挡目标检测方法及装置,克服了现有技术在检测遮挡目标时容易出现漏检或误检的问题,提高了遮挡目标定位能力,改善了遮挡目标检测效果。
第一方面,本申请实施例提供了一种基于YOLO v4渐进定位的遮挡目标检测方法,包括:
基于YOLO v4构建YOLO v4渐进定位网络;
训练所述YOLO v4渐进定位网络;
向训练完成的YOLO v4渐进定位网络输入待检测图像;
训练完成的YOLO v4渐进定位网络检测所述待检测图像;
训练完成的YOLO v4渐进定位网络输出检测结果。
其中,所述基于YOLO v4构建YOLO v4渐进定位网络,包括:
步骤1.1:YOLO v4作为一阶段目标检测器,输出具有不同分辨率的多尺度特征图,多尺度特征图的定义公式为:
Φn=fnn-1)=fn(fn-1(...f1(I)))
I表示输入的图像;fn(.)是YOLO v4特征提取网络的第n个特征提取层;Φn是从第n层输出的特征图;
在所述多尺度特征图的基础上,检测结果为:
Dets=F(pnn,An),pn-1n-1,An-1),...,pn-kn-k,An-k)),n>k>0
An是在第n个尺度特征图单元网格中预先设定的anchor框;F(.)是从所有的网络层中得到的回归框,然后输出最终的检测结果;pn为YOLO v4检测分支,将第n层输出的特征图Φn转换成检测结果;
步骤1.2:在YOLO v4检测分支部分堆叠一系列的检测器pn,从而在特征图上对锚框由粗到细的调整,表达式为:
Figure BDA0003144753700000031
T表示检测器堆叠的数量;
Figure BDA0003144753700000032
表示均匀分布在第n层特征层上预先设定的锚框;由粗到细的锚框/>
Figure BDA0003144753700000033
为:
Figure BDA0003144753700000034
t表示第t次堆叠检测器;
步骤1.3:
Figure BDA0003144753700000035
中的检测器/>
Figure BDA0003144753700000036
在每次堆叠中,使用的前一次堆叠后产生的回归锚框/>
Figure BDA0003144753700000037
其中,所述pn由两部分组成,表示为:
pnn,An)={clsnn,An),regnn,An)}
clsn(.)表示检测结果的类别得分;regn(.)为预测与第n个尺度特征图单元网格中预先设定锚框的尺度缩放和偏移参数,得到回归后的检测框。
其中,所述训练所述YOLO v4渐进定位网络,包括:
在一阶段训练过程中,采用通用数据集对渐进定位YOLO v4的一阶段网络进行预训练,当预训练结束后,采用目标数据集对一阶段网络进行再训练;
使用一阶段网络再训练达到最优后的权重,对一阶段网络进行参数初始化,同时冻结一阶段网络参数,并单独训练二阶段的网络参数,当验证损失函数不再发生变化时,解冻一阶段网络参数,联合训练一阶段和二阶段网络参数。
其中,一阶段网络训练过程中的置信度阈值为0.5;二阶段网络训练过程中的置信度阈值为0.65;冻结一阶段网络参数的epoch为50次;联合训练时的实验参数有:所用锚框大小为[[2,13],[4,21],[6,30],[8,37],[9,46],[12,59],[16,78],[22,111],[38,187]];检测模型的输入大小为608×608;总的训练epoch为1000;Batch Size为8;初始学习率为0.001;学习率按照epoch进行衰减,下降间隔数为1个epoch,调整倍数为0.9;优化器为Adam。
其中,所述训练完成的YOLO v4渐进定位网络检测所述待检测图像,包括:
在检测阶段,模型输入大小为608×608,一阶段检测置信度阈值为0.5,二阶段检测置信度阈值为0.65,一阶段和二阶段检测非极大值抑制阈值为0.3。
第二方面,本申请提供了一种基于YOLO v4渐进定位的遮挡目标检测装置,包括:
构建单元,用于基于YOLO v4构建YOLO v4渐进定位网络;
训练单元,用于训练所述YOLO v4渐进定位网络;
输入单元,用于向训练完成的YOLO v4渐进定位网络输入待检测图像;
检测单元,用于使用训练完成的YOLO v4渐进定位网络检测所述待检测图像;
输出单元,用于输出检测结果。
其中,所述构建单元用于:
YOLO v4作为一阶段目标检测器,输出具有不同分辨率的多尺度特征图,多尺度特征图的定义公式为:
Φn=fnn-1)=fn(fn-1(...f1(I)))
I表示输入的图像;fn(.)是YOLO v4特征提取网络的第n个特征提取层;Φn是从第n层输出的特征图;
在所述多尺度特征图的基础上,检测结果为:
Dets=F(pnn,An),pn-1n-1,An-1),...,pn-kn-k,An-k)),n>k>0
An是在第n个尺度特征图单元网格中预先设定的anchor框;F(.)是从所有的网络层中得到的回归框,然后输出最终的检测结果;pn为YOLO v4检测分支,将第n层输出的特征图Φn转换成检测结果;
在YOLO v4检测分支部分堆叠一系列的检测器pn,从而在特征图上对锚框由粗到细的调整,表达式为:
Figure BDA0003144753700000051
T表示检测器堆叠的数量;
Figure BDA0003144753700000052
表示均匀分布在第n层特征层上预先设定的锚框;由粗到细的锚框/>
Figure BDA0003144753700000053
为:
Figure BDA0003144753700000054
t表示第t次堆叠检测器;
Figure BDA0003144753700000055
中的检测器/>
Figure BDA0003144753700000056
在每次堆叠中,使用的前一次堆叠后产生的回归锚框
Figure BDA0003144753700000057
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
第四方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
本申请实施例基于YOLO v4渐进定位的遮挡目标检测方法及装置具有如下有益效果:
本申请基于YOLO v4渐进定位的遮挡目标检测方法包括:基于YOLO v4构建YOLOv4渐进定位网络;训练YOLO v4渐进定位网络;向训练完成的YOLO v4渐进定位网络输入待检测图像;训练完成的YOLO v4渐进定位网络检测待检测图像;训练完成的YOLO v4渐进定位网络输出检测结果。本申请克服了现有技术在检测遮挡目标时容易出现漏检或误检的问题,提高了遮挡目标定位能力,改善了遮挡目标检测效果。
附图说明
图1为本申请实施例基于YOLO v4渐进定位的遮挡目标检测方法流程示意图;
图2为本申请实施例基于YOLO v4渐进定位的遮挡目标检测方法另一种流程示意图;
图3为YOLO v4的网络结构图;
图4为本发明YOLO v4渐进定位网络结构图;
图5为本发明anchor渐进定位示意图;
图6为本发明YOLO v4渐进定位网络训练流程图;
图7为本申请实施例基于YOLO v4渐进定位的遮挡目标检测装置的结构示意图;
图8为本申请实施例计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请进行进一步的介绍。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
如图1-6所示,一种基于YOLO v4渐进定位的遮挡目标检测方法包括:S101,基于YOLO v4构建YOLO v4渐进定位网络;S103,训练YOLO v4渐进定位网络;S105,向训练完成的YOLO v4渐进定位网络输入待检测图像;S107,训练完成的YOLO v4渐进定位网络检测待检测图像;S109,训练完成的YOLO v4渐进定位网络输出检测结果。下面进行详细介绍。
S101,基于YOLO v4构建YOLO v4渐进定位网络。
在一些实施例中,本步骤包括:
步骤1.1:YOLO v4作为一阶段目标检测器,如图3所示,输出具有不同分辨率的多尺度特征图,能够有效提取丰富的特征信息,多尺度特征图的定义公式为:
Φn=fnn-1)=fn(fn-1(...f1(I)))
I表示输入的图像;fn(.)是YOLO v4特征提取网络的第n个特征提取层;Φn是从第n层输出的特征图;这些特征图的尺寸大小逐渐减小,因此不同分辨率的多尺度目标检测能够有效检测不同尺度大小的目标。
在多尺度特征图的基础上,检测结果为:
Dets=F(pnn,An),pn-1n-1,An-1),...,pn-kn-k,An-k)),n>k>0
An是在第n个尺度特征图单元网格中预先设定的anchor框(锚框);F(.)是从所有的网络层中得到的回归框,然后输出最终的检测结果;pn为YOLO v4检测分支,将第n层输出的特征图Φn转换成检测结果;pn由两部分组成,表示为:
pnn,An)={clsnn,An),regnn,An)}
clsn(.)表示检测结果的类别得分;regn(.)为预测与第n个尺度特征图单元网格中预先设定锚框(anchor)的尺度缩放和偏移参数,得到回归后的检测框。
由于步骤1.1中的检测结果Dets的表达形式与Faster RCNN中的RPN网络具有相同的功能,只是在二阶段网络中会进一步对Dets进行处理,将Dets送入到另一个检测子网络中用于分类和回归,因此Dets也可以作为二阶段网络中的区建议部分,这也是为什么二阶段比一阶段网络精度高但速度慢的原因,而一阶段网络精度较低主要是很难让单个检测器pn在均匀分布有anchor的特征图上完美地进行回归。这里说明为什么步骤1.2堆叠一系列检测器能够提升检测精度。通俗的可以理解为:二阶段网络的检测是先得到区建议结果,再在区建议结果上进一步回归得到更精细化的结果;而一阶段网络的检测是直接回归得到检测结果,从表达式上看是与二阶段区建议结果等效的;因此,我们采取在一阶段网络上堆叠检测器,从而达到二阶段网络的检测效果,但速度更快。
步骤1.2:基于步骤1.1,在YOLO v4检测分支部分堆叠一系列的检测器pn,如图4所示,保持特征提取网络不变,对检测分支进行修改,在原有网络结果上堆叠一次检测分支PANet网络,最终输出由两部分组成,分别是第一次的三个输出和第二次的三个输出结果。从而在特征图上对anchor由粗到细的调整,使其能够精准的定位困难样本,其表达公式如下所示:
Figure BDA0003144753700000081
T表示检测器堆叠的数量;
Figure BDA0003144753700000082
表示均匀分布在第n层特征层上预先设定的锚框;由粗到细的锚框(anchor)/>
Figure BDA0003144753700000083
为:
Figure BDA0003144753700000084
t表示第t次堆叠检测器;
步骤1.3:由于步骤1.2公式
Figure BDA0003144753700000085
中的检测器/>
Figure BDA0003144753700000086
在每次堆叠中,都是使用的前一次堆叠后产生的回归anchor框/>
Figure BDA0003144753700000087
而不是预先设定的anchor框,如图5所示,其中细黑色边界框为预设的三个anchor框,黑色虚线的为目标边界框,粗黑色的为通过一次堆叠后产生的回归anchor框。随着anchor框的逐步细化,将获得更多的正样本,因此,后续堆叠的检测器可以采用更高的IOU阈值进行训练,从而对困难样本,尤其是遮挡目标产生更精确的定位。
S103,训练YOLO v4渐进定位网络。
在一些实施例中,本步骤包括:在一阶段训练过程中,采用通用数据集对渐进定位YOLO v4的一阶段网络进行预训练,当预训练结束后,采用目标数据集对一阶段网络进行再训练;使用一阶段网络再训练达到最优后的权重,对一阶段网络进行参数初始化,同时冻结一阶段网络参数,并单独训练二阶段的网络参数,当验证损失函数不再发生变化时,解冻一阶段网络参数,联合训练一阶段和二阶段网络参数。
在训练1st过程中,首先采用通用数据集,如COCO和ImageNet等,对渐进定位YOLOv4的1st网络进行预训练,当预训练结束后,采用目标数据集对1st网络进行再训练。如图4所示,若直接对YOLO v4渐进定位网络进行训练,很难直接学习到最优的权重,因此先对1st进行训练,使1st阶段的权重能更好地辅助2st阶段的训练;在训练2st过程中,使用1st再训练达到最优后的权重,对2st网络中1st网络部分进行参数初始化,同时冻结1st阶段网络参数,并单独训练2st阶段的网络参数,当验证损失函数不再发生变化时,解冻1st阶段网络参数,使其和2st阶段网络参数联合训练,具体训练过程如图6所示。
在训练过程中,1st网络训练过程中的置信度阈值为0.5;2st网络训练过程中的置信度阈值为0.65,通过提升阈值,增加对困难样本的定位能力,同时,冻结1st网络参数的epoch为50次;除此之外,联合训练时的实验参数有:所用anchor大小为[[2,13],[4,21],[6,30],[8,37],[9,46],[12,59],[16,78],[22,111],[38,187]];检测模型的输入大小为608×608;总的训练epoch为1000;Batch Size为8;初始学习率为0.001;学习率按照epoch进行衰减,下降间隔数为1个epoch,调整倍数为0.9;优化器为Adam。
S105,向训练完成的YOLO v4渐进定位网络输入待检测图像;S107,训练完成的YOLO v4渐进定位网络检测待检测图像;S109,训练完成的YOLO v4渐进定位网络输出检测结果。步骤S109包括:在检测阶段,模型输入大小为608×608,一阶段检测置信度阈值为0.5,二阶段检测置信度阈值为0.65,一阶段和二阶段检测非极大值抑制阈值为0.3。
本申请通过采用堆叠检测分支的方式,逐步提升检测置信度阈值,使anchor更精准的定位到目标区域;避免了一阶段网络直接回归,检测精度低的问题,从而提高了对遮挡目标的检测能力,可适用范围更广。
本发明的有益效果包括:
1.本发明由于采用了堆叠检测分支的方式,通过逐步提升检测置信度阈值,使anchor能够更精准的定位到目标区域。
2.本发明利用渐进定位策略,避免了一阶段网络直接回归,检测精度低的问题,从而提高了对遮挡目标的检测能力。
3.本发明通过分析一阶段和二阶段网络的优劣,将一阶段直接回归问题转化为逐步回归问题,并利用分步训练,提升了算法的鲁棒性,可适用范围更广。
4.本发明由于是基于一阶段网络YOLO v4改进的,因此算法的运行速度更快,处理效率更高。
如图7所示,本申请基于YOLO v4渐进定位的遮挡目标检测装置包括:
构建单元201,用于基于YOLO v4构建YOLO v4渐进定位网络;
训练单元202,用于训练YOLO v4渐进定位网络;
输入单元203,用于向训练完成的YOLO v4渐进定位网络输入待检测图像;
检测单元204,用于使用训练完成的YOLO v4渐进定位网络检测待检测图像;
输出单元205,用于输出检测结果。
其中,构建单元用于:
YOLO v4作为一阶段目标检测器,输出具有不同分辨率的多尺度特征图,多尺度特征图的定义公式为:
Φn=fnn-1)=fn(fn-1(...f1(I)))
I表示输入的图像;fn(.)是YOLO v4特征提取网络的第n个特征提取层;Φn是从第n层输出的特征图;
在多尺度特征图的基础上,检测结果为:
Dets=F(pnn,An),pn-1n-1,An-1),...,pn-kn-k,An-k)),n>k>0
An是在第n个尺度特征图单元网格中预先设定的anchor框;F(.)是从所有的网络层中得到的回归框,然后输出最终的检测结果;pn为YOLO v4检测分支,将第n层输出的特征图Φn转换成检测结果;
在YOLO v4检测分支部分堆叠一系列的检测器pn,从而在特征图上对锚框由粗到细的调整,表达式为:
Figure BDA0003144753700000111
T表示检测器堆叠的数量;
Figure BDA0003144753700000112
表示均匀分布在第n层特征层上预先设定的锚框;由粗到细的锚框/>
Figure BDA0003144753700000113
为:
Figure BDA0003144753700000114
t表示第t次堆叠检测器;
Figure BDA0003144753700000115
中的检测器/>
Figure BDA0003144753700000116
在每次堆叠中,使用的前一次堆叠后产生的回归锚框
Figure BDA0003144753700000117
本申请中,基于YOLO v4渐进定位的遮挡目标检测装置实施例与基于YOLO v4渐进定位的遮挡目标检测方法实施例基本相似,相关之处请参考基于YOLO v4渐进定位的遮挡目标检测方法实施例的介绍。
本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)、IC(Integrated Circuit,集成电路)等。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于YOLO v4渐进定位的遮挡目标检测方法步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米***(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
图8为本申请实施例计算机设备的结构示意图,如图8所示,本申请的计算机设备例如为膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。本申请计算机设备包括处理器401、存储器402、输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线405或者其他方式连接。存储器402上存储有计算机程序,该计算机程序可在处理器401上运行,而且处理器401执行程序时实现上述基于YOLO v4渐进定位的遮挡目标检测方法步骤。
输入装置403可接收输入的数字或字符信息,以及产生与数据处理计算机设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器、等离子体显示器和触摸屏。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上介绍仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于YOLO v4渐进定位的遮挡目标检测方法,其特征在于,包括:
基于YOLO v4构建YOLO v4渐进定位网络;
训练所述YOLO v4渐进定位网络;
所述训练所述YOLO v4渐进定位网络,包括:
在一阶段训练过程中,采用通用数据集对渐进定位YOLO v4的一阶段网络进行预训练,当预训练结束后,采用目标数据集对一阶段网络进行再训练;
使用一阶段网络再训练达到最优后的权重,对一阶段网络进行参数初始化,同时冻结一阶段网络参数,并单独训练二阶段的网络参数,当验证损失函数不再发生变化时,解冻一阶段网络参数,联合训练一阶段和二阶段网络参数;
向训练完成的YOLO v4渐进定位网络输入待检测图像;
训练完成的YOLO v4渐进定位网络检测所述待检测图像;
训练完成的YOLO v4渐进定位网络输出检测结果;
所述基于YOLO v4构建YOLO v4渐进定位网络,包括:
步骤1.1:YOLO v4作为一阶段目标检测器,输出具有不同分辨率的多尺度特征图,多尺度特征图的定义公式为:
Φn=fnn-1)=fn(fn-1(...f1(I)))
I表示输入的图像;fn(.)是YOLO v4特征提取网络的第n个特征提取层;Φn是从第n层输出的特征图;
在所述多尺度特征图的基础上,检测结果为:
Dets=F(pnn,An),pn-1n-1,An-1),...,pn-kn-k,An-k)),n>k>0
An是在第n个尺度特征图单元网格中预先设定的anchor框;F(.)是从所有的网络层中得到的回归框,然后输出最终的检测结果;pn为YOLO v4检测分支,将第n层输出的特征图Φn转换成检测结果;检测结果Dets的表达形式与Faster RCNN中的RPN网络具有相同的功能,Dets作为二阶段网络中的区域建议网络部分,在二阶段网络中会进一步对Dets进行处理,将Dets送入到二阶段网络中用于分类和回归;
步骤1.2:在YOLO v4检测分支部分堆叠一系列的检测器pn,保持特征提取网络不变,对检测分支进行修改,在原有网络结果上堆叠一阶段网络检测分支PANet网络,最终输出由两部分组成,分别是一阶段网络的三个输出和二阶段网络的三个输出结果,从而在特征图上对锚框由粗到细的调整,表达式为:
Figure FDA0003956814630000021
T表示检测器堆叠的数量;
Figure FDA0003956814630000022
表示均匀分布在第n层特征层上预先设定的锚框;由粗到细的锚框
Figure FDA0003956814630000023
为:
Figure FDA0003956814630000024
t表示第t次堆叠检测器;regn(.)为预测与第n个尺度特征图单元网格中预先设定锚框的尺度缩放和偏移参数,得到回归后的检测框;
步骤1.3:
Figure FDA0003956814630000025
中的检测器
Figure FDA0003956814630000026
在每次堆叠中,使用的前一次堆叠后产生的回归锚框
Figure FDA0003956814630000027
2.根据权利要求1所述基于YOLO v4渐进定位的遮挡目标检测方法,其特征在于,所述pn由两部分组成,表示为:
pnn,An)={clsnn,An),regnn,An)}
clsn(.)表示检测结果的类别得分;regn(.)为预测与第n个尺度特征图单元网格中预先设定锚框的尺度缩放和偏移参数,得到回归后的检测框。
3.根据权利要求2所述基于YOLO v4渐进定位的遮挡目标检测方法,其特征在于,一阶段网络训练过程中的置信度阈值为0.5;二阶段网络训练过程中的置信度阈值为0.65;冻结一阶段网络参数的epoch为50次;联合训练时的实验参数有:所用锚框大小为[[2,13],[4,21],[6,30],[8,37],[9,46],[12,59],[16,78],[22,111],[38,187]];检测模型的输入大小为608×608;总的训练epoch为1000;Batch Size为8;初始学习率为0.001;学习率按照epoch进行衰减,下降间隔数为1个epoch,调整倍数为0.9;优化器为Adam。
4.根据权利要求1-2任一项所述基于YOLO v4渐进定位的遮挡目标检测方法,其特征在于,所述训练完成的YOLO v4渐进定位网络检测所述待检测图像,包括:
在检测阶段,模型输入大小为608×608,一阶段检测置信度阈值为0.5,二阶段检测置信度阈值为0.65,一阶段和二阶段检测非极大值抑制阈值为0.3。
5.一种基于YOLO v4渐进定位的遮挡目标检测装置,其特征在于,包括:
构建单元,用于基于YOLO v4构建YOLO v4渐进定位网络;
训练单元,用于训练所述YOLO v4渐进定位网络;
在一阶段训练过程中,采用通用数据集对渐进定位YOLO v4的一阶段网络进行预训练,当预训练结束后,采用目标数据集对一阶段网络进行再训练;
使用一阶段网络再训练达到最优后的权重,对一阶段网络进行参数初始化,同时冻结一阶段网络参数,并单独训练二阶段的网络参数,当验证损失函数不再发生变化时,解冻一阶段网络参数,联合训练一阶段和二阶段网络参数;
输入单元,用于向训练完成的YOLO v4渐进定位网络输入待检测图像;
检测单元,用于使用训练完成的YOLO v4渐进定位网络检测所述待检测图像;
输出单元,用于输出检测结果;
所述构建单元用于:
YOLO v4作为一阶段目标检测器,输出具有不同分辨率的多尺度特征图,多尺度特征图的定义公式为:
Φn=fnn-1)=fn(fn-1(...f1(I)))
I表示输入的图像;fn(.)是YOLO v4特征提取网络的第n个特征提取层;Φn是从第n层输出的特征图;
在所述多尺度特征图的基础上,检测结果为:
Dets=F(pnn,An),pn-1n-1,An-1),...,pn-kn-k,An-k)),n>k>0
An是在第n个尺度特征图单元网格中预先设定的anchor框;F(.)是从所有的网络层中得到的回归框,然后输出最终的检测结果;pn为YOLO v4检测分支,将第n层输出的特征图Φn转换成检测结果;检测结果Dets的表达形式与Faster RCNN中的RPN网络具有相同的功能,Dets作为二阶段网络中的区域建议网络部分,在二阶段网络中会进一步对Dets进行处理,将Dets送入到二阶段网络中用于分类和回归;
在YOLO v4检测分支部分堆叠一系列的检测器pn,保持特征提取网络不变,对检测分支进行修改,在原有网络结果上堆叠一阶段网络检测分支PANet网络,最终输出由两部分组成,分别是一阶段网络的三个输出和二阶段网络的三个输出结果,从而在特征图上对锚框由粗到细的调整,表达式为:
Figure FDA0003956814630000041
T表示检测器堆叠的数量;
Figure FDA0003956814630000042
表示均匀分布在第n层特征层上预先设定的锚框;由粗到细的锚框
Figure FDA0003956814630000043
为:
Figure FDA0003956814630000044
t表示第t次堆叠检测器;regn(.)为预测与第n个尺度特征图单元网格中预先设定锚框的尺度缩放和偏移参数,得到回归后的检测框;
Figure FDA0003956814630000051
中的检测器
Figure FDA0003956814630000052
在每次堆叠中,使用的前一次堆叠后产生的回归锚框
Figure FDA0003956814630000053
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现所述权利要求1-4中任一项所述方法的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现所述权利要求1-4中任一项所述方法的步骤。
CN202110751594.XA 2021-07-02 2021-07-02 基于YOLO v4渐进定位的遮挡目标检测方法及装置 Active CN113486949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110751594.XA CN113486949B (zh) 2021-07-02 2021-07-02 基于YOLO v4渐进定位的遮挡目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110751594.XA CN113486949B (zh) 2021-07-02 2021-07-02 基于YOLO v4渐进定位的遮挡目标检测方法及装置

Publications (2)

Publication Number Publication Date
CN113486949A CN113486949A (zh) 2021-10-08
CN113486949B true CN113486949B (zh) 2023-03-24

Family

ID=77940454

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110751594.XA Active CN113486949B (zh) 2021-07-02 2021-07-02 基于YOLO v4渐进定位的遮挡目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN113486949B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880499B (zh) * 2023-02-22 2023-05-05 北京猫猫狗狗科技有限公司 一种被遮挡目标检测模型训练方法、装置、介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN111767962A (zh) * 2020-07-03 2020-10-13 中国科学院自动化研究所 基于生成对抗式网络的一阶段目标检测方法、***及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066069A1 (en) * 2009-09-16 2011-03-17 Duffy Charles J Method and system for quantitative assessment of visual form discrimination
CN112084866B (zh) * 2020-08-07 2022-11-04 浙江工业大学 一种基于改进YOLO v4算法的目标检测方法
CN112613375B (zh) * 2020-12-16 2024-05-14 中国人寿财产保险股份有限公司 一种轮胎受损检测识别方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212918A1 (en) * 2017-05-18 2018-11-22 Microsoft Technology Licensing, Llc Hybrid reward architecture for reinforcement learning
CN111767962A (zh) * 2020-07-03 2020-10-13 中国科学院自动化研究所 基于生成对抗式网络的一阶段目标检测方法、***及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于跨尺度特征聚合网络的多尺度行人检测;曹帅等;《北京航空航天大学学报》;20201231(第09期);第165-175页 *

Also Published As

Publication number Publication date
CN113486949A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
US11694461B2 (en) Optical character recognition method and apparatus, electronic device and storage medium
KR102610518B1 (ko) 문자 구조화 추출 방법, 장치, 기기 및 저장 매체
US11610148B2 (en) Information processing device and information processing method
US8677282B2 (en) Multi-finger touch adaptations for medical imaging systems
EP3913542A2 (en) Method and apparatus of training model, device, medium, and program product
EP3651055A1 (en) Gesture recognition method, apparatus, and device
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
WO2018182981A1 (en) Sensor data processor with update ability
US20210209401A1 (en) Character recognition method and apparatus, electronic device and computer readable storage medium
WO2022188315A1 (zh) 一种视频检测方法、装置、电子设备及存储介质
US20210343065A1 (en) Cartoonlization processing method for image, electronic device, and storage medium
US20210334602A1 (en) Method and Apparatus for Recognizing Text Content and Electronic Device
US11544927B2 (en) Video type detection method and apparatus based on key frame, and storage medium
CN110852321B (zh) 候选框过滤方法、装置以及电子设备
EP3879454A2 (en) Method and apparatus for evaluating image relative definition, device and medium
CN113486949B (zh) 基于YOLO v4渐进定位的遮挡目标检测方法及装置
CN113963148B (zh) 对象检测方法、对象检测模型的训练方法及装置
CN110472506A (zh) 一种基于支持向量机和神经网络优化的手势识别方法
CN111598903A (zh) 人像分割方法、装置、存储介质和电子设备
CN111862031A (zh) 一种人脸合成图检测方法、装置、电子设备及存储介质
Ling et al. Research on gesture recognition based on YOLOv5
CN114550313A (zh) 图像处理方法、神经网络及其训练方法、设备和介质
CN113378836A (zh) 图像识别方法、装置、设备、介质及程序产品
Luo et al. Multi-scale face detection based on convolutional neural network
CN111862030A (zh) 一种人脸合成图检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant