CN114882455B - 基于改进RetinaNet的斑马线礼让行人检测方法 - Google Patents

基于改进RetinaNet的斑马线礼让行人检测方法 Download PDF

Info

Publication number
CN114882455B
CN114882455B CN202210777879.5A CN202210777879A CN114882455B CN 114882455 B CN114882455 B CN 114882455B CN 202210777879 A CN202210777879 A CN 202210777879A CN 114882455 B CN114882455 B CN 114882455B
Authority
CN
China
Prior art keywords
feature
module
layer
pedestrian
zebra crossing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210777879.5A
Other languages
English (en)
Other versions
CN114882455A (zh
Inventor
夏景明
周耀
谈玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Batwang Shoes Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210777879.5A priority Critical patent/CN114882455B/zh
Publication of CN114882455A publication Critical patent/CN114882455A/zh
Application granted granted Critical
Publication of CN114882455B publication Critical patent/CN114882455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于改进RetinaNet的斑马线礼让行人检测方法,包括:将样本图像数据集导入基于RetinaNet网络构建的斑马线礼让行人检测模型;采用目标识别模块识别导入的样本图像中的斑马线、以及位于斑马线上的行人和车辆;采用警示框生成模块对检测识别到的行人添加检测框,并依据行人前进方向复制对应的检测框直至检测框到达当前行人所处位置对应的最远边线,将行人对应的所有检测框定义为警示框;采用违章检测模块对检测识别到的车辆添加检测框,判断车辆对应的检测框与行人对应的警示框是否存在交集,以判定车辆是否礼让行人。本发明有效提高了斑马线礼让行人检测的准确率和速度。

Description

基于改进RetinaNet的斑马线礼让行人检测方法
技术领域
本发明属于计算机视觉技术领域,具体而言涉及一种基于改进RetinaNet的斑马线礼让行人检测方法。
背景技术
目标检测是计算机视觉领域中的热门问题,它通常应用在人脸识别,文本识别,行人检测,遥感检测,工业检测等领域;斑马线礼让行人是道路交通安全的重要组成部分,解决斑马线礼让行人问题对构建安全和谐社会有着重大的意义。这需要在不同的情况下,都可以根据行人与警示线的位置,车辆做出的操作来准确的判断车辆是否礼让行人,可以有效的减少交通事故的发生。
传统的检测采用的是滑动窗口方法,将分类器应用于密集的图像网格,最早由LeCun 等人将卷积神经网络应用于手写数字识别。Viola和Jones使用增强型对象检测器进行人脸检测,导致此类模型的广泛采用。HOG(方向梯度直方图)、积分通道特征(IntegralChannel Features)和DPMs将密集检测器扩展到更一般的对象类别,虽然滑动窗口方法是经典计算机视觉中领先的检测方式,但是对一张图片截取的框的数量巨大,太过耗时,随着深度学习的兴起,两阶段(Two Stage)检测器迅速主导了目标检测。和在选择性搜索(Selective search)工作中那样,两阶段检测器在第一阶段生成一组稀疏的候选提案,其中包含所有对象,同时过滤掉大部分负面位置,第二阶段将提案分类为前景和背景。R-CNN将第二阶段分类器升级为卷积网络,提高了准确率。R-CNN 在速度和使用学习对象建议方面都得到了改进。区域提议网络(RPN)将提议生成与第二阶段分类器集成到单个卷积网络中,形成了Faster RCNN 框架。同时单阶段(One Stage)检测器也逐渐兴起,OverFeat是第一个基于深度网络的单阶段目标检测器。SSD 和 YOLO已针对速度进行了调整,但其准确性落后于两阶段方法。只需降低输入图像分辨率和提议的数量,就可以快速提高两阶段检测器的速度,但即使在计算预算较大的情况下,单阶段方法的准确性也会落后。RetinaNet(One Stage)精度首次超越Two Stage目标检测网络,RetinaNet 检测器的设计与以前的密集检测器有许多相似之处,特别是 RPN 引入的“锚点”概念、以及 SSD 和 FPN 中特征金字塔的使用。
现有技术的问题:与遥感图像检测,人脸检测等不同,行人,警示线和车辆的位置信息在不同情况下会受到影响,使得提取行人,警示线和车辆位置变得困难,并且行人与警示线的距离需要准确检测,避免造成误判;目前的斑马线摄像头检测车辆需要根据检测到的车辆位置和行人所在位置与警示线的位置关系判断车辆是否未礼让行人,但准确率和检测速度较低,这与浅层细节信息未被提取到和计算参数的过多有很大的关系。
发明内容
解决的技术问题:基于前述斑马线礼让行人检测准确率和检测速度均不佳的技术问题,本发明提出了一种基于改进RetinaNet的斑马线礼让行人检测方法。
技术方案:
一种基于改进RetinaNet的斑马线礼让行人检测方法,所述斑马线礼让行人检测方法包括以下步骤:
S1,对斑马线处的行人图像进行采集,对采集到的样本图像进行预处理以调整图像尺寸,生成样本图像数据集;
S2,将样本图像数据集导入基于RetinaNet网络构建的斑马线礼让行人检测模型,对模型进行训练;斑马线礼让行人检测模型包括目标识别模块、警示框生成模块和违章检测模块;
S3,采用目标识别模块识别导入的样本图像中的斑马线、以及位于斑马线上的行人和车辆;
S4,采用警示框生成模块对检测识别到的行人添加检测框,并依据行人前进方向复制对应的检测框直至检测框到达当前行人所处位置对应的最远边线,将行人对应的所有检测框定义为警示框;最远边线为与行人所在位置对应的单向交叉车道的远离行人起点的边线;
S5,采用违章检测模块对检测识别到的车辆添加检测框,判断车辆对应的检测框与行人对应的警示框是否存在交集,如果存在交集,则判定车辆未礼让行人,否则,判定车辆为正常行驶。
进一步地,如果斑马线对应的道路为双向车道,当行人自斑马线的第一端部向第二端部行进,且未到达道路中间位置时,最远边线为道路中线;当行人到达并越过道路中线时,最远边线为斑马线的第二端部。
进一步地,所述目标识别模块包括特征提取模块、特征融合模块、特征增强模块、自适应特征池化模块、编码器、注意力模块和分类模块;
所述特征提取模块用于对导入的样本图像进行图像特征提取;特征融合模块用于对特征提取模块提取的图像特征进行上采样处理;特征增强模块用于对特征融合模块输出结果进行下采样处理,以增强其中包含的网络浅层细节特征;自适应特征池化模块用于将特征增强模块中每一层得到的proposal分别和其他层的proposal作ROI Align处理,将单层特征替换为多层特征;所述注意力模块用于将自适应特征池化模块输出的特征图沿着空间和通道两个维度依次推断出注意力权重,再与原特征图相乘来对图像特征进行自适应调整,增强斑马线、行人、车辆相关特征信息,减弱其他特征信息;所述编码器用于对自适应特征池化模块输出的融合后的特征图进行减少参数处理;所述分类模块用于对注意力模块和编码器两者的输出结果进行拼接,对拼接结果进行分类,识别得到目标类别和目标位置信息。
进一步地,所述特征增强模块包括自底而上设置的多个增强单元;每个增强单元均包括add融合层,以及与add融合层分别连接的3*3深度可分离卷积层和3*3卷积层;
所述3*3深度可分离卷积层的卷积核尺寸为3*3,步长为2,用于对特征提取模块提取的第k层的图像特征Pk进行卷积处理后发送至add融合层;所述3*3卷积层的卷积核尺寸为3*3,步长为2,用于对第k-1个增强单元的下采样特征图Nk-1进行卷积处理后发送至add融合层;所述add融合层对3*3深度可分离卷积层和3*3卷积层进行add融合,生成下采样特征图Nk。
进一步地,所述自适应特征池化模块将特征增强模块中每一层得到的proposal分别和其他层的proposal作ROI归一化处理,将单层特征替换为多层特征的过程包括以下步骤:
对于特征增强模块输出的每个proposal,将它们映射到不同的特征级别,proposal越大,特征级别越大,采用ROI Align从每个级别汇集特征;
将每个经过ROI Align获得的特征图采用深度可分离卷积,再将不同层次的特征图进行特征融合。
进一步地,所述编码器分为三层,第一层采用1×1卷积核将通道降维,使其缩小为输入通道数的四分之一,激活函数为Relu;第二层采用两个分支对第一层的输出结果进行特征提取,再将两个分支提取的特征进行concat拼接;第三层采用3×3的深度可分离卷积对第二层的输出结果进行特征提取。
进一步地,所述第二层包括第一分支和第二分支,第一分支采用1×1卷积核,第二分支采用3×3卷积核;其中,在1×1卷积核中将输出通道升维,使其扩大为输入通道数的4倍;在3×3卷积核中通过修改填充的大小和步幅长度,使输出特征达到与输入特征图的高宽尺寸相同,同时将输出通道升维,扩大为输入通道的4倍。
进一步地,所述注意力模块增强斑马线、行人、车辆相关特征信息,减弱其他特征信息的过程包括以下步骤:
将经过自适应特征池化融合后的特征
Figure 293649DEST_PATH_IMAGE001
进行维度变换,使其变换成
Figure 490144DEST_PATH_IMAGE002
,其中,C表示通道数,H表示输入特征映射的高,W表示输入特征映射的宽;
将特征输入到多层感知机中,多层感知机分为两层,第一层和第二层通道数分别 为C/16和C;将多层感知机的输出进行维度变换,将其由
Figure 399194DEST_PATH_IMAGE002
变换为
Figure 406464DEST_PATH_IMAGE003
使用sigmoid激活函数计算得到通道注意力的权重矩阵Mc(F1),
Figure 400965DEST_PATH_IMAGE004
将权重矩阵Mc(F1)和特征F1进行F2运算后,得到新的权重矩阵F2,
Figure 914335DEST_PATH_IMAGE005
Figure 943470DEST_PATH_IMAGE006
表示元素级乘法;
将权重矩阵F2进行两次卷积核为7×7的卷积,第一次卷积将通道降维,通道缩小r 倍,第二次卷积升维,通道扩大r倍,将得到的特征使用sigmoid函数来计算得到空间注意力 的权重矩阵Ms(F2) ,其中,
Figure 590484DEST_PATH_IMAGE007
将Ms(F2)与F2进行F3运算后,得到新的权重矩阵F3;其中,F3运算为
Figure 337860DEST_PATH_IMAGE008
进一步地,所述目标识别模块的损失函数
Figure 876157DEST_PATH_IMAGE009
为:
Figure 759800DEST_PATH_IMAGE010
其中,
Figure 843293DEST_PATH_IMAGE011
为抑制正负样本的数量失衡的影响参数;
Figure 812386DEST_PATH_IMAGE012
为正样本的概率;
Figure 764162DEST_PATH_IMAGE013
为控制 简单/难区分样本数量失衡的影响参数。
有益效果:
第一,本发明的基于改进RetinaNet的斑马线礼让行人检测方法,主要用于斑马线检测车辆是否礼让行人,由于该领域的检测算法的应用平台主要是摄像头,而摄像头的硬件资源有限,对算法的准确性和高速性有着较高的要求,本发明提出的模型保证在检测精度较高的情况下,对模型进行轻量化处理,使得模型可以部署在资源有限的嵌入式设备上,最终实现准确的检测,从而减少误判的发生。
第二,本发明的基于改进RetinaNet的斑马线礼让行人检测方法,在模型已有基础上增加了数据增强结构来使得模型获取更多的浅层细节信息,自适应特征融合将不同层的输出特征进行融合来使得特征增强,并且增加了编码器层来减少模型的参数,加快检测速度;注意力层将重要的特征信息增强和不重要的信息减弱,使得检测精度提升,这有效的提高了斑马线礼让行人检测的准确率和速度。
附图说明
图1为本发明实施例的基于改进RetinaNet网络模型的目标识别流程图;
图2为本发明实施例的基于改进RetinaNet网络模型的结构示意图;
图3为本发明实施例的特征融合模块(上采样)与特征增强模块(下采样)结构示意图;
图4为本发明实施例的自适应特征融合层的结构示意图;
图5为本发明实施例的注意力模块的结构示意图;
图6为本发明实施例的基于改进RetinaNet的斑马线礼让行人检测方法的流程图。
具体实施方式
下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
参见图6,本实施例提及一种基于改进RetinaNet的斑马线礼让行人检测方法,所述斑马线礼让行人检测方法包括以下步骤:
S1,对斑马线处的行人图像进行采集,对采集到的样本图像进行预处理以调整图像尺寸,生成样本图像数据集。
S2,将样本图像数据集导入基于RetinaNet网络构建的斑马线礼让行人检测模型,对模型进行训练;斑马线礼让行人检测模型包括目标识别模块、警示框生成模块和违章检测模块。
S3,采用目标识别模块识别导入的样本图像中的斑马线、以及位于斑马线上的行人和车辆。
S4,采用警示框生成模块对检测识别到的行人添加检测框,并依据行人前进方向复制对应的检测框直至检测框到达当前行人所处位置对应的最远边线,将行人对应的所有检测框定义为警示框;最远边线为与行人所在位置对应的单向交叉车道的远离行人起点的边线。
S5,采用违章检测模块对检测识别到的车辆添加检测框,判断车辆对应的检测框与行人对应的警示框是否存在交集,如果存在交集,则判定车辆未礼让行人,否则,判定车辆为正常行驶。
最远边线与斑马线对应的车道相关。以斑马线对应的道路为双向车道为例,假设行人自斑马线左侧向右侧行进,此时需将斑马线检测出来然后计算斑马线检测框的中间位置并将其设置为警示框的最远位置;当行人开始行进时这个中间位置作为最远位置将保留到行人抵达该位置为止;当行人超过中间位置时重新设置最远位置为道路右侧,并且将此位置保留到行人抵达为止。
结合图1,本实施例的基于改进RetinaNet网络模型的目标识别过程包括以下步骤:
步骤A:针对输入的各个样本图像,对样本图像进行预处理,调整图像尺寸,并将预处理后的图像输入到改进RetinaNet网络模型中。
步骤B:构建对图像进行特征提取、特征融合和特征增强的结构;其中的特征增强是针对网络浅层细节特征添加的下采样特征增强模块。
步骤C:对特征增强结构中每一层得到的proposal进行ROI Align;采用自适应特征池化将单层特征替换为多层特征,对每个proposal都分别和多层特征(N2,N3,N4,N5)做ROI Align,可以提取到4个不同的特征图,然后将4个特征图融合,使得每个 proposal特征融合了多层特征。
步骤D:采用Encoder编码器将融合后的特征图输入,编码器内部采用深度可分离卷积将网络模型参数量减少,同时使运行速度加快。
步骤E:采用GAM注意力模块将特征图沿着空间和通道两个维度依次推断出注意力权重,然后与原特征图相乘来对图像特征进行自适应调整,从而将重要的特征信息增强和不重要的特征信息减弱。
步骤F:将Encoder编码器的输出与注意力模块的输出拼接并输入到分类和回归网络中。
步骤G:根据每个样本图像,将样本图像作为输入,样本图像中目标对象分类与定位信息作为输出,结合损失函数,针对待训练网络进行训练,获得斑马线礼让行人网络模型。
下面通过其中一个例子对本发明所提及方法的具体步骤进行详细阐述。
步骤一,将数据集中的样本图像进行预处理,然后输入改进RetinaNet网络模型,具体包括以下步骤:
步骤1-1:将数据集中的样本图像尺寸调整到640×640,然后将图像输入到步骤A2。
步骤1-2:对图像中所含的车辆、行人和警示线使用锚框进行标定。
步骤二,搭建RetinaNet网络模型,针对网络浅层特征添加特征融合模块,如图2所示,具体包括以下步骤:
步骤2-1:在特征提取结构中每个卷积过程的最后一层进行池化操作,对特征图尺寸进行调整, conv1后尺寸为320*320, conv2后尺寸为160*160, conv3后尺寸为80*80,conv4后尺寸为40*40,conv5后尺寸为20*20,经过conv2,conv3,conv4,conv5的输出分别为C2,C3,C4,C5,这些输出尺寸分别是原图的1/4,1/8,1/16,1/32。
步骤2-2:特征融合结构的过程采用上采样,其中的横向连接是将经过上采样的结果与特征提取结构中相同大小的特征图进行add融合;首先由特征提取结构向特征融合结构做横向连接时都需先经过一个1×1卷积核将特征图降维,修改通道数;然后特征融合结构中对上层特征图采用临近插值算法得到新的特征图,然后与上步获得的特征图进行add融合(若是P5的话只需进行1×1卷积操作,修改通道数);然后再使用卷积核尺寸3×3,步长为1的卷积层进行卷积,消除上采样的混叠效应,并得到本层的特征输出。
步骤2-3:增加的特征增强模块提取网络浅层特征中包含的大量边缘形状等特征,将特征融合结构的底层P2传输到特征增强结构的底层N2;除P2外,将特征融合结构的特征图经过横向连接中尺寸为3*3,步长为2的深度可分离卷积生成新的特征图,然后与特征增强结构中上一层经过尺寸为3*3,步长为2的卷积核的下采样特征图进行add融合,从而生成新的特征图;数据融合结构中的特征图N2、N3、N4、N5与数据融合结构中的特征图P2、P3、P4、P5相对应;N2与P2表示同一个特征图;N3是N2和P3特征融合后的结果;N4是N3与P4特征融合后的结果;N5是N4与P5特征融合后的结果。
步骤三,将特征增强结构中每层得到的 proposal进行ROI Align,采用自适应特征池化将单层特征替换为多层特征,如图4所示,具体包括以下步骤:
步骤3-1:对于每个proposal,将它们映射到不同的特征级别,将小的proposal分配给较低的级别,大的proposal分配给较高的级别,然后使用ROI Align从每个级别汇集特征。
步骤3-2:将每个经过ROI Align获得的特征图采用3×3深度可分离卷积,获得不同层次的特征图,然后将不同层次的特征图进行融合。
步骤四,将特征图输入编码器,减少网络模型的参数量,具体包括以下步骤:
步骤4-1:编码器分为三层,第一层为1×1卷积核,将通道降维,缩小为输入通道数的四分之一,激活函数为Relu。
步骤4-2:第二层分为两个分支,分支一为1×1卷积核,分支二为3×3卷积核,在1×1卷积核中将输出通道升维,扩大为输入通道数的4倍;在3×3卷积核中通过修改填充的大小和步幅长度从而达到与输入特征图的高宽尺寸相同,同时将输出通道升维,扩大为输入通道的4倍;再将两个分支的输出进行concat拼接。
步骤4-3:第三层采用3×3的深度可分离卷积进行特征提取。
步骤五,采用GAM注意力模块将特征图沿着空间和通道两个维度依次推断出注意力权重,然后与原特征图相乘来对图像特征进行自适应调整,从而将重要的特征信息增强和不重要的特征信息减弱,如图5所示,具体包括以下步骤:
步骤5-1:将输入的特征图F1进行维度变换(
Figure 128409DEST_PATH_IMAGE003
->
Figure 773017DEST_PATH_IMAGE002
),其中,
Figure 839193DEST_PATH_IMAGE001
,C表示通道数,H表示输入特征映射的高,W表示输入特征映射的宽。
步骤5-2:将经过维度变换后的图像特征输入到多层感知机(MLP)中,多层感知机分为两层,第一层和第二层的通道数分别为C/16和C。
步骤5-3:将多层感知机的输出进行维度变换(
Figure 594660DEST_PATH_IMAGE002
->
Figure 577528DEST_PATH_IMAGE003
)。
步骤5-4:将得到的特征使用sigmoid激活函数计算通道注意力的权重矩阵,得到 Mc(F1),其中,
Figure 393037DEST_PATH_IMAGE004
步骤5-5:将权重矩阵Mc(F1)和F1进行F2运算后,得到新的权重矩阵F2;其中,F2运 算为
Figure 805564DEST_PATH_IMAGE005
Figure 240088DEST_PATH_IMAGE006
表示元素级乘法。
步骤5-6:将权重矩阵F2进行两次卷积核为7×7的卷积处理,第一次卷积将通道降 维,将通道缩小r倍,第二次卷积升维,将通道扩大r倍,将得到的特征图使用sigmoid函数来 计算空间注意力的权重矩阵,得到Ms(F2) ,其中,
Figure 375665DEST_PATH_IMAGE007
步骤5-7:将Ms(F2)与F2进行F3运算后,得到新的权重矩阵F3;其中,F3运算为
Figure 237442DEST_PATH_IMAGE008
在本实施例中,通道注意力用来关注什么样的特征是有意义的;空间注意力模块用来关注哪里的特征是有意义的。加入注意力模块后,特征覆盖到了待检测识别物体的更多部位,并且最终检测判别物体的概率也更高。对于斑马线礼让行人检测实例,重要的特征信息包括需要检测的行人,车辆,斑马线等等;不重要的特征信息包括背景等等。
步骤六,分类和回归网络包括以下步骤:
步骤6-1:使用anchors生成proposals,其中N2到N5每一层都分别代表不同的anchor面积,特征图上的每一个点生成3种尺寸(20,21/2,22/3),每种尺寸生成3个长宽比的anchor(1:2, 1:1, 2:1),使得每个点生成9个anchor;对每一个anchor,分别接入分类子网和回归子网。
步骤6-2:对分类子网而言,对anchor中的每个类别都预测一个概率;将编码器和注意力模块拼接后的特征经过四层卷积核为3×3,通道数为256的卷积网络,最后一层设定卷积核为3×3,通道数为K×A,对于每个anchor,都是一个K维向量,表示每一类的概率,选取概率得分最高的设为1,其余的设为0;其中,K为类别数量,A为anchor数量。
步骤6-3:对回归子网而言,预测的是当前anchor和它对应的一个GT box位置的偏移量;将编码器和注意力模块拼接后的特征经过四层卷积核为3×3,通道数为256的卷积网络,最后一层设定卷积核为3×3,通道数为4×A;对每一个anchor,回归一个(x,y,w,h)四维向量,位置回归计算的是获得的anchor和对应的GT box的坐标偏移;其中GT box是真实框,x,y是anchor的左上角坐标,w是anchor的宽度,h是anchor的高度,A为anchor数量。
步骤6-4:对获得的anchor与GT box的IOU大于等于0.5的话就认定为正样本,IOU小于0.4的话就认定为负样本,IOU在[0.4,0.5)中的IOU舍弃不用。
步骤七,通过损失函数对网络模型进行优化,所述目标识别模块的损失函数
Figure 402844DEST_PATH_IMAGE009
为:
Figure 500113DEST_PATH_IMAGE010
其中,
Figure 926415DEST_PATH_IMAGE011
为抑制正负样本的数量失衡的影响参数;
Figure 83727DEST_PATH_IMAGE012
为正样本的概率;
Figure 611791DEST_PATH_IMAGE013
为控制 简单/难区分样本数量失衡的影响参数。
以上仅是本发明选择的最佳的实施方式,本发明的保护范围并不局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,所述斑马线礼让行人检测方法包括以下步骤:
S1,对斑马线处的行人图像进行采集,对采集到的样本图像进行预处理以调整图像尺寸,生成样本图像数据集;
S2,将样本图像数据集导入基于RetinaNet网络构建的斑马线礼让行人检测模型,对模型进行训练;斑马线礼让行人检测模型包括目标识别模块、警示框生成模块和违章检测模块;
S3,采用目标识别模块识别导入的样本图像中的斑马线、以及位于斑马线上的行人和车辆;
S4,采用警示框生成模块对检测识别到的行人添加检测框,并依据行人前进方向复制对应的检测框直至检测框到达当前行人所处位置对应的最远边线,将行人对应的所有检测框定义为警示框;最远边线为与行人所在位置对应的单向交叉车道的远离行人起点的边线;
S5,采用违章检测模块对检测识别到的车辆添加检测框,判断车辆对应的检测框与行人对应的警示框是否存在交集,如果存在交集,则判定车辆未礼让行人,否则,判定车辆为正常行驶;
所述目标识别模块包括特征提取模块、特征融合模块、特征增强模块、自适应特征池化模块、编码器、注意力模块和分类模块;
所述特征提取模块用于对导入的样本图像进行图像特征提取;特征融合模块用于对特征提取模块提取的图像特征进行上采样处理;特征增强模块用于对特征融合模块输出结果进行下采样处理,以增强其中包含的网络浅层细节特征;自适应特征池化模块用于将特征增强模块中每一层得到的proposal分别和其他层的proposal作ROI Align处理,将单层特征替换为多层特征;所述注意力模块用于将自适应特征池化模块输出的特征图沿着空间和通道两个维度依次推断出注意力权重,再与原特征图相乘来对图像特征进行自适应调整,增强斑马线、行人、车辆相关特征信息,减弱其他特征信息;所述编码器用于对自适应特征池化模块输出的融合后的特征图进行减少参数处理;所述分类模块用于对注意力模块和编码器两者的输出结果进行拼接,对拼接结果进行分类,识别得到目标类别和目标位置信息。
2.根据权利要求1所述的基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,如果斑马线对应的道路为双向车道,当行人自斑马线的第一端部向第二端部行进,且未到达道路中间位置时,最远边线为道路中线;当行人到达并越过道路中线时,最远边线为斑马线的第二端部。
3.根据权利要求1所述的基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,所述特征增强模块包括自底而上设置的多个增强单元;每个增强单元均包括add融合层,以及与add融合层分别连接的3*3深度可分离卷积层和3*3卷积层;
所述3*3深度可分离卷积层的卷积核尺寸为3*3,步长为2,用于对特征提取模块提取的第k层的图像特征Pk进行卷积处理后发送至add融合层;所述3*3卷积层的卷积核尺寸为3*3,步长为2,用于对第k-1个增强单元的下采样特征图Nk-1进行卷积处理后发送至add融合层;所述add融合层对3*3深度可分离卷积层和3*3卷积层进行add融合,生成下采样特征图Nk。
4.根据权利要求1所述的基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,所述自适应特征池化模块将特征增强模块中每一层得到的proposal分别和其他层的proposal作ROI归一化处理,将单层特征替换为多层特征的过程包括以下步骤:
对于特征增强模块输出的每个proposal,将它们映射到不同的特征级别,proposal越大,特征级别越大,采用ROI Align从每个级别汇集特征;
将每个经过ROIAlign获得的特征图采用深度可分离卷积,再将不同层次的特征图进行特征融合。
5.根据权利要求1所述的基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,所述编码器分为三层,第一层采用1×1卷积核将通道降维,使其缩小为输入通道数的四分之一,激活函数为Relu;第二层采用两个分支对第一层的输出结果进行特征提取,再将两个分支提取的特征进行concat拼接;第三层采用3×3的深度可分离卷积对第二层的输出结果进行特征提取。
6.根据权利要求5所述的基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,所述第二层包括第一分支和第二分支,第一分支采用1×1卷积核,第二分支采用3×3卷积核;其中,在1×1卷积核中将输出通道升维,使其扩大为输入通道数的4倍;在3×3卷积核中通过修改填充的大小和步幅长度,使输出特征达到与输入特征图的高宽尺寸相同,同时将输出通道升维,扩大为输入通道的4倍。
7.根据权利要求1所述的基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,所述注意力模块增强斑马线、行人、车辆相关特征信息,减弱其他特征信息的过程包括以下步骤:
将经过自适应特征池化融合后的特征F1∈RC×W×H进行维度变换,使其变换成RW×H×C,其中,C表示通道数,H表示输入特征映射的高,W表示输入特征映射的宽;
将特征输入到多层感知机中,多层感知机分为两层,第一层和第二层通道数分别为C/16和C;将多层感知机的输出进行维度变换,将其由RW×H×C变换为RC×W×H
使用sigmoid激活函数计算得到通道注意力的权重矩阵Mc(F1),Mc(F1)∈RC×W×H
将权重矩阵Mc(F1)和特征F1进行F2运算后,得到新的权重矩阵F2,
Figure FDA0003813167610000031
Figure FDA0003813167610000032
表示元素级乘法;
将权重矩阵F2进行两次卷积核为7×7的卷积,第一次卷积将通道降维,通道缩小r倍,第二次卷积升维,通道扩大r倍,将得到的特征使用sigmoid函数来计算得到空间注意力的权重矩阵Ms(F2),其中,Mc(F2)∈RC×W×H
将Ms(F2)与F2进行F3运算后,得到新的权重矩阵F3;其中,F3运算为
Figure FDA0003813167610000033
8.根据权利要求1所述的基于改进RetinaNet的斑马线礼让行人检测方法,其特征在于,所述目标识别模块的损失函数FL(pt)为:
FL(pt)=-αt(1-pt)γlog(pt)
其中,αt为抑制正负样本的数量失衡的影响参数;pt为正样本的概率;γ为控制简单/难区分样本数量失衡的影响参数。
CN202210777879.5A 2022-07-04 2022-07-04 基于改进RetinaNet的斑马线礼让行人检测方法 Active CN114882455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210777879.5A CN114882455B (zh) 2022-07-04 2022-07-04 基于改进RetinaNet的斑马线礼让行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210777879.5A CN114882455B (zh) 2022-07-04 2022-07-04 基于改进RetinaNet的斑马线礼让行人检测方法

Publications (2)

Publication Number Publication Date
CN114882455A CN114882455A (zh) 2022-08-09
CN114882455B true CN114882455B (zh) 2022-09-27

Family

ID=82683042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210777879.5A Active CN114882455B (zh) 2022-07-04 2022-07-04 基于改进RetinaNet的斑马线礼让行人检测方法

Country Status (1)

Country Link
CN (1) CN114882455B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730906A (zh) * 2017-07-11 2018-02-23 银江股份有限公司 斑马线车辆不礼让行人行为的视觉检测***
CN110689724A (zh) * 2018-12-31 2020-01-14 上海眼控科技股份有限公司 一种基于深度学习的机动车斑马线礼让行人自动审核方法
CN112633228A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 停车检测方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033950B (zh) * 2018-06-12 2020-07-17 浙江工业大学 基于多特征融合级联深度模型的车辆违停检测方法
CN112966747A (zh) * 2021-03-04 2021-06-15 北京联合大学 一种基于无锚框检测网络改进的车辆检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107730906A (zh) * 2017-07-11 2018-02-23 银江股份有限公司 斑马线车辆不礼让行人行为的视觉检测***
CN110689724A (zh) * 2018-12-31 2020-01-14 上海眼控科技股份有限公司 一种基于深度学习的机动车斑马线礼让行人自动审核方法
CN112633228A (zh) * 2020-12-31 2021-04-09 北京市商汤科技开发有限公司 停车检测方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Dual Refinement Feature Pyramid Networks for Object Detection";Jialiang Ma等;《arXiv》;20201204;第1-8页 *

Also Published As

Publication number Publication date
CN114882455A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
CN107341517B (zh) 基于深度学习层级间特征融合的多尺度小物体检测方法
CN110163187B (zh) 基于f-rcnn的远距离交通标志检测识别方法
CN107563372B (zh) 一种基于深度学习ssd框架的车牌定位方法
CN109635694B (zh) 一种行人检测方法、装置、设备及计算机可读存储介质
CN109902806A (zh) 基于卷积神经网络的噪声图像目标边界框确定方法
CN108304873A (zh) 基于高分辨率光学卫星遥感影像的目标检测方法及其***
CN105868700A (zh) 一种基于监控视频的车型识别与跟踪方法及***
CN109460704B (zh) 一种基于深度学习的疲劳检测方法、***和计算机设备
CN103984948B (zh) 一种基于人脸图像融合特征的软双层年龄估计方法
CN106778835A (zh) 融合场景信息和深度特征的遥感图像机场目标识别方法
CN112395951B (zh) 一种面向复杂场景的域适应交通目标检测与识别方法
CN110232316A (zh) 一种基于改进的dsod模型的车辆检测与识别方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测***及方法
CN115861772A (zh) 基于RetinaNet的多尺度单阶段目标检测方法
CN103679191A (zh) 基于静态图片的自动***检测方法
CN113920468B (zh) 一种基于跨尺度特征增强的多分支行人检测方法
Tumen et al. Recognition of road type and quality for advanced driver assistance systems with deep learning
CN111353544A (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
Dewangan et al. Towards the design of vision-based intelligent vehicle system: methodologies and challenges
CN114821665A (zh) 一种基于卷积神经网络的城市人流小目标检测方法
CN115546763A (zh) 基于视觉测距的交通信号灯识别网络训练方法及测试方法
CN109284752A (zh) 一种车辆的快速检测方法
CN112329647A (zh) 基于U-Net神经网络的土地利用类型识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230814

Address after: 215000 21 hupai Road, high tech Zone, Suzhou City, Jiangsu Province

Patentee after: Suzhou Batwang Shoes Co.,Ltd.

Address before: 210044, No. 219, Ning six road, Pukou District, Jiangsu, Nanjing

Patentee before: Nanjing University of Information Science and Technology

TR01 Transfer of patent right