CN112699859B - 目标检测方法、装置、存储介质及终端 - Google Patents

目标检测方法、装置、存储介质及终端 Download PDF

Info

Publication number
CN112699859B
CN112699859B CN202110310610.1A CN202110310610A CN112699859B CN 112699859 B CN112699859 B CN 112699859B CN 202110310610 A CN202110310610 A CN 202110310610A CN 112699859 B CN112699859 B CN 112699859B
Authority
CN
China
Prior art keywords
network
module
target detection
yolov5s
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110310610.1A
Other languages
English (en)
Other versions
CN112699859A (zh
Inventor
黄仝宇
胡斌杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110310610.1A priority Critical patent/CN112699859B/zh
Publication of CN112699859A publication Critical patent/CN112699859A/zh
Application granted granted Critical
Publication of CN112699859B publication Critical patent/CN112699859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标检测方法,包括:获取驾驶场景下摄像机所拍摄的图像;将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息;其中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算。本发明有效地提高了对驾驶场景图像的目标检测精度和速度,且符合驾驶场景下前端轻量化的应用需求。

Description

目标检测方法、装置、存储介质及终端
技术领域
本发明涉及信息技术领域,尤其涉及一种目标检测方法、装置、存储介质及终端。
背景技术
随着人工智能技术的快速发展,涌现一大批基于深度学习的目标检测算法,并被广泛应用于辅助驾驶、视频监控、机器人视觉、工业检测等领域的目标检测任务中。视觉感知是辅助驾驶中道路环境感知的重要组成部分,可自动对摄像机所拍摄图像进行分析,主动预测车辆周围存在的潜在危险状况,如行人是否不按交通规则横穿马路、前方车辆是否突然刹车等。
现有技术在针对驾驶场景下摄像机所拍摄图像进行目标检测时,以YOLOv3算法为基础框架,通过嵌入SENet结构以增强特征映射图的感受野,使网络学习到的特征信息更全面。然而此方法存在以下缺点:
(1)SENet只是在通道维度上对特征进行了筛选加权,无法较好获取的位置关系信息,检测精度欠佳。
(2)YOLOv3算法存在召回率不足,定位不够准确的缺点。与YOLOv1、YOLOv2等之前的版本相比,YOLOv3的精度有所提升,但是检测速度有所下降。
(3)对部分遮挡目标的检测精度较低,难以达到交通道路场景的应用需求。
(4)针对驾驶场景下的目标检测正负样本不均衡问题,模型会过多关注易分样本,导致模型性能较低。
发明内容
本发明实施例提供了一种目标检测方法、装置、存储介质及终端,以解决现技术在对驾驶场景下摄像机所拍摄图像进行目标检测时存在的检测精度、检测速度不高的问题。
一种目标检测方法,包括:
获取驾驶场景下摄像机所拍摄的图像;
将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息;
其中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算。
可选地,所述目标检测网络在YOLOv5s主干网络的BottleneckCSP1_x层之中嵌入瓶颈注意力机制模块,得到基于瓶颈注意力机制模块的跨阶段局部网络。
可选地,所述目标检测网络将YOLOv5s主干网络中的指定CBH模块替换为MBH模块,所述CBH模块由卷积运算、归一化处理以及激活函数组成,所述MBH模块由基于深度可分离卷积运算的倒置残差模块、归一化处理以及激活函数组成。
可选地,所述基于深度可分离卷积运算的倒置残差模块包括第一单点卷积层、深度卷积层、第二单点卷积层和融合层,其中所述第一单点卷积层和深度卷积层采用BatchNorm操作和非线性ReLU6激活函数,所述第二单点卷积层采用BatchNorm操作而不采用非线性ReLU6激活函数;
所述第一单点卷积层用于将第一低维度特征表示扩展到第一高维度特征表示,所述深度卷积层用于基于深度可分离卷积运算对所述第一高维度特征表示进行特征提取,得到第二高维度特征表示;所述第二单点卷积层用于将第二高维度特征表示进行压缩,得到第二低维度特征表示;所述融合层用于采用跳层连接操作将输入的第一低维度特征表示和经过第一单点卷积层、深度卷积层与第二单点卷积层处理后的第二低维度特征表示进行融合,生成新的特征映射图。
可选地,所述目标检测网络将YOLOv5s主干网络中的第四CBH模块替换为MBH模块。
可选地,所述目标检测网络通过预设的损失函数训练得到;
所述损失函数由分类损失函数、边框回归损失函数和置信度损失函数组成。
可选地,所述目标检测网络通过预设的损失函数训练得到;
所述损失函数由梯度均衡机制损失函数、排斥力损失函数和置信度损失函数组成
一种目标检测装置,所述装置包括:
获取模块,用于获取驾驶场景下摄像机所拍摄的图像;
检测模块,用于将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息;
其中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序由处理器执行时实现如上所述的目标检测方法所述的步骤。
一种终端,所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述的目标检测方法所述的步骤。
本发明实施例通过预先构建目标检测网络,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,可同时对通道以及空间的特征信息进行筛选,提高网络通道以及空间特征表达能力,使得网络能够扩大对目标特征区域的感知范围;以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算,可有效减少参数量,提升检测速度。在进行目标检测时,通过获取驾驶场景下摄像机所拍摄的图像;将所述图像输入至已训练好的目标检测网络,由所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息,从而有效地提高了对驾驶场景图像的目标检测精度和速度,且符合驾驶场景下前端轻量化的应用需求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中目标检测方法的流程图;
图2是本发明一实施例中目标检测网络的结构示意图;
图3是本发明一实施例中瓶颈注意力机制模块的结构示意图;
图4是本发明一实施例中CBH模块的结构示意图;
图5是本发明一实施例中BAM-CSP1_x网络模块的结构示意图;
图6是本发明一实施例中MBH模块的结构示意图;
图7是本发明一实施例中基于深度可分离卷积运算的倒置残差模块的结构示意图;
图8是本发明一实施例中目标检测装置的一原理框图;
图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种目标检测方法。所述目标检测方法应用于比如辅助驾驶***中,使辅助驾驶***及早、准确地检测到人与车等目标,结合其它的技术可以提醒驾驶员在紧急情况下及时采用刹车、转向等操作,避免发生碰撞,保障行车的安全和交通秩序。以下对本实施例提供的目标检测方法进行详细的描述,如图1所示,所述目标检测方法包括:
在步骤S101中,获取驾驶场景下摄像机所拍摄的图像。
在这里,本发明实施例是对驾驶场景下摄像机所拍摄的图像进行目标检测,包括机动车检测、非机动车检测以及行人检测,以及得到目标所在位置。
在步骤S102中,将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息。
本发明实施例以提高驾驶场景下摄像机所拍摄图像中的目标检测的精确率为目标,设计一个深度神经网络模型,即上述的目标检测网络,以在提高目标检测精确率的同时实现模型的轻量化。
如图2所示,所述目标检测网络包括输入层Input、主干网络Backbone、颈部结构Neck和输出层Output四个部分组成。其中,输入层Input是对所输入的图像进行预处理,所述预处理包括但不限于增强、自适应缩放、自适应锚框;主干网络Backbone用于聚合不同图像细粒度并形成特征映射图,以及将特征映射图输出至颈部结构Neck中;颈部结构Neck用于从不同的主干层对不同的检测层进行特征融合,加强网络特征融合的能力;输出层Output用于生成边界框和预测目标的类别。
在本发明的一个实施例中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块。本发明实施例通过将瓶颈注意力机模块制嵌入YOLOv5算法,在特征提取网络中加入通道注意力及空间注意力机制,通过注意力机制模块同时对通道以及空间的特征信息进行筛选,提高了网络通道以及空间特征表达能力,使得网络能够扩大对目标特征区域的感知范围。
在这里,瓶颈注意力机制模块(Bottleneck Attention Module,简称BAM)是一种 混合注意力机制模型,可以嵌入到前向传播卷积神经网络中,包括通道注意力机制和空间 注意力机制两个分支网络。如图3所示,为本发明实施例提供的瓶颈注意力机制模块的结构 示意图。设有特征映射图
Figure DEST_PATH_IMAGE001
,分别经过BAM模块的通道注意力机制(Channel Attention)和 空间注意力机制(Spatial Attention)两个单独的分支网络结构进行处理后得到特征映射 图
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
,两者融合后得到特征映射图为
Figure DEST_PATH_IMAGE004
,并通过逐点相乘抑制不重要 的特征,突出重点特征之后,再与输入的特征映射图
Figure 9182DEST_PATH_IMAGE001
相加,得到所提炼的特征映射图
Figure DEST_PATH_IMAGE005
在现有的YOLOv5s的网络结构中,将由卷积运算Conv2d、归一化处理BatchNorm以及HardSwish激活函数组成的模块称为CBH模块,如图4所示,为本发明实施例提供的CBH模块的结构示意图;BottleneckCSP1_x由CBH模块和X个残差结构Res unit模块组成;BottleneckCSP2_x与BottleneckCSP1_x结构相似,不同之处在于N个Bottleneck换成了N个CBH模块;空间金字塔池化结构(Spatial Pyramid Pooling,简称SPP)采用1×1、5×5、9×9、13×13的最大池化的方式,进行多尺度融合。为了提升网络的特征表达能力,本发明实施例将瓶颈注意力机制模块嵌入到YOLOv5s主干网络的BottleneckCSP1_x层之中,形成由CBH模块与BAM模块组成的重复单元,得到基于瓶颈注意力机制模块的跨阶段局部网络,这里记为BAM-CSP1_x网络模块。如图5所示,为本发明实施例提供的BAM-CSP1_x网络模块的结构示意图。将特征映射图传入BAM-CSP1_x网络模块,通过其中的通道注意力机制和空间注意力机制,在YOLOv5s的底层尽可能消除其它因素的影响,使得网络重点关注有效的特征信息,抑制不重要的特征信息,更加专注于驾驶场景下目标特征的提取,有利于提高检测精度。
在本发明的另一个实施例中,本发明实施例还在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算。具体将YOLOv5s主干网络中的指定CBH模块替换为MBH模块。其中,所述MBH模块通过将CBH模块中的卷积运算Conv2d替换为基于深度可分离卷积运算的倒置残差(这里记为Mod模块)模块得到。作为本发明的一个优选示例,如图6所示,所述MBH模块由基于深度可分离卷积运算的倒置残差模块、归一化处理以及激活函数组成,所述归一化处理为BatchNorm2d,所述激活函数为HardSwish。特征映射图通过基于深度可分离卷积运算的倒置残差模块后,分别经过归一化BatchNorm2d和HardSwish激活函数操作。
如图7所示,所述基于深度可分离卷积运算的倒置残差模块包括第一单点卷积层、深度卷积层、第二单点卷积层和融合层,其中所述第一单点卷积层和深度卷积层采用BatchNorm操作和非线性ReLU6激活函数,所述第二单点卷积层采用BatchNorm操作而不采用非线性ReLU6激活函数;
所述第一单点卷积层用于将第一低维度特征表示扩展到第一高维度特征表示,所述深度卷积层用于基于深度可分离卷积运算对所述第一高维度特征表示进行特征提取,得到第二高维度特征表示;所述第二单点卷积层用于将第二高维度特征表示进行压缩,得到第二低维度特征表示;所述融合层用于采用跳层连接操作将输入的第一低维度特征表示和经过第一单点卷积层、深度卷积层与第二单点卷积层处理后的第二低维度特征表示进行融合,生成新的特征映射图。
在这里,深度可分离卷积使用3×3的深度卷积(Depthwise Convolution)以及1×1的单点卷积(Pointwise Convolution)拆分特征的空间维度和通道维度的相关性,可有效减少模型的计算量。由于深度可分离卷积不仅可以有效压缩卷积核计算量,还会压缩卷积核的探索空间,压缩卷积的特征空间探索能力后,特征表达能力会有所减弱。鉴于此,本发明实施例采用一个基于深度可分离卷积运算的倒置残差模型,通过在深度卷积前面添加一个1×1的卷积将低维度特征表示扩展到高维度特征表示,再使用深度可分离卷积运算进行特征提取,然后将模型压缩到低维度空间当中。在所述基于深度可分离卷积运算的倒置残差模型中,第一单点卷积层和深度卷积层之后使用BatchNorm操作和非线性ReLU6函数。在通道数量较多的情况下,特征会进入部分低维度的空间当中。虽然使用ReLU6函数可以保持较好的特征提取能力,但是当特征从高维度转换到低维度之后,ReLU6函数反而会降低网络的特征提取能力,因此在最后的第二单点卷积层操作中不使用ReLU6函数。最后,通过使用短连接操作将原始的特征映射图与深度可分离卷积的特征映射图进行融合,生成新的特征映射图。应当理解,所述第一低维度特征表示和第一高维度特征表示是相对而言的,第二高维度特征表示和第二低维度特征表示也是相对而言的。
作为本发明的一个优选示例,在所述目标检测网络中,具体可以将YOLOv5s主干网络中的第四CBH模块替换为MBH模块。本发明实施例通过采用网络参数规模较少、推理速度非常快的YOLOv5算法作为基础框架,并将主干网络中计算量比较大的卷积层替换为深度可分离卷积(Depthwise Separable Convolution),有效地减少了参数量,提升了目标检测速度,同时可得到较好的检测效果。
对构建好的所述目标检测网络,本发明实施例使用adam优化方法,采用预设的损失函数以端对端的方式进行训练。可选地,训练的图像大小为640*640,设置batch-size大小为16,epoch大小为300。
在本发明的一个实施例中,所述目标检测网络中YOLOv5s网络的损失函数LOSS由 分类损失函数
Figure DEST_PATH_IMAGE006
、边框回归(Bounding box)损失函数
Figure DEST_PATH_IMAGE007
和置信度损失函数
Figure DEST_PATH_IMAGE008
组 成,如式(1)所示。
Figure DEST_PATH_IMAGE009
(1)
通常分类损失函数
Figure DEST_PATH_IMAGE010
采用的是BCE(Binary Cross Entropy,二元交叉熵)损失函 数。针对驾驶场景下的目标检测正负样本不均衡问题,本发明实施例将分类损失函数
Figure DEST_PATH_IMAGE011
替换为梯度均衡机制损失函数(Gradient Harmonizing Mechanism Loss,简称GHM Loss)。 在梯度均衡机制损失函数中,对于一个候选框,设
Figure DEST_PATH_IMAGE012
是模型预测的概率,
Figure DEST_PATH_IMAGE013
是某一类别的真实标签,计算二元交叉熵损失,如式(2)所示。
Figure DEST_PATH_IMAGE014
(2)
在处理梯度范数的不均衡的问题,采用梯度密度
Figure DEST_PATH_IMAGE015
函数。如式(3)所示。
Figure DEST_PATH_IMAGE016
(3)
式(3)中,
Figure DEST_PATH_IMAGE017
是样本1至N中,梯度模长分布在
Figure DEST_PATH_IMAGE018
范围内 的样本个数,
Figure DEST_PATH_IMAGE019
表示
Figure DEST_PATH_IMAGE020
的区间长度。
可得用于分类的梯度均衡机制损失
Figure DEST_PATH_IMAGE021
,如式(4)所示。
Figure DEST_PATH_IMAGE022
(4)
本发明实施例针对驾驶场景下的目标检测正负样本不均衡问题,将分类损失函数
Figure DEST_PATH_IMAGE023
替换为梯度均衡机制损失函数GHM Loss,候选样本中的简单负样本和非常困难的异常 样本的权重都会被降低,而正常困难样本的权重得到提升,使得模型会更加专注于那些有 效的正常困难样本,有效地提升了模型的性能。
针对部分遮挡目标的情况,本发明实施例还可将边框回归损失函数
Figure DEST_PATH_IMAGE024
替换为排 斥力损失函数(Repulsion Loss)。此时,所述目标检测网络的损失函数由梯度均衡机制损 失函数、排斥力损失函数和置信度损失函数组成。其中,排斥力损失函数可以缩小目标检测 中的预测框和目标框的距离,加大其与周围目标框或预测框的距离。排斥力损失函数由三 部分组成:第一部分为预测框与目标框所产生的损失值;第二部分为预测框与周围目标框 所产生的损失值;第三部分为预测框与周围不是预测同一目标的预测框所产生的损失值。 通过
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
两个关系系数来调整第二和第三个损失值。如果与周围目标的距离越大,损 失值会越小。排斥力损失函数的表达式如式(5)所示:
Figure DEST_PATH_IMAGE027
(5)
式(5)右侧第一个分式是一个回归模型的损失函数。其中,
Figure DEST_PATH_IMAGE028
表示正样本集合,
Figure DEST_PATH_IMAGE029
是proposal回归的预测框,
Figure DEST_PATH_IMAGE030
则是与proposal
Figure DEST_PATH_IMAGE031
的交并比(Intersection over Union,简称IoU) 值最大的真实目标框,
Figure DEST_PATH_IMAGE032
函数用于度量
Figure DEST_PATH_IMAGE033
Figure DEST_PATH_IMAGE034
的距离;第二 个分式中,
Figure DEST_PATH_IMAGE035
是除了与
Figure DEST_PATH_IMAGE036
所对应的真实框,与IoU值最大的真实框,
Figure DEST_PATH_IMAGE037
表 示
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
重叠区域在
Figure DEST_PATH_IMAGE040
区域上的占比,
Figure DEST_PATH_IMAGE041
函数用于度量预测框与周围目 标的真实框的距离;第三个分式中,将
Figure DEST_PATH_IMAGE042
分为不同的子集,
Figure DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
表示不同目标的预测框,
Figure DEST_PATH_IMAGE046
函数用于度量预测框与在周围目标的预测框的 距离,使得不同子集的proposal P的重叠区域尽可能的小。从第三个分式的分母部分可见, 只有预测框有重叠区域才计入损失值,如果完全不相邻,则不计入。第三个分式的损失可以 降低不同回归目标的边界框合并为一的概率,使得本实施例在交通道路目标存在部分遮挡 的情况下更加鲁棒,有效地提高了检测的效果。
对于所述目标检测网络,本发明实施例采用精确率(Precision)、召回率(Recall)、平均精度均值(mean Average Precision,简称mAP)和检测速度(Frames PerSecond,简称FPS)作为评价指标,具体计算和说明为:
1、Precision表示被分为正例的示例中实际为正例的比例,用字母
Figure 595497DEST_PATH_IMAGE042
表示,如式 (6)所示:
Figure DEST_PATH_IMAGE047
(6)
其中,TP+FP是预测的图片中是正类的图片的数目,TP是正类被预测为正类的图片的个数。
2、Recall表示是实际正类中有多少个被分为了正类,用字母
Figure DEST_PATH_IMAGE048
表示,是对检测结 果覆盖面的衡量,如式(7)所示:
Figure DEST_PATH_IMAGE049
(7)
3、mAP为数据集中所有类别的平均精度的均值,AP为某个类别的平均精确度,对于 第
Figure DEST_PATH_IMAGE050
个类别,选取不同的IoU阀值,平均精确度的计算公式为:
Figure DEST_PATH_IMAGE051
(8)
其几何意义是精确度和召回率所形成的曲线与水平轴围成的面积,可得类别数为
Figure DEST_PATH_IMAGE052
的均值平均精度的计算公式为:
Figure DEST_PATH_IMAGE053
(9)
4、FPS为每秒检测图像帧数,该指标不仅仅与算法模型的计算量相关,还与实验过程中的硬件性能相关。一般地,如检测速度不小于25fps,可认为该算法模型满足实时性要求。
本发明实施例基于深度神经网络,提出针对驾驶场景中拍摄图像中目标检测的轻量化方法,以YOLOv5s为基础,进行了一系列的改进和优化,相比现有的SE+YOLOv3网络结构,在驾驶场景下的摄像机拍摄的图像数据集上,测试环境为GTX1080时的精确率有较大的提升,且预测框更加逼近真实目标框。本发明实施例中模型的大小相比原SE+YOLOv3网络结构有大幅降低,提高了检测精确度,符合驾驶场景下前端轻量化的应用需求。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,本发明还提供一种目标检测装置,该目标检测装置与上述实施例中目标检测方法一一对应。如图8所示,该目标检测装置包括获取模块81、检测模块82。各功能模块详细说明如下:
获取模块81,用于获取驾驶场景下摄像机所拍摄的图像;
检测模块82,用于将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息;
其中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算。
可选地,所述目标检测网络在YOLOv5s主干网络的BottleneckCSP1_x层之中嵌入瓶颈注意力机制模块,得到基于瓶颈注意力机制模块的跨阶段局部网络。
可选地,所述目标检测网络将YOLOv5s主干网络中的指定CBH模块替换为MBH模块,所述CBH模块由卷积运算、归一化处理以及激活函数组成,所述MBH模块由基于深度可分离卷积运算的倒置残差模块、归一化处理以及激活函数组成。
可选地,所述基于深度可分离卷积运算的倒置残差模块包括第一单点卷积层、深度卷积层、第二单点卷积层和融合层,其中所述第一单点卷积层和深度卷积层采用BatchNorm操作和非线性ReLU6激活函数,所述第二单点卷积层采用BatchNorm操作而不采用非线性ReLU6激活函数;
所述第一单点卷积层用于将第一低维度特征表示扩展到第一高维度特征表示,所述深度卷积层用于基于深度可分离卷积运算对所述第一高维度特征表示进行特征提取,得到第二高维度特征表示;所述第二单点卷积层用于将第二高维度特征表示进行压缩,得到第二低维度特征表示;所述融合层用于采用跳层连接操作将输入的第一低维度特征表示和经过第一单点卷积层、深度卷积层与第二单点卷积层处理后的第二低维度特征表示进行融合,生成新的特征映射图。
可选地,所述目标检测网络将YOLOv5s主干网络中的第四CBH模块替换为MBH模块。
可选地,所述目标检测网络通过预设的损失函数训练得到;
所述损失函数由分类损失函数、边框回归损失函数和置信度损失函数组成。
可选地,所述目标检测网络通过预设的损失函数训练得到;
所述损失函数由梯度均衡机制损失函数、排斥力损失函数和置信度损失函数组成。
关于目标检测装置的具体限定可以参见上文中对于目标检测方法的限定,在此不再赘述。上述目标检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标检测方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取驾驶场景下摄像机所拍摄的图像;
将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息;
其中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (7)

1.一种目标检测方法,其特征在于,包括:
获取驾驶场景下摄像机所拍摄的图像;
将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息;
其中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算;
在所述瓶颈注意力机制模块中,特征映射图
Figure 146876DEST_PATH_IMAGE001
,分别经过瓶颈注意力机制模块的通道 注意力机制和空间注意力机制两个单独的分支网络结构进行处理后得到特征映射图
Figure 814618DEST_PATH_IMAGE002
Figure 217917DEST_PATH_IMAGE003
,两者融合后得到特征映射图为
Figure 680122DEST_PATH_IMAGE004
,并通过逐点相乘抑制不重要的 特征,突出重点特征之后,再与输入的特征映射图
Figure 903293DEST_PATH_IMAGE005
相加,得到所提炼的特征映射图
Figure 109147DEST_PATH_IMAGE006
所述目标检测网络在YOLOv5s主干网络的BottleneckCSP1_x层之中嵌入瓶颈注意力机制模块,形成由CBH模块与瓶颈注意力机制模块组成的重复单元,得到基于瓶颈注意力机制模块的跨阶段局部网络;
所述目标检测网络将YOLOv5s主干网络中的第四个CBH模块替换为MBH模块,所述CBH模块由卷积运算、归一化处理以及激活函数组成,所述MBH模块由基于深度可分离卷积运算的倒置残差模块、归一化处理以及激活函数组成。
2.如权利要求1所述的目标检测方法,其特征在于,所述基于深度可分离卷积运算的倒置残差模块包括第一单点卷积层、深度卷积层、第二单点卷积层和融合层,其中所述第一单点卷积层和深度卷积层采用BatchNorm操作和非线性ReLU6激活函数,所述第二单点卷积层采用BatchNorm操作而不采用非线性ReLU6激活函数;
所述第一单点卷积层用于将第一低维度特征表示扩展到第一高维度特征表示,所述深度卷积层用于基于深度可分离卷积运算对所述第一高维度特征表示进行特征提取,得到第二高维度特征表示;所述第二单点卷积层用于将第二高维度特征表示进行压缩,得到第二低维度特征表示;所述融合层用于采用跳层连接操作将输入的第一低维度特征表示和经过第一单点卷积层、深度卷积层与第二单点卷积层处理后的第二低维度特征表示进行融合,生成新的特征映射图。
3.如权利要求1至2任一项所述的目标检测方法,其特征在于,所述目标检测网络通过预设的损失函数训练得到;
所述损失函数由分类损失函数、边框回归损失函数和置信度损失函数组成。
4.如权利要求1至2任一项所述的目标检测方法,其特征在于,所述目标检测网络通过预设的损失函数训练得到;
所述损失函数由梯度均衡机制损失函数、排斥力损失函数和置信度损失函数组成。
5.一种目标检测装置,其特征在于,所述装置包括:
获取模块,用于获取驾驶场景下摄像机所拍摄的图像;
检测模块,用于将所述图像输入至已训练好的目标检测网络,通过所述目标检测网络对所述图像进行判断和预测,得到目标分类和位置信息;
其中,所述目标检测网络采用轻量化的YOLOv5s网络结构作为基础框架,在YOLOv5s主干网络的跨阶段局部网络中嵌入瓶颈注意力机制模块,以及在YOLOv5s主干网络的指定卷积层中采用深度可分离卷积运算;
在所述瓶颈注意力机制模块中,特征映射图
Figure 366953DEST_PATH_IMAGE007
,分别经过瓶颈注意力机制模块的通道 注意力机制和空间注意力机制两个单独的分支网络结构进行处理后得到特征映射图
Figure 265639DEST_PATH_IMAGE008
Figure 976106DEST_PATH_IMAGE009
,两者融合后得到特征映射图为
Figure 985650DEST_PATH_IMAGE010
,并通过逐点相乘抑制不重要的特 征,突出重点特征之后,再与输入的特征映射图相
Figure 97963DEST_PATH_IMAGE011
加,得到所提炼的特征映射图
Figure 167550DEST_PATH_IMAGE012
所述目标检测网络在YOLOv5s主干网络的BottleneckCSP1_x层之中嵌入瓶颈注意力机制模块,形成由CBH模块与瓶颈注意力机制模块组成的重复单元,得到基于瓶颈注意力机制模块的跨阶段局部网络;
所述目标检测网络将YOLOv5s主干网络中的第四个CBH模块替换为MBH模块,所述CBH模块由卷积运算、归一化处理以及激活函数组成,所述MBH模块由基于深度可分离卷积运算的倒置残差模块、归一化处理以及激活函数组成。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序由处理器执行时实现如权利要求1至4任一项所述的目标检测方法的步骤。
7.一种终端,所述终端包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的目标检测方法的步骤。
CN202110310610.1A 2021-03-24 2021-03-24 目标检测方法、装置、存储介质及终端 Active CN112699859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110310610.1A CN112699859B (zh) 2021-03-24 2021-03-24 目标检测方法、装置、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110310610.1A CN112699859B (zh) 2021-03-24 2021-03-24 目标检测方法、装置、存储介质及终端

Publications (2)

Publication Number Publication Date
CN112699859A CN112699859A (zh) 2021-04-23
CN112699859B true CN112699859B (zh) 2021-07-16

Family

ID=75515587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110310610.1A Active CN112699859B (zh) 2021-03-24 2021-03-24 目标检测方法、装置、存储介质及终端

Country Status (1)

Country Link
CN (1) CN112699859B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160062B (zh) * 2021-05-25 2023-06-06 烟台艾睿光电科技有限公司 一种红外图像目标检测方法、装置、设备及存储介质
CN113469050B (zh) * 2021-07-01 2024-06-14 安徽大学 基于图像细分类的火焰检测方法
CN113469087B (zh) * 2021-07-09 2023-05-16 上海智臻智能网络科技股份有限公司 建筑图纸中的图框检测方法、装置、设备及介质
CN113705604A (zh) * 2021-07-15 2021-11-26 中国科学院信息工程研究所 僵尸网络流量分类检测方法、装置、电子设备及存储介质
CN113449691A (zh) * 2021-07-21 2021-09-28 天津理工大学 一种基于非局部注意力机制的人形识别***及方法
CN113569702B (zh) * 2021-07-23 2023-10-27 闽江学院 基于深度学习的货车单双胎识别方法
CN113887615A (zh) * 2021-09-29 2022-01-04 北京百度网讯科技有限公司 图像处理方法、装置、设备和介质
CN113887706B (zh) * 2021-09-30 2024-02-06 苏州浪潮智能科技有限公司 一种针对一阶段目标检测网络的低比特量化的方法和装置
CN113963167B (zh) * 2021-10-29 2022-05-27 北京百度网讯科技有限公司 应用于目标检测的方法、装置及计算机程序产品
CN114549970B (zh) * 2022-01-13 2024-06-07 山东师范大学 融合全局细粒度信息的夜间小目标果实检测方法及***
CN114529825B (zh) * 2022-04-24 2022-07-22 城云科技(中国)有限公司 用于消防通道占用目标检测的目标检测模型、方法及应用
CN115223130B (zh) * 2022-09-20 2023-02-03 南京理工大学 基于改进YOLOv5的多任务全景驾驶感知方法与***
CN115578624A (zh) * 2022-10-28 2023-01-06 北京市农林科学院 农业病虫害模型构建方法、检测方法及装置
CN116468730B (zh) * 2023-06-20 2023-09-05 齐鲁工业大学(山东省科学院) 基于YOLOv5算法的航拍绝缘子图像缺陷检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852222A (zh) * 2019-10-31 2020-02-28 上海交通大学 一种基于目标检测的校园走廊场景智能监控方法
CN112233090A (zh) * 2020-10-15 2021-01-15 浙江工商大学 基于改进注意力机制的薄膜瑕疵检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110633610B (zh) * 2019-05-17 2022-03-25 西南交通大学 一种基于yolo的学员状态检测方法
CN112307921B (zh) * 2020-10-22 2022-05-17 桂林电子科技大学 一种车载端多目标识别跟踪预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110852222A (zh) * 2019-10-31 2020-02-28 上海交通大学 一种基于目标检测的校园走廊场景智能监控方法
CN112233090A (zh) * 2020-10-15 2021-01-15 浙江工商大学 基于改进注意力机制的薄膜瑕疵检测方法

Also Published As

Publication number Publication date
CN112699859A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112699859B (zh) 目标检测方法、装置、存储介质及终端
CN111738037B (zh) 一种自动驾驶方法及其***、车辆
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN112528961B (zh) 一种基于Jetson Nano的视频分析方法
CN111611947A (zh) 一种车牌检测方法、装置、设备及介质
CN111242015A (zh) 一种基于运动轮廓语义图预测行车危险场景的方法
CN110533046B (zh) 一种图像实例分割方法、装置、计算机可读存储介质及电子设备
CN111160481B (zh) 基于深度学习的adas目标检测方法及***
CN113628211B (zh) 参数预测推荐方法、设备及计算机可读存储介质
CN116783620A (zh) 根据点云的高效三维对象检测
CN115049821A (zh) 一种基于多传感器融合的三维环境目标检测方法
CN115744084A (zh) 基于多传感器数据融合的皮带张紧控制***及其方法
CN116597411A (zh) 极端天气下无人驾驶车辆识别交通标志的方法及***
Aditya et al. Collision detection: An improved deep learning approach using SENet and ResNext
CN112462759B (zh) 规控算法的评估方法、***及计算机存储介质
CN111435457B (zh) 对传感器获取的采集进行分类的方法
CN110852272B (zh) 行人检测方法
CN111652350B (zh) 神经网络可视化解释方法及弱监督定位物体方法
JP2018124963A (ja) 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
CN112465037B (zh) 目标检测方法、装置、计算机设备及存储介质
WO2018143278A1 (ja) 画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラム
CN115880654A (zh) 车辆变道的风险评估方法、装置、计算机设备和存储介质
CN114241398A (zh) 基于人工智能的车辆定损方法、装置、设备及存储介质
CN112347962A (zh) 一种基于感受野的卷积神经网络目标检测***与方法
EP3654246A1 (en) Method, vehicle, system, and storage medium for indicating anomalous vehicle scenario using encoder network and replay buffer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant