CN112733749B - 融合注意力机制的实时行人检测方法 - Google Patents

融合注意力机制的实时行人检测方法 Download PDF

Info

Publication number
CN112733749B
CN112733749B CN202110049426.6A CN202110049426A CN112733749B CN 112733749 B CN112733749 B CN 112733749B CN 202110049426 A CN202110049426 A CN 202110049426A CN 112733749 B CN112733749 B CN 112733749B
Authority
CN
China
Prior art keywords
network
detection
attention
channel
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110049426.6A
Other languages
English (en)
Other versions
CN112733749A (zh
Inventor
冯宇平
管玉宇
刘宁
杨旭睿
赵文仓
王明甲
刘雪峰
秦浩华
王兆辉
赵德钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University of Science and Technology
Original Assignee
Qingdao University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University of Science and Technology filed Critical Qingdao University of Science and Technology
Priority to CN202110049426.6A priority Critical patent/CN112733749B/zh
Publication of CN112733749A publication Critical patent/CN112733749A/zh
Application granted granted Critical
Publication of CN112733749B publication Critical patent/CN112733749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种融合注意力机制的实时行人检测方法,属于目标检测领域。本发明为了提高Tiny YOLOV3目标检测算法在行人检测任务中的准确率,对该算法进行研究改进。本发明首先对Tiny YOLOV3的特征提取网络进行深化,增强网络特征提取能力;然后在预测网络的两个检测尺度分别加入通道域注意力机制,对特征图的不同通道赋予不同的权重,引导网络更多关注行人的可视区域;最后,改进激活函数和损失函数并采用K‑means聚类算法重新选择初始候选框。本发明提高了行人的检测精度,保持了较快的检测速度,满足实时性运行需求。

Description

融合注意力机制的实时行人检测方法
技术领域
本发明涉及一种融合注意力机制的实时行人检测方法,属于目标检测技术领域。
背景技术
随着科学技术的发展,行人检测在日常生活和工业生产中的应用越来越广泛。由于含有行人的图像背景复杂,以及受姿态、穿着和遮挡问题的影响,大大增加了行人检测的难度,而在实际的行人检测***中,不仅要求较高的准确性,还要求较高的实时性,因此对行人检测的研究具有非常重要的现实意义。
传统的行人检测算法通常采用人工特征提取和分类的方法。例如,期刊《一种融合局部特征行人检测模型》,该方法为不同的身体部位训练具有Haar特征的Adaboost分类器,并采用支持向量机检测行人。期刊《改进特征与GPU加速的行人检测》采用SILTP纹理特征和梯度方向直方图提取人体不同部位的特征,并通过GPU加速实现行人检测。而随着计算机算力的提升,基于卷积神经网络的目标检测算法被陆续提出。目前常用的方法有双阶段检测算法R-CNN系列和一阶段检测算法SSD、YOLO系列。双阶段检测算法利用选择搜索或区域候选网络生成候选区域,再进一步对目标的种类和位置进行预测,提高了目标检测的精度。然而,由于候选区域生成和检测网络分开进行,难以实现实时目标检测。一阶段检测算法直接对目标的种类和位置进行回归,具有较快的检测速度。目前有诸多学者对行人检测展开研究。例如,文献“Learning efficient single-stage pedestrian detectors byasymptotic localization fitting”提出了一种渐进定位拟合模块,利用多个尺度实现行人的渐进定位,提高了检测精度。文献“Dense connection and spatial pyramid poolingbased YOLO for object detection”在YOLOV2的基础上改进特征提取网络,提出了一种基于密集连接和空间金字塔池化结构的YOLO目标检测算法,平衡了检测精度和速度。文献“Pedestrian object detection with fusion of visual attention mechanism andsemantic computation”利用视觉注意力机制和拉普拉斯金字塔融合的方法确定行人显著图,在INRIA数据集上取得了92.78%检测精度。以上方法有效提高了行人检测效果,但并不适合实际场景,对于一些实时性要求较高的场景而言,不仅要求较高的检测精度,还要求较快的检测速度。
YOLOV3算法利用特征金字塔(Feature Pyramid Network,FPN)和残差网络的结构设计有效提高了检测的精度。但该算法网络结构复杂,模型体积较大,难以在嵌入式设备上达到实时性要求。Tiny YOLOV3是YOLOV3的简化版本,网络结构简单,模型体积小,检测速度较快,但是检测精度较低;同时,Tiny YOLOV3利用FPN的结构设计对两个检测尺度的特征图进行融合,但这种方式仅仅是将不同通道的特征进行串联,不能反映出特征图通道之间的重要程度。针对以上问题,本发明对Tiny YOLOV3算法进行优化改进。首先,采用3×3卷积对主干网络进行加深,增强网络的特征提取能力;接着,采用1×1卷积对特征图进行降维,降低模型参数量,并实现跨通道的信息交互;然后,在两个预测网络引入轻量级的通道域注意力机制,利用注意力机制融合不同尺度的信息,对特征图的不同通道赋予不同的权重,引导网络关注行人区域;最后,优化边界框回归损失函数和激活函数并采用K-means聚类算法,重新选择初始候选框。实验结果表明,改进后的Tiny YOLOV3具有更高的行人检测精度,并取得了较快的检测速度,模型参数少,体积小,适合实时和嵌入式应用。
发明内容
针对现有技术存在的上述缺陷,本发明提出了一种融合注意力机制的实时行人检测方法,通过对Tiny YOLOV3算法进行优化改进:首先,采用3×3卷积对主干网络进行加深,增强网络的特征提取能力;接着,采用1×1卷积对特征图进行降维,降低模型参数量,并实现跨通道的信息交互;然后,在两个预测网络引入轻量级的通道域注意力机制,利用注意力机制融合不同尺度的信息,对特征图的不同通道赋予不同的权重,引导网络关注行人区域;最后,优化边界框回归损失函数和激活函数并采用K-means聚类算法,重新选择初始候选框。实验结果表明,改进后的Tiny YOLOV3具有更高的行人检测精度,并取得了较快的检测速度,模型参数少,体积小,适合实时和嵌入式应用。
本发明所述的融合注意力机制的实时行人检测方法,包括如下步骤:
S1:选取Tiny YOLOV3算法,包括如下小步:
S11:先将图像划分成S×S个网格,每个网格预测B个边界框及置信度和C个类别概率,置信度公式为:
Figure GDA0003527785970000021
其中,P(object)为网格中目标存在概率,
Figure GDA0003527785970000022
为预测框和真实框的交并比;
S12:Tiny YOLOV3的特征提取网络为7层卷积和6层最大池化,同时简化YOLOV3的多尺度检测,采用26×26和13×13两种检测尺度对特征图进行预测输出;
S2:加深特征提取网络,包括如下小步:
S21:首先通过3×3卷积将通道数扩张到上一层的2倍,提取高维特征;
S22:然后通过1×1卷积,将通道数压缩为原来的2倍,降低通道维度,减少计算量同时实现信息的跨通道交互;
S23:最后再通过3×3卷积扩张通道,恢复原来的通道维度;
S3:融合通道注意力的预测网络:将注意力机制引入到Tiny YOLOV3的预测网络,利用注意力机制融合不同尺度的信息,对特征通道赋予不同的权重,引导网络关注行人特征,降低干扰信息的影响从而提高检测精度,包括如下小步:
S31:引入了无降维的轻量级通道域注意力机制ECA-Net,输入特征图X∈RH×W×c,X有C个特征通道;
S32:通过全局平均池化对全局空间信息进行压缩,即在空间维度H×W上进行压缩,得到1×1的权重信息,全局平均池化公式如下:
Figure GDA0003527785970000031
其中,Y为压缩之后得到的权重,H×W为空间维度信息;
S33:为了使网络自动学习不同通道的注意力权重,使用一维卷积来完成跨通道的信息交互,一维卷积核的大小由通道维数C的函数来自适应确定,计算一维卷积核大小的公式为:
Figure GDA0003527785970000032
S34:将得到的卷积核用于一维卷积,并使用Sigmoid得到每个通道的权重,公式如下:
ωc=σ(C1DK(Y)) (4)
其中,σ是Sigmoid激活函数,ωc是生成的通道注意力权重,维度为1×1×C;
S35:然后将注意力权重与输入特征图进行加权,实现对特征图通道的重要性表达,加权公式如下:
Figure GDA0003527785970000033
其中,
Figure GDA0003527785970000034
表示逐元素相乘,Xc表示通过注意力机制的输出结果;
S4:改进损失函数和激活函数,包括如下小步:
S41:在训练过程中,Tiny YOLOV3的损失函数可分为三部分,分别为边界框回归损失、置信度损失和分类损失,总的Loss可用公式(6)表示:
Figure GDA0003527785970000035
其中,i表示尺度;
S42:采用广义交并比GIOU作为回归损失,IOU和GIOU的定义如下:
Figure GDA0003527785970000041
Figure GDA0003527785970000042
其中,B表示预测框,Bgt表示真实框,C1表示包含真实框和预测框的最小封闭面;
S43:激活函数是卷积神经网络的重要单元,使网络引入非线性因素,使模型不再单一,有利于网络更好的学习,改进后的特征提取网络采用Mish激活函数。
优选地,所述步骤S1中,YOLO系列算法是基于卷积神经网络的一阶段目标检测算法,Tiny YOLOV3是在YOLOV3基础上的简化版本。
优选地,所述步骤S2中,Tiny YOLOV3的特征提取网络较浅,难以提取深层的特征,在行人目标检测上精度较低;在计算量过大的情况下,借鉴密集连接网络的思想,在增加的3×3卷积层之前,引入卷积核大小为1×1的卷积层,降低通道维度,以减少网络的计算量。
优选地,所述步骤S3中,在实际的行人检测场景中,背景信息的干扰和遮挡情况的存在,影响网络对行人特征的提取,进而影响行人检测精度;Tiny YOLOV3的预测网络对两个尺度的特征图进行融合,这种融合方式仅仅在通道维度上对特征进行串联,不能反映出行人特征在某些通道上的重要程度。
优选地,所述步骤S32中,卷积神经网络只能学习局部感受野,不能利用区域以外的上下文信息。
优选地,所述步骤S12中,两个检测尺度输出的特征图尺寸分别为13×13和26×26,即输入图像被划分为13×13和26×26的网格,分别检测远距离和近距离的行人,每个网格与通道一一对应。
优选地,所述步骤S12中,每个网格预先设置3个预选框,在训练时不断调整,选择出最优的预选框作为输出结果;不同的通道代表每个网格的输出参数,以13×13的特征图为例,每个通道的参数包含预测框的中心坐标(bx,by)、预测框的长宽(bw,bh)、预测框的置信度得分p0以及行人的预测得分s;每个网格包含3个预测框,每个网格包含6个参数,故输出特征图的通道维数均为18。
优选地,所述步骤S12中,在输出13×13特征图的预测网络加入ECA注意力模块,将通过注意力模块后的特征图进行上采样与26×26特征图相串联,输出384维通道的特征图,再通过ECA注意力模块重新分配权重,最终的两个输出层将更多关注行人信息,有效降低了干扰信息和遮挡问题的影响。
本发明的有益效果是:本发明所述的融合注意力机制的实时行人检测方法,是为了提高Tiny YOLOV3目标检测算法在行人检测任务中的准确率,对该算法进行了研究改进;首先对Tiny YOLOV3的特征提取网络进行深化,增强网络特征提取能力;然后在预测网络的两个检测尺度分别加入通道域注意力机制,对特征图的不同通道赋予不同的权重,引导网络更多关注行人的可视区域;最后,改进激活函数和损失函数并采用K-means聚类算法重新选择初始候选框;实验结果表明,改进后Tiny YOLOV3算法的准确率在VOC2007行人子集上达到77%,较Tiny YOLOV3提高8.5%,在INRIA数据集上达到92.7%,提高2.5%,运行速度分别达到每秒92.6帧和31.2帧;本发明提高了行人的检测精度,保持了较快的检测速度,满足实时性运行需求。
附图说明
图1是Tiny YOLOV3模型结构图。
图2是Tiny YOLOV3改进模型图。
图3是ECA模型结构图。
图4是预测层结构图。
图5是LeakyRelu和Mish激活函数图。
图6(a)-图6(b)是不同数据集下的AP变化图。
图7(a)-图7(c)是Tiny YOLOV3检测结果变化图。
图8(a)-图8(c)是本发明检测结果变化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本文对Tiny YOLOV3算法进行优化改进。首先,采用3×3卷积对主干网络进行加深,增强网络的特征提取能力;接着,采用1×1卷积对特征图进行降维,降低模型参数量,并实现跨通道的信息交互;然后,在两个预测网络引入轻量级的通道域注意力机制,利用注意力机制融合不同尺度的信息,对特征图的不同通道赋予不同的权重,引导网络关注行人区域;最后,优化边界框回归损失函数和激活函数并采用K-means聚类算法,重新选择初始候选框。实验结果表明,改进后的Tiny YOLOV3具有更高的行人检测精度,并取得了较快的检测速度,模型参数少,体积小,适合实时和嵌入式应用。
S1:选取Tiny YOLOV3算法:
YOLO系列算法是基于卷积神经网络的一阶段目标检测算法。该算法先将图像划分成S×S个网格,每个网格预测B个边界框及置信度和C个类别概率,置信度公式为:
Figure GDA0003527785970000061
其中,P(object)为网格中目标存在概率,
Figure GDA0003527785970000062
为预测框和真实框的交并比。
Tiny YOLOV3是在YOLOV3基础上的简化版本。相比YOLOV3复杂的网络结构,TinyYOLOV3将特征提取网络缩减为7层卷积和6层最大池化(Maxpool),减小了模型尺寸,同时简化了YOLOV3的多尺度检测,采用26×26和13×13两种检测尺度对特征图进行预测输出,网络结构如图1所示。
S2:加深特征提取网络;
Tiny YOLOV3的特征提取网络较浅,难以提取深层的特征,在行人目标检测上精度较低。为此,本发明对特征提取网络进行加深,在原网络的基础上增加4个卷积核大小为3×3的卷积层,增强特征提取能力,提高检测精度。虽然增加卷积层能够提高行人检测的精度,但是随着卷积层的叠加,模型的参数量剧增,大大增加了计算量和内存资源的占用。
在计算量过大的情况下,本发明借鉴密集连接网络的思想,在增加的3×3卷积层之前,引入卷积核大小为1×1的卷积层,降低通道维度,以减少网络的计算量。具体来讲,首先通过3×3卷积将通道数扩张到上一层的2倍,提取高维特征;然后通过1×1卷积,将通道数压缩为原来的2倍,降低通道维度,减少计算量同时实现信息的跨通道交互;最后再通过3×3卷积扩张通道,恢复原来的通道维度。改进后的模型结构如图2所示,其中左虚线框为改进后的特征提取网络。
S3:融合通道注意力的预测网络:
在实际的行人检测场景中,背景信息的干扰和遮挡情况的存在,影响网络对行人特征的提取,进而影响行人检测精度。Tiny YOLOV3的预测网络对两个尺度的特征图进行融合,这种融合方式仅仅在通道维度上对特征进行串联(contact),不能反映出行人特征在某些通道上的重要程度。为此,本发明将注意力机制引入到Tiny YOLOV3的预测网络,利用注意力机制融合不同尺度的信息,对特征通道赋予不同的权重,引导网络关注行人特征,降低干扰信息的影响从而提高检测精度,图2中右虚线框为改进后的预测网络。为了使网络自动学习特征通道的权重,本发明引入了无降维的轻量级通道域注意力机制EfficientChannel Attention Networks(ECA-Net),如图3所示。
图3中,输入特征图X∈RH×W×CX有C个特征通道。一般来说,卷积神经网络只能学***均池化对全局空间信息进行压缩,即在空间维度H×W上进行压缩,得到1×1的权重信息,全局平均池化公式如下:
Figure GDA0003527785970000071
其中,Y为压缩之后得到的权重,H×W为空间维度信息。
为了使网络自动学习不同通道的注意力权重,使用一维卷积来完成跨通道的信息交互。一维卷积核的大小由通道维数C的函数来自适应确定,计算一维卷积核大小的公式为:
Figure GDA0003527785970000072
将得到的卷积核用于一维卷积,并使用Sigmoid得到每个通道的权重。公式如下:
ωc=σ(C1Dk(Y)) (4)
其中,σ是Sigmoid激活函数,ωc是生成的通道注意力权重,维度为1×1×C。然后将注意力权重与输入特征图进行加权,实现对特征图通道的重要性表达,加权公式如下:
Figure GDA0003527785970000073
其中,
Figure GDA0003527785970000074
表示逐元素相乘,Xc表示通过注意力机制的输出结果。
如图4所示,两个检测尺度输出的特征图尺寸分别为13×13和26×26,即输入图像被划分为13×13和26×26的网格,分别检测远距离和近距离的行人,每个网格与通道一一对应。每个网格预先设置3个预选框,在训练时不断调整,选择出最优的预选框作为输出结果。不同的通道代表每个网格的输出参数,以13×13的特征图为例,每个通道的参数包含预测框的中心坐标(bx,by)、预测框的长宽(bw,bh)、预测框的置信度得分p0以及行人的预测得分s。每个网格包含3个预测框,每个网格包含以上6个参数,故输出特征图的通道维数均为18。本发明将ECA注意力模块与Tiny YOLOV3的预测网络相结合,分别加入到两个检测尺度当中。在输出13×13特征图的预测网络加入ECA注意力模块,将通过注意力模块后的特征图进行上采样与26×26特征图相串联,输出384维通道的特征图,再通过ECA注意力模块重新分配权重,最终的两个输出层将更多关注行人信息,有效降低了干扰信息和遮挡问题的影响。
S4:改进损失函数和激活函数:
在训练过程中,Tiny YOLOV3的损失函数可分为三部分,分别为边界框回归损失、置信度损失和分类损失,总的Loss可用公式(6)表示:
Figure GDA0003527785970000075
其中,i表示尺度。
行人检测的定位通常依赖于准确的边界框回归,为了提高定位的准确性和检测精度,对边界框回归损失进行优化改进。本发明采用了广义交并比(GeneralizedIntersection Over Union,GIOU)作为回归损失。采用GIOU的原因有两个方面,一是当交并比(Intersection Over Union,IOU)在真实框和预测框无交集的情况下,IOU无法进行评估度量;二是IOU无法精确反映真实框和预测框的重合度大小。IOU和GIOU的定义如下:
Figure GDA0003527785970000081
Figure GDA0003527785970000082
其中,B表示预测框,Bgt表示真实框,C1表示包含真实框和预测框的最小封闭面。
激活函数是卷积神经网络的重要单元,随着网络模型的逐渐成熟,激活函数也更新得很快,它可以使网络引入非线性因素,使模型不再单一,而更加复杂化,有利于网络更好的学***滑,这将使网络更好的学习行人信息,同时Mish激活函数允许较小的负梯度流入,保证信息不会中断,从而得到更好的准确性和泛化能力。
实施例2:
本发明实验环境配置如表1所示。实验采用python 3.6语言编写,深度学习框架为Pytorch 1.4。训练批次设置为300,小批量设置为16,初始学习率为0.01,权重衰减系数为0.0005,动量系数为0.9。本发明采用多尺度训练方式,每个批次的图像随机在(320,352,384,416,448,480,512,544,576,608,640)中选择,以提高模型的泛化能力。
表1实验环境配置
Figure GDA0003527785970000083
实验数据集使用VOC 2007和INRIA数据集。VOC2007数据集包含20类目标,共计9963张图像。本发明从VOC2007数据集提取了所有行人图像,共计4015张,数据集背景复杂,行人姿态变化较大,存在不同程度的遮挡,能够增强训练模型的泛化能力,数据集采用8:2的比例划分训练集和测试集。INRIA数据集中行人大多呈站立姿势,接近真实道路场景,已划分训练集和测试集。数据集行人图像数量如表2所示。
表2行人数据集图像数量
Figure GDA0003527785970000084
Figure GDA0003527785970000091
实验结果与分析
为了评估改进算法的有效性,将YOLOV3、Tiny YOLOV3和本发明分别在VOC2007和INRIA数据集中进行训练并测试。训练之前,为了使前文提到的预选框更加贴合行人的形态,采用K-means聚类算法重新选择初始预选框,得到6个预选框尺寸,其中(38,97)、(81,202)、(126,386)对应13×13的预测层,(203,271)、(251,473)、(448,521)对应26×26的预测层。
测试指标包含精确率(Precision)、召回率(Recall),并最终采用综合指标精度均值(Average Precision,AP)来衡量检测算法的准确性,采用每秒帧数(Frame per second,FPS)来衡量检测速度。为了得到训练的最佳模型,每个批次训练结束,使用测试集进行测试,保存AP最高的模型。图6(a)和图6(b)为本发明分别在VOC2007和INRIA数据集上训练的精度变化。
表3为不同算法的模型体积大小和参数量,本发明的模型大小为39.8MB,与TinyYOLOV3相比仅大6.6MB,模型大小和参数量远小于YOLOV3,在模型大小和参数量上具有一定优势。
表3各算法的模型尺寸和参数量
Figure GDA0003527785970000092
表4为各算法在两个数据集上的训练测试结果,与Tiny YOLOV3相比,本发明的精确率和召回率均有提高。在VOC数据集上的行人检测准确率为77%,较Tiny YOLOV3提高8.5%,虽然未达到YOLOV3的检测精度,但检测速度达到每秒92.6帧,相比YOLOV3提高77.1%。在INRIA数据集上的准确率为92.7%,较Tiny YOLOV3提高2.5%,比YOLOV3算法仅低0.2%,与文献的检测精度持平,但在检测速度上优于其算法,本发明的检测速度达到每秒31.2帧,满足实时性检测需求。
表4各算法的实验结果比较
Figure GDA0003527785970000093
图7和图8分别为Tiny YOLOV3和本发明的检测结果对比。图7(a)中漏检了两个行人目标,图8(a)无行人漏检;图7(b)和图8(b)为拥挤场景下的行人检测,Tiny YOLOV3漏检较为严重,本发明得到明显改善;图7(c)漏检了左侧小尺寸的行人目标,图8(c)中无漏检。可以看出,本发明取得了更好的行人检测效果,并且在拥挤场景下和对小目标的检测中仍能取得良好的检测效果,这表明本发明具有良好的泛化能力,能更准确地检测行人。
本发明在Tiny YOLOV3的基础上,提出了一种融合注意力机制的行人检测算法,通过对网络的深化,提高了对行人信息的特征提取能力,通过1×1卷积降低了参数量和模型尺寸,保证了行人检测的速度。同时,在预测网络引入了一种无降维的轻量级通道注意力机制,对不同通道进行权重的再分配,使模型更加关注行人信息。并且,通过对边界框回归损失函数和激活函数的优化,进一步提高了检测精度。在VOC2007行人子集和INRIA数据集上取得了77%和92.7%的检测准确率,与Tiny YOLOV3相比精确率和召回率均有提高,检测速度分别达到每秒92.6帧和31.2帧,表明了该模型在不同数据集下具有良好的鲁棒性,且满足实时性检测需求。本发明在保持较高检测准确率的同时具有速度优势,但是在面对行人姿态变化较大以及遮挡较为严重的情况,准确率与复杂的大型网络仍有差距,在接下来的工作中将考虑在满足实时检测的条件下,进一步提高检测精度。
本发明可广泛运用于目标检测场合。
需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种融合注意力机制的实时行人检测方法,其特征在于,包括如下步骤:
S1:选取Tiny YOLOV3算法,包括如下小步:
S11:先将图像划分成S×S个网格,每个网格预测B个边界框及置信度和C个类别概率,置信度公式为:
Figure FDA0003527785960000011
其中,P(object)为网格中目标存在概率,
Figure FDA0003527785960000012
为预测框和真实框的交并比;
S12:Tiny YOLOV3的特征提取网络为7层卷积和6层最大池化,同时简化YOLOV3的多尺度检测,采用26×26和13×13两种检测尺度对特征图进行预测输出;
S2:加深特征提取网络,包括如下小步:
S21:首先通过3×3卷积将通道数扩张到上一层的2倍,提取高维特征;
S22:然后通过1×1卷积,将通道数压缩为原来的2倍,降低通道维度,减少计算量同时实现信息的跨通道交互;
S23:最后再通过3×3卷积扩张通道,恢复原来的通道维度;
S3:融合通道注意力的预测网络:将注意力机制引入到Tiny YOLOV3的预测网络,利用注意力机制融合不同尺度的信息,Tiny YOLOV3的预测网络对两个尺度的特征图进行融合,对特征通道赋予不同的权重,引导网络关注行人特征,降低干扰信息的影响从而提高检测精度,包括如下小步:
S31:引入了无降维的轻量级通道域注意力机制ECA-Net,输入特征图X∈RH×W×C,X有C个特征通道;
S32:通过全局平均池化对全局空间信息进行压缩,即在空间维度H×W上进行压缩,得到1×1的权重信息,全局平均池化公式如下:
Figure FDA0003527785960000013
其中,Y为压缩之后得到的权重,H×W为空间维度信息;
S33:为了使网络自动学习不同通道的注意力权重,使用一维卷积来完成跨通道的信息交互,一维卷积核的大小由通道维数C的函数来自适应确定,计算一维卷积核大小的公式为:
Figure FDA0003527785960000014
S34:将得到的卷积核用于一维卷积,并使用Sigmoid得到每个通道的权重,公式如下:
ωc=σ(C1Dk(Y)) (4)
其中,σ是Sigmoid激活函数,ωc是生成的通道注意力权重,维度为1×1×C;
S35:然后将注意力权重与输入特征图进行加权,实现对特征图通道的重要性表达,加权公式如下:
Figure FDA0003527785960000021
其中,
Figure FDA0003527785960000022
表示逐元素相乘,Xc表示通过注意力机制的输出结果;
S4:改进损失函数和激活函数,包括如下小步:
S41:在训练过程中,Tiny YOLOV3的损失函数分为三部分,分别为边界框回归损失、置信度损失和分类损失,总的Loss用公式(6)表示:
Figure FDA0003527785960000023
其中,i表示尺度;
S42:采用广义交并比GIOU作为回归损失,IOU和GIOU的定义如下:
Figure FDA0003527785960000024
Figure FDA0003527785960000025
其中,B表示预测框,Bgt表示真实框,C1表示包含真实框和预测框的最小封闭面;
S43:激活函数是卷积神经网络的重要单元,使网络引入非线性因素,使模型不再单一,有利于网络更好的学习,改进后的特征提取网络采用Mish激活函数。
2.根据权利要求1所述的融合注意力机制的实时行人检测方法,其特征在于,所述步骤S1中,YOLO系列算法是基于卷积神经网络的一阶段目标检测算法,Tiny YOLOV3是在YOLOV3基础上的简化版本。
3.根据权利要求1所述的融合注意力机制的实时行人检测方法,其特征在于,所述步骤S2中,借鉴密集连接网络的思想,在增加的3×3卷积层之前,引入卷积核大小为1×1的卷积层,降低通道维度,以减少网络的计算量。
4.根据权利要求1所述的融合注意力机制的实时行人检测方法,其特征在于,所述步骤S12中,两个检测尺度输出的特征图尺寸分别为13×13和26×26,即输入图像被划分为13×13和26×26的网格,分别检测远距离和近距离的行人,每个网格与通道一一对应。
5.根据权利要求4所述的融合注意力机制的实时行人检测方法,其特征在于,所述步骤S12中,每个网格预先设置3个预选框,在训练时不断调整,选择出最优的预选框作为输出结果;不同的通道代表每个网格的输出参数,每个通道的参数包含预测框的中心坐标(bx,by)、预测框的长宽(bw,bh)、预测框的置信度得分p0以及行人的预测得分s;每个网格包含3个预测框,每个网格包含6个参数,故输出特征图的通道维数均为18。
6.根据权利要求5所述的融合注意力机制的实时行人检测方法,其特征在于,所述步骤S12中,在输出13×13特征图的预测网络加入ECA注意力模块,将通过注意力模块后的特征图进行上采样与26×26特征图相串联,输出384维通道的特征图,再通过ECA注意力模块重新分配权重,最终的两个输出层将更多关注行人信息。
CN202110049426.6A 2021-01-14 2021-01-14 融合注意力机制的实时行人检测方法 Active CN112733749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110049426.6A CN112733749B (zh) 2021-01-14 2021-01-14 融合注意力机制的实时行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110049426.6A CN112733749B (zh) 2021-01-14 2021-01-14 融合注意力机制的实时行人检测方法

Publications (2)

Publication Number Publication Date
CN112733749A CN112733749A (zh) 2021-04-30
CN112733749B true CN112733749B (zh) 2022-04-12

Family

ID=75593101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110049426.6A Active CN112733749B (zh) 2021-01-14 2021-01-14 融合注意力机制的实时行人检测方法

Country Status (1)

Country Link
CN (1) CN112733749B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282088A (zh) * 2021-05-21 2021-08-20 潍柴动力股份有限公司 工程车的无人驾驶方法、装置、设备、存储介质及工程车
CN113327243B (zh) * 2021-06-24 2024-01-23 浙江理工大学 基于AYOLOv3-Tiny新框架的PAD导光板缺陷可视化检测方法
CN113538347B (zh) * 2021-06-29 2023-10-27 中国电子科技集团公司电子科学研究院 基于高效双向路径聚合注意力网络的图像检测方法及***
CN113537013A (zh) * 2021-07-06 2021-10-22 哈尔滨理工大学 一种多尺度自注意力特征融合的行人检测方法
CN113496260B (zh) * 2021-07-06 2024-01-30 浙江大学 基于改进YOLOv3算法的粮库人员不规范作业检测法
CN113516080A (zh) * 2021-07-16 2021-10-19 上海高德威智能交通***有限公司 一种行为检测方法和装置
CN113705478B (zh) * 2021-08-31 2024-02-27 中国林业科学研究院资源信息研究所 一种基于改进YOLOv5的红树林单木目标检测方法
CN114067186B (zh) * 2021-09-26 2024-04-16 北京建筑大学 一种行人检测方法、装置、电子设备及存储介质
CN113971764B (zh) * 2021-10-29 2024-05-14 燕山大学 一种基于改进YOLOv3的遥感图像小目标检测方法
CN113989624A (zh) * 2021-12-08 2022-01-28 北京环境特性研究所 红外低慢小目标检测方法、装置、计算设备及存储介质
CN114373118B (zh) * 2021-12-30 2024-04-05 华南理工大学 基于改进yolov4的水下目标检测方法
CN114092820B (zh) * 2022-01-20 2022-04-22 城云科技(中国)有限公司 目标检测方法及应用其的移动目标跟踪方法
CN114972851A (zh) * 2022-05-12 2022-08-30 北京理工大学 一种基于遥感影像的船只目标智能检测方法
CN114724012B (zh) * 2022-06-10 2022-08-23 天津大学 基于时空跨尺度注意力融合热带不稳定波预警方法及装置
CN115063691B (zh) * 2022-07-04 2024-04-12 西安邮电大学 一种基于特征增强的复杂场景下小目标检测方法
CN115439765B (zh) * 2022-09-17 2024-02-02 艾迪恩(山东)科技有限公司 基于机器学习无人机视角下海洋塑料垃圾旋转检测方法
CN115424230B (zh) * 2022-09-23 2023-06-06 哈尔滨市科佳通用机电股份有限公司 一种车门滑轮脱出轨道故障检测方法、存储介质及设备
CN115273154B (zh) * 2022-09-26 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 基于边缘重构的热红外行人检测方法、***及存储介质
CN115908952B (zh) * 2023-01-07 2023-05-19 石家庄铁道大学 一种基于改进YOLOv5算法的高铁隧道卡具检测方法
CN117649633B (zh) * 2024-01-30 2024-04-26 武汉纺织大学 一种用于高速公路巡检的路面坑洼检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
CN111681240A (zh) * 2020-07-07 2020-09-18 福州大学 一种基于YOLO v3与注意力机制的桥梁表面裂痕检测方法
CN112070713A (zh) * 2020-07-03 2020-12-11 中山大学 一种引入attention机制的多尺度目标检测方法
CN112101434A (zh) * 2020-09-04 2020-12-18 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619309B (zh) * 2019-09-19 2023-07-18 天地伟业技术有限公司 一种基于八度卷积和YOLOv3的嵌入式平台人脸检测方法
CN111767882B (zh) * 2020-07-06 2024-07-19 江南大学 一种基于改进yolo模型的多模态行人检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079584A (zh) * 2019-12-03 2020-04-28 东华大学 基于改进YOLOv3的快速车辆检测方法
CN112070713A (zh) * 2020-07-03 2020-12-11 中山大学 一种引入attention机制的多尺度目标检测方法
CN111681240A (zh) * 2020-07-07 2020-09-18 福州大学 一种基于YOLO v3与注意力机制的桥梁表面裂痕检测方法
CN112101434A (zh) * 2020-09-04 2020-12-18 河南大学 基于改进YOLO v3的红外图像弱小目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Data-Driven Based Tiny-YOLOv3 Method for Front Vehicle Detection Inducing SPP-Net;XIAOLAN WANG et al.;《SPECIAL SECTION ON INTELLIGENT LOGISTICS BASED ON BIG DATA》;20200624;第110227-110236页 *
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks;Qilong Wang et al.;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20201231;第11531-11539页 *
基于改进Tiny-YOLOv3的人数统计方法;成玉荣 等;《科技创新导报》;20201231(第10期);第4-5、8页 *
复杂场景下基于改进 YOLOv3 的口罩佩戴检测算法;王艺皓;《计算机工程》;20201130;第46卷(第11期);第12-22页 *

Also Published As

Publication number Publication date
CN112733749A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112733749B (zh) 融合注意力机制的实时行人检测方法
CN111310861B (zh) 一种基于深度神经网络的车牌识别和定位方法
Tian et al. A dual neural network for object detection in UAV images
CN109934285B (zh) 一种基于深度学习的图像分类神经网络压缩模型的***
Wang et al. Object detection using clustering algorithm adaptive searching regions in aerial images
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN108921198A (zh) 基于深度学习的商品图像分类方法、服务器及***
CN112541532B (zh) 基于密集连接结构的目标检测方法
CN112070713A (zh) 一种引入attention机制的多尺度目标检测方法
CN111898432A (zh) 一种基于改进YOLOv3算法的行人检测***及方法
Raparthi et al. Machine Learning Based Deep Cloud Model to Enhance Robustness and Noise Interference
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
Zhao et al. Fire smoke detection based on target-awareness and depthwise convolutions
CN115294563A (zh) 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置
CN115223017B (zh) 一种基于深度可分离卷积的多尺度特征融合桥梁检测方法
CN115375781A (zh) 一种数据处理方法及其装置
CN116824585A (zh) 一种基于多级上下文特征融合网络的航空激光点云语义分割方法与装置
CN108257148B (zh) 特定对象的目标建议窗口生成方法及其在目标跟踪的应用
CN117593794A (zh) 改进的YOLOv7-tiny模型及基于该模型的人手脸检测方法及***
CN115731517B (zh) 一种基于Crowd-RetinaNet网络的拥挤人群检测方法
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
Zhao et al. Multi-scale attention-based feature pyramid networks for object detection
Thirumaladevi et al. Multilayer feature fusion using covariance for remote sensing scene classification
CN115273131A (zh) 基于双通路特征融合的动物识别方法
Xiao et al. Optimization methods of video images processing for mobile object recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant