CN111144203B - 一种基于深度学习的行人遮挡检测方法 - Google Patents
一种基于深度学习的行人遮挡检测方法 Download PDFInfo
- Publication number
- CN111144203B CN111144203B CN201911131589.8A CN201911131589A CN111144203B CN 111144203 B CN111144203 B CN 111144203B CN 201911131589 A CN201911131589 A CN 201911131589A CN 111144203 B CN111144203 B CN 111144203B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- feature map
- stage
- loss function
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于深度学***翻转、随机尺寸变换等数据增强方式;其次是一种新的特征融合方式,对于精炼神经网络(Refinement Neural Network,RefineDet)的特征融合模块(Transfer Connection Block,TCB)进行改进,减少其下采样次数,对于ResNet的不同阶段进行了更为充分的特征融合;最终传入到检测头网络中,得到效果更好的行人遮挡检测算法RefinePedDet。本发明通过实际测试得到漏检率更低的行人遮挡检测算法。
Description
技术领域
本发明涉及计算机视觉中图像处理和模式识别技术领域,具体涉及一种基于深度学习的行人遮挡检测方法。
背景技术
行人检测具有较为广泛的应用领域,可以应用在无人驾驶、视频监控与安防、搜索营救等领域,主要是指对于视频或者图片中的行人目标进行类别判断以及定位的过程。
然而,在实际场景中,行人被遮挡在所难免,主要表现在行人与行人之间的遮挡以及行人被物体的遮挡,从而导致目前已有的行人检测算法在检测行人的时候出现很多漏检,因此,行人遮挡检测是行人检测领域中较为复杂的领域。
发明内容
本发明的目的是提供一种漏检率更低、效果更好的基于深度学习的行人遮挡检测方法。
为了达到上述目的,本发明通过以下技术方案来实现:
一种基于深度学习的行人遮挡检测方法,包括如下步骤:
S1)获取行人坐标
获取带有行人坐标标签的数据集,数据集包括行人的全身部分及可见部分的坐标位置;
S2)数据预处理
S2-1)对于采集的行人数据的全身部分进行无锚点数据预处理;具体地,将行人标注的左上角、右下角坐标进行格式转化,转化为行人的中心点及行人的高度信息,其中,行人的宽度信息可根据高度:宽度=2.44:1来获取;
采用二维高斯掩码的方式对正样本提取中心点,如果中心点有重叠部分,选择重叠部分的最大值,公式为:
S2-2)对于采集的行人数据的可见部分进行遮挡扩充处理;具体地,将行人的身体部位拆分为四个部分:左上半身、右下半身、左腿和右腿,并对这四个部分中的某一个部分以0.5为阈值随机遮挡;
S2-3)数据增强,包括随机色彩变换、水平翻转、随机尺寸变换等处理;
S3)对图像进行特征提取
S3-1)对深度残差网络类中的ResNet50基础网络进行改进;具体地,将原ResNet50的第一到第四阶段每个阶段的特征图都下采样2倍,共下采样16倍,在第五阶段卷积层添加空洞卷积模块,对第五阶段的特征图下采样16倍;
S3-2)对改进的精炼神经网络RefineNet的特征融合模块TCB进一步改进,减少特征融合模块TCB的下采样次数;
对于ResNet50的每个阶段的特征图进行反向相邻阶段的特征融合;具体地,从最深层第五阶段的特征图开始与前一个阶段的特征图进行前向相加融合得到c4特征图,c4特征图进行上采样之后与第三阶段的特征图进行前向相加融合得到c3特征图,c3特征图进行上采样之后与第二阶段的特征图进行前向相加融合得到c2特征图;然后分别将c3上采样2倍,c4上采样4倍,使得c2、c3、c4这三个特征融合之后的特征图相比于原始图像都下采样4倍;完成特征融合的c2、c3、c4这三个特征图传入到检测头中;
S4)检测头网络结构的设计
采用双卷积检测头的方式,在RefineNet的连接特征融合之后引入两个卷积检测头,分别做分类和回归任务;
获取步骤S3)经过特征融合之后的特征图,用来做行人的全身部分的预测;将步骤S3)经过特征融合之后的特征图,经过3*3卷积,再分别采用1*1卷积来预测分类和回归结果;
S5)构造损失函数
总的损失函数由分类损失函数和回归损失函数组成,公式为:
对于分类损失函数,由于正负样本严重不均衡,采用FocalLoss的损失函数,公式为:
其中,K表示所有图片数量,W和H分别表示图片的宽度和高度,r表示下采样的倍
数,这里r=4,表示是否是物体中心的概率值,其取值范围是[0,1],表示正负样本的
权重,如公式(1),表示高斯掩码的最大值,将设置为4;正负样本的权重的公式为:
对于回归损失函数,采用Smooth L1 Loss,公式为:
S6)验证结果。
本发明与现有技术相比,具有以下优点:
本发明一种基于深度学习的行人遮挡检测方法,漏检率更低,效果更好。首先,本发明对于行人的全身部分采用无锚点目标检测处理,并对行人全身部分的遮挡数据进行扩充,更有利于遮挡场景下的行人检测;其次,对于ResNet50基础网络进行改进,在最后阶段添加空洞卷积使得该阶段特征图分辨率不再下采样2倍,与此同时,从第五阶段开始进行反向相邻阶段的特征融合,得到c2、c3、c4这三个特征图,将这三个特征图进行concatenate特征融合,传入到检测头中,将传入到检测头的特征图进行全身部分预测,得到最终的行人预测结果。
附图说明
图1是本发明一种基于深度学习的行人遮挡检测方法的多级融合精炼神经网络MFR-NET架构图。
具体实施方式
下面结合附图,对本发明的实施例作进一步详细的描述。
一种基于深度学习的行人遮挡检测方法,包括如下步骤:
S1)获取行人坐标
获取带有行人坐标标签的数据集,数据集包括行人的全身部分及可见部分的坐标位置;
S2)数据预处理
S2-1)对于采集的行人数据的全身部分进行无锚点数据预处理;具体地,将行人标注的左上角、右下角坐标进行格式转化,转化为行人的中心点及行人的高度信息,其中,行人的宽度信息可根据高度:宽度=2.44:1来获取;
采用二维高斯掩码的方式对正样本提取中心点,如果中心点有重叠部分,选择重叠部分的最大值,公式为:
S2-2)对于采集的行人数据的可见部分进行遮挡扩充处理;具体地,将行人的身体部位拆分为四个部分:左上半身、右下半身、左腿和右腿,并对这四个部分中的某一个部分以0.5为阈值随机遮挡;
S2-3)数据增强,包括随机色彩变换、水平翻转、随机尺寸变换等处理;
S3)对图像进行特征提取
S3-1)对深度残差网络类中的ResNet50基础网络进行改进;具体地,将原ResNet50的第一到第四阶段每个阶段的特征图都下采样2倍,共下采样16倍,在第五阶段卷积层添加空洞卷积模块,对第五阶段的特征图下采样16倍;
S3-2)对改进的精炼神经网络RefineNet的特征融合模块TCB进一步改进,减少特征融合模块TCB的下采样次数;
对于ResNet50的每个阶段的特征图进行反向相邻阶段的特征融合;具体地,从最深层第五阶段的特征图开始与前一个阶段的特征图进行前向相加融合得到c4特征图,c4特征图进行上采样之后与第三阶段的特征图进行前向相加融合得到c3特征图,c3特征图进行上采样之后与第二阶段的特征图进行前向相加融合得到c2特征图;然后分别将c3上采样2倍,c4上采样4倍,使得c2、c3、c4这三个特征融合之后的特征图相比于原始图像都下采样4倍;完成特征融合的c2、c3、c4这三个特征图传入到检测头中;
S4)检测头网络结构的设计
采用双卷积检测头的方式,在RefineNet的连接特征融合之后引入两个卷积检测头,分别做分类和回归任务;
获取步骤S3)经过特征融合之后的特征图,用来做行人的全身部分的预测;将步骤S3)经过特征融合之后的特征图,经过3*3卷积,再分别采用1*1卷积来预测分类和回归结果;
S5)构造损失函数
总的损失函数由分类损失函数和回归损失函数组成,公式为:
对于分类损失函数,由于正负样本严重不均衡,采用FocalLoss的损失函数,公式为:
其中,K表示所有图片数量,W和H分别表示图片的宽度和高度,r表示下采样的倍
数,这里r=4,表示是否是物体中心的概率值,其取值范围是[0,1],表示正负样本的
权重,如公式(1),表示高斯掩码的最大值,将设置为4;正负样本的权重的公式为:
对于回归损失函数,采用Smooth L1 Loss,公式为:
S6)验证结果。
以上所述仅是本发明优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明保护范围内。
Claims (1)
1.一种基于深度学习的行人遮挡检测方法,其特征在于包括如下步骤:
S1)获取行人坐标
获取带有行人坐标标签的数据集,数据集包括行人的全身部分及可见部分的坐标位置;
S2)数据预处理
S2-1)对于采集的行人数据的全身部分进行无锚点数据预处理;具体地,将行人标注的左上角、右下角坐标进行格式转化,转化为行人的中心点及行人的高度信息,其中,行人的宽度信息可根据高度:宽度=2.44:1来获取;
采用二维高斯掩码的方式对正样本提取中心点,如果中心点有重叠部分,选择重叠部分的最大值,公式为:
Mij=maxk=1,2...kG(i,j;xk,yk,σw,σh) (1);
其中,G表示高斯函数,Mij表示高斯掩码的最大值,xk,yk表示行人的中心点坐标,σw,σh表示行人宽和高的方差,i,j表示行人的像素坐标;G的公式为:
S2-2)对于采集的行人数据的可见部分进行遮挡扩充处理;具体地,将行人的身体部位拆分为四个部分:左上半身、右上半身、左腿和右腿,并对这四个部分中的某一个部分以0.5为阈值随机遮挡;
S2-3)数据增强,包括随机色彩变换、水平翻转、随机尺寸变换的处理;
S3)对图像进行特征提取
S3-1)对深度残差网络类中的ResNet50基础网络进行改进;具体地,将原ResNet50的第一到第四阶段每个阶段的特征图都下采样2倍,共下采样16倍,在第五阶段卷积层添加空洞卷积模块,对第五阶段的特征图下采样16倍;
S3-2)对改进的精炼神经网络RefineNet的特征融合模块TCB进一步改进,减少特征融合模块TCB的下采样次数;
对于ResNet50的每个阶段的特征图进行反向相邻阶段的特征融合;具体地,从最深层第五阶段的特征图开始与前一个阶段的特征图进行前向相加融合得到c4特征图,c4特征图进行上采样之后与第三阶段的特征图进行前向相加融合得到c3特征图,c3特征图进行上采样之后与第二阶段的特征图进行前向相加融合得到c2特征图;然后分别将c3上采样2倍,c4上采样4倍,使得c2、c3、c4这三个特征融合之后的特征图相比于原始图像都下采样4倍;完成特征融合的c2、c3、c4这三个特征图传入到检测头中;
S4)检测头网络结构的设计
采用双卷积检测头的方式,在RefineNet的连接特征融合之后引入两个卷积检测头,分别做分类和回归任务;
获取步骤S3)经过特征融合之后的特征图,用来做行人的全身部分的预测;将步骤S3)经过特征融合之后的特征图,经过3*3卷积,再分别采用1*1卷积来预测分类和回归结果;
S5)构造损失函数
总的损失函数由分类损失函数和回归损失函数组成,公式为:
L=0.01Lcenter+Lscale (3);
其中,Lcenter表示中心点的分类损失函数,Lscale表示尺度的回归损失函数;
对于分类损失函数,由于正负样本严重不均衡,采用FocalLoss的损失函数,公式为:
其中,K表示所有图片数量,W和H分别表示图片的宽度和高度,r表示下采样的倍数,这里r=4,pij表示是否是物体中心的概率值,其取值范围是[0,1],αij表示正负样本的权重,Mij如公式(1),表示高斯掩码的最大值,将β设置为4;正负样本的权重αij的公式为:
对于回归损失函数,采用Smooth L1 Loss,公式为:
其中,Pk表示第k个预测框,Gk表示第k个groud truth,x为预测框与groud truth之间各元素绝对值的依次遍历;
S6)验证结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131589.8A CN111144203B (zh) | 2019-11-19 | 2019-11-19 | 一种基于深度学习的行人遮挡检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911131589.8A CN111144203B (zh) | 2019-11-19 | 2019-11-19 | 一种基于深度学习的行人遮挡检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144203A CN111144203A (zh) | 2020-05-12 |
CN111144203B true CN111144203B (zh) | 2023-06-16 |
Family
ID=70517088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911131589.8A Active CN111144203B (zh) | 2019-11-19 | 2019-11-19 | 一种基于深度学习的行人遮挡检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111144203B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113723322A (zh) * | 2021-09-02 | 2021-11-30 | 南京理工大学 | 一种基于单阶段无锚点框架的行人检测方法及*** |
CN114627292B (zh) * | 2022-03-08 | 2024-05-14 | 浙江工商大学 | 工业遮挡目标检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910176A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的人脸图像去遮挡方法 |
CN108399362A (zh) * | 2018-01-24 | 2018-08-14 | 中山大学 | 一种快速行人检测方法及装置 |
CN108898047A (zh) * | 2018-04-27 | 2018-11-27 | 中国科学院自动化研究所 | 基于分块遮挡感知的行人检测方法及*** |
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
CN109711262A (zh) * | 2018-11-28 | 2019-05-03 | 大连理工大学 | 一种基于深度卷积神经网络的智能挖掘机行人检测方法 |
CN110020688A (zh) * | 2019-04-10 | 2019-07-16 | 西安电子科技大学 | 基于深度学习的遮挡行人检测方法 |
-
2019
- 2019-11-19 CN CN201911131589.8A patent/CN111144203B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910176A (zh) * | 2017-03-02 | 2017-06-30 | 中科视拓(北京)科技有限公司 | 一种基于深度学习的人脸图像去遮挡方法 |
CN108399362A (zh) * | 2018-01-24 | 2018-08-14 | 中山大学 | 一种快速行人检测方法及装置 |
CN108898047A (zh) * | 2018-04-27 | 2018-11-27 | 中国科学院自动化研究所 | 基于分块遮挡感知的行人检测方法及*** |
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
CN109711262A (zh) * | 2018-11-28 | 2019-05-03 | 大连理工大学 | 一种基于深度卷积神经网络的智能挖掘机行人检测方法 |
CN110020688A (zh) * | 2019-04-10 | 2019-07-16 | 西安电子科技大学 | 基于深度学习的遮挡行人检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111144203A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020651B (zh) | 基于深度学习网络的车牌检测定位方法 | |
Fan et al. | Learning collision-free space detection from stereo images: Homography matrix brings better data augmentation | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN111931764B (zh) | 一种目标检测方法、目标检测框架及相关设备 | |
CN107633220A (zh) | 一种基于卷积神经网络的车辆前方目标识别方法 | |
CN103996198A (zh) | 复杂自然环境下感兴趣区域的检测方法 | |
CN112949633B (zh) | 一种基于改进YOLOv3的红外目标检测方法 | |
CN111144203B (zh) | 一种基于深度学习的行人遮挡检测方法 | |
CN113657409A (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别***及方法 | |
CN106920247A (zh) | 一种基于比对网络的目标跟踪方法及装置 | |
CN111462050A (zh) | 改进YOLOv3的极小遥感图像目标检测方法、装置及存储介质 | |
CN115797350A (zh) | 桥梁病害检测方法、装置、计算机设备和存储介质 | |
CN112396036A (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
CN114519819B (zh) | 一种基于全局上下文感知的遥感图像目标检测方法 | |
CN113743521B (zh) | 一种基于多尺度上下文感知的目标检测方法 | |
CN116485885A (zh) | 基于深度学习去除视觉slam前端动态特征点的方法 | |
CN109284752A (zh) | 一种车辆的快速检测方法 | |
CN114663654B (zh) | 一种改进YOLOv4网络模型及小目标检测方法 | |
CN115661754B (zh) | 一种基于维度融合注意力的行人重识别方法 | |
WO2020093210A1 (zh) | 基于上下文信息指导的场景分割方法和*** | |
CN116704236A (zh) | 一种基于混合注意力机制的目标检测方法 | |
CN113284232B (zh) | 一种基于四叉树的光流跟踪方法 | |
CN113159158A (zh) | 一种基于生成对抗网络的车牌矫正与重构方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |