CN108229242A - 针对固定野外场景中样本缺失情况下的行人检测方法 - Google Patents

针对固定野外场景中样本缺失情况下的行人检测方法 Download PDF

Info

Publication number
CN108229242A
CN108229242A CN201611144678.2A CN201611144678A CN108229242A CN 108229242 A CN108229242 A CN 108229242A CN 201611144678 A CN201611144678 A CN 201611144678A CN 108229242 A CN108229242 A CN 108229242A
Authority
CN
China
Prior art keywords
pedestrian
database
block
image
patch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611144678.2A
Other languages
English (en)
Inventor
骆小飞
范柘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI AWARE INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI AWARE INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI AWARE INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI AWARE INFORMATION TECHNOLOGY Co Ltd
Priority to CN201611144678.2A priority Critical patent/CN108229242A/zh
Publication of CN108229242A publication Critical patent/CN108229242A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及针对固定野外场景中样本缺失情况下的行人检测方法,步骤如下:步骤1:融合各大行人检测数据库;将各个数据库中的行人数据融合,主要是将各个数据库的标记信息的格式统一,方便后续训练处理。步骤2:训练一个基于各种公开数据库的行人检测模型;用基于ResNet‑101提取特征的R‑FCN检测器来训练模型。步骤3:构造实验数据。

Description

针对固定野外场景中样本缺失情况下的行人检测方法
技术领域
本发明针对固定野外场景中样本缺失情况下的行人检测方法,核心算法是深度学习方向的目标检测。
背景技术
目标检测就是“给定一张图像或者视频帧,找出其中所有目标的位置,并给出每个目标的具体类别”。目标检测在智能化交通***、智能监控***、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。
目标检测对于人来说是再简单不过的任务,但是对于计算机来说,它看到的是一些值为0~255的数组,因而很难直接得到图像中有人或者猫这种高层语义概念,也不清楚目标出现在图像中哪个区域。图像中的目标可能出现在任何位置,目标的形态可能存在各种各样的变化,图像的背景千差万别……,这些因素导致目标检测并不是一个容易解决的任务。
得益于深度学习——主要是卷积神经网络(convolution neural network:CNN)和候选区域(region proposal)算法,从2014年开始,目标检测取得了巨大的突破。目前流行的目标检测策略主要有以下两种:1、以R-CNN为代表的结合region proposal和CNN分类的目标检测框架(包括:R-CNN,SPP-NET,Fast R-CNN,Faster R-CNN还有R-FCN);2、以YOLO为代表的将目标检测转换为回归问题的目标检测框架(包括:YOLO,SSD);
虽然现在学术界有着各种带人工标记的检测数据库(VOC,COCO……),但是真实问题中往往没有现成的人工标记,甚至会出现图像场景中只存在少量或者根本没有前景等极端问题。比如本案例,想训练一个野外高铁场景的行人检测器,当镜头中出现行人时及时做出警报,提醒附近的工作人员进行疏散处理。但是,真实场景中很难在高铁铁轨附近发现行人。缺少人工标记可以通过消耗人力物力来弥补,但是一旦数据中缺少或者不存在前景,极端的正负样本比例会使得卷积神经网络在训练过程中梯度无限偏向负样本,导致漏检率极高。因此目前流行的基于深度学习的算法都无法越过这个障碍。而传统的不使用卷积神经网络框架的显著性检测算法无法解决诸如光照,阴影,风吹草动,甚至高铁路过等常见干扰而被人诟病。
因此现在存在着野外高铁场景中行人数据缺失以及需要检测场景中的行人这一矛盾,本发明针对该矛盾而提出一种全新的思路。
发明内容
发明针对现有算法无法处理前景缺失的目标检测问题,提出一种灵活、精度高、速度快、稳定性好、实时性强、方法简单、通用性强的目标检测框架。
按照本发明提供的技术方案,步骤如下:
第一步:融合各大行人检测数据库;
从网上搜索各大行人检测数据库(如MIT数据库、INRIA数据库、Daimler行人数据库,Caltech行人数据库等)。将各个数据库中的行人数据融合,主要是将各个数据库的标记信息的格式统一,方便后续训练处理。
第二步:训练一个基于各种公开数据库的行人检测模型;
由于本发明这里使用的检测器R-FCN是目前检测任务中效果最好的几个模型之一,而深度学习的经验告诉我们,当我们的模型拟合能力很强的时候,数据量越多,数据多样性越全,模型的检测效果越好。根据上面下载的融合数据库,用基于ResNet-101提取特征的R-FCN检测器来训练模型。
由于篇幅的限制,在此不做R-FCN的介绍,详细信息参考原文:Dai J,Li Y,He K,et al.R-FCN:Object Detection via Region-based Fully Convolutional Networks[J].2016.
第二步:构造实验数据;
本发明中的数据库有两个特点:1、多个固定相机的24小时不间断的野外高铁场景。2、每张数据图片中都不存在行人。而任务则是检测到其中可能出现的行人。正样本的缺失会导致R-FCN训练过程中产生崩溃性的结果,因此,本发明在这里进行训练集的构建。
2.1:网罗各大人形分割数据库;
从网上搜索各大行人分割数据库(如ImageNet数据库、Penn-Fudan数据库等)。
2.2:提取出各个数据库中的行人块;
根据人工标记,得到每个行人的外切矩形框,根据此矩形框提取出数据库中的每个行人块(person_patch)和对应的分割标记(person_patch_mask)。其中分割标记是一个单通道的灰度图,通过如下的规则来呈现:行人边缘和行人内部灰度值为1,背景的灰度值为0;
2.3:标定每个相机中地平线的位置,确定黏贴位置;
从每个相机拍摄的数据库中挑出一张图片,人工标定两条铁轨在图像中相交的位置,测得该位置与图像底部的距离H,在所有与图像底部距离小于H的像素点中随机挑选N个点(N∈(1,2,3,4,5))。避免出现人在空中这一现象。
2.4:采用近大远小的方式黏贴小块;
对于2.3中的每个点,首先计算改点位置由于视角变化的缩放比例。根据示意图图1,很容易通过相似三角形求得缩小比例只与改点与图像底部距离h有关:
随机从2.2中挑出一个行人块并根据scale对图像块进行缩放,。以该点为左上角的点,从原始图像中抠出一个和缩放后的行人块等高等宽的图像块(image_patch)。将图像块和行人块根据分割标记逐像素融合。如果分割标记(person_patch_mask)中坐标点(x,y)的灰度值为1,那么图像块(image_patch)中(x,y)处的像素值用行人块(person_patch)中(x,y)处像素值替换。
2.5:对每个融合块进行高斯平滑滤波
简单粗暴的融合方式会给人的产生突兀的感觉,在此对融合后的图像块进行高斯平滑滤波。
2.6:重复2.3-2.5直至数据库中所有图像都进行合成;
第三步:根据步骤二中生成的全新数据库对步骤一中的通用行人模型进行微调。
大量学者通过实验证明,根据现有模型在新数据上微调的效果比直接在数据上训练效果好。因此,在这我们使用微调的方式来训练构造的数据库。
所谓微调就是用别人训练好的模型,加上我们自己的数据,来训练新的模型。微调相当于使用别人的模型中的参数来初始化我们的模型。微调的好处在于不用完全重新训练模型,从而提高效率,因为一般新训练模型准确率都会从很低的值开始慢慢上升,但是微调能够让我们在比较少的迭代次数之后得到一个比较好的效果。在数据量不是很大的情况下,微调会是一个比较好的选择。
附图说明
图1缩放比例示意图
具体实施方式
发明针对现有算法无法处理前景缺失的目标检测问题,提出一种灵活、精度高、速度快、稳定性好、实时性强、方法简单、通用性强的目标检测框架。
按照本发明提供的技术方案,步骤如下:
第一步:融合各大行人检测数据库;
从网上搜索各大行人检测数据库(如MIT数据库、INRIA数据库、Daimler行人数据库,Caltech行人数据库等)。将各个数据库中的行人数据融合,主要是将各个数据库的标记信息的格式统一,方便后续训练处理。
第二步:训练一个基于各种公开数据库的行人检测模型;
由于本发明这里使用的检测器R-FCN是目前检测任务中效果最好的几个模型之一,而深度学习的经验告诉我们,当我们的模型拟合能力很强的时候,数据量越多,数据多样性越全,模型的检测效果越好。根据上面下载的融合数据库,用基于ResNet-101提取特征的R-FCN检测器来训练模型。
由于篇幅的限制,在此不做R-FCN的介绍,详细信息参考原文:Dai J,Li Y,He K,et al.R-FCN:Object Detection via Region-based Fully Convolutional Networks[J].2016.
第二步:构造实验数据;
本发明中的数据库有两个特点:1、多个固定相机的24小时不间断的野外高铁场景。2、每张数据图片中都不存在行人。而任务则是检测到其中可能出现的行人。正样本的缺失会导致R-FCN训练过程中产生崩溃性的结果,因此,本发明在这里进行训练集的构建。
2.1:网罗各大人形分割数据库;
从网上搜索各大行人分割数据库(如ImageNet数据库、Penn-Fudan数据库等)。
2.2:提取出各个数据库中的行人块;
根据人工标记,得到每个行人的外切矩形框,根据此矩形框提取出数据库中的每个行人块(person_patch)和对应的分割标记(person_patch_mask)。其中分割标记是一个单通道的灰度图,通过如下的规则来呈现:行人边缘和行人内部灰度值为1,背景的灰度值为0;
2.3:标定每个相机中地平线的位置,确定黏贴位置;
从每个相机拍摄的数据库中挑出一张图片,人工标定两条铁轨在图像中相交的位置,测得该位置与图像底部的距离H,在所有与图像底部距离小于H的像素点中随机挑选N个点(N∈(1,2,3,4,5))。避免出现人在空中这一现象。
2.4:采用近大远小的方式黏贴小块;
对于2.3中的每个点,首先计算改点位置由于视角变化的缩放比例。根据示意图图1,很容易通过相似三角形求得缩小比例只与改点与图像底部距离h有关:
随机从2.2中挑出一个行人块并根据scale对图像块进行缩放,。以该点为左上角的点,从原始图像中抠出一个和缩放后的行人块等高等宽的图像块(image_patch)。将图像块和行人块根据分割标记逐像素融合。如果分割标记(person_patch_mask)中坐标点(x,y)的灰度值为1,那么图像块(image_patch)中(x,y)处的像素值用行人块(person_patch)中(x,y)处像素值替换。
2.5:对每个融合块进行高斯平滑滤波
简单粗暴的融合方式会给人的产生突兀的感觉,在此对融合后的图像块进行高斯平滑滤波。
2.6:重复2.3-2.5直至数据库中所有图像都进行合成;
第三步:根据步骤二中生成的全新数据库对步骤一中的通用行人模型进行微调。
大量学者通过实验证明,根据现有模型在新数据上微调的效果比直接在数据上训练效果好。因此,在这我们使用微调的方式来训练构造的数据库。
所谓微调就是用别人训练好的模型,加上我们自己的数据,来训练新的模型。微调相当于使用别人的模型中的参数来初始化我们的模型。微调的好处在于不用完全重新训练模型,从而提高效率,因为一般新训练模型准确率都会从很低的值开始慢慢上升,但是微调能够让我们在比较少的迭代次数之后得到一个比较好的效果。在数据量不是很大的情况下,微调会是一个比较好的选择。

Claims (3)

1.针对固定野外场景中样本缺失情况下的行人检测方法,其特征在于,步骤如下:
步骤1:融合各大行人检测数据库;
将各个数据库中的行人数据融合,主要是将各个数据库的标记信息的格式统一,方便后续训练处理。
步骤2:训练一个基于各种公开数据库的行人检测模型;
用基于ResNet-101提取特征的R-FCN检测器来训练模型。
步骤3:构造实验数据。
2.如权利要求1所述的针对固定野外场景中样本缺失情况下的行人检测方法,其特征在于:步骤3还包括如下步骤:
步骤31:网罗各大人形分割数据库;
从网上搜索各大行人分割数据库(如ImageNet数据库、Penn-Fudan数据库等)。
步骤32:提取出各个数据库中的行人块;
根据人工标记,得到每个行人的外切矩形框,根据此矩形框提取出数据库中的每个行人块(person_patch)和对应的分割标记(person_patch_mask)。其中分割标记是一个单通道的灰度图,通过如下的规则来呈现:行人边缘和行人内部灰度值为1,背景的灰度值为0;
步骤33:标定每个相机中地平线的位置,确定黏贴位置;
从每个相机拍摄的数据库中挑出一张图片,人工标定两条铁轨在图像中相交的位置,测得该位置与图像底部的距离H,在所有与图像底部距离小于H的像素点中随机挑选N个点(N∈(1,2,3,4,5))。避免出现人在空中这一现象。
步骤34:采用近大远小的方式黏贴小块;
步骤35:对每个融合块进行高斯平滑滤波
简单粗暴的融合方式会给人的产生突兀的感觉,在此对融合后的图像块进行高斯平滑滤波。
步骤36:重复2.3-2.5直至数据库中所有图像都进行合成;
步骤37:根据步骤二中生成的全新数据库对步骤一中的通用行人模型进行微调。
3.如权利要求2所述的针对固定野外场景中样本缺失情况下的行人检测方法,其特征在于:对于步骤34中的每个点,首先计算改点位置由于视角变化的缩放比例。根据示意图图1,很容易通过相似三角形求得缩小比例只与改点与图像底部距离h有关:
随机从步骤32中挑出一个行人块并根据scale对图像块进行缩放,。以该点为左上角的点,从原始图像中抠出一个和缩放后的行人块等高等宽的图像块(image_patch)。将图像块和行人块根据分割标记逐像素融合。如果分割标记(person_patch_mask)中坐标点(x,y)的灰度值为1,那么图像块(image_patch)中(x,y)处的像素值用行人块(person_patch)中(x,y)处像素值替换。
CN201611144678.2A 2016-12-13 2016-12-13 针对固定野外场景中样本缺失情况下的行人检测方法 Pending CN108229242A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611144678.2A CN108229242A (zh) 2016-12-13 2016-12-13 针对固定野外场景中样本缺失情况下的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611144678.2A CN108229242A (zh) 2016-12-13 2016-12-13 针对固定野外场景中样本缺失情况下的行人检测方法

Publications (1)

Publication Number Publication Date
CN108229242A true CN108229242A (zh) 2018-06-29

Family

ID=62637667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611144678.2A Pending CN108229242A (zh) 2016-12-13 2016-12-13 针对固定野外场景中样本缺失情况下的行人检测方法

Country Status (1)

Country Link
CN (1) CN108229242A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190458A (zh) * 2018-07-20 2019-01-11 华南理工大学 一种基于深度学习的小人头检测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190458A (zh) * 2018-07-20 2019-01-11 华南理工大学 一种基于深度学习的小人头检测方法

Similar Documents

Publication Publication Date Title
Pan et al. Semanticposs: A point cloud dataset with large quantity of dynamic instances
Changzhen et al. A traffic sign detection algorithm based on deep convolutional neural network
CN107516077B (zh) 基于激光点云和影像数据融合的交通标牌信息提取方法
EP2087459B1 (de) Vorrichtung, verfahren und computerprogramm zum bestimmen einer position basierend auf einem kamerabild
CN110148196A (zh) 一种图像处理方法、装置以及相关设备
CN107204010A (zh) 一种单目图像深度估计方法与***
CN106683091A (zh) 一种基于深度卷积神经网络的目标分类及姿态检测方法
CN103530638B (zh) 多摄像头下的行人匹配方法
CN104050481B (zh) 多模板轮廓特征和灰度相结合的红外图像实时行人检测
CN110084165A (zh) 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
CN105869178A (zh) 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法
CN103729620B (zh) 一种基于多视角贝叶斯网络的多视角行人检测方法
CN109815859A (zh) 一种低等级道路自动提取及变化分析方法
CN106600643A (zh) 一种基于轨迹分析的人数统计方法
CN109002752A (zh) 一种基于深度学习的复杂公共场景快速行人检测方法
CN106951829A (zh) 一种基于最小生成树的视频显著对象检测方法
CN114078218B (zh) 一种自适应融合的森林烟火识别数据增广方法
CN106446785A (zh) 基于双目视觉的可行道路检测方法
CN113066112B (zh) 一种基于三维模型数据的室内外融合方法及装置
CN106570883A (zh) 一种基于rgb‑d相机的人数统计方法
CN107063267A (zh) 一种快速的基于太阳影子信息的定位方法
CN108961385A (zh) 一种slam构图方法及装置
CN111383286B (zh) 定位方法、装置、电子设备及可读存储介质
CN117495735A (zh) 一种基于结构引导的建筑物立面纹理自动修复方法及***
CN101174299A (zh) 一种基于航空影像的水体与居民地变化检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180629

WD01 Invention patent application deemed withdrawn after publication