CN111950346A - 一种基于生成式对抗网络的行人检测数据扩充方法 - Google Patents

一种基于生成式对抗网络的行人检测数据扩充方法 Download PDF

Info

Publication number
CN111950346A
CN111950346A CN202010595052.3A CN202010595052A CN111950346A CN 111950346 A CN111950346 A CN 111950346A CN 202010595052 A CN202010595052 A CN 202010595052A CN 111950346 A CN111950346 A CN 111950346A
Authority
CN
China
Prior art keywords
pedestrian
layer
picture
network
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010595052.3A
Other languages
English (en)
Inventor
彭滢
吴杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronic Technology Cyber Security Co Ltd
Original Assignee
China Electronic Technology Cyber Security Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronic Technology Cyber Security Co Ltd filed Critical China Electronic Technology Cyber Security Co Ltd
Priority to CN202010595052.3A priority Critical patent/CN111950346A/zh
Publication of CN111950346A publication Critical patent/CN111950346A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于生成式对抗网络的行人检测数据扩充方法,包括:S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U‑net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;S2、训练数据预处理;S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。采用本发明的方案生成的行人与背景融合更加自然,通过生成器的U‑net结构进行改进,使生成的行人细节更加精细;基于级联结构生成多尺度的行人图片,提高了大尺寸、高分辨率行人图片的质量;能够生成多样化的行人,提高了数据扩充的效率。

Description

一种基于生成式对抗网络的行人检测数据扩充方法
技术领域
本发明涉及图像处理领域,特别涉及一种基于生成式对抗网络的行人检测数据扩充方法。
背景技术
本发明涉及行人检测是视频处理中的一项基本任务,广泛应用于智能视频监控、自动驾驶、机器人自动化等场景中,训练高精度的行人检测模型需要大规模、高质量的行人图片数据集。目前,行人检测相关研究主要是使用已有的公开数据集,这些数据集大多来自巨头互联网公司,他们投入了大量的人工标注和矫正成本来保证数据集的可靠性。在这些公开数据集上训练模型时,研究者们常使用传统数据扩充方法,例如图片翻转、随机剪裁、调整颜色等对训练集图片进行扩充。然而,这些方法本质上并没能丰富数据集的内容,数据扩充的效果有限。面对这个问题,我们提出了一种级联结构的生成式对抗神经网络,它能够自动生成多尺寸、高质量、服饰各异的行人,从而达到自动化地大规模扩充行人检测数据集的目的。
生成式对抗神经网络(Generative Adversarial Network,GAN)是一种深度学习网络结构,它包含两个基本部分:生成器和判别器。在利用GAN进行图片生成的过程中,生成器的目标是生成尽可能真实的图片,判别器的目标是判断出哪些数据是真实的,哪些数据是生成的。通过训练网络,生成器和判别器不断地对抗,最终使网络学会生成与真实图片足够相近的图片。
近年来,基于GAN网络进行数据扩充成为了一个研究热点,已有的研究有生成植物图片用于植物识别的、生成医学CT图片用于辅助智能诊断的等等,但行人图片生成的研究还比较少,生成的行人图片质量也有待提高。前人工作基于GAN网络的行人生成方法主要思路是:给出一幅背景图(如街道图片),在背景图片中希望生成行人的位置上添加一个行人框,将框内的背景图替换成噪声(如高斯噪声),将其作为GAN网络的输入,基于U-net网络结构构建生成器,使用一个局部判别器来判断生成的行人是否真实,使用一个全局判别器来判断整幅行人图片是否真实,使用空间金字塔池化技术(Spatial Pyramid Pooling)来处理大小各异的多分辨率行人。这种方法存在几点问题:第一,添加的方框和背景的交界处有明显的边缘痕迹,生成的图片看起来像是在背景上贴了一个方形贴纸,不真实。第二,模型生成的行人细节粗糙,质量不高,这在大尺寸的高分辨率行人上尤其严重。第三,该方法训练的模型缺乏多样性,生成的行人衣着、颜色相似,这对数据扩充来说不够好。
发明内容
本发明所要解决的技术问题是:1.解决生成的行人图片中行人框与背景融合时边缘痕迹明显的问题;2.解决生成的行人细节粗糙的问题;3.解决大尺寸的高分辨率行人质量低的问题;4.解决生成的行人图片缺乏多样性的问题。针对上述存在的问题,提供了一种基于生成式对抗网络的行人检测数据扩充方法。
本发明采用的技术方案如下:一种基于生成式对抗网络的行人检测数据扩充方法,包括:
S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;
S2、训练数据预处理;
S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;
S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。
进一步的,所述S1中,搭建三层级联生成式对抗神经网络模型具体过程包括:
S11、构建残差U-net结构的生成器,生成器的编码器部分加入多尺度残差块,生成器的解码器部分加入通道注意力残差块;具体的,所述残差U-net结构的生成器在U-net的基础上进行改进,在编码器部分,将U-net的每个基本块中第二个3×3卷积替换为一个多尺度残差块作为新的基本块;在解码器部分,将U-net的每个基本块中第一个3×3卷积替换为一个通道注意力残差块作为新的基本块;向编码器的每个中间层注入一个经掩码遮掩的16维隐层向量。
S12、基于PatchGAN的判别器进行构建判别器;
S13、基于残差网络构建编码器;
S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256;两层生成式对抗网络之间通过一个卷积层相连,形成三层级联生成式对抗神经网络;
S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。
进一步的,所述步骤11中,生成器的编码器部分的每个中间层注入一个16维的隐层向量z,所述隐层向量z经过行人实例掩码遮掩。
进一步的,所述步骤15中三层级联生成式对抗神经网络模型的目标函数具体为:
Figure BDA0002557217220000031
其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,
Figure BDA0002557217220000032
和LGAN(·)分别代表BicycleGAN网络结构中的cVAE-GAN和cLR-GAN的对抗损失目标函数;
Figure BDA0002557217220000033
是L1损失,它使生成器的输入尽可能与行人样本图片相似;
Figure BDA0002557217220000034
也是L1损失,它使编码器的输出尽可能贴近高斯分布;LKL是cLR-GAN中的KL距离,LVGG是感知损失;λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。
进一步的,所述S2的具体包括:
S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图,得到行人样本图集合;
S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将每个标签图与对应样本图对齐并剪裁,重复该过程,得到行人样本图集合对应的实例标签图集合L;
S23、将每张实例标签图中最中间的行人的像素点值置为1,其他像素点值置为0,得到每张样本图的行人实例掩码M;
S24、利用得到的行人实例掩码对对应行人样本图进行处理,得到经行人实例掩码后的图像BM
S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图E;
S26、将步骤S22、S23、S24、S25得到的集合中每张图片所对应的BM,M,L,E依次拼接,获得三层级联生成式对抗神经网络模型输入集合A,A={BM,M,L,E}。
进一步的,所述步骤21中,针对每层生成对抗式神经网格提取不同的行人样本图,
对于第一层网络,取出数据集中高度在[64,256]像素的行人样本,每一个行人样本是一张正方形图片,边长与行人等高,图片的中心为行人的中心,调整取出图片的大小(resize)为64*64像素;
对于第二层网络,取出高度在[100,1024]像素的行人样本,调整图片大小到128*128像素;
对于第三层网络,取出高度在[150,1024]像素的行人样本,调整图片大小到256*256*像素。
进一步的,所述S3的具体包括:在训练级联网络时,训练N轮,
第一层网络的目标是学习生成器G1和编码器E1的权重,训练第一层时,目标函数不使用感知损失;
训练第二层时,前N/2轮固定生成器G1和编码器E1的权重,只更新生成器G2和编码器E2的权重,后N/2轮同时更新生成器G1、G2和编码器E1、E2的权重。
训练第三层时,前N/2轮固定生成器G1、G2和编码器E1、E2的权重,只更新生成器G3和编码器E3的权重,后N/2轮同时更新生成器G1、G2、G3和编码器E1、E2、E3的权重。
其中,G1、G2、G3分别指第一层、第二层、第三层生成式对抗神经网络的生成器;E1、E2、E3分别指第一层、第二层、第三层生成式对抗神经网络的编码器。
进一步的,S3中,采用Adam优化方法更新权重,其学习率为wh-i*lr,其中lr是基础学习率,h是级联的总层数,i是当前所训练层的序数,w是权重参数。
进一步的,所述S4的具体包括:
S41、建立图片中行人高度Ph与行人位置Ppos的线性关系;
S42、根据数据集提供的实例标签标注,得到路面位置坐标集合;
S43、统计数据集提供的实例标签中已有行人的行人框底边10*10像素内的位置坐标,得到行人位置坐标集合;
S44、对于一张给定的需要生成行人的图片I,随机从路面位置坐标集合和行人位置坐标集合中选择一个数据集,再随机从这两个数据集中选一个位置,作为生成行人的位置Ppos,根据步骤S41的线性关系,计算出新生成行人的高度Ph
从图片I中剪裁出一个Ph*Ph大小的背景图片Ibg,其中心与生成的新的行人的中心一致;从行人实例掩码数据集中随机选择一个掩码M,以及它对应的实例掩码L和边缘图片E,根据Ibg和掩码M计算得到经掩码后的图片BM,将掩码M、实例掩码L、边缘图片E以及经掩码后的图片BM一起输入训练好的三层级联生成式对抗神经网络模型,得到生成图片Iped,在图片I中将背景图片Ibh逐像素替换为生成图片Iped,完成一次数据扩充;
S45、重复步骤41,得到大量扩充数据。
进一步的,所述S1中,行人高度Ph与行人位置Ppos的线性关系的具体为:
Ph global=aglobal*Ppos global+bglobal
其中,Ph global为整个数据集中行人高度Ph的统计值,Ppos global为整个数据集中行人位置Ppos的统计值。
与现有技术相比,采用上述技术方案的有益效果为:
1.使用行人实例掩码解决了行人框掩码在背景图中边缘明显的问题;行人实例掩码能够提供行人的形状,生成的行人身体边缘更加清晰,姿态更加真实;
2.引入多尺度残差块、通道注意力残差块,对生成器的U-net结构进行改进,使生成的行人细节更加精细;
3.基于级联结构生成多尺度的行人图片,提高了大尺寸、高分辨率行人图片的质量;
4.能够生成多样化的行人,提高了数据扩充的效率。
附图说明
图1为本发明中的基于GAN网络的行人检测数据扩充方法过程示意图。
图2为本发明中的三层级联生成式对抗神经网络整体结构示意图。
图3为本发明中的生成器残差U-net网络结构示意图。
图4为本发明中的生成器中多尺度残差块结构示意图。
图5为本发明中的生成器中通道注意力残差块结构示意图。
图6为本发明中的判别器结构示意图。
图7为本发明中的编码器结构示意图。
图8为本发明中的级联层与层之间连接结构示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明要解决的技术问题:
1.解决生成的行人图片中行人框与背景融合时边缘痕迹明显的问题;
2.解决生成的行人细节粗糙的问题;
3.解决大尺寸的高分辨率行人质量低的问题;
4.解决生成的行人图片缺乏多样性的问题。
基于此,本发明提供了一种基于生成式对抗网络的行人检测数据扩充方法,具体方案如下:
步骤1:搭建级联生成式对抗神经网络。本方案提出一个三层级联生成式对抗神经网络(如图2),每一层生成式对抗神经网络都使用BicycleGAN的结构,但将其中生成器的网络结构改进为残差U-net网络,本实施例提出的神经网络是为学习从BM到B的映射,其中,BM是输入域集合,它的每个元素是一张被行人实例掩码遮掩的背景图片;B是输出域集合,它的每一个元素是一张包含背景的行人图片。为了给网络提供更多的信息,在训练网络时我们不仅输入BM,还输入它对应的行人实例掩码集合M、计算M所用的实例标签图集合L,以及通过L得到的实例边缘图集合E。所以,网络的输入为A={BM,M,L,E},输出为B。需注意的是,本实施例的网络学习“1对多”的映射,对于一个输入,有多个可能的输出,但在训练时我们只输入“1对1”的映射,在测试时可以获得多个输出。具体如下:
步骤11、构建残差U-net结构的生成器。残差U-net生成器在U-net的基础上进行改进:在编码器部分,将U-net的每个基本块中第二个3×3卷积替换为一个多尺度残差块作为新的基本块;在解码器部分,将U-net的每个基本块中第一个3×3卷积替换为一个通道注意力残差块作为新的基本块;向编码器的每个中间层注入一个经掩码遮掩的16维隐层向量。对于本发明的三层级联生成式对抗神经网络,每个层级上,生成器编码器和解码器部分的基本块个数相等,其基本块总数分别为n1=12,n2=14,n3=16,第j个和第n-j个基本块之间跳连,跳连的连接方式与原始的U-net一致。
具体的,编码器部分的每个多尺度残差块定义为:
Figure BDA0002557217220000061
Figure BDA0002557217220000062
Figure BDA0002557217220000065
Figure BDA0002557217220000063
Figure BDA0002557217220000064
Mn=S'+Mn-1
其中,w和b是权重和偏置,上角标代表该网络层的位置,下角标代表代表卷积网络中的卷积核大小,与已有工作的多尺度残差块的不同在于,本发明的激活函数δ(·)不使用ReLU,而是使用LeakyReLU,方括号[]代表连接操作,Mn和Mn-1分别代表多尺度残差块的输出和输入。
在解码器的通道注意力残差块中,通道注意力CA(X)由以下三步定义:
Figure BDA0002557217220000071
s=f(WUδ(WDy)),
Figure BDA0002557217220000073
其中,输入数据为X=[x1,x2,...,xC],C是一个大小为H×W大小的特征图,y是对每个通道的统计信息,xc(i,j)是在位置(i,j)上的值,AA(·)是Average Pooling,f(·)是sigmoid,δ(·)是LeakyReLU,W是权重。基于CA(X),通道注意力残差块A(X)表示为:
An=CA(X)·X+An-1
X=W2δ(W1An-1)
其中,W1和W2是两个卷积层的权重。
如图3所示为第一层对抗式神经网络中的生成器结构示意图,其中C(in,out,k,s)代表一个卷积层,它的输入通道数为in,输出通道数为out,卷积核的大小是k*k,步长是s;CT(in,out,k,s)代表一个转置卷积层;CAT是拼接操作;DS(t)是下采样操作,其系数为t;M(in,out)是一个多尺度特征残差块,A(in,inter)是一个通道注意力残差块。图4为多尺度特征残差块的结构示意图,图5为通道注意力残差块的结构示意图,其中inter是该残差块里中间卷积层的通道数,通过输入通道数in和衰减率r计算得到,本实施例取r=16。
步骤12、构建判别器。所有判别器均使用PatchGAN提出的判别器结构,其结构示意如图6。其中,C(in,out,k,s)代表一个卷积层,AvgPool(k,s)代表一个平均池化层。
网络使用Leaky ReLU为激活函数,参数为0.2,Instance Normalization是实例正则化。
步骤13、构建BicycleGAN网络的编码器。编码器基于残差网络,结构示意如图7。R(in,out,k,s)代表一个标准的残差块,Linear(in,out)代表一个线性层,
Figure BDA0002557217220000074
代表逐元素相加操作,网络使用Leaky ReLU为激活函数,参数为0.2,Instance Normalization是实例正则化。
步骤14、搭建三层级联生成式对抗神经网络。
级联网络的每一层使用步骤11、12、13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256。两层GAN网络之间靠一个卷积层相连,其示意图见图8。
步骤15、设定模型训练的目标函数。因为级联的每一层都是一个BicycleGAN结构的网络,所以本实施例采用了BicycleGAN提出的目标函数。另外,为了促使生成的行人更像人,文本还加入了基于VGG-19的感知损失为目标函数。最终的目标函数为:
Figure BDA0002557217220000081
其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,
Figure BDA0002557217220000082
和LGAN(·)分别代表BicycleGAN中的cVAE-GAN和cLR-GAN的对抗损失目标函数。
Figure BDA0002557217220000083
是L1损失,它使生成器的输入尽可能与行人样本图片相似;
Figure BDA0002557217220000084
也是L1损失,它使编码器的输出尽可能贴近高斯分布。LKL是cLR-GAN中的KL距离,LVGG是感知损失。λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。
步骤2:数据预处理。本方案在公开数据集Cityscapes提供的训练集上进行模型训练,在它的验证集上进行测试。该数据集中的每张街景图片的分辨率都是1920*1080,训练本发明的模型只关注图片中有行人的部分。具体如下:
步骤21、从数据集中取出行人样本。为训练第一层GAN网络,我们取出数据集中高度在[64,256]像素的行人样本,每一个行人样本是一张正方形图片,边长与行人等高,图片的中心为行人的中心。调整取出图片的大小(resize)为64*64像素;为训练第二层GAN网络,取出高度在[100,1024]像素的行人样本,调整图片大小到128*128像素;为训练第三层GAN网络,取出高度在[150,1024]像素的行人样本,调整图片大小到256*256*像素。
步骤22、获得行人样本对应的实例标签图集合L。通过Cityscapes提供的实例标签图集合和步骤21得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将标签图与每个样本图对齐并剪裁,得到实例标签图集合。
步骤23、获得行人样本对应的行人实例掩码M。对于每张标签图,将属于它中最中间的行人的像素点值置为1,其他像素点值置为0,则得到了每张样本图的行人实例掩码。
步骤24、获得经行人实例掩码后的图像BM。通过步骤21获得的样本和步骤22获得的行人实例掩码得到经行人实例掩码后的图像,图像中最中间的行人被掩码为白色,图片的其他部分仍保留。
步骤25、获得行人样本对应的实例边缘图集合E。将Cityscapes提供的实例标签图与步骤21获得的样本图集合对其,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图。
步骤26、得到模型的输入集合A,A={BM,M,L,E}。将步骤22、23、24、25得到的集合中每张图片所对应的BM,M,L,E依次拼接,获得输入集合。
步骤3:训练三层级联生成式对抗神经网络模型。超参数λ、λKL、λlatent、λVGG分别设置为10,0.01,0.5和1,设置批度为1,训练轮数为200。
在训练第一层GAN网络时不使用感知损失,因为我们发现该损失在这种分辨率下会导致训练不稳定。
在训练级联网络时,第一层网络的目标是学习生成器G1和编码器E1的权重,训练200轮;训练第二层时,前100轮固定G1和E1的权重,只更新G2和E2,后100轮同时更新G1、E1、G2和E2;第三层与第二层采用相同的策略。
使用Adam优化方法更新权重,其学习率为wh-i*lr,其中lr是基础学习率,h是级联的总层数,i是当前所训练层的序数,w是权重参数,本实施例取lr=0.0002,h=3,i={1,2,3},w=0.01。
步骤4:使用步骤3训练的模型扩充CityPersons数据集行人检测数据。CityPersons是从Cityscapes数据集中延伸出来的一个公开数据集,也提供了城市街景图片、实例标签标注等数据。
数据扩充具体步骤如下:
步骤41、确定数据集中行人高度与位置间的关系。行人的高度用Ph表示,行人的位置用Ppos表示,二者之间存在关联:行人所处的位置离拍摄图片的相机位置越近则其高度越大。Ph和Ppos可根据数据集提供的行人框标签获得,Ph取值为行人框的高度,Ppos取值为行人框底边在纵轴上的坐标。这里,取图片的左上角为原点,图片上边缘所在的直线为横轴,向右为正方向,图片左边缘所在的直线为纵轴,向下为正方向。根据整个数据集上Ph的统计值Ph global和Ppos的统计Ppos global,可以拟合一个全局的线性关系:
Ph global=aglobal*Ppos global+bglobal
步骤42、取适合生成行人的位置。根据现实世界的认知,行人出现的位置必须在人行道或者马路上(统称路面),天空或者树上等位置是不合适的。那么,根据数据集提供的实例标签标注,可以得到路面位置坐标集合{Ground}。在此基础上,我们假设一个新生成的行人可以出现在已有的行人的旁边,或者在路面的任意位置。根据数据集提供的实例标签,统计已有行人的行人框底边10*10像素内的位置坐标为行人位置坐标{Person}。
步骤43、扩充行人数据。对于一张给定的需要生成行人的图片I,随机从{Ground}和{Person}中选择一个数据集,再随机从这两个数据集中选一个位置,作为生成行人的位置Ppos。根据步骤41的线性关系,计算出新生成行人的高度Ph。从图片I中剪裁出一个Ph*Ph大小的背景图片Ibg,其中心与生成的新的行人的中心一致。接着,从行人实例掩码数据集中随机选择一个掩码M,以及它对应的实例掩码L和边缘图片E,根据Ibg和掩码M计算得到经掩码后的图片BM,将掩码M、实例掩码L、边缘图片E以及经掩码后的图片BM一起输入步骤3训练好的级联GAN网络模型,得到一张生成图片Iped,在图片I中将背景图片Ibg逐像素替换为生成图片Iped,完成一次数据扩充。根据实际需求,可自动地选择I、Ppos和M,反复进行步骤43,得到大量的扩充数据。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。如果本领域技术人员,在不脱离本发明的精神所做的非实质性改变或改进,都应该属于本发明权利要求保护的范围。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (10)

1.一种基于生成式对抗网络的行人检测数据扩充方法,其特征在于,包括:
S1、搭建三层级联生成式对抗神经网络模型,并设定模型训练的目标函数;每层生成式对抗神经网络均采用BicycleGAN的结构,生成器采用残差U-net结构,后一层的网络的输入为行人实例掩码图片和前一层网络的输出;
S2、训练数据预处理;
S3、采用预处理后的数据训练三层级联生成式对抗神经网络模型;
S4、通过三层级联生成式对抗神经网络模型完成行人检测数据的扩充。
2.根据权利要求1所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S1中,搭建三层级联生成式对抗神经网络模型具体过程包括:
S11、构建残差U-net结构的生成器,生成器的编码器部分加入多尺度残差块,生成器的解码器部分加入通道注意力残差块;所述生成器在第一层、第二层、第三层网络中包含的基本块个数分别为n1=12,n2=14,n3=16,在每层的第j个和第n-j个基本块之间跳连;所述基本块包括多尺度残差块和通道注意力残差块;
S12、基于PatchGAN的判别器进行构建判别器;
S13、基于残差网络构建编码器;
S14、级联网络每一层采用S11、S12、S13构建的生成器、判别器和编码器,第一层输入的图片分辨率为64*64,第二层为128*128,第三层为256*256;两层生成式对抗网络之间通过一个卷积层相连,形成三层级联生成式对抗神经网络;
S15、基于BicycleGAN的目标函数加入基于VGG-19的感知损失作为三层级联生成式对抗神经网络模型的目标函数。
3.根据权利要求2所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤11中,生成器的编码器部分的每个中间层注入一个16维的隐层向量z,所述隐层向量z经过行人实例掩码遮掩。
4.根据权利要求3所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤15中三层级联生成式对抗神经网络模型的目标函数具体为:
Figure FDA0002557217210000011
其中,G*,E*分别代表生成器和编码器,Dwhole是全局判别器,Dlocal是局部判别器,
Figure FDA0002557217210000021
和LGAN(·)分别代表BicycleGAN网络结构中的cVAE-GAN和cLR-GAN的对抗损失目标函数;
Figure FDA0002557217210000022
是L1损失,它使生成器的输入尽可能与行人样本图片相似;
Figure FDA0002557217210000023
也是L1损失,它使编码器的输出尽可能贴近高斯分布;LKL是cLR-GAN中的KL距离,LVGG是感知损失;λ、λKL、λlatent、λVGG是超参数,控制对应项的权重。
5.根据权利要求1或4所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S2的具体包括:
S21、从Cityscapes数据集从取出每层生成对抗网络所需像素大小的行人样本图,得到行人样本图集合;
S22、根据Cityscapes的实例标签图集合和步骤S1得到的行人样本图集合,获取每张行人样本图对应的实例标签图,将每个标签图与对应样本图对齐并剪裁,重复该过程,得到行人样本图集合对应的实例标签图集合L;
S23、将每张实例标签图中最中间的行人的像素点值置为1,其他像素点值置为0,得到每张样本图的行人实例掩码M;
S24、利用得到的行人实例掩码对对应行人样本图进行处理,得到经行人实例掩码后的图像BM
S25、将Cityscapes数据集的实例标签图与步骤S1获得的行人样本图集合对齐,将实例标签图中实例与实例的交界处像素值置为1,实例内的像素值置为0,则得到对应的实例边缘图E;
S26、将步骤S22、S23、S24、S25得到的集合中每张图片所对应的BM,M,L,E依次拼接,获得三层级联生成式对抗神经网络模型输入集合A,A={BM,M,L,E}。
6.根据权利要求5所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述步骤21中,针对每层生成对抗式神经网格提取不同的行人样本图,
对于第一层网络,取出数据集中高度在[64,256]像素的行人样本,每一个行人样本是一张正方形图片,边长与行人等高,图片的中心为行人的中心,调整取出图片的大小(resize)为64*64像素;
对于第二层网络,取出高度在[100,1024]像素的行人样本,调整图片大小到128*128像素;
对于第三层网络,取出高度在[150,1024]像素的行人样本,调整图片大小到256*256像素。
7.根据权利要求6所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S3的具体包括:在训练级联网络时,训练N轮,
第一层网络的目标是学习生成器G1和编码器E1的权重,训练第一层时,目标函数不使用感知损失;
训练第二层时,前N/2轮固定生成器G1和编码器E1的权重,只更新生成器G2和编码器E2的权重,后N/2轮同时更新生成器G1、G2和编码器E1、E2的权重。
训练第三层时,前N/2轮固定生成器G1、G2和编码器E1、E2的权重,只更新生成器G3和编码器E3的权重,后N/2轮同时更新生成器G1、G2、G3和编码器E1、E2、E3的权重。
其中,G1、G2、G3分别指第一层、第二层、第三层生成式对抗神经网络的生成器;E1、E2、E3分别指第一层、第二层、第三层生成式对抗神经网络的编码器。
8.根据权利要求7所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,S3中,采用Adam优化方法更新权重,其学习率为wh-i*lr,其中lr是基础学习率,h是级联的总层数,i是当前所训练层的序数,w是权重参数。
9.根据权利要求8所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S4的具体包括:
S41、建立图片中行人高度Ph与行人位置Ppos的线性关系;
S42、根据数据集提供的实例标签标注,得到路面位置坐标集合;
S43、统计数据集提供的实例标签中已有行人的行人框底边10*10像素内的位置坐标,得到行人位置坐标集合;
S44、对于一张给定的需要生成行人的图片I,随机从路面位置坐标集合和行人位置坐标集合中选择一个数据集,再随机从这两个数据集中选一个位置,作为生成行人的位置Ppos,根据步骤S41的线性关系,计算出新生成行人的高度Ph
从图片I中剪裁出一个Ph*Ph大小的背景图片Ibg,其中心与生成的新的行人的中心一致;从行人实例掩码数据集中随机选择一个掩码M,以及它对应的实例掩码L和边缘图片E,根据Ibg和掩码M计算得到经掩码后的图片BM,将掩码M、实例掩码L、边缘图片E以及经掩码后的图片BM一起输入训练好的三层级联生成式对抗神经网络模型,得到生成图片Iped,在图片I中将背景图片Ibg逐像素替换为生成图片Iped,完成一次数据扩充;
S45、重复步骤41,得到大量扩充数据。
10.根据权利要求9所述的基于生成式对抗网络的行人检测数据扩充方法,其特征在于,所述S1中,行人高度Ph与行人位置Ppos的线性关系的具体为:
Ph global=aglobal*Ppos global+bglobal
其中,Ph global为整个数据集中行人高度Ph的统计值,Ppos global为整个数据集中行人位置Ppos的统计值。
CN202010595052.3A 2020-06-28 2020-06-28 一种基于生成式对抗网络的行人检测数据扩充方法 Pending CN111950346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010595052.3A CN111950346A (zh) 2020-06-28 2020-06-28 一种基于生成式对抗网络的行人检测数据扩充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010595052.3A CN111950346A (zh) 2020-06-28 2020-06-28 一种基于生成式对抗网络的行人检测数据扩充方法

Publications (1)

Publication Number Publication Date
CN111950346A true CN111950346A (zh) 2020-11-17

Family

ID=73337331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010595052.3A Pending CN111950346A (zh) 2020-06-28 2020-06-28 一种基于生成式对抗网络的行人检测数据扩充方法

Country Status (1)

Country Link
CN (1) CN111950346A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634284A (zh) * 2020-12-22 2021-04-09 上海体素信息科技有限公司 基于权重图损失的分阶段神经网络ct器官分割方法及***
CN114519798A (zh) * 2022-01-24 2022-05-20 东莞理工学院 一种基于对抗神经网络的多目标图像数据增强方法
TWI779760B (zh) * 2021-08-04 2022-10-01 瑞昱半導體股份有限公司 資料擴增方法與非暫態電腦可讀取媒體
CN115526874A (zh) * 2022-10-08 2022-12-27 哈尔滨市科佳通用机电股份有限公司 闸调器控制杆圆销和圆销开口销丢失检测方法
WO2023246921A1 (zh) * 2022-06-23 2023-12-28 京东方科技集团股份有限公司 目标属性识别方法、模型训练方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2948816A1 (fr) * 2009-07-30 2011-02-04 Univ Paris Sud Dispositifs electro-optiques bases sur la variation d'indice ou d'absorption dans des transitions isb.
US20120069342A1 (en) * 2010-04-19 2012-03-22 Fraser Dalgleish MEMS Microdisplay Optical Imaging and Sensor Systems for Underwater Scattering Environments
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN109271895A (zh) * 2018-08-31 2019-01-25 西安电子科技大学 基于多尺度特征学习和特征分割的行人重识别方法
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110969589A (zh) * 2019-12-03 2020-04-07 重庆大学 基于多流注意对抗网络的动态场景模糊图像盲复原方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2948816A1 (fr) * 2009-07-30 2011-02-04 Univ Paris Sud Dispositifs electro-optiques bases sur la variation d'indice ou d'absorption dans des transitions isb.
US20120069342A1 (en) * 2010-04-19 2012-03-22 Fraser Dalgleish MEMS Microdisplay Optical Imaging and Sensor Systems for Underwater Scattering Environments
US20170365038A1 (en) * 2016-06-16 2017-12-21 Facebook, Inc. Producing Higher-Quality Samples Of Natural Images
CN109271895A (zh) * 2018-08-31 2019-01-25 西安电子科技大学 基于多尺度特征学习和特征分割的行人重识别方法
CN110021051A (zh) * 2019-04-01 2019-07-16 浙江大学 一种基于生成对抗网络通过文本指导的人物图像生成方法
CN110969589A (zh) * 2019-12-03 2020-04-07 重庆大学 基于多流注意对抗网络的动态场景模糊图像盲复原方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIE WU 等: "PMC-GANs:Generating Multi-Scale High-Quality Pedestrian with Multimodal Cascaded GANs", 《ARXIV》 *
梁礼明 等: "自适应尺度信息的U型视网膜血管分割算法", 《光学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634284A (zh) * 2020-12-22 2021-04-09 上海体素信息科技有限公司 基于权重图损失的分阶段神经网络ct器官分割方法及***
CN112634284B (zh) * 2020-12-22 2022-03-25 上海体素信息科技有限公司 基于权重图损失的分阶段神经网络ct器官分割方法及***
TWI779760B (zh) * 2021-08-04 2022-10-01 瑞昱半導體股份有限公司 資料擴增方法與非暫態電腦可讀取媒體
CN114519798A (zh) * 2022-01-24 2022-05-20 东莞理工学院 一种基于对抗神经网络的多目标图像数据增强方法
WO2023246921A1 (zh) * 2022-06-23 2023-12-28 京东方科技集团股份有限公司 目标属性识别方法、模型训练方法和装置
CN115526874A (zh) * 2022-10-08 2022-12-27 哈尔滨市科佳通用机电股份有限公司 闸调器控制杆圆销和圆销开口销丢失检测方法
CN115526874B (zh) * 2022-10-08 2023-05-12 哈尔滨市科佳通用机电股份有限公司 闸调器控制杆圆销和圆销开口销丢失检测方法

Similar Documents

Publication Publication Date Title
CN111950346A (zh) 一种基于生成式对抗网络的行人检测数据扩充方法
CN105894045B (zh) 一种基于空间金字塔池化的深度网络模型的车型识别方法
CN105069746B (zh) 基于局部仿射和颜色迁移技术的视频实时人脸替换方法及其***
CN112734845B (zh) 一种融合场景语义的室外单目同步建图与定位方法
CN109711413A (zh) 基于深度学习的图像语义分割方法
CN106022363B (zh) 一种适用于自然场景下的中文文字识别方法
CN112784736B (zh) 一种多模态特征融合的人物交互行为识别方法
CN109002752A (zh) 一种基于深度学习的复杂公共场景快速行人检测方法
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN112633220B (zh) 一种基于双向序列化建模的人体姿态估计方法
CN110197152A (zh) 一种用于自动驾驶***的道路目标识别方法
CN108416292A (zh) 一种基于深度学习的无人机航拍图像道路提取方法
CN104751466B (zh) 一种基于显著性的形变物体跟踪方法及其***
CN112288776B (zh) 一种基于多时间步金字塔编解码器的目标跟踪方法
CN107506765A (zh) 一种基于神经网络的车牌倾斜校正的方法
CN114399533B (zh) 一种基于多层次注意力机制的单目标追踪方法
CN113076804B (zh) 基于YOLOv4改进算法的目标检测方法、装置及***
CN111209858A (zh) 一种基于深度卷积神经网络的实时车牌检测方法
CN115376024A (zh) 一种输电线路电力配件语义分割方法
CN112560865A (zh) 一种室外大场景下点云的语义分割方法
CN112884893A (zh) 基于非对称卷积网络和注意力机制的跨视角图像生成方法
Li et al. Line drawing guided progressive inpainting of mural damages
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
WO2020001046A1 (zh) 一种基于自适应层次化运动建模的视频预测方法
CN114581307A (zh) 用于目标追踪识别的多图像拼接方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201117