CN115761389A - 图像样本的增广方法、装置、电子设备及存储介质 - Google Patents

图像样本的增广方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115761389A
CN115761389A CN202111019697.3A CN202111019697A CN115761389A CN 115761389 A CN115761389 A CN 115761389A CN 202111019697 A CN202111019697 A CN 202111019697A CN 115761389 A CN115761389 A CN 115761389A
Authority
CN
China
Prior art keywords
image
pedestrian
images
generating
transformed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111019697.3A
Other languages
English (en)
Inventor
林坚
刘晓稳
刘杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Ripple Information Technology Co ltd
Original Assignee
Suzhou Ripple Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Ripple Information Technology Co ltd filed Critical Suzhou Ripple Information Technology Co ltd
Priority to CN202111019697.3A priority Critical patent/CN115761389A/zh
Publication of CN115761389A publication Critical patent/CN115761389A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本公开涉及一种图像样本的增广方法、装置、电子设备及存储介质,所述方法包括:基于多个源图像,生成每个所述源图像对应的行人区域图像;所述行人区域图像包含行人图像及背景图像;通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像;基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像;映射每个所述行人图像至对应的源图像中,以生成多个图像样本。本公开实施例可生成大量图像样本,且生成的图像样本可帮助机器学习模型更好地提取行人特征,进而提高了机器学习模型识别行人的准确率。

Description

图像样本的增广方法、装置、电子设备及存储介质
技术领域
本公开涉及图像处理领域,尤其涉及一种图像样本的增广方法、装置、电子设备及存储介质。
背景技术
近年来,机器学习技术在图像目标检测领域占据了主要位置。在训练机器学习模型之前,工程师会对图像样本进行增广,以确保机器学习模型训练时能够获取图像样本的普遍特征。然而,目前的图像样本增广方式仅仅是通过图像的翻转、旋转、模糊等操作处理图像样本,此类图像样本增广方式虽然能够增加图像样本的数量,但是依据所生成的图像样本进行训练所得到的机器学习模型,其识别准确率可能无法满足要求。
发明内容
根据本公开的第一方面,提供了一种图像样本的增广方法,所述方法包括:基于多个源图像,生成每个所述源图像对应的行人区域图像;所述行人区域图像包含行人图像及背景图像;通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像;基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像;映射每个所述行人图像至对应的源图像中,以生成多个图像样本。
在一种可能的实施方式中,所述方法还包括:生成每个所述行人区域图像对应的背景掩码;将每个所述行人区域图像的尺寸变换为预设尺寸,变换为所述预设尺寸的行人区域图像用于生成所述变换图像。
在一种可能的实施方式中,所述基于多个源图像,生成每个所述源图像对应的行人区域图像,包括:基于至少两张源图像,生成各源图像的标注框;所述标注框用以标注行人所在区域;基于每个所述源图像的标注框,生成每个所述源图像对应的行人区域图像。
在一种可能的实施方式中,所述基于至少两张源图像,生成各源图像的标注框,包括:获取至少两张源图像;依序从所有源图像中选取当前源图像,并执行以下步骤:基于所述当前源图像中的行人位置,生成至少一个标注框;删除所述当前源图像中标注框尺寸小于预设门限的标注框;确定所述当前源图像是否已不包含任一标注框;在确定所述当前源图像已不包含任一标注框的情况下,获取不同于所述至少两张源图像的源图像作为新的当前源图像,并重新执行基于所述当前源图像中的行人位置,生成至少一个标注框。
在一种可能的实施方式中,所述基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,包括:根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;根据调整后的每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像。
在一种可能的实施方式中,所述基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,包括:根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;通过预设的图像增广算法,基于调整后的每个所述变换图像,生成每个所述变换图像对应的多个增广图像;根据每个所述增广图像对应的背景掩码,生成每个所述增广图像对应的行人图像。
在一种可能的实施方式中,所述方法还包括:根据预设的图像增广算法,基于每个所述图像样本,生成多个增广图像样本。
在一种可能的实施方式中,所述通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像,包括:依序从所有行人区域图像中选取第一图像,并执行以下步骤:依序从所有行人区域图像中选取第二图像,并基于所述第一图像的结构码、所述第二图像的外观码,生成所述第一图像对应的变换图像;所述结构码用以表示行人区域图像的结构特征;所述外观码用以表示行人区域图像的外观特征。
根据本公开的第二方面,提供了一种图像样本的增广装置,包括:行人区域图像生成模块,用以基于多个源图像,生成每个所述源图像对应的行人区域图像;所述行人区域图像包含行人图像及背景图像;变换图像生成模块,用以通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像;行人图像生成模块,用以基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像;图像样本生成模块,用以映射每个所述行人图像至对应的源图像中,以生成多个图像样本。
根据本公开的第三方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为可执行上述任意一项所述的图像样本的增广方法。
根据本公开的第三方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任意一项所述的图像样本的增广方法。
本公开实施例提供的图像样本的增广方法,可以基于多个源图像,生成每个所述源图像对应的行人区域图像;通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像,实现了行人特征的局部图像变换,可有效帮助机器学习模型更好地提取行人特征,经所得到的图像样本训练后的机器学习模型的准确率得到提高;基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,以防止变换图像未经处理映射回源图像时所造成的图像违和感;映射每个所述行人图像至对应的源图像中,以生成多个图像样本。在本公开实施例中,由于源图像中背景并未改变,故本公开实施例所增广的图像样本,能够帮助机器学习模型降低背景的特征权重,进而更好地提取行人特征,此外,本公开实施例提供的增广方法可在图像样本有限的情况下,以极低的人工成本,实现图像样本的增广。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出了根据本公开一实施例提供的图像样本的增广方法的流程图。
图2示出了根据本公开一实施例提供的生成对抗网络的参考示意图。
图3示出了根据本公开一实施例提供的图像样本的增广方法的参考示意图。
图4示出了图1所示步骤S11的一个示例的流程图。
图5示出了根据本公开一实施例的一种图像样本的增广装置的框图。
图6示出了根据本公开一实施例的一种电子设备的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
目前图像目标检测领域的机器学***衡人工成本与机器学习模型的识别准确率。
本公开实施例提供的图像样本的增广方法,可以基于多个源图像,生成每个所述源图像对应的行人区域图像;通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像,实现了行人特征的局部图像变换,可有效帮助机器学习模型更好地提取行人特征;基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,以防止变换图像未经处理映射回源图像时所造成的图像违和感;映射每个所述行人图像至对应的源图像中,以生成多个图像样本。在本公开实施例中,由于源图像中背景并未改变,故本公开实施例所增广的图像样本,能够帮助机器学习模型降低背景的训练权重,进而更好地提取行人特征,此外,本公开实施例提供的增广方法可在图像样本有限的情况下,以极低的人工成本,实现图像样本的增广。
在一种可能的实施方式中,本公开实施例提出的图像样本的增广方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。或者,可通过服务器执行所述方法。示例性的,所述服务器可以为云服务器,也可以为本地服务器。
本公开实施例提供的图像样本的增广方法可以应用于多种机器学习模型训练场景,且成本极低。例如:开发人员可将源图像保存至电子设备的一个文件夹中,而后电子设备通过本公开实施例提供的增广方法,将生成的图像样本保存至指定文件夹中,即可在花费极低的人工成本的条件下,生成足够量的图像样本。后续开发人员可通过指定机器学习模型从该指定文件夹中选用图像样本,以完成机器学习模型的训练过程。示例性地,训练后的机器学习模型可应用于行人重识别、道路行人预警等场景。
请参阅图1,图1示出了根据本公开一实施例提供的图像样本的增广方法的流程图。
如图1所示,所述方法包括:
步骤S11,基于多个源图像,生成每个所述源图像对应的行人区域图像。所述行人区域图像包含行人图像及背景图像。
步骤S12,通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像。示例性地,上述预设的生成对抗网络可选为DG-NET(也称Discriminative and Generative NET,后文简称DG-NET)。
生成对抗网络可基于现有技术实现。示例性地,预设的生成对抗网络可包括一个外观编码器Ea、结构编码器Es、解码器G以及判别器D。上述外观编码器可基于行人区域图像生成其对应的外观码。上述结构编码器可基于行人区域图像生成其对应的结构码。上述解码器可通过一个外观码及一个结构码生成一张变换图像。上述判别器可识别行人区域图像、解码器生成的变换图像是否为经过合成的图像,以提高解码器的变换图像的生成质量。可选地,生成对抗网络在训练完成后,也可去除判别器,即变换图像不经过判别器判别,直接输出至指定文件夹中。
示例性地,上述外观码通过外观编码器生成,记录了行人区域图像的服装、颜色、纹理中的一种或多种外观特征;上述结构码通过结构编码器生成,记录了行人区域图像的行人尺寸、行人姿势、背景、视点、照明中的一种或多种结构特征。生成对抗网络的解码器可通过第一图像的结构码与第二图像的外观码,生成结构与第一图像结构类似、外观与第二图像外观类似的变换图像。
本实施例在此提供了一种上述生成对抗网络的训练方式以供参考:
生成对抗网络的训练任务可包括两部分:相同身份人的生成以及交叉身份人的生成。
上述相同身份人的生成训练任务目的在于,能够大体保证基于某一张行人区域图像的结构码、外观码能够重构该行人区域图像,若生成对抗网络连同一张行人区域图像(即相同身份人)都无法准确生成,那么后续交叉身份人的生成质量也很难保证。
上述交叉身份人的生成训练任务目的在于,能够大体保证基于多张行人区域图像的结构码、外观码能够在低违和程度下结合,以生成变换图像。
请参阅图2所示,图2示出了根据本公开一实施例提供的生成对抗网络的参考示意图。
图2中xi、xj、xt为不同的图像,相同身份人对应的变换图像的生成可参考图中的
Figure BDA0003241390390000051
交叉身份人对应的变换图像的生成可参考图中的
Figure BDA0003241390390000052
生成对抗网络每次可输入三张图像xi、xj、xt,其中图像xi、xj中的行人为不同身份人(即不是同一个人),拥有不同的结构特征及外观特征,图像xi、xt中的行人为相同身份人(即为同一个人),拥有不同的结构特征、相同或相似的外观特征。
生成对抗网络通过接收多组图像,提高解码器的生成质量以及判别器的判别准确率。此处以一组图像xi、xj、xt的训练流程举例:
交叉身份人生成任务如下:
(一)、通过结构编码器得到图像xj的结构码;通过外观编码器得到图像xi的外观码;通过上述结构码、上述外观码生成变换图像
Figure BDA0003241390390000053
通过判别器判断变换图像
Figure BDA0003241390390000054
是否为变换图像。示例性地,图像xi、xj、xt的标签为实际图像,图像
Figure BDA0003241390390000055
的标签为变换图像,以供判别器参考判别结果是否正确。
(二)、通过外观编码器,得到图像
Figure BDA0003241390390000056
与xi的外观码,评估图像xi
Figure BDA0003241390390000057
之间的外观码差异是否合格。示例性地,可通过一损失函数
Figure BDA0003241390390000058
及一基准值,评估图像xi
Figure BDA0003241390390000059
之间的外观码差异是否合格,调整网络参数,直至损失函数值稳定和/或接近基准值,该损失函数可为
Figure BDA0003241390390000061
其中,Ea(G(ai,sj))代表外观编码器基于图像
Figure BDA0003241390390000062
所生成的外观码,ai为图像xi的外观码,sj为图像xj的结构码。生成对抗网络经该流程调整后,可识别出图像xi
Figure BDA0003241390390000063
的外观码相同或相似。
(三)、通过结构解码器,得到图像
Figure BDA0003241390390000064
与xj的结构码,评估图像xj
Figure BDA0003241390390000065
之间的结构码差异是否合格。示例性地,可通过一损失函数
Figure BDA0003241390390000066
及一基准值,评估图像xj
Figure BDA0003241390390000067
之间的结构码差异是否合格,调整网络参数,直至损失函数值稳定和/或接近基准值,该损失函数可为
Figure BDA0003241390390000068
其中,Es(G(ai,sj))代表结构解码器基于图像
Figure BDA0003241390390000069
所生成的结构码,sj为图像xj的结构码。生成对抗网络经该流程调整后,可识别出图像xj
Figure BDA00032413903900000610
的结构码相同或相似。
相同身份人生成任务如下:
(一)、通过结构编码器,得到图像xi的结构码;通过外观编码器,得到图像xi的外观码;通过解码器,生成变换图像
Figure BDA00032413903900000611
并设定变换图像
Figure BDA00032413903900000612
的真实标签为图像xi(即真实标签用以标明变换图像
Figure BDA00032413903900000613
与图像xi为相同身份人,或用以标明变换图像
Figure BDA00032413903900000614
基于图像xi的结构码生成);评估xi
Figure BDA00032413903900000615
的像素点差异是否合格。示例性地,可通过一损失函数
Figure BDA00032413903900000616
及一基准值,评估xi
Figure BDA00032413903900000617
的差异是否合格,该损失函数可为
Figure BDA00032413903900000618
其中,ai为图像xi的外观码,si为图像xi的结构码。G(ai,si)代表解码器基于ai与si生成的图像
Figure BDA00032413903900000619
生成对抗网络经该流程调整后,可减少外观码在解码器中的合成损失,以使图像
Figure BDA00032413903900000620
xi
Figure BDA00032413903900000621
之间外观码的差异逐渐减小。
(二)、通过结构编码器,得到图像xi的结构码;通过外观编码器,得到图像xt的外观码;通过解码器,基于图像xi的结构码、图像xt的外观码,生成变换图像
Figure BDA00032413903900000622
并设定
Figure BDA00032413903900000624
的真实标签为图像xi(即真实标签用以标明变换图像
Figure BDA00032413903900000625
与图像xi为相同身份人,或用以标明变换图像
Figure BDA00032413903900000626
基于图像xi的结构码生成);评估图像xi与变换图像
Figure BDA00032413903900000627
的像素点差异是否合格。示例性地,可通过一损失函数
Figure BDA00032413903900000628
及一基准值,评估图像xi与变换图像
Figure BDA00032413903900000629
的像素点差异是否合格,调整网络参数,直至损失函数值稳定和/或接近基准值,该损失函数可为
Figure BDA00032413903900000630
其中,at为xt的外观码。生成对抗网络经该流程调整后,可更准确地提取图像xi
Figure BDA0003241390390000071
xj的外观码的共同点。
生成对抗网络通过多组训练图像的迭代训练,不断平衡解码器生成变换图像的质量及判别器的判别准确率,直至判别器的判别准确率稳定(即判别器已无法根据图像特征判定图像为真实图像还是为变换图像),换言之,解码器生成的变换图像已足够接近真实图像。在本公开实施例中,多个行人区域图像经训练后的生成对抗网络所生成变换图像的真实感极高,更便于后续机器学习模型提取图像样本的行人特征。
上述各类损失函数仅在此作出示例性的说明,开发人员可根据自身的实际需求,制定更多的损失函数,以增强生成对抗网络生成的变换图像的真实感。
继续参阅图1所示:
步骤S13,基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像。上述变换图像基于行人区域图像生成,故变换图像内的一部分背景也会发生变化,本公开实施例通过基于变换图像对应的背景掩码,生成行人图像的方式,减少了上述背景变化对机器学习模型的训练干扰。
步骤S14,映射每个所述行人图像至对应的源图像中,以生成多个图像样本。由于行人图像已去除背景,故其映射至源图像中所生成的图像样本,会减少画面的违和感,进而使得图像样本接近于真实图像,以提高基于该图像样本训练的机器学习模型的准确率。此外,相较于相关技术的图像增广手段,本公开实施例的源图像与图像样本中的行人差异更大,更有利于提升机器学习模型的泛化能力。
请参阅图3所示,图3示出了根据本公开一实施例提供的图像样本的增广方法的参考示意图。图3中共有6个行人区域图像,经预设的生成对抗网络生成了36(6*6)个变换图像,变换图像经背景掩码后,映射至各自的源图像中,第一个源图像可生成64个图像样本,第二个图像可生成62个图像样本。在该示例中,本公开实施例仅使用两张图片即可生成64+62个图像样本,且每个图像样本均基于行人特征生成,背景并未发生改变,故此类图像样本可帮助机器学习模型提取行人特征,进而提高训练后的机器学习模型的识别准确率。此外,基于本公开实施例提供的图像样本的增广方法,开发人员仅需提供若干张源图像,即可生成大量图像样本,极大地降低了人工成本。
请参阅图4,图4为图1所示步骤S11的一个示例的流程图。在一种可能的实施方式中,步骤S11包括:
步骤S111,基于至少两张源图像,生成各源图像的标注框。所述标注框用以标注行人所在区域。示例性地,该标准框的相关参数可包括:标注框宽度、标注框高度,标注框中心点像素坐标等。在一个示例中,标注框可由训练后的机器学习模型生成。上述机器学习模型的输入为源图像,输出为至少一组上述标注框的相关参数,若源图像中存在多个行人,机器学习模型可输出多组标注框相关参数。
在一种可能的实施方式中,步骤S111可包括:
获取至少两张源图像;依序从所有源图像中选取当前源图像,并执行以下步骤:基于所述当前源图像中的行人位置,生成至少一个标注框;删除所述当前源图像中标注框尺寸小于预设门限的标注框;确定所述当前源图像是否已不包含任一标注框;在确定所述当前源图像已不包含任一标注框的情况下,获取不同于所述至少两张源图像的源图像作为新的当前源图像,并重新执行基于所述当前源图像中的行人位置,生成至少一个标注框。示例性地,上述预设门限可为100像素*100像素。
通过上述方式,在源图像包含尺寸大于等于预设门限的标注框时,该源图像以及尺寸大于等于预设门限的标注框将予以保留,在源图像不包含尺寸大于等于预设门限的标注框时,该源图像及其标注框不予保留,并引入新的源图像重新执行上述操作。
在实际的应用场景中,源图像中很可能会带有多个行人,且由于每个行人与相机的距离不同,往往会在源图像中出现尺寸小且模糊的行人。该类行人所在的行人区域图像由于像素点较少,其记录的行人特征并不明显,不利于机器学习模型提取行人特征。在本公开实施例中,通过设定预设门限的方式,筛除了尺寸较小的标注框,以确保每张行人区域图像中的行人特征足够明显。经筛选后的行人区域图像,最终所生成的图像样本由于具备了足够的行人特征,故可帮助待训练的机器学习模型提高行人的识别准确率。
继续参阅图4,步骤S112,基于每个所述源图像的标注框,生成每个所述源图像对应的行人区域图像。示例性地,每个源图像可包括多个行人,在步骤S111中可通过多个标注框代表多个行人。换言之,在源图像包括多个行人的前提下,步骤S112中每个源图像可对应多个行人区域图像,每个行人区域图像可分别为一个标注框对应的源图像中的区域。
在一种可能的实施方式中,步骤S12(即通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像)之前还包括:生成每个所述行人区域图像对应的背景掩码;将每个所述行人区域图像的尺寸变换为预设尺寸,变换为所述预设尺寸的行人区域图像用于生成所述变换图像。示例性地,上述预设尺寸可为128像素*256像素。示例性地,每个行人区域图像可存储至一图像组中,以方便后续调用。
示例性地,该步骤可通过阈值法(即Thresholding法)生成行人区域图像对应的二值化图像,而后基于该二值化图像,通过轮廓提取算法(例如:轮廓提取法、边界跟踪法等),生成掩码矩阵。示例性地,上述掩码矩阵中的每个值与行人区域图像中的每一像素点对应,且该掩码矩阵包括‘0’与‘1’,‘0’代表背景像素点,‘1’代表行人像素点。其中,同一行人区域图像对应的掩码矩阵,可应用于该行人区域图像对应的多个变换图像的背景掩码,以节省算力。
示例性地,可将每个所述行人区域图像的尺寸缩放至预设尺寸,从而便于生成对抗网络进行处理。
在一种可能的实施方式中,步骤S12(即通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像)可包括:
依序从所有行人区域图像中选取第一图像,并执行以下步骤:
依序从所有行人区域图像中选取第二图像,并基于所述第一图像的结构码、所述第二图像的外观码,生成所述第一图像对应的变换图像;所述结构码用以表示行人区域图像的结构特征;所述外观码用以表示行人区域图像的外观特征。
在一个示例中,生成对抗网络可通过依序读取记录有行人区域图像的图像组,以生成一变换图像矩阵。例如:图像组中包括了M个行人区域图像,则变换图像矩阵包含了M*M个变换图像,其中,对角线上的变换图像数量为M,且对角线上的变换图像与未变换的行人区域图像的外观码、结构码相似或相同。
示例性地,生成对抗网络中的解码器可通过第一图像的结构码、第二图像的外观码,生成具备第一图像结构特征,具备第二图像外观特征的变换图像。
在一种可能的实施方式中,步骤S13可包括:
根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;
根据调整后的每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像。
由于行人区域图像的尺寸已统一为预设尺寸,故基于行人区域图像生成的变换图像也为预设尺寸,然而行人区域图像对应的背景掩码中的掩码信息并未受到尺寸变更的影响,若变换图像中的像素点无法与背景掩码中的掩码值一一对应,则可能会造成变换图像的生成错误或降低变换图像的生成质量。本公开实施例通过调整每个变换图像为对应的行人区域图像的原始尺寸(即没有变换为上述预设尺寸的、行人区域图像的原始尺寸)的方式,使得背景掩码能够正确与变换图像中的像素点对应,以准确去除背景像素点,进而使最终生成的图像样本具备了足够突出的行人特征。
本公开实施例还提供了步骤S13的另一种可执行流程,包括:
根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;
通过预设的图像增广算法,基于调整后的每个所述变换图像,生成每个所述变换图像对应的多个增广图像;
根据每个所述增广图像对应的背景掩码,生成每个所述增广图像对应的行人图像。
参见上文,根据与每个所述变换图像对应的行人区域图像的尺寸,可以是调整每个变换图像为对应的行人区域图像的原始尺寸。
上述预设的图像增广算法可为任意一种或多种图像增广算法,例如:基于颜色空间的变化算法、图像的模糊与擦除算法、多图像融合算法等。本公开实施例可针对变换图像进行图像样本增广,以增加变换图像的生成数量,进而增加图像样本的生成数量。
在一种可能的实施方式中,在步骤S14之后,可根据预设的图像增广算法,基于每个所述图像样本,生成多个增广图像样本,以进一步增加图像样本的最终生成数量,进而达到每个源图像都能够生成大量图像样本的目的。
请参阅图5,图5示出了根据本公开一实施例的一种图像样本的增广装置的框图。
如图5所示,本公开实施例还提供了一种图像样本的增广装置100,所述增广装置包括行人区域图像生成模块110、变换图像生成模块120、行人图像生成模块130、图像样本生成模块140。
行人区域图像生成模块110,用以基于多个源图像,生成每个所述源图像对应的行人区域图像;所述行人区域图像包含行人图像及背景图像;
变换图像生成模块120,用以通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像;
行人图像生成模块130,用以基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像;
图像样本生成模块140,用以映射每个所述行人图像至对应的源图像中,以生成多个图像样本。
在一种可能的实施方式中,所述增广装置还包括背景掩码生成模块(图未示)、尺寸设置模块(图未示);所述背景掩码生成模块用以生成每个所述行人区域图像对应的背景掩码;所述尺寸设置模块用以将每个所述行人区域图像的尺寸变换为预设尺寸,变换为所述预设尺寸的行人区域图像用于生成所述变换图像。在一种可能的实施方式中,所述基于多个源图像,生成每个所述源图像对应的行人区域图像,包括:基于至少两张源图像,生成各源图像的标注框;所述标注框用以标注行人所在区域;基于每个所述源图像的标注框,生成每个所述源图像对应的行人区域图像。
在一种可能的实施方式中,所述基于至少两张源图像,生成各源图像的标注框,包括:获取至少两张源图像;依序从所有源图像中选取当前源图像,并执行以下步骤:基于所述当前源图像中的行人位置,生成至少一个标注框;删除所述当前源图像中标注框尺寸小于预设门限的标注框;确定所述当前源图像是否已不包含任一标注框;在确定所述当前源图像已不包含任一标注框的情况下,获取不同于所述至少两张源图像的源图像作为新的当前源图像,并重新执行基于所述当前源图像中的行人位置,生成至少一个标注框。
在一种可能的实施方式中,所述基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,包括:根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;根据调整后的每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像。
在一种可能的实施方式中,所述基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,包括:根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;通过预设的图像增广算法,基于调整后的每个所述变换图像,生成每个所述变换图像对应的多个增广图像;根据每个所述增广图像对应的背景掩码,生成每个所述增广图像对应的行人图像。
在一种可能的实施方式中,所述增广装置还包括样本增广模块(图未示),所述样本增广模块用以根据预设的图像增广算法,基于每个所述图像样本,生成多个增广图像样本。
在一种可能的实施方式中,所述通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像,包括:依序从所有行人区域图像中选取第一图像,并执行以下步骤:依序从所有行人区域图像中选取第二图像,并基于所述第一图像的结构码、所述第二图像的外观码,生成所述第一图像对应的变换图像;所述结构码用以表示行人区域图像的结构特征;所述外观码用以表示行人区域图像的外观特征。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本公开实施例还提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述方法。
电子设备可以被提供为终端、服务器或其它形态的设备。
请参阅图6,图6示出了根据本公开一实施例的一种电子设备的框图。
例如,电子设备200可以被提供为一终端设备或服务器。参照图6,电子设备200包括处理组件222,其进一步包括一个或多个处理器,以及由存储器232所代表的存储器资源,用于存储可由处理组件222的执行的指令,例如应用程序。存储器232中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件222被配置为执行指令,以执行上述方法。
电子设备200还可以包括一个电源组件226被配置为执行电子设备200的电源管理,一个有线或无线网络接口250被配置为将电子设备200连接到网络,和一个输入输出(I/O)接口258。电子设备200可以操作基于存储在存储器232的操作***,例如微软服务器操作***(Windows ServerTM),苹果公司推出的基于图形用户界面操作***(Mac OS XTM),多用户多进程的计算机操作***(UnixTM),自由和开放原代码的类Unix操作***(LinuxTM),开放原代码的类Unix操作***(FreeBSDTM)或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器232,上述计算机程序指令可由电子设备200的处理组件222执行以完成上述方法。
本公开可以是***、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
附图中的流程图和框图显示了根据本公开的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (11)

1.一种图像样本的增广方法,其特征在于,所述方法包括:
基于多个源图像,生成每个所述源图像对应的行人区域图像;所述行人区域图像包含行人图像及背景图像;
通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像;
基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像;
映射每个所述行人图像至对应的源图像中,以生成多个图像样本。
2.根据权利要求1所述的增广方法,其特征在于,所述方法还包括:
生成每个所述行人区域图像对应的背景掩码;
将每个所述行人区域图像的尺寸变换为预设尺寸,变换为所述预设尺寸的行人区域图像用于生成所述变换图像。
3.根据权利要求2所述的增广方法,其特征在于,所述基于多个源图像,生成每个所述源图像对应的行人区域图像,包括:
基于至少两张源图像,生成各源图像的标注框;所述标注框用以标注行人所在区域;
基于每个所述源图像的标注框,生成每个所述源图像对应的行人区域图像。
4.根据权利要求3所述的增广方法,其特征在于,所述基于至少两张源图像,生成各源图像的标注框,包括:
获取至少两张源图像;
依序从所有源图像中选取当前源图像,并执行以下步骤:
基于所述当前源图像中的行人位置,生成至少一个标注框;
删除所述当前源图像中标注框尺寸小于预设门限的标注框;
确定所述当前源图像是否已不包含任一标注框;
在确定所述当前源图像已不包含任一标注框的情况下,获取不同于所述至少两张源图像的源图像作为新的当前源图像,并重新执行基于所述当前源图像中的行人位置,生成至少一个标注框。
5.根据权利要求1所述的增广方法,其特征在于,所述基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,包括:
根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;
根据调整后的每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像。
6.根据权利要求1所述的增广方法,其特征在于,所述基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像,包括:
根据与每个所述变换图像对应的行人区域图像的尺寸,调整每个所述变换图像的尺寸;
通过预设的图像增广算法,基于调整后的每个所述变换图像,生成每个所述变换图像对应的多个增广图像;
根据每个所述增广图像对应的背景掩码,生成每个所述增广图像对应的行人图像。
7.根据权利要求1至6中任一项所述的增广方法,其特征在于,所述方法还包括:
根据预设的图像增广算法,基于每个所述图像样本,生成多个增广图像样本。
8.根据权利要求1所述的增广方法,其特征在于,所述通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像,包括:
依序从所有行人区域图像中选取第一图像,并执行以下步骤:
依序从所有行人区域图像中选取第二图像,并基于所述第一图像的结构码、所述第二图像的外观码,生成所述第一图像对应的变换图像;所述结构码用以表示行人区域图像的结构特征;所述外观码用以表示行人区域图像的外观特征。
9.一种图像样本的增广装置,其特征在于,包括:
行人区域图像生成模块,用以基于多个源图像,生成每个所述源图像对应的行人区域图像;所述行人区域图像包含行人图像及背景图像;
变换图像生成模块,用以通过预设的生成对抗网络,基于多个行人区域图像,生成每个所述行人区域图像对应的变换图像;
行人图像生成模块,用以基于每个所述变换图像以及每个所述变换图像对应的背景掩码,生成每个所述变换图像对应的行人图像;
图像样本生成模块,用以映射每个所述行人图像至对应的源图像中,以生成多个图像样本。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为可执行权利要求1至8中任意一项所述的图像样本的增广方法。
11.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的图像样本的增广方法。
CN202111019697.3A 2021-09-01 2021-09-01 图像样本的增广方法、装置、电子设备及存储介质 Pending CN115761389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111019697.3A CN115761389A (zh) 2021-09-01 2021-09-01 图像样本的增广方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111019697.3A CN115761389A (zh) 2021-09-01 2021-09-01 图像样本的增广方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115761389A true CN115761389A (zh) 2023-03-07

Family

ID=85332147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111019697.3A Pending CN115761389A (zh) 2021-09-01 2021-09-01 图像样本的增广方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115761389A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952820A (zh) * 2024-03-26 2024-04-30 杭州食方科技有限公司 图像增广方法、装置、电子设备和计算机可读介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117952820A (zh) * 2024-03-26 2024-04-30 杭州食方科技有限公司 图像增广方法、装置、电子设备和计算机可读介质
CN117952820B (zh) * 2024-03-26 2024-06-21 杭州食方科技有限公司 图像增广方法、装置、电子设备和计算机可读介质

Similar Documents

Publication Publication Date Title
US10614574B2 (en) Generating image segmentation data using a multi-branch neural network
CN108229341B (zh) 分类方法和装置、电子设备、计算机存储介质
CN111583097A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN109166156B (zh) 一种摄像头标定图像的生成方法、移动终端及存储介质
CN110349161B (zh) 图像分割方法、装置、电子设备、及存储介质
CN108805838B (zh) 一种图像处理方法、移动终端及计算机可读存储介质
CN110619334B (zh) 基于深度学习的人像分割方法、架构及相关装置
CN111311756A (zh) 增强现实ar显示方法及相关装置
CN111739027A (zh) 一种图像处理方法、装置、设备及可读存储介质
CN111290684B (zh) 图像显示方法、图像显示装置及终端设备
CN111028279A (zh) 点云数据处理方法及装置、电子设备和存储介质
CN111353325A (zh) 关键点检测模型训练方法及装置
CN114758145B (zh) 一种图像脱敏方法、装置、电子设备及存储介质
CN110969641A (zh) 图像处理方法和装置
CN111931781A (zh) 图像处理方法及装置、电子设备和存储介质
CN117746015A (zh) 小目标检测模型训练方法、小目标检测方法及相关设备
CN115761389A (zh) 图像样本的增广方法、装置、电子设备及存储介质
CN113516697A (zh) 图像配准的方法、装置、电子设备及计算机可读存储介质
Kim et al. Performance analysis of ORB image matching based on android
CN112287734A (zh) 碎屏检测及用于碎屏检测的卷积神经网络的训练方法
CN109040612B (zh) 目标对象的图像处理方法、装置、设备及存储介质
CN108776959B (zh) 图像处理方法、装置及终端设备
CN116485944A (zh) 图像处理方法及装置、计算机可读存储介质和电子设备
CN112419249B (zh) 一种特殊服饰图片转化方法、终端设备及存储介质
CN115797920A (zh) 车牌识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination