CN114155177B

CN114155177B - 一种图像增广方法、装置、电子设备及存储介质

Info

Publication number: CN114155177B
Application number: CN202111366082.8A
Authority: CN
Inventors: 李丰军; 周剑光; 黄文涵; 林泽阳
Original assignee: China Automotive Innovation Corp
Current assignee: China Automotive Innovation Corp
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2024-07-05
Anticipated expiration: 2041-11-18
Also published as: CN114155177A

Abstract

本申请涉及一种图像增广方法、装置、电子设备及存储介质，包括获取初始图像集，初始图像集中包括多个包含有目标对象的初始图像，多个初始图像中的每个初始图像携带有目标对象的标识信息，对每个初始图像进行组合变换处理，得到每个初始图像对应的第一图像集合，对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像，基于每个初始图像和每个初始图像对应第二图像构建目标图像集，目标图像集中每个目标图像携带有目标对象的标识信息。基于本申请实施例可以实现图像增广，以扩充数据规模，改善网络的泛化性，降低过拟合的风险。

Description

一种图像增广方法、装置、电子设备及存储介质

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种图像增广方法、装置、电子设备及存储介质。

背景技术

自动驾驶车辆通过感知***获取车辆自身信息和周围行驶环境信息，并回传至处理器进行分析、计算和处理，从而做出决策控制执行***实现车辆的动作。其中，交通灯检测与识别是自动驾驶车辆视觉环境感知的重要功能之一，自动驾驶***通过相机获取行驶环境图像，在图像中对交通灯进行标注，从而实现感知车辆行驶环境的道路交通灯，使自动驾驶车辆能够在不违反交通法规的前提下自主地通过交通路口。

自动驾驶***通过深度学习技术对获取的图像标注数据进行训练，随着基于深度学习的计算机视觉技术的发展，对用于模型训练的图像标注数据的需求日益增加，但是通过数据的采集与人工标注的流程周期较长，因此目前此类数据集的数量还十分欠缺，难以支撑先进的算法与模型的训练及部署。

发明内容

本申请实施例提供了一种图像增广方法、装置、电子设备及存储介质，用于提高数据集多样性，增加了用于神经网络模型训练的数据，有利于加强神经网络训练模型的泛化能力，降低过拟合的风险。

本申请实施例提供了一种图像增广方法，该方法包括：

获取初始图像集，初始图像集中包括多个包含有目标对象的初始图像；多个初始图像中的每个初始图像携带有目标对象的标识信息；

对每个初始图像进行组合变换处理，得到每个初始图像对应的第一图像集合；第一图像集合包括多个第一图像；

对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像；

基于每个初始图像和每个初始图像对应第二图像构建目标图像集；目标图像集中每个目标图像携带有目标对象的标识信息。

进一步地，对每个初始图像进行组合变换处理，得到每个初始图像对应的第一图像集合，包括：

基于N种组合变换方式对每个初始图像进行变换，得到每个初始图像对应的N个第一图像；N为大于等于1的整数；

基于N个第一图像确定第一图像集合；

N种组合变换方式中的任意两种组合变换方式不相同；且N种组合变换方式中任意一种组合变换方式至少包括翻转处理、平移处理、旋转处理、缩放处理和裁剪处理中的一种。

进一步地，对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像，包括：

确定第一图像集合中每个第一图像对应的权重值；

基于每个第一图像和每个第一图像对应的权重值，得到第五图像；

确定初始图像对应的第一聚合权重值和第五图像对应的第二聚合权重值；

基于初始图像、第一聚合权重值、第五图像和第二聚合权重值进行聚合，得到第二图像。

进一步地，该方法还包括：

确定目标对象在每个初始图像中的第一位置信息；

将每个初始图像中的目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像；第二位置信息为初始图像对应的第二图像中的位置信息，且第一位置信息和第二位置信息为不同图像上的同一位置信息；

基于每个初始图像和每个初始图像对应第二图像和第三图像构建第一目标图像集。

进一步地，将每个初始图像中的目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像，包括：

从第二图像中确定出和第一位置信息为同一位置信息的第二位置信息；

确定第二位置信息中的图像区域对应的第三聚合权重值；

确定目标对象对应的第四聚合权重值；

基于第二位置信息中的图像区域、第三聚合权重值、第四聚合权重值和目标对象进行聚合，得到更新后的图像区域；

将更新后的图像区域覆盖第二图像中的图像区域，得到第三图像。

进一步地，该方法还包括：

基于每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到每个初始图像对应的第四图像；

基于每个初始图像和每个初始图像对应第二图像、第三图像和第四图像构建第二目标图像集。

进一步地，基于每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到每个初始图像对应的第四图像，包括：

从每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像中筛选出M张图像；M为大于等于2的整数；

从M张图像中的每张图像确定拼接区域；

将M张图像对应的M个拼接区域进行拼接处理，得到第四图像；

第四图像和初始图像的尺寸相同。

相应地，本申请实施例还提供了一种图像增广装置，该装置包括：

初始图像集获取模块，用于获取初始图像集，初始图像集中包括多个包含有目标对象的初始图像；多个初始图像中的每个初始图像携带有目标对象的标识信息；

第一图像集合确定模块，用于对每个初始图像进行组合变换处理，得到每个初始图像对应的第一图像集合；第一图像集合包括多个第一图像；

第二图像确定模块，用于对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像；

目标图像集确定模块，用于基于每个初始图像和每个初始图像对应第二图像构建目标图像集；目标图像集中每个目标图像携带有目标对象的标识信息。

进一步地，第一图像集合确定模块，用于：

基于N个第一图像确定第一图像集合；

进一步地，第二图像确定模块，用于：

确定第一图像集合中每个第一图像对应的权重值；

确定初始图像集对应的第一聚合权重值和第五图像对应的第二聚合权重值；

进一步地，该装置还包括：

第一位置信息确定模块，用于确定目标对象在每个初始图像中的第一位置信息；

第三图像确定模块，用于将每个初始图像中的目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像；第二位置信息为初始图像对应的第二图像中的位置信息，且第一位置信息和第二位置信息为不同图像上的同一位置信息；

第一目标图像集确定模块，用于基于每个初始图像和每个初始图像对应第二图像和第三图像构建第一目标图像集。

进一步地，第三图像确定模块，用于：

确定第二位置信息中的图像区域对应的第三聚合权重值；

确定目标对象对应的第四聚合权重值；

进一步地，该装置还包括：

第四图像确定模块，用于基于每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到每个初始图像对应的第四图像；

第二目标图像集确定模块，用于基于每个初始图像和每个初始图像对应第二图像、第三图像和第四图像构建第二目标图像集。

进一步地，第四图像确定模块，用于：

从M张图像中的每张图像确定拼接区域；

第四图像和初始图像的尺寸相同。

相应地，本申请实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的图像增广方法。

相应地，本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述的图像增广方法。

采用上述技术方案，本发明具有如下有益效果：

(1)通过综合使用多种组合变换方式的操作，并以第二聚合权重值控制原图与变换后图像的聚合，避免了经过多种组合变换方式使图像及目标对象标识信息偏离真实分布，同时保证经过组合变换方式获得的图像的多样性；

(2)当目标对象相对较小时，存在目标对象在模型训练中采样比例不足的问题，通过增加目标对象在图像中的占比，并且限定目标对象出现的区域范围，避免出现图像中的目标对象被遮挡的情况，也可以避免出现不合理的目标对象标识信息；

(3)通过综合采样多种不同语义环境的图像来进行图像増广，不仅有利于提高神经网络训练模型的泛化性及稳定性，且有利于降低训练过程批归一化计算对训练批次大小的需求；

(4)通过控制增广后的图像的数据规模，保证经过增广方法获得的图像的数据集不会对包含目标对象的数据在数据集中的真实分布造成太大影响。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种图像增广方法的流程示意图；

图3是本申请实施例提供的一种确定第一图像集合的流程示意图；

图4是本申请实施例提供的一种确定第二图像的流程示意图；

图5是本申请实施例提供的一种图像增广方法的流程示意图一；

图6是本申请实施例提供的一种确定第三图像的流程示意图；

图7是本申请实施例提供的一种图像增广方法的流程示意图二；

图8是本申请实施例提供的一种确定第四图像的流程示意图；

图9是本申请实施例提供的一种图像增广装置的结构示意图；

图10是本申请实施例提供的一种图像增广方法的服务器的硬件结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例作进一步地详细描述。显然，所描述的实施例仅仅是本申请一个实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

此处所称的“实施例”是指可包含于本申请至少一个实现方式中的特定特征、结构或特性。在本申请实施例的描述中，需要理解的是，术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置/***或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。术语“第一”、“第二”、“第三”、“第四”和“第五”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”、“第四”和“第五”的特征可以明示或者隐含的包括一个或者更多个该特征。而且，术语“第一”、“第二”、“第三”、“第四”和“第五”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例能够以除了在这里图示或描述以外的顺序实施。此外，术语“包括”、“具有”和“为”以及他们的任何变形，意图在于覆盖不排他的包含。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，该示意图包括车辆101和服务器102，其中，一种可选的实施方式中，该服务器102可以是设置在车辆101中的车载服务器，该车载服务器可以实时的获取想要的数据，以备后续可以得到图像增广的结果。另一种可选的实施方式中，该车辆101内可以设置有自己的车载服务器，而该车载服务器和图1中显示的服务器102并不是同一个服务器，车载服务器将获得的数据传输给服务器102后，可以由服务器完成后续的步骤，最终得到图像增广的结果。下面将第一种情况涉及的车载服务器和第二种情况涉及的服务器统一称呼为服务器。在另一种可选的实施例中，该服务器可以是外置的服务器，比如该服务器是由车辆厂商提供的。

可选地，服务器可以包括是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

具体地，车辆101的感知相机获取车辆行驶前方道路环境的图像，将图像作为待增广的初始图像，由多个初始图像构成初始图像集。服务器102获取初始图像集，其中，初始图像集中包括多个包含有目标对象的初始图像，多个初始图像中的每个初始图像携带有目标对象的标识信息。对每个初始图像进行组合变换处理，得到每个初始图像对应的第一图像集合，对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像，基于每个初始图像和每个初始图像对应第二图像构建目标图像集，目标图像集中每个目标图像携带有目标对象的标识信息。

下面介绍本申请一种图像增广方法的具体实施例，本说明书提供了如实施例或流程图所示的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多执行顺序中的一种方式，不代表唯一的执行顺序，在实际执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。图2是本申请实施例提供的一种图像增广方法的流程示意图，如图2所示，该方法可以包括：

S201：获取初始图像集，初始图像集中包括多个包含有目标对象的初始图像；多个初始图像中的每个初始图像携带有目标对象的标识信息。

在一种可选的实施方式中，感知相机获取车辆行驶前方道路的多个图像，构成初始图像集。每个初始图像的尺寸相同，以任意一个初始图像的左上角为坐标原点，构建二维图像坐标系。

在一种可选的实施方式中，每个初始图像携带有目标对象的标识信息，其中，目标对象可以是道路上的交通信号灯，标识信息可以是在图像中对交通信号灯的标注。由每个初始图像以及每个初始图像中交通信号灯标注的任意一点的坐标，构成初始图像集的坐标数据集。

在一种可选的实施方式中，初始图像数据集S，包括图像I以及对应的交通灯标注B，对于图像以及对应标注I，B∈S，以左上角为坐标原点所构建的图像坐标系，其中任一点为(x，y)，而交通灯的标注点为(x_b，y_b)∈B。

S203：基于初始处理方式对每个初始图像进行处理，得到每个初始图像对应的第一图像集合；第一图像集合包括多个第一图像。

在一种可选的实施方式中，初始处理方式可以是组合变换方式。

本申请实施例中，图3是本申请实施例提供的一种确定第一图像集合的流程示意图，具体如图3所示，包括如下过程：

S2031：基于N种组合变换方式对每个初始图像进行变换，得到每个初始图像对应的N个第一图像；N为大于等于1的整数；

S2033：基于N个第一图像确定第一图像集合。

在一种可选的实施方式中，N种组合变换方式中的任意两种组合变换方式不相同，且N种组合变换方式中任意一种组合变换方式至少包括翻转处理、平移处理、旋转处理、缩放处理和裁剪处理中的一种或多种组合。

在一种可选的实施方式中，综合了多种组合变换方式的变换矩阵如下表示：

初始图像经过至少一种组合变换方式对应的矩阵进行坐标转换，得到对应的第一图像，其中，(x，y)为初始图像I中任一点像素，(x_op，y_op)为对(x，y)组合变换后对应的像素点,f_h可以表示对初始图像进行翻转处理，(t_x，t_y)表示对初始图像进行水平及垂直方向的平移处理，(z_x，z_y)表示对初始图像进行水平及垂直方向的缩放处理，θ表示对初始图像进行旋转处理的角度，表示对初始图像进行裁剪处理的角度。初始处理方式是综合使用多种组合变换方式实现图像増广，使增广后的图像更具多样性。

在一种可选的实施方式中，例如，若仅对初始图像进行水平及垂直方向的平移处理，采用组合变换方式对应的矩阵进行坐标转换可以表示为：

S205：对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像。

本申请实施例中，图4是本申请实施例提供的一种确定第二图像的流程示意图，具体如图4所示：

S2051：确定第一图像集合中每个第一图像对应的权重值；

S2053：基于每个第一图像和每个第一图像对应的权重值，得到第五图像；

S2055：确定初始图像对应的第一聚合权重值和第五图像对应的第二聚合权重值；

S2057：基于初始图像、第一聚合权重值、第五图像和第二聚合权重值进行聚合，得到第二图像。

在一种可选的实施方式中，对N种组合变换方式随机分配权重值w_N，每种组合变换方式得到确定的权重值，且使每种组合变换方式对应的权重值之和为1。将每个第一图像和每个第一图像对应的权重值按各自的权重值进行组合，得到第五图像。可选地，假设第一图像集合中存在3个第一图像，分别用图像1、图像2和图像3表示，其中，图像1对应的权重值为0.3，图像2对应的权重值为0.5，图像3对应的权重值为0.2，满足各权重值之和为1。将这3个第一图像按各自的权重值进行组合，得到的第五图像表示为：

∑[w_N*OP_N(I,B)]＝0.3OP₁(I,B)+0.5OP₂(I,B)+0.2OP₃(I,B)

其中，(I，B)表示初始图像集，且I表示初始图像集对应的数据信息，B表示初始图像中的目标对象标识信息。∑[w_N*OP_N(I,B)]表示第五图像，其中，OP_N(I,B)表示对初始图像进行组合变换处理，得到的第一图像。将每个第一图像OP_N(I,B)和每个第一图像对应的权重值w_N按各自的权重值进行组合，经求和运算后可以得到第五图像。

在一种可选的实施方式中，第一聚合权重值是初始图像对应的聚合权重值，第二聚合权重值是第五图像对应的聚合权重值，将初始图像按第一聚合权重值和第五图像按第二聚合权重值进行聚合，得到第二图像，聚合过程可以如下式表示：

(I_op,B_op)＝α(I,B)+(1-α)∑[w_N*OP_N(I,B)]

其中，α表示第一聚合权重值，(I_op，B_op)表示带有目标对象标识信息B_op的第二图像，I_op表示第二图像对应的数据信息。第一聚合权重值与第二聚合权重值之和为1，其中，第一聚合权重值可以在0至1之间任意取值，通过改变第一聚合权重值的取值大小，能够控制经过聚合后的第二图像聚合效果，避免第二图像以及第二图像中目标对象的标识信息出现偏离实际分布的情况。

S207：基于每个初始图像和每个初始图像对应第二图像构建目标图像集，目标图像集中每个目标图像携带有目标对象的标识信息。

在一种可选的实施方式中，经过初始处理方式得到的第二图像，可能存在不包括目标对象的图像，将未包含目标对象的目标图像从目标图像集中删除，得到更新后的目标图像集，使更新后的目标图像集中的每个图像都包含有目标对象及目标对象对应的标识信息，由于神经网络的训练模型需要更多包含有目标对象及目标对象标识信息的图像，保证用于神经网络训练的图像全都带有目标对象及目标对象标识信息，可以提高训练效率，该图像增广方法更具有效性。

在一种可选的实施方式中，每个初始图像、每个初始图像对应的第二图像构成的目标图像集为图像增广的结果，经过增广后的图像对应形成增广数据集，其中包括每个初始图像和每个初始图像对应的第二图像对应的图像坐标系下的坐标，以及每个初始图像和每个初始图像对应的第二图像上目标对象标识信息对应的坐标，则图像增广后的数据集与其对应的数据规模表示为：

S′＝S+S_op

N′＝N+N_op

其中，以S′表示图像增广后得到的数据集，该数据集对应的数据规模以N′表示，S表示包括初始图像集及初始图像上目标对象标识信息的数据集，N为数据集S的规模。S_op表示包括第二图像及第二图像上目标对象标识信息的数据集，N_op为数据集S_op的规模。

在一种可选的实施方式中，经过图像增广后，满足初始图像集的数据规模N大于经过增广后的数据规模之和，表示为：

N＞N_op

初始图像集的数据规模N大于经过增广后的数据规模之和，可以以此控制增广数据规模，使经过图像增广后增加的数据不会对初始图像中目标对象的真实分布造成太大影响。

本发明的图像增广方法，通过综合使用多种组合变换方式的操作，并以第二聚合权重值控制原图与变换后图像的聚合，避免了经过多种组合变换方式使图像及目标对象标识信息偏离真实分布，同时保证经过组合变换方式获得的图像的多样性。

作为一种优选的实施例，图5是本申请实施例提供的一种图像增广方法的流程示意图一，具体如图5所示，本发明的图像增广方法，还包括：

S501：确定目标对象在每个初始图像中的第一位置信息。

每个初始图像中可能存在多个目标对象，确定每个初始图像中的每个目标对象的位置信息，得到第一位置信息。

在一种可选的实施方式中，目标对象可以是交通信号灯，选取交通信息灯对应的区域，将选取的区域标记为I[b_j]，得到第一位置信息。

S503：将每个初始图像中的目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像；第二位置信息为初始图像对应的第二图像中的位置信息，且第一位置信息和第二位置信息为不同图像上的同一位置信息。

本申请实施例中，图6是本申请实施例提供的一种确定第三图像的流程示意图，具体如图6所示：

S5031：从第二图像中确定出和第一位置信息为同一位置信息的第二位置信息；

S5033：确定第二位置信息中的图像区域对应的第三聚合权重值；

S5035：确定目标对象对应的第四聚合权重值；

S5037：基于第二位置信息中的图像区域、第三聚合权重值、第四聚合权重值和目标对象进行聚合，得到更新后的图像区域；

S5039：将更新后的图像区域覆盖第二图像中的图像区域，得到第三图像。

在一种可选的实施方式中，可以根据初始图像中的所有目标对象在图像坐标系下的坐标，确定目标对象在初始图像中的区域以及该区域边界的坐标值范围，由于初始图像和第二图像具有相同的尺寸，且使用相同的图像坐标系，根据该区域边界的坐标值范围，在第二图像中可以找到相同的坐标值范围，确定第二位置信息，第二图像中的坐标值范围对应的区域即为第二位置信息中的图像区域U。

在一种可选的实施方式中，在聚合处理过程中，第二位置信息中的图像区域按第三聚合权重值聚合，目标对象以第四聚合权重值聚合，第三聚合权重值和第四聚合权重值之和为1。第四聚合权重值β可以在0至1之间任意取值，通过控制第四聚合权重值的大小，可以改变经过聚合后，目标对象在第二位置信息中的图像区域中的占比。具体的聚合处理方式如下式，其中，第二位置信息中的图像区域以U表示，第三图像以I_bp表示。

I_bp＝βI[b_j]+(1-β)U，β∈(0，1)

在一种可选的实施方式中，为了避免第三图像出现重复的目标对象标识信息，可以先将第二位置信息中的图像区域的目标对象标识信息删除，因此聚合处理得到的第三图像不包含目标对象标识信息。经过聚合处理后，再对第三图像添加其中的目标对象标识信息。可选地，目标对象为交通信号灯，标识信息为图像中交通信号灯的标注，聚合处理可以是图像融合，对于交通信号灯在图像中占比较小时，模型训练中的采样比例不足的问题，通过只选取交通信号灯对应的区域，增加了交通信号灯在图像中的占比，增广图像中不会出现交通信号灯被遮挡的情况，还可以使对于交通信号灯的标注更合理。

S505：基于每个初始图像和每个初始图像对应第二图像和第三图像构建第一目标图像集。

在一种可选的实施方式中，第一目标图像集中每个目标图像携带有目标对象的标识信息。

在一种可选的实施方式中，每个初始图像、每个初始图像对应的第二图像和第三图像构成的第一目标图像集为图像增广的结果，经过增广后的图像对应形成增广数据集，其中包括每个初始图像、每个初始图像对应的第二图像和第三图像对应的图像坐标系下的坐标，以及每个初始图像、每个初始图像对应的第二图像和第三图像上目标对象标识信息对应的坐标，则图像增广后的数据集与其对应的数据规模表示为：

S′＝S+S_op+S_bp

N′＝N+N_op+N_bp

其中，以S′表示图像增广后得到的数据集，该数据集对应的数据规模以N′表示，S表示包括初始图像集及初始图像上目标对象标识信息的数据集，N为数据集S的规模。S_op表示包括第二图像及第二图像上目标对象标识信息的数据集，N_op为数据集S_op的规模。S_bp表示包括第三图像及第三图像上目标对象标识信息的数据集，N_bp为数据集S_bp的规模。

N＞N_op+N_bp

在一种优选的实施例中，本发明的图像增广方法，还包括：

S701：基于每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到每个初始图像对应的第四图像。

本申请实施例中，图7是本申请实施例提供的一种图像增广方法的流程示意图二，具体如图7所示。

一种可选的实施例中，可以将初始图像、第一图像集合中的所有第一图像、第二图像和第三图像进行裁剪，并将裁剪得到的部分图像进行拼接处理，得到第四图像，其中第四图像的尺寸和初始图像相同。

图8是本申请实施例提供的一种确定第四图像的流程示意图，具体如图8所示：

S7011：从每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像中筛选出M张图像；M为大于等于2的整数；

S7013：从M张图像中的每张图像确定拼接区域；

S7015：将M张图像对应的M个拼接区域进行拼接处理，得到第四图像。

在一种可选的实施方式中，初始图像、第二图像和第三图像具有相同的尺寸，第四图像和初始图像的尺寸相同。可选地，选择与初始图像、第二图像和第三图像相同的尺寸的图片模板，并选择零像素值进行填充，可以形成同样尺寸的黑色图像，作为背景图像。进行拼接处理时，将M个拼接区域在背景图像上进行拼接处理，得到的第四图像可以和初始图像的尺寸相同。

在一种可选的实施方式中，从每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像中筛选出至少两张图像，从筛选出的每张图像中裁剪出任意区域作为每张图像的拼接区域，经过拼接处理后得到第四图像，使第四图像与初始图像、第二图像和第三图像具有相同的尺寸，且任意两个拼接区域在拼接处理时不存在覆盖或叠加的情况。筛选出至少两张图像可以确定同样个数的拼接区域，其中，对于从不同图像裁剪的拼接区域，其对应的语义环境不相同，通过综合采样了至少两种不同的语义环境来进行图像増广，在将增广后的图像应用于神经网络的训练模型时，不仅有利于提高神经网络训练模型的泛化性及稳定性，且有利于降低训练过程批归一化计算对训练批次大小的需求。

在一种可选的实施方式中，还可以从每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像中各筛选出一张图像，在这四种不同语义环境的四张图像的每张图像中裁剪出任意区域作为每张图像的拼接区域，使经过拼接处理后得到的第四图像正好与初始图像、第二图像和第三图像具有相同的尺寸，且任意两个拼接区域在拼接处理时不存在覆盖或叠加的区域。

S703：基于每个初始图像和每个初始图像对应第二图像、第三图像和第四图像构建第二目标图像集。

在一种可选的实施方式中，该第二目标图像集中每个目标图像携带有目标对象的标识信息。

在一种可选的实施方式中，经过初始处理方式得到的第二图像和经过拼接处理得到的第四图像，可能存在不包括目标对象的图像，将未包含目标对象的目标图像从第二目标图像集中删除，得到更新后的第二目标图像集，使更新后的第二目标图像集中的每个图像都包含有目标对象及目标对象对应的标识信息，由于神经网络的训练模型需要更多包含有目标对象及目标对象标识信息的图像，保证用于神经网络训练的图像全都带有目标对象及目标对象标识信息，可以提高训练效率，该图像增广方法更具有效性。

在一种可选的实施方式中，每个初始图像、每个初始图像对应的第二图像、第三图像和第四图像构成的第二目标图像集为图像增广的结果，经过增广后的图像对应形成增广数据集，其中包括每个初始图像、每个初始图像对应的第二图像、第三图像和第四图像对应的图像坐标系下的坐标，以及每个初始图像、每个初始图像对应的第二图像、第三图像和第四图像上目标对象标识信息对应的坐标，则图像增广后的数据集与其对应的数据规模表示为：

S′＝S+S_op+S_bp+S_mp

N′＝N+N_op+B_bp+N_mp

其中，以S′表示图像增广后得到的数据集，该数据集对应的数据规模以N′表示，S表示包括初始图像集及初始图像上目标对象标识信息的数据集，N为数据集S的规模。S_op表示包括第二图像及第二图像上目标对象标识信息的数据集，N_op为数据集S_op的规模。S_bp表示包括第三图像及第三图像上目标对象标识信息的数据集，N_bp为数据集S_bp的规模。S_mp表示包括第四图像及第四图像上目标对象标识信息的数据集，N_mp为数据集S_mp的规模。

N＞N_op+N_bp+N_mp

采用本申请实施例提供的图像增广方法，通过获取初始图像集，初始图像集中包括多个包含有目标对象的初始图像，基于初始处理方式对每个初始图像进行处理，得到每个初始图像对应的第一图像集合，对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像，确定目标对象在每个初始图像中的第一位置信息，将每个初始图像中的目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像，基于每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到每个初始图像对应的第四图像，基于每个初始图像和每个初始图像对应第二图像，第三图像和第四图像构建第二目标图像集，实现图像增广，扩大了图像和图像中目标对象的标注所对应的数据规模，将第二图像、第三图像和第四图像作为新的样本存入数据集中，有效提高数据集容量，在使数据规模能够支撑模型训练的同时，提高了数据集的多样性，在神经网络的训练过程中，有利于改善网络的泛化性，降低过拟合的风险。

本申请实施例还提供的一种图像增广装置，图9是本申请实施例提供的一种图像增广装置的结构示意图，如图9所示，该装置可以包括：

初始图像集获取模块901，用于获取初始图像集，初始图像集中包括多个包含有目标对象的初始图像；多个初始图像中的每个初始图像携带有目标对象的标识信息；

第一图像集合确定模块902，用于基于初始处理方式对每个初始图像进行处理，得到每个初始图像对应的第一图像集合；第一图像集合包括多个第一图像；

第二图像确定模块903，用于对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像；

目标图像集确定模块904，用于基于每个初始图像和每个初始图像对应第二图像构建目标图像集；目标图像集中每个目标图像携带有目标对象的标识信息。

在一种可选的实施方式中，第一图像集合确定模块902，用于基于N种组合变换方式对每个初始图像进行变换，得到每个初始图像对应的N个第一图像；N为大于等于1的整数；

基于N个第一图像确定第一图像集合；

在一种可选的实施方式中，第二图像确定模块903，用于确定第一图像集合中每个第一图像对应的权重值；

在一种可选的实施方式中，图像增广装置还包括：

在一种可选的实施方式中，第三图像确定模块，用于从第二图像中确定出和第一位置信息为同一位置信息的第二位置信息；

确定第二位置信息中的图像区域对应的第三聚合权重值；

确定目标对象对应的第四聚合权重值；

在一种可选的实施方式中，图像增广装置还包括：

在一种可选的实施方式中，将未包含目标对象的目标图像从第二目标图像集中删除，得到更新后的第二目标图像集。

在一种可选的实施方式中，第四图像确定模块，用于从每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像中筛选出M张图像；M为大于等于2的整数；

从M张图像中的每张图像确定拼接区域；

第四图像和初始图像的尺寸相同。

本申请实施例中的装置与方法实施例基于同样的申请构思。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图10是本申请实施例提供的一种图像增广方法的服务器的硬件结构框图。如图10所示，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(Central Processing Units，CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030，一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中，存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1010可以设置为与存储介质1020通信，在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1040，和/或，一个或一个以上操作***1021，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中，输入输出接口1040包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，输入输出接口1040可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

本领域普通技术人员可以理解，图10所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器1000还可包括比图10中所示更多或者更少的组件，或者具有与图10所示不同的配置。

本申请的实施例还提供了一种存储介质，存储介质可设置于服务器之中以保存用于实现方法实施例中一种图像增广方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述图像增广方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

由上述本申请提供的图像增广方法、设备或存储介质的实施例可见，本申请中通过获取初始图像集，初始图像集中包括多个包含有目标对象的初始图像，多个初始图像中的每个初始图像携带有目标对象的标识信息，对每个初始图像进行组合变换处理，得到每个初始图像对应的第一图像集合，对每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到每个初始图像对应的第二图像，基于每个初始图像和每个初始图像对应第二图像构建目标图像集，目标图像集中每个目标图像携带有目标对象的标识信息。还可以确定目标对象在每个初始图像中的第一位置信息，将每个初始图像中的目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像，基于每个初始图像和每个初始图像对应第二图像和第三图像构建第一目标图像集。还可以基于每个初始图像、每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到每个初始图像对应的第四图像，基于每个初始图像和每个初始图像对应第二图像、第三图像和第四图像构建第二目标图像集。如此，可以实现图像增广，以扩大图像数量，从而扩充图像及图像中目标对象标识信息对应的数据规模，以支撑神经网络模型训练，提高数据集多样性，有利于加强训练模型的泛化能力，降低过拟合的风险。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像增广方法，其特征在于，包括：

获取初始图像集，所述初始图像集中包括多个包含有目标对象的初始图像；所述多个初始图像中的每个初始图像携带有所述目标对象的标识信息；

对所述每个初始图像进行组合变换处理，得到所述每个初始图像对应的第一图像集合；所述第一图像集合包括多个第一图像；

对所述每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到所述每个初始图像对应的第二图像；

基于所述每个初始图像和所述每个初始图像对应第二图像构建目标图像集；所述目标图像集中每个目标图像携带有所述目标对象的标识信息。

2.根据权利要求1所述的图像增广方法，其特征在于，所述对所述每个初始图像进行组合变换处理，得到所述每个初始图像对应的第一图像集合，包括：

基于N种组合变换方式对所述每个初始图像进行变换，得到所述每个初始图像对应的N个所述第一图像；所述N为大于等于1的整数；

基于所述N个第一图像确定所述第一图像集合；

所述N种组合变换方式中的任意两种组合变换方式不相同；且所述N种组合变换方式中任意一种组合变换方式至少包括翻转处理、平移处理、旋转处理、缩放处理和裁剪处理中的一种。

3.根据权利要求1所述的图像增广方法，其特征在于，所述对所述每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到所述每个初始图像对应的第二图像，包括：

确定所述第一图像集合中每个第一图像对应的权重值；

基于所述每个第一图像和所述每个第一图像对应的权重值，得到第五图像；

确定所述初始图像对应的第一聚合权重值和所述第五图像对应的第二聚合权重值；

基于所述初始图像、所述第一聚合权重值、所述第五图像和所述第二聚合权重值进行聚合，得到所述第二图像。

4.根据权利要求2-3任一所述的图像增广方法，其特征在于，还包括：

确定所述目标对象在所述每个初始图像中的第一位置信息；

将所述每个初始图像中的所述目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像；所述第二位置信息为所述初始图像对应的第二图像中的位置信息，且所述第一位置信息和所述第二位置信息为不同图像上的同一位置信息；

基于所述每个初始图像和所述每个初始图像对应第二图像和第三图像构建第一目标图像集。

5.根据权利要求4所述的图像增广方法，其特征在于，所述将所述每个初始图像中的所述目标对象和第二位置信息对应的图像区域进行聚合，得到第三图像，包括：

从所述第二图像中确定出和所述第一位置信息为同一位置信息的所述第二位置信息；

确定所述第二位置信息中的图像区域对应的第三聚合权重值；

确定所述目标对象对应的第四聚合权重值；

基于所述第二位置信息中的图像区域、所述第三聚合权重值、所述第四聚合权重值和所述目标对象进行聚合，得到更新后的图像区域；

将所述更新后的图像区域覆盖所述第二图像中的所述图像区域，得到所述第三图像。

6.根据权利要求5所述的图像增广方法，其特征在于，还包括：

基于所述每个初始图像、所述每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到所述每个初始图像对应的第四图像；

基于所述每个初始图像和所述每个初始图像对应第二图像、第三图像和第四图像构建第二目标图像集。

7.根据权利要求6所述的图像增广方法，其特征在于，所述基于所述每个初始图像、所述每个初始图像对应的第一图像集合、第二图像和第三图像进行裁剪拼接处理，得到所述每个初始图像对应的第四图像，包括：

从所述每个初始图像、所述每个初始图像对应的第一图像集合、第二图像和第三图像中筛选出M张图像；所述M为大于等于2的整数；

从所述M张图像中的每张图像确定拼接区域；

将所述M张图像对应的M个拼接区域进行拼接处理，得到所述第四图像；

所述第四图像和所述初始图像的尺寸相同。

8.一种图像增广装置，其特征在于，包括：

初始图像集获取模块，用于获取初始图像集，所述初始图像集中包括多个包含有目标对象的初始图像；所述多个初始图像中的每个初始图像携带有所述目标对象的标识信息；

第一图像集合确定模块，用于对所述每个初始图像进行组合变换处理，得到所述每个初始图像对应的第一图像集合；所述第一图像集合包括多个第一图像；

第二图像确定模块，用于对所述每个初始图像对应的第一图像集合进行图像叠加聚合处理，得到所述每个初始图像对应的第二图像；

目标图像集确定模块，用于基于所述每个初始图像和所述每个初始图像对应第二图像构建目标图像集；所述目标图像集中每个目标图像携带有所述目标对象的标识信息。

9.一种电子设备，包括存储器和处理器，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1-7任意一项所述的图像增广方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任意一项所述的图像增广方法。