CN110263794B

CN110263794B - 基于数据增强的目标识别模型的训练方法

Info

Publication number: CN110263794B
Application number: CN201910561038.9A
Authority: CN
Inventors: 李睿; 王晓燕; 张洪健; 聂文昭; 轩正杰; 张利民; 高兴强; 王佳科; 李乐蒙; 刘欣; 韩金林; 翟乐; 柴沛; 刘锋; 苏仁恒; 安重霖; 周传涛; 王树明
Original assignee: State Grid Shandong Electric Power Co Construction Co; State Grid Corp of China SGCC; Shandong Liancheng Engineering Construction Supervision Co Ltd
Current assignee: State Grid Shandong Electric Power Co Construction Co; State Grid Corp of China SGCC; Shandong Liancheng Engineering Construction Supervision Co Ltd
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-07-02
Anticipated expiration: 2039-06-26
Also published as: CN110263794A

Abstract

本发明提供了一种基于数据增强的目标识别模型的训练方法，属于图像识别的技术领域。其技术方案为：基于数据增强的目标识别模型的训练方法，包括以下步骤，步骤一，原始图像标注，步骤二，建立图像坐标系，步骤三，坐标变换，步骤四，区分远景，步骤五，增强样本输出与使用。本发明的有益效果为：本发明对原始图像进行象限分割，切割出含有远景的象限作为数据增强，不仅维护了训练样本的客观性，同时，可以增加远景的样本比重，直接增加了远景的学习与训练机会，这无疑对于图像识别算法的远景识别能力起到积极的作用。

Description

基于数据增强的目标识别模型的训练方法

技术领域

本发明涉及图像识别的技术领域，尤其涉及一种基于数据增强的目标识别模型的训练方法。

背景技术

深度学习技术是解决图像识别的重要手段，是人工智能领域(ArtificialIntelegence,AI)的一项重要分支。利用深度学习技术，解决高空作业人员是否佩戴安全带，是目前AI技术在基建行业中的研究热点。高空作业的安全带识别是施工规范的重要内容，借助图像识别技术来识别远景安全带是基建行业AI的研究重点，图像识别研究的内容包括目标分割、目标识别、目标检测和目标跟踪四项内容。四项内容中都是以图像的深度学习算法为基础的。所有类型的图像深度学习算法都需要足够充分的训练样本。然而，现实中，样本往往都是有限，如何采用有限的样本来训练高质量的识别算法才是图像识别的难点。从技术上讲，目前的主流识别算法，都存在一个公共特征：对远景(或者称为小目标)识别准确率低，对于基建工地，远景的捕捉是个难题，施工人员目标较小，其身着的安全带目标更小。

基于样本有限，在深度学习中对图样采用数据增强的处理技术，它可以对有限样本数据进行适当加工，衍生出更多的补充训练样本，用以增强模型对训练样本特征的总结能力，然而在实际当中，样本收集与获取是有难度的、有代价的，导致可用样本具有明显的局限性，为了弥补样本，可以对已知图像进行适当的集合变换、像素调整(例如缩放、像素加工等)人为衍生出新的训练样本，这样的技术或者措施就是数据增强。然而，常用的增强手段，对于远景的识别效果并不明显，以翻转变化为例，如图1所示，此时，虽然实现了数据增强，但增强的目标不仅仅包括远景，而是所有目标，其结果依然无法改变模型对大、远景的识别能力的差异。类似于翻转变换的增强手段，即使改善了模型对远景的识别效果，也给模型的训练增加了不必要的负担－－－－因大目标严重冗余学习导致的资源耗费。

发明内容

本发明针对上述存在的问题，为了克服传统数据增强对于近景的识别能力通常强于对远景的识别能力的缺陷，提供了一种基于数据增强的目标识别模型的训练方法。

本发明是通过如下措施实现的：基于数据增强的目标识别模型的训练方法，包括以下步骤：

步骤一、原始图像标注：在原始图片上标注出需要识别的物体轮廓，并记录标注的结果，其中，所述记录标注的结果采用坐标的方式记录标注的矩形框位置；

首先，在原始图片上，采用矩形框的形式标注出远景目标、中景目标和近景目标，其次，选取出远景目标，再次，根据需要将远景目标放大合适的倍数。

步骤二、建立图像坐标系，在所述原始图片上建立坐标系，以图片的中心为原点，建立二维平面坐标系，并在坐标系上还原标注的矩形框位置；

采用坐标的方式记录标注的矩形框位置(＜x₁,y₁＞，＜x₂,y₂＞)，由于一张图像上目标可能有多个，因此，对于N个目标的图片，对应的标注结果应该有N个矩形框坐标的方式与具有2N个坐标。

在所述原始图片上标注出目标的位置，以矩形框坐标的方式标注出目标坐在的具***置，原始图片记录标注的结果采用标准的xml文件方式输出，原始图片上不同目标之间用＜object＞＜/object＞标记节标注；针对xml文件建立一张坐标系，描述不同目标的坐标位置。

步骤三、坐标变换，向上平移水平坐标轴，向右平移垂直坐标轴；

其中，坐标系平移的目的是为了消除负值坐标值，以简化后续的数值计算。

步骤四、区分远景，计算所有原始图片上的标注的矩形框的面积，考察每个标注的矩形框与原始图片的面积比值，如果面积比值小于0.8％，则定义该目标为远景。

构造目标面积算子S＝X_weightY_height分别计算每个object的矩形框坐标面积S_object＝(x_max-x_min)(y_max-y_min)与图片面积S_img＝width×height，计算两者的比值，比值小于0.8％的目标则视为远景。遍历每个坐标象限，如果象限中存在远景，则进行象限切割，生成新的训练图片，即：远景放大训练图片；所述象限切割是指在矩形框坐标系上均匀划分出四个象限，并判断每个象限中是否存在远景，如果存在，则切割出该象限，将其作为增强样本。

步骤五、增强样本输出与使用，生产远景放大图以及标注文档，并与原始图片共同最为训练样本，训练目标识别模型。象限切割能够衍生新的远景样本，根据新样本，构造其xml标注文档。

本发明的有益效果为：本发明对原始图像进行象限分割，切割出含有远景的象限作为数据增强，不仅维护了训练样本的客观性，同时，可以增加远景的样本比重，直接增加了远景的学习与训练机会，这无疑对于图像识别算法的远景识别能力起到积极的作用。

附图说明

图1为翻转变换的数据增强展示图。

图2为完整模型训练识别流程图。

图3为远景数据增强方案图。

图4为图片标注xml文件格式。

图5为标注坐标系示意图。

图6为单个远景与单个坐标轴交叉时，坐标系平移变换示意图。

图7为单个远景与两个坐标轴交叉时，坐标系平移变换示意图。

图8为多个远景与坐标轴有交叉时，坐标系平时变换示意图。

图9为当存在多个远景与坐标轴交叉时，最左最下坐标轴平移算法流程图。

图10为大、中以及远景之间的比例示意图。

图11为远景象限切割示意图。

图12为远景数据增强xml文档自动生成。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，对本方案进行阐述。

数据增强是指在深度学习中，为了避免由于样本有限，匮乏导致训练过拟合而进行的图像处理技术，它可以对有限样本数据进行适当加工，衍生出更多的补充训练样本，用以增强模型对训练样本特征的总结能力。理论上讲，如果样本足够充分，那么数据增强是没有必要的，然而在实际当中，样本收集与获取是有难度的，有代价的，导致可用样本具有明显的局限性。为了弥补样本，可以对已知图像进行适当的几何变换，像素调整(例如缩放、像素加工等)人为衍生出新的训练样本，这样的技术或者措施就是数据增强。

常用的增强手法，对于远景的识别效果并不明显。如图1所示，仅以翻转变换为例说明，此图中，虽然实现了数据增强，但增强的目标不仅仅包括远景，而是所有目标，其结果依然无法改变模型对远景的识别能力的差异，类似于翻转变化的增强手段，即使改善了模型对远景的识别效果，也给模型的训练增加了不必要的负担，即因大目标严重冗余学习导致的资源耗费。

如附图2所示完整的模型训练识别流程，完整的模型训练环节包括模型训练、模型验证与预评估以及模型测试与发布三个主要过程，其中数据增强属于模型训练过程中的一个重要节点。

如附图3所示，基于数据增强的目标识别模型的训练方法，包括以下步骤：

步骤一、原始图像标注：在原始图片上标注出需要识别的物体轮廓，并记录标注的结果，其中记录标注的结果采用坐标的方式记录标注的矩形框位置；

首先，在原始图片上，采用矩形框的形式标注出远景目标、中景目标和近景目标，其次，选取出远景目标，再次，根据需要将选取出的远景目标放大4倍。

如附图4所示，原始图片标注，在原始图片上标注出目标的位置，以矩形框坐标的方式(简称bndbox)标注出目标坐在的具***置，原始图片标注的结果采用标准的xml文件方式输出，如果原始图片存在多个目标，则上述文件中会有多个＜object＞＜/object＞标记节。

由于标注的xml文件能够提供足够相近的目标信息，因此可针对xml建立一张坐标系，莫奥数不同目标的坐标位置，如附图5所示。

其中，坐标的原点，可由＜size＞＜/size＞推导出。每个object的边框坐标可参考每个＜bndbox＞＜/bndbox＞节。

步骤四、区分远景，计算所有原始图片上的标注的矩形框的面积，考察每个标注的矩形框与原始图片的面积比值，如果面积比值小于0.8％，则定义该目标为远景，遍历每个坐标象限，如果象限中存在远景，则进行象限切割，生成新的训练图片，即：远景放大训练图片；

传统的数据增强手段能够衍生出形形色色的新样本，首先能够丰富训练样本；其次，能够强化模型学习能力，提升算法对图像特征的捕捉效果，能够克服对图像特征识别的干扰能力。

然而，传统数据增强手段虽然重要，但也不是完备的。就现有的数据增强手段而言，在提升算法对远景安全带识别能力方面仍然显得力不从心，效果牵强。目前常见的图像识别算法对于近景(大目标)的识别能力通常要强于对远景的识别能力，那么通过数据增强手段强化算法对远景的精准识别能力自然也尽在情理之中。

既然要实现远景数据增强，那么，定义什么是远景，以及如何在图像中区分出远景是首先要解决的问题；其次，远景数据增强衍生的新样本必须保持客观性，这与传统的数据增强不同。诸如缩放、平移等增强手段均会破坏远景的像素特征，而像素的改变对远景的特征总结必定会有干扰。所以，有效的远景放大措施务必要保证原图与衍生样本之间的像素一致性。

构造目标面积算子S＝X_weightY_height分别计算每个object的矩形框坐标面积S_object＝(x_max-x_min)(y_max-y_min)与图片面积S_img＝width×height，计算两者的比值，比值小于0.8％的目标则视为远景。

一般的，不妨设一张图片的长与宽均为1，则约定俗成，大目标长/宽为第一次黄金分割点0.618，大目标的长与宽均为0.618，其面积为0.618×0.618＝0.38；对于中目标的面积比值，则应该为中目标的面积与原始图片的面积之间的比值，首先中目标也看做成一个正方形，则根据黄金分割点的定义，则中目标的长与宽的长度均为0.618X(1－0.618)，则中目标的面积为[0.618(1－0.618)]²＝0.0576，同理，对于小目标的面积比值，则应该为小目标的面积与原始图片的面积之间的比值，则小目标的长与宽均为0.618X(1－0.618)²，因此小目标的面积为[0.618X(1－0.618)²]²＝0.0081，则小目标的面积与原始图片的面值之间的比值为0.0081，大约为0.8％。如果一张图片上存在大、中、小三种类型的目标，其示意图如附图10。本专利提出的这种判断远景的方法称之为三次黄金分割点法。实践证明，三次黄金分割点法不仅计算简单，而且直观，对于区分与定位远景非常有效。

值得注意的是，本专利中的大目标代表远景，中目标代表中景，小目标代表远景。

在标注坐标系上均匀划分出四个象限，并判断出每个象限是否存在远景，如果存在，则切割出该现象，将之作为增强样本，如附图11。

然而，象限切分必须具备自适应性，这是本专利的重要内容之一。一般情况下，象限切分就是以图片的中心点作为坐标系的原点，按照坐标轴均匀划分出坐标象限并实现切分即可。但是考虑到远景的坐标位置的随机性，有可能在切分过程中破坏了远景，例如，远景的边框与坐标轴可能存在交叉。因此，在切分之前应当对远景的位置进行分析，如果有交叉，则适当调整坐标系的位置，自适应构造坐标象限，实现远景的完整切分。

本专利采用远景重心参考法，平移坐标系，实现坐标象限的自适应调整，确保远景的完整划分，具体分类描述：

＜1＞单个远景与单个坐标轴有交叉，则根据远景的重心，调整交叉的坐标轴，使得远景所属象限与其重心相同，具体的，如附图6中的X轴。当存在单个远景与坐标轴有交叉，则平移被交叉的坐标轴，使其与远景的一条边框重合，确保远景完整落入其重心所在的象限，

＜2＞如附图7所示。单个远景与两个坐标轴有交叉，则根据远景的重心，分别调整坐标轴，使得远景所属象限与其重心相同。具体的，当存在远景与两条坐标轴都有交叉的时候，则参考小坐标(远景的相邻的两条边框的交点)的重心，分别对两条坐标轴进行向左向下平移，使得远景完整落入象限。

＜3＞如附图8所示，多个远景与坐标轴有交叉，根据最左－最下原则，多次平移坐标轴，实现所有远景的完整切分。

其中最左－最下坐标轴平移算法流程图如附图9所示，根据标注坐标系识别远景目标(小目标)，判断是否存在与坐标轴有交叉的远景目标(小目标)，如果存在，则建立交叉小目标集合，即选出与坐标轴交叉的远景目标(小目标)，此时判断集合是否为零，当集合为零时，不用平移坐标轴，当集合不为零时，在集合中寻找最小的xmin与最小的ymin，然后平移坐标轴至最小的x与最小的y，平移坐标轴后，再次判断是否存在与坐标轴有交叉的远景目标(小目标)，依次完成一个循环。

步骤五、增强样本输出与使用，生成远景放大图以及标注文档，并与原始图片共同最为训练样本，训练目标识别模型。象限切割能够衍生新的远景样本，根据新样本，构造其xml标注文档，图片与文档共同构成衍生样本。Xml自动生成，例如图12所示，增强样本的xml文档结构上完全参考原始图片的xml文档，有些标记信息项甚至无需改变，直接引用即可，其余的仅需参考原始图片进行简单变换即可。

本发明未经描述的技术特征可以通过或采用现有技术实现，在此不再赘述，当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的普通技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.基于数据增强的目标识别模型的训练方法，其特征在于，包括以下步骤：

步骤五、增强样本输出与使用，生产远景放大图以及标注文档，并与原始图片共同最为训练样本，训练目标识别模型。

2.根据权利要求1所述的方法，其特征在于，在所述原始图片上标注出目标的位置，以矩形框坐标的方式标注出目标坐在的具***置，原始图片记录标注的结果采用标准的xml文件方式输出，原始图片上不同目标之间用＜object＞＜/object＞标记节标注。

3.根据权利要求2所述的方法，其特征在于，针对xml文件建立一张坐标系，描述不同目标的坐标位置。

4.根据权利要求3所述的方法，其特征在于，构造目标面积算子S＝X_weightY_height分别计算每个object的矩形框坐标面积S_object＝(x_max-xminymax-ymin与图片面积Simg＝width×height，计算两者的比值，比值小于0.8％的目标则视为远景。

5.根据权利要求1所述的方法，其特征在于，所述象限切割是指在矩形框坐标系上均匀划分出四个象限，并判断每个象限中是否存在远景，如果存在，则切割出该象限，将其作为增强样本。

6.根据权利要求5所述的方法，其特征在于，象限切割能够衍生新的远景样本，根据新样本，构造其xml标注文档。