CN112446376A

CN112446376A - 一种工业图像智能分割压缩方法

Info

Publication number: CN112446376A
Application number: CN201910838019.6A
Authority: CN
Inventors: 郑泽宇; 高原; 许原野; 张涛; 董静雅; 刘智
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-03-05
Anticipated expiration: 2039-09-05
Also published as: CN112446376B

Abstract

本发明涉及一种工业图像智能分割压缩方法。包括以下步骤：选取需处理的工业图像样本，人工标注真实兴趣框；输入卷积神经网络模型获取特征图；在特征图上的每一个点上生成不同大小与宽高比例的锚框；根据与真实兴趣框的重合程度提取锚框中的正负样本进行训练，根据正样本对锚框边框进行回归修正；采集现场工业图像生成锚框，使用训练好的锚框分类与边框回归器生成修正后的锚框，去重操作，提取正样本概率较高的锚框作为候选框；根据提出的候选区框，对工业图像进行分割存储。本方法针对工业图像中语义冗余信息较多，种类繁多但同类图像差别不大的特点，利用区域推荐网络，通过对少量样本的学习，减小了工业图像的大小，可以节省大量的存储空间。

Description

一种工业图像智能分割压缩方法

技术领域

本发明涉及工业图像压缩与人工智能两个交叉领域，具体说是利用人工智能技术，截取工业图像中人们真正感兴趣的部分，从而达到压缩的效果。

背景技术

工业图像处理对工业有着重要作用，常用的工业图像处理包括：元件表面检测、元件尺寸检测、元件位置校准、激光定位打印等。由于图像数据量的庞大,在存储、传输、处理时非常困难，因此图像数据的压缩就显得非常重要。数据压缩的任务是在不影响或者少影响图像质量的前提下，尽量减少表示数字图像时需要的数据量，其首要任务在于去除图像中的各种冗余数据。现有的图像压缩方法主要有，无损压缩方法，如行程长度编码法、熵编码法等，有损压缩方法，如色度抽样、变换编码、分形压缩等。该方法有以下不足：1)在大部分的工业图像中，人们感兴趣的图像只占整张图片的一部分，对整张图片进行压缩处理，会降低传输图片时的效率，同时浪费大量的存储空间。2)工业图像种类繁多，数量较大，但是同种工业设备产生的图像一般变化不大；现有的图像压缩技术利用图像本身的像素信息，在整张图片上进行压缩操作，而没有考虑具体的语义信息。3)现有的图像压缩技术较为成熟，没有太大的改进空间。

发明内容

针对上述技术不足，本发明的目的提供一种工业图像智能分割压缩方法。该方法利用工业图像中语义冗余信息较多，种类繁多但同种工业设备产生的图像差别不大，易学习的特点，利用少量的人工标注的训练样本，学习到该类工业图像中人们真正感兴趣的区域，并利用学习到的兴趣区域，合并分割出最终需要存储的工业图像。该方法不需要任何传统的图像处理技术，利用当前人工智能与图像检测领域中通用性强的区域推荐网络，降低了使用门槛，可以适用于大部分的工业图像；对于每类工业图像，只需要少量的数据标注与模型训练，迁移成本较低且效果较好。

本发明解决其技术问题所采用的技术方案是：一种工业图像智能分割压缩方法，包括如下步骤：

离线训练的步骤：工业图像预处理后输入卷积神经网络模型得到特征图，对特征图生成不同尺寸的多个锚框，再进行锚框二分类器训练得到锚框分类与边框回归器；

实际处理的步骤：采集现场工业图像，输入训练好的卷积神经网络模型、锚框分类与边框回归器，生成修正后的锚框并去重操作，提取锚框候选框；合并候选框并从工业图像中分割出来。

所述工业图像预处理包括：

选取需要处理的工业图像样本，人工标注真实兴趣框。

所述卷积神经网络模型包括：卷积层，激活函数，池化层，批标准化层；

卷积层：y＝conv2d(x,W,bias,stride)，x为输入特征，w为卷积核大小，bias是卷积操作后要加的偏差，stride为卷积操作的步长；

Relu激活函数:y＝max(0,x)；

池化层：y＝maxpool2d(x,size,stride)，x为输入特征，size为池化操作窗口大小，stride是池化窗口在特征图上的移动步长。

批标准化(batch normalization，BN)层：即把每次神经网络的输出都归一化为标准正态分布，从而使网络更好的收敛。

所述对特征图生成不同尺寸的多个锚框包括：

在图像特征图上的每一个点上生成不同面积大小与宽高比例的n个锚框，则一共产生w*h*n个锚框；其中，特征图的大小为(w,h,c)，w,h,c分别代表特征图的宽、高、通道数。

所述锚框二分类器训练包括：

i.根据与真实兴趣框的重合程度提取锚框中的正负样本；

ii.根据正负样本对锚框二分类器进行训练，同时根据正样本对锚框边框进行回归修正，使锚框与真实兴趣框的重合度越来越高。

所述根据与真实兴趣框的重合程度提取锚框中的正负样本包括：

根据上一步生成的所有锚框与真实的兴趣区域重合程度IoU的大小，选取两类样本，标注正与负两类标签；所述重合度IoU的计算公式如下：

其中，A,B表示要计算重合程度的两个矩形框，即两个矩形框重合的面积除以两个矩形框覆盖的面积。

所述根据正负样本对锚框二分类器进行训练，同时根据正样本对锚框边框进行回归修正，使锚框与真实兴趣框的重合度越来越高，包括：

a.定义锚框的位置坐标：

t_x＝(x-x_a)/w_a,t_y＝(y-y_a)/h_a,t_w＝log(w/w_a),t_h＝log(h/h_a),

x,y,w,h分别代表的矩形框的中心横坐标、中心纵坐标、宽和高，x,x_a,x^*分别代表横坐标的预测值、锚框值与真实值，y,y_a,y^*分别代表纵坐标的预测值、锚框值与真实值，w,w_a,w^*分别代表宽的预测值、锚框值与真实值，h,h_a,h^*分别代表高的预测值、锚框值与真实值；

b.定义最小化目标函数L({p_i},{t_i})由两部分组成如下：

i代表锚框的索引，p_i代表第i个锚框是真实兴趣框的概率，如果锚框是正样本标签，则

为1，如果锚框是负样本标签，则

为0，t_i是包含上述t_x,t_y,t_w,t_h四个预测框参数化信息的向量，

是包含上述

四个真实兴趣框参数化信息的向量，L_cls是前景与背景的交叉熵损失函数，L_reg代表

其中R是smooth L1函数，具体形式如下：

损失函数的两个部分分别用N_cls与N_reg来标准化，λ是平衡两部分损失函数的参数；

c.通过调整损失函数输出的p_i与t_i参数，对锚框进行修正，使其越来越靠近真实兴趣框。

所述提取锚框候选区域包括：

将筛选与修正后的锚框，按前景概率排序，选取选取排名靠前的预设数量锚框，进行非最大值抑制操作去除冗余的检测框，再次按前景概率排序获取最终的候选框。

所述合并候选框并从工业图像中分割出来是根据提出的最终候选框，选出能框住所有候选框的最小面积矩形框，将该框从工业图像中分割出来存储。

所述最小面积矩形框的获取如下：

其中i表示候选锚框编号，即对所有候选锚框的左上角坐标取最小值，对所有候选锚框的右下角坐标取最大值，得到要切割的矩形框(X¹,Y¹,X²,Y²)。

本发明具有以下有益效果及优点：

1.本发明方法可以利用少量的标注数据，结合区域推荐网络，快速学习到一类工业图像中的兴趣区域，且对于大部分的工业图像，有很好的压缩效果。

2.本发明方法迁移成本较低，对于每一类的工业图像，只需要少量的人为标注数据，就可以快速训练出压缩效果较好的模型。

3.本发明方法通用性较强，可以适用于大部分，不同分辨率的工业图像。

附图说明

图1是本方法的图像分割步骤流程示意图；

图2是本方法所使用的区域推荐网络的结构示意图；

图3是特征图上的一点生成锚框示意图；

图4是对锚框进行回归操作时的示意图。

图5是真实兴趣框效果图；

图6是候选兴趣框的效果图。

具体实施方式

下面结合附图及实施对本发明做进一步的详细说明。该区域推荐网络只是本方法的一种实现，任何其他形式的区域推荐网络计算方法均属于本专利范围。

本发明涉及一种工业图像智能分割压缩方法。包括以下步骤：数据预处理模块，选取少量需处理的工业图像样本，人工标注真实兴趣框；特征提取模块，将标注好的工业图像作为卷积神经网络模型的输入，输出图像特征图；锚框生成模块，在图像特征图上的每一个点上生成不同大小与比例的锚框；锚框修正模块，根据与真实兴趣框的重合程度，提取锚框中的正负样本，根据正负样本对锚框二分类器进行训练，同时根据正样本对锚框边框进行回归修正；候选区域生成模块，重新生成锚框，使用上一步中训练好的锚框分类与边框回归器，生成修正后的锚框，进行去重操作后，提取正样本概率较高的固定数量锚框作为候选区域；图像分割模块，根据提出的候选区域，对工业图像进行分割存储。本发明涉及的基于人工智能的工业图形智能分割方法，利用工业图像中语义冗余信息较多，种类繁多但同种工业设备产生的图像一般差别不大，易学习的特点，利用少量的人工标注的训练样本，学习到该类工业图像中人们感兴趣的区域，并利用学习到的兴趣区域，合并分割出最终需要存储的工业图像。该方法不需要任何传统的图像处理技术，利用当前人工智能与图像处理领域中通用性强的区域推荐网络模型，降低了使用门槛，可以适用于大部分的工业图像；且对于每类工业图像，只需要少量的数据标注与模型训练，迁移成本较低且效果较好。

如图1所示，本发明涉及一种工业图像智能分割压缩方法，该方法主要包括：

1)数据预处理模块，选取少量需处理的工业图像样本，人工标注真实兴趣框；

2)特征提取模块，将标注好的工业图像作为卷积神经网络模型的输入，输出图像特征图；

3)锚框生成模块，在图像特征图上的每一个点上生成不同大小与宽高比例的n个锚框；

4)锚框修正模块，根据与真实兴趣框的重合程度，提取锚框中的正负样本，根据正负样本对锚框二分类器进行训练，同时根据正样本对锚框边框进行回归修正，使其与人工标注的兴趣区域重合度越来越高；

5)候选区域生成模块，重新生成锚框，使用上一步中训练好的锚框分类与边框回归器，生成修正后的锚框，进行去重操作后，提取正样本概率较高的固定数量锚框作为候选区域；

6)图像分割模块，根据提出的候选区域，选出能框住所有候选框的最小面积矩形框，将该框从工业图像中分割出来存储。

(1)本方法首先在要处理的一类工业图像中，随机选取少量(100张以上)图片，根据此类工业图像的肉眼观察效果，调整至统一的舒适分辨率M*N；随后利用一些目标检测数据集制作小工具，如开源的LabelImg等，将图片中兴趣区域对应的位置用矩形框出，与标签信息一同处理成PASCAL VOC标准的xml文件，PASCAL VOC是目标检测数据统一标准之一。最后将xml文件中的(x1,y1,x2,y2,1)信息解析成对应的表格文件供后续程序使用，一张图对一个表格文件，其中(x1,y1)是左上角坐标，(x2,y2)是右下角坐标，标签1表示该区域是兴趣区域。

(2)将标注好的，调整至统一分辨率M*N的工业图像作为卷积神经网络模型的输入，输出图像特征图，大小为(w,h,c)，其中w、h、c分别代表特征图的宽、高、通道数；本模型可以对不同类的工业图像用少量的数据进行训练，因此卷积神经网络模型不宜过大，能简单提取出图像特征，供后续任务使用即可。本模型的卷积神经网络借鉴了经典的VGG16网络结构，全部采用3*3的卷积核，具体结构如图2所示。

(3)卷积神经网络输出的大小为m*n特征图上的每个点，例如，按照面积大小比为[8,16,32],宽高比为[0.5,1,2]，共产生3*3＝9个锚框，可以检测出不同尺度大小的兴趣区域，具体如图3所示。

(4)锚框的筛选与修正模块。首先，给上一步生成的所有锚框与真实的兴趣区域，选取两种情况下的样本，打上正(前景)样本标签：一种情况是真实兴趣框重合度最高的锚框，另一种情况是与真实兴趣框重合度大于70％的锚框；选取一类样本，打上负(背景)样本标签：与所有真实兴趣框重合度小于30％的锚框。

重合度用IoU(Intersection over Union)计算，计算公式如下：

其中A,B表示要计算重合程度的两个矩形框，即两个矩形框重合的面积除以两个矩形框覆盖的面积。

将正样本分成训练集和验证集，训练集用于执行如下a-c迭代计算操作，验证集用于验证是否符合要求，从而获取迭代计算的训练次数的截止条件。

a.对其进行边框的回归修正，使其与人工标注的兴趣区域重合度越来越高；

t_x＝(x-x_a)/w_a,t_y＝(y-y_a)/h_a,t_w＝log(w/w_a),t_h＝log(h/h_a),

如图4所示，x,y,w,h分别代表的矩形框的中心横坐标、中心纵坐标、宽和高，x,x_a,x^*分别代表预测值，锚框值与真实值(对y,w,h同样适用)，这可以视为一个锚框与距离它最近的真实兴趣框的边界框回归。

b.根据上述定义，最小化目标函数L({p_i},{t_i})由两部分组成，具体形式如下所示：

为1，如果锚框是负样本标签，则

是包含上述

四个真实兴趣框参数化信息的向量，L_cls是两分类(前景与背景)的交叉熵损失函数，L_reg代表

其中R是smooth L1函数。

c.损失函数的两个部分分别用N_cls与N_reg来标准化，λ是平衡两部分损失函数的参数。通过损失函数输出的p_i与t_i参数，对锚框进行修正，使其越来越靠近真实兴趣框。

候选区域生成模块。将筛选与修正后的锚框，再次按前景概率排序，提取选取排名靠前的固定数量锚框，进行非最大值抑制操作(non maximum suppression，NMS)。非最大值抑制操作的目的是去除冗余的检测框，即两个检测框的IoU大于一定阈值的时候，只保留前景概率较大的那个检测框。多个检测框进行非最大值抑制操作，可以同理进行迭代，最后只保留一个前景概率最大的检测框。将非最大值抑制操作后剩余的锚框再次按照前景概率排序，选取排名靠前的固定数量锚框作为最终的候选区域。图5是真实兴趣框效果图，生成的候选区域如图6所示。

(5)图像分割模块，根据提出的候选区域，选出能框住所有候选框的最小面积矩形框，将该框从工业图像中分割出来存储。

其中，i表示锚框编号，即对所有有锚框的左上角坐标取最小值，对所有锚框的右下角坐标取最大值，得到要切割的矩形框(X¹,Y¹,X²,Y²)。