CN110930408A

CN110930408A - 基于知识重组的语义图像压缩方法

Info

Publication number: CN110930408A
Application number: CN201910980491.3A
Authority: CN
Inventors: 宋明黎; 罗思惠; 方共凡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-03-27
Anticipated expiration: 2039-10-15
Also published as: CN110930408B

Abstract

一种基于知识重组的语义图像压缩方法，包括下列步骤：1)获得预训练的编解码器结构模型以及无标签数据；分别选取图像压缩以及语义分割的预训练同构模型。语义分割模型对输入图像进行逐像素类别预测，图像压缩模型对数字图像进行压缩和解压；2)模型重组；对预训练模型的编码器进行零填充重组得到共享编码器，复用预训练模型的解码器形成多路解码的结构。该重组模型在功能上等价于多个独立模型，能够执行语义分割和图像压缩任务。3)迭代剪枝减小模型规模；基于余弦相似度计算重组模型各层参数的相似度，对相似度最高的卷积核进行剪枝。每轮剪枝后，以无标签数据作为重组模型的输入，以预训练模型的预测结果作为学习目标，进行多任务训练直至收敛。重复步骤3)直至重组模型性能和参数规模达到部署要求。最终的重组模型能够对图像进行压缩，同时可以根据需求从编码中解码原图或者解码语义，两个任务可独立执行。

Description

基于知识重组的语义图像压缩方法

技术领域

本发明属于数字图像压缩领域，针对终端设备性能有限、模型训练代价过大的问题，提出的一种利用现有的图像压缩模型以及语义分割模型进行知识重组，从而得到多任务模型的方法。

背景技术

神经网络剪枝是一类通过减少网络参数来缩减网络规模的技术。通常手工设计的神经网络是过参数化的，大量的参数冗余不利于在低功耗设备上的部署。剪枝可以使得网络规模减少到一个可接受的规模，对整体性能影响较小。

基于深度学习的图像压缩是为解决数字图像中的信息冗余的一类方法。图像压缩***由编码器、量化器、解码器组成。编码器将数字图像的像素信息转换为紧凑的中间表达，量化器将连续的编码值转换到离散的值，而解码器则从图像压缩码中重建出原始图像。由于神经网络易于设计，计算规模可控性强，因此适合部署到不同的终端设备。

语义压缩是图像解析问题的一种，通过对逐个像素点进行分类，获得输入图像的逐像素语义类别。全卷积编解码器是一类常见的语义分割结构，编码器对图像进行解析，获得空间尺寸更小的编码，解码器将编码扩展到原图像尺寸，并对每个像素生成不同类的概率值。该结构能够端到端地进行训练。

知识重组是一类利用预训练的模型来构建新模型的算法，其核心是将现有网络的知识转移到另一个网络中。通过知识重组可以最大化利用预训练模型，减少训练代价，并取得更好的性能。

由于存储需要，设备上的图像一般以压缩编码的形式存在，当对图像进行语义分割时，编码首先需要经过图像解码，获得原图像后再利用常规的语义分割方法获得语义信息，设备频繁解码造成了大量计算资源耗费。

发明内容

本发明针对现有技术条件下模型训练代价较大、终端设备性能有限的问题，提出了一种结合语义分割和图像压缩的方法。本方法通过重组现有的预训练模型来获得新模型，训练过程中不需要人工的数据标注。

一种基于知识重组的语义图像压缩方法，包括如下步骤：

1)获得预训练的编解码器结构模型以及无标签数据；

分别选取用于图像压缩和语义分割任务的同构编解码器模型。语义分割模型对输入图像进行逐像素分类，图像压缩模型对数字图像进行压缩和解压。本方法使用无标签数据进行训练，即使用预训练模型对输入图像进行预测，将预测结果作为学习目标。

2)模型重组；

为获得功能等价的新模型，首先对现有模型的编码器的参数进行零填充，解码器不做改变，连接在重组的编码器上形成多路输出分支。重组参数能够作用于原模型的所有输入，并且不改变输出结果。考虑分别属于模型A和模型B并且大小为O_A×I_A×H×W和O_B×I_B×H×W的卷积层参数，该参数以通道数为I的特征图作为输入，得到通道数为O的输出。通过零填充使其能够接收通道数为(I_A+I_B)的输入，即填充至为O_A×(I_A+I_B)×H×W和O_B×(I_B+I_A)×H×W。最后组合两者获得到大小(O_A+O_B)×(I_A+I_B)×H×W的重组参数。由于零填充不影响模型的输出，重组模型与预训练模型功能上等价。

3)迭代剪枝减小模型规模；

本方法使用神经网络剪枝减少参数规模。对大小为O×I×H×W的卷积参数，计算O个卷积核之间两两相似度。度量标准为余弦相似度

其中A和B分别表示卷积核，·运算表示向量内积，|| ||表示向量的模长。通过计算相似度得到相似度矩阵，矩阵大小为O×O。取相似度最高的K对卷积核，在每一对卷积核在随机选取一个进行剪枝。其中K为预先设定的剪枝规模。

利用无标签数据以及预训练模型预测结果作为训练数据和目标，进行多任务训练，压缩分支损失函数为均方误差

语义分割分支损失函数为交叉熵L_s＝-∑_x∈χp(x)logq(x)。最终的损失函数为L＝L_C+αL_S，其中α用于控制两者权重。在训练过程中，零填充参数逐渐转化为有效参数，从而提供更优的模型性能。重复步骤(3)直至重组模型性能和参数规模达到部署要求。最终重组模型能够对输入图像进行压缩，可以从压缩结果中重建原图或者不经重建直接解析语义信息。

相比于现有的多任务训练、蒸馏训练方法，本方法完整地利用了现有模型的参数，通过零填充合并算法最大程度地保留了模型的功能。同时本方法通过剪枝算法降低模型计算量，并融合来自不同任务的参数，提供更完备的图像特征抽象能力。结合语义分割的压缩算法性能优于传统JPEG算法，并且不需要解码原图像即可进行语义分割，有利于在终端设备上进行部署。本算法在各种压缩率下都能够保证较高的分割精度，稳定性更强。由于语义分割不需要获得原图像，因此该方法提供了隐私方面的保障。

附图说明

图1是本发明中模型重组示意图

图2是本发明的语义图像压缩训练过程示意图

具体实施方式

下面结合附图进一步说明本发明的技术方案。

本发明的一种基于知识重组的语义图像压缩方法，包括如下步骤：

1)获得预训练的编解码器结构模型以及无标签数据；

首先收集分割模型适用的无标签数据，数据为RGB格式的三通道图片，分割模型能够在这类无标签数据上进行预测，从而获得用于训练的软目标(Soft Target)，软目标的尺寸与图像相同，描述了原图像每个像素属于各个类别的概率，其通道数等于类别的数量。该软标签作为语义分割的学习目标，用于后续训练。由于压缩模型的学习目标为原图像，因此可以直接使用无标签数据进行训练。

2)模型重组；

重组模型的整体结构如图2所示，包含一个共享的编码器和两个不同任务的解码器，其支分别对应图像压缩的重建模型，以及语义分割的预测模型。为获得过参数化的重组模型，需要重组编码器的参数得到等价的表达形式。如图1所示，令来自预训练模型的参数核成对角线排布，无参数的位置使用0进行填充。虑分别属于模型A和模型B、大小分别为O_A×I_A×H×W和O_B×I_B×H×W的卷积层参数，该参数以通道数为I_A和I_B的特征图作为输入，分别得到通道数为O_A和O_B的输出。通过零填充扩展参数，使其能够接收通道数为(I_A+I_B)的输入，即填充至O_A×(I_A+I_B)×H×W和O_B×(I_B+I_A)×H×W。最后组合两者获得到大小(O_A+O_B)×(I_A+I_B)×H×W的重组参数，其排布如图1中Recombined Kernel Matrix所示，重组参数位于对角线上(深色部分)，其余为零填充(浅色部分)。

经过重组的参数能够同时接收预训练模型的所有输入。如图2所示，各个解码器输入是共享编码器的输出。由于填充0不会改变输出结果，该重组模型与多个预训练模型等价。

3)迭代剪枝减小模型规模；

由于零填充会引入多余参数，重组模型存在过参数化、计算量大的问题。本方法通过神经网剪枝减少参数规模，并进一步融合来自不同模型的参数。对大小为O×I×H×W的重组参数，计算O个卷积核之间两两相似度。相似度的度量标准为余弦相似度

其中A和B分别表示卷积核，·运算表示向量内积，|| ||表示向量的模长。取相似度最高的K组参数，在每一组参数中随机选取其中一个进行剪枝。其中K为预先设定的剪枝规模。剪去参数后，本层输出的特征图数量减少，因此需要对紧随其后的卷积层剪枝调整。

剪枝分为整体剪枝和逐层剪枝两种方式，整体剪枝每一轮同时对模型的各层参数进行剪枝。逐层剪枝一轮仅对模型的其中一层进行剪枝。整体剪枝耗时更短，精度略低，而逐层剪枝训练时间较长，但精度较高。如图2所示，在每轮剪枝后，利用预训练模型在无标签数据上的预测对剪纸模型进行训练。使经过剪枝的模型去学习软标签。在训练过程中，零填充的卷积核参数也参与训练，使得模型性能具有更大的提升空间。训练收敛后，继续进行剪枝、训练的过程直至性能、参数规模达到部署要求。

结束迭代的剪枝训练后，得到的重组模型规模较小，且精度通常能够持平甚至优于预训练模型。该重组模型能够对图像进行压缩，解码端的两个解码器能够分别解码图像和语义。编码端部署于终端设备，对图像进行采集并压缩，传输给解码端。解码端在不需要获得原始图像的情况下即可对图像进行语义分割。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于知识重组的语义图像压缩方法，包括下列步骤：

1)获得预训练的编解码器结构模型以及无标签数据；

分别选取用于图像压缩和语义分割任务的编解码器结构模型。语义分割模型对输入图像进行逐像素分类，图像压缩模型对数字图像进行压缩和解压。本方法使用无标签数据进行训练，即使用预训练模型对输入图像进行预测，将预测结果作为学习目标。

2)模型重组；

对预训练模型的编码器参数进行零填充，将大小为O×I×H×W的参数填充为O×∑_tI_t×H×W，使其能够接收所有预训练模型的输入，其中t表示预训练模型的序号。最后组合多个零填充参数，获得大小为∑_tO_t×∑_tI_t×H×W的重组参数。非零参数经过重组后依次成对角线排布，其余位置均为零。对多个模型的编码器部分进行逐层重组，得到重组模型。重组模型包括一个共享的重组编码器和两路解码器。解码器能够独立工作，分别进行语义分割和图像解压。重组模型与多个预训练模型功能等价。

3)迭代剪枝减小模型规模；

基于余弦相似度

计算每一层参数之间相似度，其中A和B分别表示参数向量，·运算表示向量内积，‖‖表示向量的模长。取相似度最高的K对参数进行剪枝。其中K为预先设定的剪枝规模。

利用预训练模型在无标签数据上的预测结果作为目标，进行多任务训练，压缩分支损失函数为均方误差

语义分割分支损失函数为交叉熵L_s＝-∑_x∈χp(x)logq(x)，编码层采用量化函数Q(x)＝Round(x)。最终的损失函数为L＝L_C+αL_S，其中α用于控制两者权重。零填充参数需要参与训练，逐渐转化为有效参数，提升模型性能。重复步骤(3)直至重组模型性能和参数规模达到部署要求。最终的重组模型能够执行图像压缩，同时可以根据需要从编码中解码原图或者解码语义，两个任务可独立执行。