CN113132755B

CN113132755B - 可扩展人机协同图像编码方法及***、解码器训练方法

Info

Publication number: CN113132755B
Application number: CN201911415561.7A
Authority: CN
Inventors: 刘家瑛; 胡越予; 杨帅; 王德昭; 郭宗明
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2022-04-01
Anticipated expiration: 2039-12-31
Also published as: CN113132755A

Abstract

本发明公开了一种可扩展人机协同图像编码方法及编码***。本方法为：提取各样本图片的边缘图并矢量化，作为驱动机器视觉任务的紧凑表示；在矢量化后的边缘图中进行关键点提取作为辅助信息；对紧凑表示和辅助信息分别进行熵编码无损压缩，获得两路码流；对两路码流进行初步解码，获得边缘图以及辅助信息；将解码得到的边缘图以及辅助信息输入生成神经网络中，进行网络的前向计算；根据得到的计算结果与对应原始图片进行损失函数计算，并将计算的损失反向传播到神经网络进行网络权值更新直到神经网络收敛，得到双路码流解码器；获取待处理图像的边缘图和辅助信息并编码压缩后得到两路码流；双路码流解码器对收到的码流解码，重建图像。

Description

可扩展人机协同图像编码方法及***、解码器训练方法

技术领域

本发明属于图像编码领域，涉及一种可扩展人机协同图像编码方法及编码***，本发明可以同时提升图像在人眼视觉以及机器视觉下的质量。

背景技术

在数字图像的使用传播过程中，有损图像压缩是一项不可或缺的关键技术。传统有损图像压缩方案通过对图像进行变换得到紧凑表示从而继续量化、熵编码来进行压缩，极大地降低了数字图像在存储和传输过程中的开销，使得数字图像在日常生活得以被普遍使用。

随着计算机视觉技术的发展，越来越多的应用场景中需要考虑图像在机器视觉下的质量，也就是有损压缩后的图像在机器视觉任务下仍然可以保持与无损图像相当的性能。但是传统有损图像压缩方案仅针对人眼视觉进行优化，无法保证机器视觉下的质量。而如果仅仅考虑对机器视觉任务的特征进行压缩，不保证图像的恢复重建，则无法在人眼视觉下进行观察。

为了同时保证人眼视觉以及机器视觉下的性能，本发明提出了一个可扩展的人机协同图像编码***。在此之上，根据需求的不同，可以通过传输解码不同等级的码流，得到只针对机器视觉的重建图像以及针对人眼视觉的重建图像。

发明内容

本发明在上述技术背景下，设计了一种可扩展的人机协同图像编码方法及编码***。不同于传统视觉的单一码流，本发明提出了一个可扩展的编码框架，同时生成两路码流——视觉驱动的紧凑表示码流以及辅助信息码流，从而根据不同任务需求进行解码重建。本发明的解码器采取了一个生成模型，可以针对不同等级的码流进行解码。对于视觉驱动的紧凑表示码流，生成针对机器视觉的重建图像。对于视觉驱动的紧凑表示码流以及辅助信息码流，生成针对人眼视觉的重建图像。整体框架如附图1所示。

本发明的技术方案为：

一种可扩展人机协同图像编码方法，其步骤包括：

1)提取各样本图片的边缘图；

2)利用贝塞尔曲线对边缘图进行矢量化，作为驱动机器视觉任务的紧凑表示；然后在矢量化后的边缘图中进行关键点提取，将提取的关键点作为辅助信息；

3)对所述紧凑表示和所述辅助信息分别进行熵编码无损压缩，获得两路码流；

4)对两路码流进行初步解码，获得边缘图以及辅助信息；

5)对于需生成针对人眼视觉的重建图像任务，则将解码得到的边缘图以及辅助信息输入生成神经网络中，进行网络的前向计算；对于需生成针对机器视觉的重建图像任务，则将解码得到的边缘图输入生成神经网络中，进行网络的前向计算；

6)步骤5)得到的计算结果与对应原始图片进行损失函数计算，并将计算的损失反向传播到神经网络进行网络权值更新；

7)重复步骤2)～6)直到神经网络的损失收敛，得到针对人眼视觉重建图像任务的双路码流解码器或针对机器视觉重建图像任务的紧凑表示码流解码器；

8)对于一待处理图像I，获取该图像I的边缘图和辅助信息并编码压缩后得到两路码流，

分别记为B_E和B_C；

9)根据任务需求选择双路码流解码器或紧凑表示码流解码器对收到的码流解码，重建图像。

进一步的，提取所述关键点的方法为：若所述边缘图矢量化后的线为直线段，则使用直线模式提取关键点，否则使用贝塞尔曲线模式提取关键点。

进一步的，使用所述直线模式提取关键点的方法为：若直线段与水平线夹角大于设定角度，则过线段中点在水平线上左右等距采样两个颜色值；若小于或等于设定角度，则过线段中点在竖直线上上下等距采样两个颜色值；使用所述贝塞尔曲线模式提取关键点的方法为：将平行于贝塞尔曲线起点与终点连线的线与贝塞尔曲线的切点记下，若切线与水平线夹角大于设定角度，则过切点在水平线上采样曲线内的一个颜色值；若小于或等于设定角度，则过切点在竖直线上采样曲线内的一个颜色值。

进一步的，所述设定角度为45°。

进一步的，对于机器视觉任务，步骤8)中将边缘图对应的码流B_E发送给紧凑表示码流解码器，步骤9)中，紧凑表示码流解码器对码流B_E解码得到矢量化后的边缘图E并对其进行前向传递，得到解码图像

对于人眼视觉任务，步骤8)将码流B_E和B_C发送给双路码流解码器，步骤9)中，双路码流解码器对码流B_E和B_C解码得到E和C并对其进行前向传递，得到解码图像

一种双路码流解码器训练生成方法，其步骤包括：

1)提取各样本图片的边缘图；

4)对两路码流进行初步解码，获得边缘图以及辅助信息；

5)将解码得到的边缘图以及辅助信息输入生成神经网络中，进行网络的前向计算；

7)重复步骤2)～6)直到神经网络的损失收敛，得到针对人眼视觉重建图像任务的双路码流解码器。

一种紧凑表示码流解码器训练生成方法，其步骤包括：

1)提取各样本图片的边缘图，并对边缘图进行矢量化作为驱动机器视觉任务的紧凑表示；

2)对所述紧凑表示进行熵编码无损压缩，获得一路码流；

3)对码流进行初步解码，获得边缘图；

4)将解码得到的边缘图输入生成神经网络中，进行网络的前向计算；

5)根据步骤4)得到的计算结果与对应原始图片进行损失函数计算，并将计算的损失反向传播到神经网络进行网络权值更新；

6)重复步骤2)～5)直到神经网络的损失收敛，得到针对机器视觉重建图像任务的紧凑表示码流解码器。

一种可扩展人机协同图像编码***，其特征在于，包括编码器、双路码流解码器和紧凑表示码流解码器；其中，

编码器，用于提取图片的边缘图；然后利用贝塞尔曲线对边缘图进行矢量化，作为驱动机器视觉任务的紧凑表示；然后在矢量化后的边缘图中进行关键点提取，将提取的关键点作为辅助信息；然后对所述紧凑表示和所述辅助信息分别进行熵编码无损压缩，获得两路码流；

双路码流解码器，用于对两路码流进行解码得到边缘图以及辅助信息，然后对解码得到的边缘图以及辅助信息进行前向传递，得到用于人眼视觉重建图像任务的解码图像；

紧凑表示码流解码器，用于对边缘图对应的码流进行解码得到边缘图，然后对解码得到的边缘图进行前向传递，得到用于机器视觉重建图像任务的解码图像。

本发明使用贝塞尔曲线提取图像边缘图并矢量化作为驱动机器视觉任务的紧凑表示，并且根据矢量化的边缘图中各直线以及曲线的位置、参数等信息，得到关键点坐标，在原图像上提取关键点，进行编码生成对应两路码流，如附图2所示。

接下来描述本发明方法的主要步骤。

步骤1：收集一批图片，进行边缘图的提取，收集的图片则被视作网络输出的目标被保存。

步骤2：利用贝塞尔曲线对边缘图进行矢量化。在矢量化后的边缘图中采样关键点作为辅助信息(边缘图在经过矢量化之后，被表示为直线和曲线；根据直线和曲线的位置，参数等信息，可计算出关键点的坐标，该坐标被用于在原采集得到的图像中提取关键点)。关键点的提取分为两种模式：直线模式和贝塞尔曲线模式。若矢量化后的线为直线段，则使用直线模式，反之使用贝塞尔曲线模式。直线模式下，若该直线段与水平线夹角大于45°，则过线段中点在水平线上左右等距采样两个颜色值记下；若小于等于45°，则过线段中点在竖直线上上下等距采样两个颜色值记下。贝塞尔曲线模式下，将平行于贝塞尔曲线起点终点连线的线与该贝塞尔曲线的切点记下，在贝塞尔曲线模式下，一段边缘使用贝塞尔曲线进行描述，如说明书附图2(c)中所示，贝塞尔曲线的起点为Ps，终点为Pt，连接Ps和Pt得到直线PsPt，做该直线PsPt和曲线的切线，取切点。若切线与水平线夹角大于45°，则过切点在水平线上采样曲线内的一个颜色值记下；若小于等于45°，则过切点在竖直线上采样曲线内的一个颜色值记下。

步骤3：对作为紧凑表示的矢量化的边缘图以及关键点辅助信息进行熵编码无损压缩，获得两路码流。

步骤4：对两路码流进行初步解码，获得边缘图以及关键点辅助信息。

步骤5：对于双路码流的解码器，将边缘图以及对应关键点辅助信息作为输入送入对应生成神经网络(可以为Pixel2Pixel网络)中，进行网络的前向计算；对于针对视觉驱动的紧凑表示码流的解码器，将边缘图作为输入送入对应生成神经网络中，进行网络的前向计算。

步骤6：步骤5得到计算结果，与原始图像进行损失函数计算。

步骤7：将计算的损失反向传播到两个网络神经网络各层，以更新权值，在下次迭代中使得结果更接近目标效果。

步骤8：重复步骤2-步骤7直到两个神经网络的损失收敛。由此得到了针对双路码流的解码器网络以及针对视觉驱动的紧凑表示码流的解码器网络。

与现有技术相比，本发明的积极效果为：

本发明为一种可扩展的图像有损压缩方案，不仅保证了人眼视觉质量，也保证了机器视觉任务的性能。与传统的图像有损压缩方法中仅输出单一码流不同，本发明中的压缩方案生成两部分码流：视觉驱动的紧凑表示码流以及辅助信息码流。具体而言，本发明使用贝塞尔曲线表示图像的边缘信息作为基础码流，在此基础上提取图像中的关键点作为补充码流，使用以上两种码流表征图像，从而对图像进行高效压缩。此外，本发明采用生成神经网络模型构建解码器，通过输入基础码流或者共同输入基础和补充个码流，分别生成出针对机器视觉的图像以及针对人眼视觉的图像，两者的重建质量都达到了优异效果。

以下数据展示了本方法对比现有的JPEG图像压缩方法的性能改进。本测试衡量在极低码率下，在人脸关键点检测任务上，不同的方法的准确度(错误率)，以及由被试打分的人眼主观质量：

可见，在更低码率下，本发明能够达到更好的性能。

附图说明

图1为可扩展的人机协同图像编码器的框架。

图2为矢量化的图像边缘图关键点辅助信息提取方法；

(a)矢量化边缘图，(b)直线(＞45⁰)，(c)直线(﹤45⁰)，(d)贝塞尔曲线。

具体实施方式

为了对本发明的技术方法进一步阐述，下面结合说明书附图和具体实例，对本发明的可扩展的人机协同图像编码器进行进一步的详细说明。

本实例将重点详细阐述该技术方法中编码器编码流程的和解码器生成网络的训练过程。假设目前我们已经构建了所需的解码器生成网络，并且有N张训练图像{I₁,I₂,…,I_N}作为训练数据。

一、训练过程：

步骤1：将{I₁,I₂,…,I_N}中的每一张图像边缘图经过矢量化后的图记为{E₁,E₂,…,E_N}，对应关键点辅助信息记为{C₁,C₂,…,C_N}。

步骤2：根据附图1所示，将{E₁,E₂,…,E_N}和{C₁,C₂,…,C_N}送入生成网络中进行前向传递。对于针对机器视觉任务的解码器生成网络，输入仅为{E₁,E₂,…,E_N}。

步骤3：前向传递得到输出

计算输出与{I₁,I₂,…,I_N}的损失误差。

步骤4：获得误差值后，对网络进行误差值的反向传播，以训练网络更新模型权值。

步骤5：重复步骤1-步骤4直到神经网络收敛。

二、编解码过程：

步骤1：提取图像的I的边缘图，并将该边缘图通过贝塞尔曲线矢量化后的图存下，记为E。

步骤2：根据矢量化后的边缘图提取关键点辅助信息。通过遍历其所有线段，根据其线段模式采样关键点。将提取出的关键点辅助信息记为C。

步骤3：按照可扩展矢量图形(Scalable Vectore Graphic,SVG)格式对E进行编码，再与C进行熵编码，得到两路码流，分别记为B_E和B_C。

步骤4：根据需求选择解码器对不同等级码流解码。对于机器视觉任务，仅需要解码器解码B_E，得到矢量化后的边缘图E。将其输入进对应网络进行前向传递，得到解码图像

对于人眼视觉任务，需要解码B_E和B_C，得到E和C，并送入对应生成网络进行前向传递，得到解码图像

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种可扩展人机协同图像编码方法，其步骤包括：

1)提取各样本图片的边缘图；

4)对两路码流进行初步解码，获得边缘图以及辅助信息；

6)根据步骤5)得到的计算结果与对应原始图片进行损失函数计算，并将计算的损失反向传播到神经网络进行网络权值更新；

8)对于一待处理图像I，提取图像I的边缘图，并将该边缘图通过贝塞尔曲线矢量化后的图存下，记为E；根据矢量化后的边缘图提取关键点辅助信息，将提取出的关键点辅助信息记为C；按照可扩展矢量图形格式对E进行编码，再与C进行熵编码，得到两路码流，分别记为B_E和B_C；

2.如权利要求1所述的方法，其特征在于，提取所述关键点的方法为：若所述边缘图矢量化后的线为直线段，则使用直线模式提取关键点，否则使用贝塞尔曲线模式提取关键点。

3.如权利要求2所述的方法，其特征在于，使用所述直线模式提取关键点的方法为：若直线段与水平线夹角大于设定角度，则过线段中点在水平线上左右等距采样两个颜色值；若小于或等于设定角度，则过线段中点在竖直线上上下等距采样两个颜色值；使用所述贝塞尔曲线模式提取关键点的方法为：将平行于贝塞尔曲线起点与终点连线的线与贝塞尔曲线的切点记下，若切线与水平线夹角大于设定角度，则过切点在水平线上采样曲线内的一个颜色值；若小于或等于设定角度，则过切点在竖直线上采样曲线内的一个颜色值。

4.如权利要求3所述的方法，其特征在于，所述设定角度为45°。

5.如权利要求1所述的方法，其特征在于，对于机器视觉任务，步骤8)中将边缘图对应的码流B_E发送给紧凑表示码流解码器，步骤9)中，紧凑表示码流解码器对码流B_E解码得到矢量化后的边缘图E并对其进行前向传递，得到解码图像

6.一种双路码流解码器训练生成方法，其步骤包括：

1)提取各样本图片的边缘图；

4)对两路码流进行初步解码，获得边缘图以及辅助信息；

7.一种紧凑表示码流解码器训练生成方法，其步骤包括：

2)对所述紧凑表示进行熵编码无损压缩，获得一路码流；

3)对码流进行初步解码，获得边缘图；

8.一种可扩展人机协同图像编码***，其特征在于，包括编码器、基于权利要求6所述方法训练得到的双路码流解码器和基于权利要求7所述方法训练得到的紧凑表示码流解码器；其中，