CN115297327A

CN115297327A - 基于语义结构化编码的语义先验编解码方法与***

Info

Publication number: CN115297327A
Application number: CN202210925551.3A
Authority: CN
Inventors: 陈志波; 孙思萌; 金鑫; 冯若愚
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-04

Abstract

本发明公开了一种基于语义结构化编码的语义先验编解码方法与***，结合现有的语义结构化编码方法，提出了提升编解码性能的改进方法，即充分利用结构化码流中语义先验信息，在维持语义结构化编码的功能性同时实现更好的编解码性能，即相同码率情况下更好的重建质量或者相同重建质量情况下更低的码率。

Description

基于语义结构化编码的语义先验编解码方法与***

技术领域

本发明涉及图像压缩编码技术领域，尤其涉及一种基于语义结构化编码的语义先验编解码方法与***。

背景技术

为了应对5G时代视觉数据大爆发的挑战，并且更加高效地支持机器智能应用场景以及人机混合智能应用场景，甚至支持对图像内容在码流层面的灵活编辑，已有方法提出对图像进行语义结构化编码的工作。例如，公告号为CN110225341 B的中国发明专利《基于深度学习的语义结构化的图像编解码方法》，以及基于视觉对象层(Visual Object Plane)的图像视频编码MPEG-4Visual。

在以上专利《基于深度学***面(Visual Object Plane)，并对各个视觉对象平面单独进行块划分、变换、预测、量化和熵编码，从而形成结构化的码流。该方法可以支持部分视觉对象的单独解码重建，并且支持对视觉对象的编辑，例如缩放、移位或者旋转，以及来自不同图像的视觉对象的重新组合。

虽然已有结构化编码方法具备很强的功能性，但是在编解码性能上相比一般图像编码方法(如H.264、H.265、H.266等)还有很大的提升空间。

发明内容

本发明的目的是提供一种基于语义结构化编码的语义先验编解码方法与***，充分利用语义先验信息，改进现有的语义结构化编码方法，提升语义结构化编码方法的编解码性能。

本发明的目的是通过以下技术方案实现的：

一种基于语义结构化编码的语义先验编解码方法，包括：

在编码端，输入图像经过语义分析模块，获得对应于压缩特征中语义对象的位置信息与语义类别标签；基于语义对象的位置信息，将输入图像或者输入图像对应的压缩特征在空间层面上分割仅包含语义对象的若干部分；分割后的图像或者压缩特征分别输入至后续编码模块，获得结构化码流；编码端维护一个语义类别标签池，根据语义分析模块获得的语义类别标签，确定语义类别标签的索引值，并将所述语义类别标签的索引值填充至结构化码流中的指定位置；

在解码端，维护一个与语义标签池中的标签一一对应的解码器组成的解码器池，根据结构化码流中的语义类别标签的索引值选择相应的解码器，对结构化码流中的相关码流进行解码。

一种基于语义结构化编码的语义先验编解码***，包括：

编码网络，应用于编码端；在编码端，输入图像经过语义分析模块，获得对应于压缩特征中语义对象的位置信息与语义类别标签；基于语义对象的位置信息，将输入图像或者输入图像对应的压缩特征在空间层面上分割仅包含语义对象的若干部分；分割后的图像或者压缩特征分别输入至后续编码模块，获得结构化码流；编码端维护一个语义类别标签池，根据语义分析模块获得的语义类别标签，确定语义类别标签的索引值，并将所述语义类别标签的索引值填充至结构化码流中的指定位置；

解码网络，应用于解码端；在解码端，维护一个与语义标签池中的标签一一对应的解码器组成的解码器池，根据结构化码流中的语义类别标签的索引值选择相应的解码器，对结构化码流中的相关码流进行解码。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，结合现有的语义结构化编码方法，提出了提升编解码性能的改进方法，即充分利用结构化码流中语义先验信息，在维持语义结构化编码的功能性同时实现更好的编解码性能，即相同码率情况下更好的重建质量或者相同重建质量情况下更低的码率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于语义结构化编码的语义先验编解码方法的流程图；

图2为本发明实施例提供的在压缩特征层面进行语义分割的基于语义结构化编码的语义先验编码方法的示意图；

图3为本发明实施例提供的在图像层面进行语义分割的基于语义结构化编码的语义先验编码方法的示意图；

图4为本发明实施例提供的一种基于语义结构化编码的语义先验编解码***的示意图；

图5为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种基于语义结构化编码的语义先验编解码方法与***进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种基于语义结构化编码的语义先验编解码方法，如图1所示，其主要包括：

本发明实施例中，输入图像经过语义分析模块，可以获得输入图像中语义对象的位置信息与语义类别标签。由于通用编码器获得的压缩特征可以看作是输入图像经过下采样变换的结果，因此输入图像中语义对象的位置信息与语义类别标签可以通过同样的下采样操作映射到压缩特征上，因而能够获得压缩特征中语义对象的位置信息与语义类别标签。

本发明实施例中，结构化码流中将会设置专门用于存放索引值的字节，索引值首先被转化为二进制的表示方式，随后填充对应的存放索引值的字节。

本发明实施例提供的上述方案，结合了现有的语义结构化编码方法，充分利用语义先验信息，改进现有的语义结构化编码方法，提升语义结构化编码方法的编解码性能，即相同码率情况下更好的重建质量或者相同重建质量情况下更低的码率。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的一种基于语义结构化编码的语义先验编解码方法进行详细描述。

如图2～图3所示，分别为在压缩特征层面进行语义分割、在图像层面进行语义分割实施上述方法的示意图。

图2与图3中，均通过语义分析模块对输入图像进行语义分析，获得压缩特征中语义对象的位置信息与语义类别标签。所述的语义对象的位置信息包括：语义对象的边界框(bounding box)或者语义分割图(segmentation mask)。

本发明实施例中，语义分析模块可以选择常用的基于神经网络的方法实现，例如Mask RCNN、CenterNet等目标检测或者实例分割方法。

同时，为了构成语义结构化码流，基于语义对象的位置信息，输入图像或者经过通用编码器获得的压缩特征将被在空间层面上分割为仅仅包含对应语义信息的若干部分。所有分割后的图像/压缩特征将会被分别输入后续编码模块，从而形成结构化的码流。如图2与图3所示，对于分割后的压缩特征，后续编码模块包括：量化器与熵编码器，所述分割后的压缩特征依次经量化器与熵编码器，获得结构化码流；对于分割后的图像，后续编码模块包括：编码器、量化器与熵编码器，所述分割后的图像依次经编码器、量化器与熵编码器，获得结构化码流。

语义结构化编码过程可以参考现有技术，例如，前述背景技术引用的专利中的技术方案。不同的是，本发明实施例中，语义结构化编码中的语义划分过程可以是在图像层面实现，或者在压缩特征层面实现。再者，语义划分方法可以选择采用粗粒度的边界框为依据进行划分，或者选择更为精确的语义分割图为依据进行划分。

为了充分利用已经获取的语义对象的位置信息和语义类别标签信息等先验信息，以帮助提升编码性能。本发明实施例中，编码端维护的语义类别标签池中存储了所有语义类别标签以及各个标签对应的索引值，如图2与图3所示，提供了少部分语义类别标签及对应索引值的示例：鱼——索引值1，车——索引值2，人——索引值3。本发明实施例中，语义类别标签池种类别的设定根据特定的应用场景而定。结构化码流中，可以预设多bit(例如，8bit)索引值的存储空间(即最多支持1024种语义类别)供使用，若出现同一张图像中出现多个相同语义类别的语义对象，可以采取编码数量和对应的索引值的方法减少重复的索引值的传输。

对应地，解码端维护一个与语义标签池中的标签一一对应的解码器组成的解码器池，如图2与图3所示，解码器池中存储了与语义类别标签池中索引值一一对应的语义类别的最佳解码器和一个通用解码器，每个语义类别的最佳解码器在对应语义类别的压缩特征作为输入时其解码性能是最佳的，但对于其他语义语义类别不具有泛化性，因此不能够获得较好的性能。而通用解码器则为较对应语义类别的解码器更具泛化性的解码器，可以在任意图像上获得的普遍较好的性能，但对特定语义类别的图像的解码性能不如该语义类别的最佳解码器。通常来说，图3中针对分割后的每个语义对象对应的图像部分，使用的编码器一般为通用编码器，但在编码端计算能力和存储空间允许的情况下，编码器也可以针对特定语义类别进行设计，实现语义类别最佳编码器。特定语义类别的编码器必须与解码器池中对应的解码器匹配，才能够正确解码。本发明实施例中，最佳编码器/解码器的获得可以采取深度神经网络CNN端到端(end-to-end)训练的方式获得，其优化目标是码率和重建失真之间的权衡损失函数。在特定语义类别数据集上训练的编码器/解码器能够理论上实现对特定语义类别数据集种数据的最佳适配，从而在当前语义类别数据上表现出最佳的编码性能。

在编码端，若前述背景技术引用的专利中的技术方案，结构化码流中已经包含了分割部分的语义位置信息和语义类别信息，在本发明中将语义类别信息一对一映射为索引值，随后进行传输。若结构化编码方法本身不传输语义类别信息，本发明的方法将增加对索引值的传输。语义类别标签的索引值的语法结构中包括：是否支持结构化编码的标识、输入图像中所包含的语义类别总数、输入图像包含某一语义类别的种类数量、各语义类别对应的索引值。解码端在获取得到语义结构化码流中的索引值后，能够为需要解码的图像/压缩特征选择最佳的解码器，完成解码操作。表1与表2分别展示了语义类别索引值相关语义结构中的关键语法项描述、语义类别索引值相关语法结构(syntax)定义，考虑到本发明支持结构化编码，因此，是否支持结构化编码的标识设置为1。

表1：语义类别索引值相关语义结构中的关键语法项描述

表2：语义类别索引值相关语法结构(syntax)定义

表2中码流结构的定义，同时决定了解码端读取码流，获得码流中信息的过程。首先，通过detection_enabled_flag标注位判断该码流是否支持语义结构化。如支持，则继续读取8bit长度的码流object_class_max_num，并根据码流获得该图像中包含的语义类别数目。根据语义类别的数目，依次读取object_class_index各个语义类别的类别标签，用于指定解码器。

需要说明的是，表1与表2中所示的bit数目、语义类别的种类数目均为举例，并非构成限制，在实际应用中，用户可以根据实际情况或者经验设置bit数目与语义类别的种类数目的具体数值。

本发明实施例上述方案，还可以根据情况更新语义类别标签池和解码器池。当应用场景中出现语义类别标签池未包含的新语义类别时，优先考虑获取新语义类别的相关数据，并针对新类别的数据集设计最佳解码器，并将新类别对应的索引值和解码器传输给解码端更新解码器池，以及同步更新语义类别标签池的语义类别与对应索引值。当编码端很难获取新类别的相关数据时，新语义类别相关图像/压缩特征的解码全部采用通用解码器完成。

本发明实施例中，解码器池中包含若干对于特定类别最佳的解码器和通用解码器，在深度学习相关的方法中，具体表现为模型的参数(核函数的权重和偏置)。为了减少存储解码器所需要的存储空间，存储所述通用解码器的模型参数，以及所述通用解码器与每个类别的最佳解码器模型参数相减获得的残差值。

本发明实施例上述方案主要具有如下优点：

(1)基于语义结构化编码方法，提出了提升编解码性能的改进方法，即充分利用结构化码流中语义先验信息，在维持语义结构化编码的功能性同时实现更好的编解码性能。

(2)提出对语义结构化码流中语法结构(syntax)的改进，实现索引值的传输，从而实现在解码端选择最佳解码器适配各个对象码流的解码。

(3)提出对解码器池中各个解码器的高效存储方式，有效的减少了解码端存储各个类别最佳解码器以及通用解码器所需要的存储空间。

综上所述，本发明提供的方案能够有效提高语义结构化编码相关方法的编解码性能。

实施例二

本发明还提供一种基于语义结构化编码的语义先验编解码***，其主要基于前述实施例提供的方法实现，如图4所示，该***主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将***的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于语义结构化编码的语义先验编解码方法，其特征在于，包括：

2.根据权利要求1所述的一种基于语义结构化编码的语义先验编解码方法，其特征在于，所述语义对象的位置信息包括：语义对象的边界框或者语义分割图。

3.根据权利要求1所述的一种基于语义结构化编码的语义先验编解码方法，其特征在于，所述分割后的图像或者压缩特征分别输入至后续编码模块，获得结构化码流包括：

对于分割后的图像，后续编码模块包括：编码器、量化器与熵编码器；所述分割后的图像依次经编码器、量化器与熵编码器，获得结构化码流；

对于分割后的压缩特征，后续编码模块包括：量化器与熵编码器；所述分割后的压缩特征依次经量化器与熵编码器，获得结构化码流。

4.根据权利要求1所述的一种基于语义结构化编码的语义先验编解码方法，其特征在于，编码端维护一个语义类别标签池，维护一个与语义标签池中的标签一一对应的解码器组成的解码器池的方式包括：

编码端维护的语义类别标签池中存储了所有语义类别标签以及各个标签对应的索引值；

解码端维护的解码器池中存储了与语义类别标签池中索引值一一对应的语义类别的最佳解码器和一个通用解码器，通用解码器能够适用于各个语义类别，每个语义类别的最佳解码器在对应语义类别的压缩特征作为输入时其解码性能最佳。

5.根据权利要求4所述的一种基于语义结构化编码的语义先验编解码方法，其特征在于，所述解码端存储所述通用解码器的模型参数，以及所述通用解码器与每个语义类别的最佳解码器模型参数相减获得的残差值。

6.根据权利要求1或4所述的一种基于语义结构化编码的语义先验编解码方法，其特征在于，该方法还包括：

当应用场景中出现语义类别标签池未包含的新语义类别时，针对所述新语义类别设计最佳解码器，并利用所述新语义类别的索引值与对应的最佳解码器更新所述解码器池，并同步更新语义类别标签池的语义类别与对应索引值。

7.根据权利要求1所述的一种基于语义结构化编码的语义先验编解码方法，所述语义类别标签的索引值的语法结构中包括：

是否支持结构化编码的标识、输入图像中所包含的语义类别总数、输入图像包含某一语义类别的种类数量、各语义类别对应的索引值。

8.一种基于语义结构化编码的语义先验编解码***，其特征在于，基于权利要求1～7任一项所述的方法实现，该***包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。