CN112004085B

CN112004085B - 一种场景语义分割结果指导下的视频编码方法

Info

Publication number: CN112004085B
Application number: CN202010815907.9A
Authority: CN
Inventors: 郑锦; 董陆森; 韩秋媛
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2023-07-07
Anticipated expiration: 2040-08-14
Also published as: CN112004085A

Abstract

本申请提出一种利用语义分割结果指导视频编码的方法。首先，在图像语义分割结果的基础上结合帧间光流估计，提出多个流传播门控循环单元串联的方式实现对视频流序列的语义分割，提高了视频语义分割的精度和速度。进一步，将视频语义分割结果应用于场景内容分类指导下的自适应视频编码，能够有效利用视频内容中目标类别、运动特性实现自适应的量化，对重点对象、运动目标进行低倍率压缩，而对非重点对象进行高倍率压缩，减少视频的存储消耗和带宽占用，为视频编码压缩，尤其是在监控领域的应用提供了有效的参考。

Description

一种场景语义分割结果指导下的视频编码方法

技术领域

本申请涉及一种利用场景语义分割结果指导视频编码的方法，属于计算机视觉和视频图像处理技术领域。

背景技术

当前，视频捕获设备广泛应用，获得的数据量十分庞大。根据思科的统计，以互联网数据为例，其中视频内容约占互联网总流量的90％。此外，由于移动设备的激增，在迅速发展的移动网络中，视频流量的比例也高达66％，并以超过92％的年复合增长率增长。更不用提平安城市建设中随处可见的监控摄像头，24小时不间断监视下拍摄了海量视频。由此可见，视频数据在大数据中占据着主导地位，一方面，视频数据量快速增长，另一方面，5G网络通信技术的发展也促使人们对高清和超高清视频有了更多的需求。然而，这些海量、高清视频对存储、传输都造成了不小的压力，视频编码压缩是解决这个问题的有效途径。举例来说，目前我国公共场合安装的摄像头约4000万，而仅仅100万个摄像头每小时产生的监控视频数据量就高达4.5PB，存储1个月的成本就高达400亿元。如果能把监控视频的压缩效率提高一倍，1个月光存储成本就可以节省8000亿元。

传统视频编码主要从数字信号处理、信源统计的角度进行操作，并于上世纪70年代形成了基于预测/变换的混合编码框架，基于这一框架形成了MPEG、H.26x和AVS系列标准，并获得了广泛应用(参考《Hybrid coding:A new paradigm for relaycommunication》，刊于《Global Conference on Signal&Information Processing.》,Minero P,Lim S H,Kim Y H.，2013年12月，第919-922页)。预测可分为帧内预测和帧间预测两种，分别用于消除视频图像的空域冗余和时域冗余。经过预测后的图像像素值之间依然存在较强的相关性，通过变换编码进行正交变换分解可进一步降低空间冗余(参考《离散余弦变换编码的现状与发展研究》，刊于《通信学报》，鲁业频,李凤亭,陈兆龙,朱仁义.2004(02)，第106-118页)。传统的预测/变换编码面临着瓶颈问题：首先，预测编码通常采用最简单的平移运动预测模型，对于运动较复杂的序列，预测精度急剧下降；其次，图像内容的自适应程度不高，限制了编码效率的提升。

基于内容的自适应编码是视频编码的一个重要发展方向，能够有效提升编码效率。它先把视频帧分成对应于不同物体的区域，然后对具有不同形状、运动和纹理的区域进行有差异性的编码(参考《Data Compression Using Adaptive Coding and PartialString Matching》，刊于《IEEE Transactions on Communications》，J.Cleary andI.Witten,1984年4月，第32卷，第4期，第396-402页)。虽然基于内容的视频编码从背景/前景、感兴趣目标/非感兴趣目标等角度区分图像各个区域，以区域的语义差异指导视频编码，从更高层次考虑了视频帧内、帧间的相关性，但是目前基于内容的视频编码压缩还存在一些问题，无法实用：1)传统图像内容分割，利用图像中边缘、色块等中低层信息，无法获取准确的语义，深度网络虽然通过训练能够学习到更多内容，但是对目标尺度和定位依然不够精确，计算复杂度高；2)现有视频语义分割方法往往没有充分利用帧间信息，甚至有些方法直接对视频每一帧进行图像语义分割，将其作为视频分割结果，准确性不高，无法保证实时性；3)编码技术与视频内容的处理分析严重脱节，如何将视频内容与编码方案整合起来并没有很好的思路，例如视频内容中包含不同语义对象，这些语义对象又存在不同的运动特性，这些差异对编码精度和速度有极大的影响，现有方法没能充分利用这些视频序列更深层次的内容信息。如果在对每帧进行语义分割时将所需要重点描述的对象分割出来，实现准确、高效视频场景语义分割结果指导下的视频编码，能够进一步节省存储空间和传输带宽的占用，具有较大的现实意义。

为此，本申请提出了一种场景语义分割结果指导下的视频编码方法，构建了视频语义分割网络模型，并基于语义分割结果设计了基于内容的视频编码。该方法首先基于图像语义分割结果，结合帧间光流估计提出流传播门控循环单元，实现对视频流序列的语义分割，提高了视频语义分割的精度和速度。进一步设计了一套视频语义分割结果指导下的编码策略，有效利用视频内容的差异性实现基于内容的自适应视频编码，提高了编码效率，在编码损失有限的前提下节省了存储空间和带宽。

发明内容

本申请的目的是提供一种场景语义分割结果指导下的视频编码方法。该方法主要包括两个步骤：构建基于流传播门控循环的视频语义分割网络模型；基于视频语义分割结果实现自适应视频编码。

为实现上述目的，本申请采用的技术方案如下：

一种场景语义分割结果指导下的视频编码方法，包括如下步骤：

(1)对当前帧I_t利用图像语义分割网络进行图像语义分割，得到当前帧图像语义分割结果x_t；构建基于流传播门控循环FPGRU的视频语义分割网络模型，所述FPGRU的输入包括视频序列中上一帧图像最终语义分割结果h_t-1、当前帧图像I_t、上一帧图像I_t-1和当前帧图像语义分割结果x_t，其输出是当前帧图像最终语义分割结果h_t；

(2)结合当前时刻t之前的多帧，采用多个FPGRU串联的方式构建多连续帧的视频序列语义分割网络模型，每一个FPGRU产生的语义分割结果都作为下一个FPGRU的输入，计算当前FPGRU输出的预测分割结果与真实标注的分割结果之间的损失，并通过梯度反向传播更新前序FPGRU的参数；在该多个FPGRU串联的视频序列语义分割网络模型中，包含了图像语义分割网络、光流网络、FPGRU，它们各自的参数采用Adam优化方式进行端到端的训练；

(3)根据当前帧图像最终语义分割结果h_t，以及当前帧图像I_t和上一帧图像I_t-1计算得到的光流场

得到图像中每个像素点的语义类别和运动特性，进而设计场景语义分割结果指导下的视频编码策略；根据图像场景中是否包含重点对象、运动目标，将编码块划分为包含运动重点目标的无损编码块、包含非运动目标的有损编码块、非重点有损编码块；根据所述编码块的类型设置不同的量化参数，自适应得到该编码块的编码率，实现自适应的量化编码，保证在重点关注对象无明显失真的情况下提升压缩倍数。

在上述步骤(1)中，所述FPGRU的设计具体包括如下步骤：

(1.1)当前帧图像为I_t，上一帧图像为I_t-1，采用轻量化的光流网络模型FlowNet1计算上述相邻两帧图像的光流

针对上一帧图像的最终语义分割结果h_t-1，在时刻t对h_t-1沿着光流进行变换，得到临时空间变换矫正结果/>

其中，/>

代表沿着光流的映射；

(1.2)针对临时空间变换矫正结果w_t和当前帧图像语义分割结果x_t，尺寸均为H×W×C，其中H是图像的高度，W是图像的宽度，C是语义分割类别数，使用softmax函数对x_t、w_t进行标准化，使得x_t、w_t中每个像素的值都在[0,1]区间内，softmax标准化的公式为：

其中标准化后的x_t(i,j,c)表示当前帧图像语义分割结果中的(i,j)像素点为第c类的概率，标准化后的w_t(i,j,c)表示当前帧临时空间变换矫正结果中的(i,j)像素点为第c类的概率；

(1.3)将标准化后的w_t(i,j,c)作为一个隐藏状态输入到用于视频语义分割的门控循环单元GRU中，同时，将标准化后的x_t(i,j,c)也作为GRU的输入，将GRU模块中所有的全连接层替换成卷积层，使得改进后的GRU模块能够直接接收图像作为输入；

(1.4)在得到了第t-1和第t帧的光流场

后，根据/>

是否为零，判断摄像机的运动状态并检测画面中有无运动目标；当每个像素点的/>

均为零，表明摄像机静止且画面中无运动目标，则第t帧无需分割，沿用上一帧的最终语义分割结果，h_t＝h_t-1；当存在像素点的/>

不为零，说明该帧摄像机运动或者画面中存在运动目标，则利用当前帧的FPGRU继续进行当前帧图像最终语义分割，FPGRU利用上一帧最终语义分割结果h_t-1、当前帧图像I_t、上一帧图像I_t-1、当前帧图像语义分割结果x_t,输入到GRU模块中计算得到当前帧最终语义分割结果h_t。

在上述步骤(1.3)中GRU结构包括如下步骤：

(1.3.1)GRU中的重置门通过比较图像I_t和图像I_t-1光流矫正后的结果得到，计算重置门r_t的公式为

其中W_ir，b_r是重置门r_t的可训练权重；

(1.3.2)

计算公式为/>

其中W_hh和W_xh为GRU卷积层的可训练参数，⊙表示按位乘；

(1.3.3)更新门将对h_t-1的更新修改为对其经过光流矫正变换后结果

进行更新，从而能够利用帧间的信息，不仅通过光流对上一时间戳的帧进行了矫正，同时又通过更新门对信息进行了更新，公式为z_t＝sigmoid(W_xz*x_t+W_hz*w_t+b_z)，其中W_hz,W_xz为卷积层的可训练参数，/>

(1.3.4)由于参数W_xh和W_hh的卷积作用，

相对于变换后的h_t-1可能具有不同的缩放比例，所以乘以一个变量λ作为补偿，h_t＝λ(1-zt⊙wt+zt⊙ht，然后对ht进行标准化，公式为/>

标准后的结果输出作为当前帧最终语义分割结果h_t。

在上述步骤(2)中所述多个FPGRU串联的工作方式为：

(2.1)训练阶段，对于串联的多个FPGRU，每一个FPGRU产生的当前帧图像最终语义分割结果都作为下一帧FPGRU的输入，当遇到有真实分割标注结果的视频帧时，将当前FPGRU产生的当前帧图像最终语义分割结果作为当前FPGRU的预测分割结果，计算当前FPGRU的预测分割结果与真实标注的分割结果的损失，并通过梯度的反向传播更新前序多个FPGRU的参数，以及光流网络的参数；图像语义分割网络在Cityscapes数据集上预训练得到模型参数；

(2.2)测试阶段，基于训练阶段产生的模型及参数，利用当前待分割帧的前序多个串联FPGRU产生的分割结果，计算当前帧的最终语义分割结果；在串联的多个FPGRU中，每个FPGRU的输入包含了上一帧最终语义分割结果h_t-1、当前帧图像I_t，上一帧图像I_t-1和当前帧图像语义分割结果x_t，输出是当前帧最终语义分割结果h_t，该输出h_t作为下一时刻FPGRU的上一帧最终语义分割结果h_t-1,这个计算过程结合相对于当前时刻之前的多帧来预测当前时刻的视频帧语义分割结果。

在上述步骤(3)中，所述场景语义分割结果指导下的视频编码方法为：

(3.1)以人、车类别为重点对象，将其余类别视为非重点对象，根据前述视频语义分割结果，得到当前帧每个像素点的语义类别，将非重点对象的像素值设置为0，重点对象的像素值设置为1，从而生成当前帧语义划分掩膜；按照64×64像素大小对当前帧分块，形成编码块；当某个编码块对应的语义划分掩模中含有值为1的像素点时，该编码块作为重点块，否则作为非重点块；

(3.2)编码块的QP值由QP＝QP_base+QP_offset决定，结合上一帧到当前帧的光流信息

当重点块内的光流结果存在非零值时，将该重点块定义为包含运动重点目标的无损编码块，设置QP_offset＝0；当重点块内的光流结果均为零时，将该重点块定义为包含非运动目标的有损编码块，设置QP_offset＝5；当该编码块为非重点块时，将该编码块定义为有损编码块，设置QP_offset＝20；基础QP值QP_base设为27；

(3.3)根据公式Q_step＝2^(QP-4)/6计算得到Q_step，进而通过公式

得到最终量化后的结果，实现对不同类型编码块的自适应编码。

与现有技术相比，本申请所提出的基于流传播门控循环的视频序列语义分割模型能够对视频序列进行快速、准确的语义分割，充分利用了帧间信息并能保证视频序列的一致性。此外，提出的场景语义分割结果指导下的自适应视频编码，充分利用了视频序列中对象的语义及运动信息，从而指导编码过程中的量化处理，减少了视频的存储消耗和带宽占用，为视频编码压缩，尤其是在监控领域的应用提供了有力的参考。

附图说明

下面结合附图和具体实施方式对本申请作进一步的说明。

图1图像语义分割网络模型的整体架构图；

图2多尺度偏向模块MSP；

图3多位置偏向模块MLP；

图4视频序列语义分割网络模型的整体架构图；

图5流传播门控循环单元FGRU结构图；

图6基于多连续帧的视频序列语义分割网络模型；

图7场景语义分割结果指导的视频编码框架。

具体实施方式

前已述及，本申请提出一种场景语义分割结果指导下的视频编码方法，下面结合附图说明本申请的具体实施方式。

该视频编码方法涉及对视频场景进行语义分割，并将分割结果应用于视频编码，包括三个步骤：1、图像语义分割；2、视频语义分割；3、视频语义分割结果指导的自适应视频编码。下面对各个步骤分别描述。

1、图像语义分割

(1)多尺度多位置偏向的图像语义分割网络

图1描述了本申请使用的多尺度多位置偏向的图像语义分割网络模型的整体架构，以ResNetV2-50作为基础网络，通过重构特征金字塔、双线性插值获取图像的语义分割结果。其中的关键处理是重构特征金字塔，它包括了多尺度偏向模块(MSP)和多位置偏向模块(MLP)。MSP获得特征的多尺度信息，MLP结合多尺度的位置信息获得更精确的像素定位。该网络模型的特点是计算速度快、参数少，能够解决不同尺度目标的准确定位。具体操作如下：

(1.1)首先，将ResNetV2-50作为基础网络，只取ResNetV2-50的前5个瓶颈层(bottleneck)，通过该裁剪操作实现模型轻量化，能够在模型反向传递时减少计算量。基础网络ResNetV2-50中，每个阶段的最后一个残差块的特征激活输出作为自底向上的特征图。将ResNetV2-50的第二个、第三个和第四个残差块输出的特征图表示为{C2，C3，C4}，输入到重构特征金字塔中。

(1.2)在重构特征金字塔中，首先将高层特征图C4输送到MSP模块获得具有多尺度定位信息的特征图，处理后结果输送到MLP模块，MLP中的处理结合了MSP的多尺度定位信息，能够得到像素更加精确的定位，MLP处理后的输出结果记为Y4。低层特征图C2和C3各自经过具有C个卷积核的1×1卷积层进行降维，减少后续网络的计算量和反向传播的计算量。C3降维后的结果与Y4逐像素相加，相加后的结果再依次输送到MSP模块和MLP模块，处理后结果记为Y34。Y34再与C2降维后的结果逐像素相加形成特征图，作为重构特征金字塔的输出。该操作实现了高层特征图与低层特征图的融合，获得具有上下文信息的特征图。

(1.3)对重建特征金字塔输出的特征图执行双线性插值，将该特征图的大小转换为原始图像大小。

(2)多尺度偏向模块MSP

重构特征金字塔包含的MSP模块能够获得特征的多尺度信息，同时低层特征图与高层特征图的融合也能够结合不同层级特征的多尺度信息。本申请使用的MSP模块的结构如图2所示，具体过程描述如下：

(2.1)MSP模块的输入为特征图

X首先通过一个1×1的卷积核转变成特征图/>

实现对特征图通道数的压缩，减少后续卷积操作所需的计算量。其中，H代表特征图的高度，W代表特征图的宽度，C^′代表特征图的通道数，C代表需要分类的语义类别数目，K是通道放大参数。/>

表示正整数，且K×C应小于256以达到降维的效果。

(2.2)使用4个3×3核大小、具有不同空洞率的空洞卷积从特征图M提取特征，这4个卷积核的空洞率分别是2^r-1,2^r,2^r+1,2^r+2，

r表示空洞率指标。应用中r优选为1。每个空洞卷积输出的通道数设定为：/>

同(2.1)，K是通道放大参数，C代表需要分类的语义类别数目。此外，d是空洞卷积输出通道倍数参数，/>

在空洞卷积过程中，通过为不同空洞率的空洞卷积添加相应大小的padding来保证输出的通道数一样。将经过空洞卷积后的4个特征图连接成特征图G，/>

此时G包含4个不同感受野的信息，通道数为K×d×C。

(2.3)将特征图G送入挤压-激励模块(SE-block)，自动增强和抑制每个语义类在各个感受野中的作用。在SE-block的挤压(squeeze)操作中，通过全局平均池化(Globalpooling)将特征图G具有的全局空间信息压缩成一个通道描述器

公式为/>

其中，/>

是/>

的第t个特征图。此时，描述器des针对C个语义类分别在四个感受野的/>

个特征上有了一个粗糙的系数，称为偏向系数。再通过全连接层(FC)连接各个偏向系数，得到压缩后的特征大小为1×1×C。

(2.4)对上述压缩后的1×1×C的特征使用ReLu激活函数，使得模型在反向传播求误差梯度时减少计算量，避免梯度消失导致无法完成深层神经网络训练的问题。此外，ReLu激活函数的非线性特性也增强了网络的泛化能力，部分神经元的输出为0也使得描述器能够忽略某些不需要的尺度信息，缓解了过拟合问题。

(2.5)在激励操作(Excitation)中，上述经过ReLu处理后的特征通过全连接层(FC)被映射回原始特征大小，维度为1×1×K×d×C。然后再通过一个sigmoid激活门，获得对特征图描述更准确的系数。这个精确的系数称为偏好权重s，表示对G中每个特征图的偏好权重。

(2.6)通过激励步骤(2.5)，偏好权重s现在可以对特征图有更好的描述。通过尺度函数scale，

调节特征图G，得到被赋予权重的特征图

其中/>

F_scale(g_t,s_t)表示/>

与标量s_t的通道优先相乘，‘·’表示向量之间的点乘。

(3)多位置偏向模块MLP

本申请使用多位置偏向模块MLP，该模块中包含的上采样重构方法可以避免最邻近插值上采样可能会导致的像素定位不准的问题。输入MLP的特征图

是MSP模块的输出，其中每个语义类都带有不同尺度的位置信息。对于每个感受野，/>

中每个语义类具有/>

个空间位置特征，所以每个语义类在不同感受野上总共有K×d个空间位置特征。MLP模块的结构如图3所示，具体过程描述如下：

(3.1)对

采用1×1卷积将每个语义类的每个感受野的/>

个空间位置特征根据权重进行组合，对每个语义类形成K×d个包含四种尺度的空间位置信息的特征组合，得到特征图S。

(3.2)将特征图S分成C组，

每个组

由split分片函数完成映射，具体公式为/>

(3.3)由分片函数得到的K×d个低分辨率特征图可以看作是C类的系数，每个语义类的K×d个系数通过使用一组反卷积函数并相加。为了实现两倍上采样重构，使用4×4像素的反卷积核，设置步长为2。通过使用该反卷积核

将K×d个系数

映射为类分值图(score map)，从而得到/>

其中W′＝2W,H′＝2H。公式为/>

其中/>

表示反卷积，/>

且/>

2、视频语义分割

图4是本申请提出的视频序列语义分割网络模型的整体架构，展示了如何利用两帧之间的光流信息、上一帧图像的语义分割结果和当前帧图像语义分割结果，并利用流传播门控循环单元FPGRU(Flow Propagation Gated Recurrent Unit)整合相邻帧分割结果，快速准确生成视频序列中当前帧的语义分割结果。该视频语义分割的具体过程描述如下：

(1)首先，假设当前帧图像为I_t，上一帧图像为I_t-1，根据相邻两帧图像计算光流，记为

假设上一时刻图像帧的最终分割结果为h_t-1，在时刻t对h_t-1沿着光流对它进行变换(Mapping)，得到临时空间变换矫正结果，记为/>

其中，/>

代表沿着光流的映射。

(2)得到临时空间变换矫正结果w_t之后，将w_t作为一个隐藏状态输入到用于视频语义分割的门控循环单元GRU(Gated Recurrent Unit)中。同时，时刻t的图像帧经过上述多尺度多位置偏向的图像语义分割得到图像语义分割结果x_t，也作为GRU的输入。GRU的作用在于使得前一帧的某些分割结果得以保留从而向后传递，而某些分割结果会结合当前帧图像语义分割结果得以被更新，从而获得准确的分割结果。

为了将自然语言分割领域常用的门控循环单元GRU应用到视频序列的语义分割中，本申请对传统GRU进行调整，使其从语音或文本作为输入转变为将图像作为输入，并保留多帧之间的重要信息和共有信息、遗忘与当前时刻不相关信息，及时对帧中新出现的信息更新。本申请提出的视频语义分割(2)步骤中GRU的结构见图5，具体操作步骤如下：

(2.1)临时空间变换矫正结果w_t和当前帧语义分割结果x_t，尺寸均为H×W×C，其中H是图像的高度，W是图像的宽度，C是语义分割类别数。使用softmax函数对x_t、w_t进行标准化，使得x_t、w_t中每个像素的值都在[0,1]区间内，softmax标准化的公式为：

其中标准化后的x_t(i,j,c)表示当前帧图像语义分割结果中的(i,j)像素点为第c类的概率，标准化后的w_t(i,j,c)表示当前帧临时空间变换矫正结果中的(i,j)像素点为第c类的概率。同时，将原GRU模块中所有的全连接层转变成卷积层，使得新GRU模块能够直接接收图像作为输入。卷积操作用*表示。

(2.2)为使GRU适用于图像输入，其中的重置门通过比较图像I_t和图像I_t-1光流矫正后的结果得到。计算重置门r_t的公式为：

其中W_ir，b_r是重置门r_t的可训练权重。

(2.3)

计算公式为：/>

其中W_hh和W_xh为GRU卷积层的可训练参数。⊙表示按位乘。

(2.4)为使GRU适用于图像输入，更新门将对h_t-1的更新修改为对其经过光流矫正变换后结果

进行更新，从而能够利用帧间的信息，不仅通过光流对上一时间戳的帧进行了矫正，同时又通过更新门对信息进行了更新。公式为z_t＝sigmoid(W_xz*x_t+W_hz*w_t+b_z)，其中W_hz,W_xz为卷积层的可训练参数，/>

(2.5)由于参数W_xh和W_hh的卷积作用，

相对于变换后的h_t-1可能具有不同的缩放比例，所以乘以一个变量λ作为补偿，/>

然后对h_t进行标准化，公式为/>

标准后的结果输出作为当前帧最终语义分割结果h_t。

(3)将通过光流映射变换到GRU的模块称作流传播门控循环单元FPGRU。如图6所示，FPGRU的输入包含了上一帧最终语义分割结果h_t-1、当前帧图像I_t，上一帧图像I_t-1和当前帧图像语义分割结果x_t。输出是当前帧最终语义分割结果h_t。由于语义分割标签标注成本高，目前视频数据集的语义分割标注一般是稀疏的，存在部分帧标注、部分帧没有标注的情况，因此采用单个FPGRU训练的效果并不理想。本申请提出通过串联多个FPGRU进行训练，可以令FPGRU更好收敛，有效利用视频的帧间一致性。基于FPGRU，本申请提出的视频语义分割模型通过结合相对于当前时刻t之前的多帧来预测t时刻的视频帧语义分割结果。多帧预测利用了视频帧之间的连续性，因此具有更好的准确度。

(3.1)在得到了第t-1和第t帧的光流结果

后，判断/>

是否为零，如果光流结果/>

表明摄像机静止且无运动目标，此时，第t帧无需分割，h_t＝h_t-1。

(3.2)当前时刻FPGRU的最终分割结果h_t利用了当前帧图像语义分割结果x_t和上一帧最终分割结果h_t-1、光流结果w_t，多帧多个FPGRU串联处理可以利用之前多帧的分割结果，提升视频分割的精度。训练过程如图6所示，对于串联的多个FPGRU，每一个FPGRU单元产生的分割结果都可以作为下一帧FPGRU的输入，当遇到有真实分割标注结果的视频帧时，计算当前FPGRU的预测分割结果与真实标注的分割结果的损失，并通过梯度反向传播更新前序FPGRU的参数。训练时，本方法采用Adam优化器，在Cityscapes数据集上预训练图像语义分割模型，得到图像语义分割网络模型的参数；基于上述多个FPGRU串联的方式联合训练光流网络和FPGRU，每次计算出预测值和真实帧的损失(loss)后，通过梯度的反向传播同时更新光流网络、FPGRU的参数。其中光流网络用于计算相邻两帧图像光流

图像分割网络用于计算当前帧图像语义分割结果x_t，FPGRU利用上一帧最终分割结果h_t-1、当前帧图像I_t、上一帧图像I_t-1、当前帧图像语义分割结果x_t,计算当前帧最终语义分割结果h_t。

3、视频语义分割结果指导的自适应视频编码

在视频编码高速发展的过程中，产生了一系列的编码标准，本申请采用的编码标准是HEVC，它采用了混合编码框架，包括帧内/帧间预测、变换、量化、滤波等。视频编码的大致流程如下：

(1)将视频帧分割成不重叠的多个块，每个块作为编码的基本处理单元，进行帧内或帧间预测，得到每个编码块的预测块；

(2)求出预测块和原始块的差值，即为残差，作为变换和量化的输入；

(3)进行变换和量化；

(4)对量化后的变换系数进行熵编码，最终输出编码后的码流。

本申请提出一种场景语义分割结果指导下的视频编码方法，主要针对编码框架中的量化过程进行优化，所以着重分析量化过程。量化是造成信号失真的主要原因，量化时采用的量化步长Q_step(Quantization Step)越大，编码所需的比特数就越少，量化结果越粗糙，导致失真较大；相反，量化步长越小，编码所需比特数越多，量化结果更接近原始信号，失真越小。量化公式为

其中，x是输入信号，y是输出的量化信号，f表示舍入关系。在HEVC标准中，利用量化参数QP(Quantization Parameter)控制量化步长Q_step。QP与量化步长Q_step的关系如公式Q_step＝2^(QP-4)/6所示，对于8bit的视频序列，HEVC标准中定义的量化参数QP取值范围为0～51，QP的值越小，量化越精细，图像质量越高。QP每增加1，量化步长约增加12％，所需要的比特会变少，量化结果会表现得更粗糙。

图7为视频语义分割结果指导的自适应视频编码框架流程图，本申请主要根据前述视频语义分割结果，针对HEVC编码标准体系中量化过程进行优化。当编码求出预测块和原始块的残差作为变换和量化的输入后，基于获得的视频场景语义分割结果和光流结果，定义不同区域对象的重要程度，并针对不同重要程度采用不同的量化参数QP。具体步骤如下：

(1)定义人、车类别为重点对象，其余类别为非重点对象。根据前述视频语义分割结果，得到当前帧每个像素的语义类别。将非重点对象的像素值设置为0，重点对象的像素值设置为1，从而生成当前帧语义划分掩膜。按照64×64像素大小对当前帧分块，形成编码块。如果某个编码块对应的语义划分掩模中含有值为1的像素，该编码块作为重点块，否则作为非重点块。

(2)编码块的QP值由QP＝QP_base+QP_offset决定，其中，编码块的基础QP值QP_base优选设为27。结合上一帧到当前帧的光流信息

当重点块内的光流结果不为零，说明该重点块内有对象发生运动或者摄像机运动，将该重点块定义为包含运动重点目标的无损编码块，优选设置QP_offset＝0；当重点块内的光流结果为零时，将该重点块定义为包含非运动目标的有损编码块，优选设置QP_offset＝5。当该编码块为非重点块时，将该编码块定义为非重点有损编码块，优选设置QP_offset＝20。

(3)根据公式Q_step＝2^(QP-4)/6计算得到Q_step，进而通过公式

得到最终量化后的结果。根据该公式可得知，具有较大QP值，包含非重点对象的编码块会拥有较大的步长，从而进行高倍率压缩。而包含重点对象的编码块会尽量保持原始信息，如果该编码块中的对象相较上一帧没有发生运动，则对其进行轻微的有损压缩。

以上公开的仅为本申请的具体实例，根据本申请提供的思想，本领域的技术人员能思及的变化，都应落入本申请的保护范围内。

Claims

1.一种场景语义分割结果指导下的视频编码方法，其特征在于包括如下步骤：

(1.1)对当前帧I_t利用图像语义分割网络进行图像语义分割，得到当前帧图像语义分割结果x_t；构建基于流传播门控循环FPGRU的视频语义分割网络模型，所述FPGRU的输入包括视频序列中上一帧图像最终语义分割结果h_t-1、当前帧图像I_t、上一帧图像I_t-1和当前帧图像语义分割结果x_t，其输出是当前帧图像最终语义分割结果h_t；

(1.2)结合当前时刻t之前的多帧，采用多个FPGRU串联的方式构建多连续帧的视频序列语义分割网络模型，每一个FPGRU产生的语义分割结果都作为下一个FPGRU的输入，计算当前FPGRU输出的预测分割结果与真实标注的分割结果之间的损失，并通过梯度反向传播更新前序FPGRU的参数；在该多个FPGRU串联的视频序列语义分割网络模型中，包含了图像语义分割网络、光流网络、FPGRU，它们各自的参数采用Adam优化方式进行端到端的训练；

(1.3)根据当前帧图像最终语义分割结果h_t，以及当前帧图像I_t和上一帧图像I_t-1计算得到的光流场

2.如权利要求1所述的一种场景语义分割结果指导下的视频编码方法，其特征在于步骤(1.1)中，所述FPGRU的设计具体包括如下步骤：

(2.1)当前帧图像为I_t，上一帧图像为I_t-1，采用轻量化的光流网络模型FlowNet1计算上述相邻两帧图像的光流

其中，/>

代表沿着光流的映射；

(2.2)针对临时空间变换矫正结果w_t和当前帧图像语义分割结果x_t，尺寸均为H×W×C，其中H是图像的高度，W是图像的宽度，C是语义分割类别数，使用softmax函数对x_t、w_t进行标准化，使得x_t、w_t中每个像素的值都在[0,1]区间内，softmax标准化的公式为：

(2.3)将标准化后的w_t(i,j,c)作为一个隐藏状态输入到用于视频语义分割的门控循环单元GRU中，同时，将标准化后的x_t(i,j,c)也作为GRU的输入，将GRU模块中所有的全连接层替换成卷积层，使得改进后的GRU模块能够直接接收图像作为输入；

(2.4)在得到了第t-1和第t帧的光流场

后，根据/>

3.如权利要求2所述的一种场景语义分割结果指导下的视频编码方法，其特征在于所述步骤(2.3)中GRU结构包括如下步骤：

(3.1)GRU中的重置门通过比较图像I_t和图像I_t-1光流矫正后的结果得到，计算重置门r_t的公式为

其中W_ir，b_r是重置门r_t的可训练权重；

(3.2)

计算公式为/>

其中W_hh和W_xh为GRU卷积层的可训练参数，⊙表示按位乘；

(3.3)更新门将对h_t-1的更新修改为对其经过光流矫正变换后结果

(3.4)由于参数W_xh和W_hh的卷积作用，

然后对h_t进行标准化，公式为

标准后的结果输出作为当前帧最终语义分割结果h_t。

4.如权利要求1所述的一种场景语义分割结果指导下的视频编码方法，其特征在于步骤(1.2)中所述多个FPGRU串联的工作方式为：

(4.1)训练阶段，对于串联的多个FPGRU，每一个FPGRU产生的当前帧图像最终语义分割结果都作为下一帧FPGRU的输入，当遇到有真实分割标注结果的视频帧时，将当前FPGRU产生的当前帧图像最终语义分割结果作为当前FPGRU的预测分割结果，计算当前FPGRU的预测分割结果与真实标注的分割结果的损失，并通过梯度的反向传播更新前序多个FPGRU的参数，以及光流网络的参数；图像语义分割网络在Cityscapes数据集上预训练得到模型参数；

(4.2)测试阶段，基于训练阶段产生的模型及参数，利用当前待分割帧的前序多个串联FPGRU产生的分割结果，计算当前帧的最终语义分割结果；在串联的多个FPGRU中，每个FPGRU的输入包含了上一帧最终语义分割结果h_t-1、当前帧图像I_t，上一帧图像I_t-1和当前帧图像语义分割结果x_t，输出是当前帧最终语义分割结果h_t，该输出h_t作为下一时刻FPGRU的上一帧最终语义分割结果h_t-1,这个计算过程结合相对于当前时刻之前的多帧来预测当前时刻的视频帧语义分割结果。

5.如权利要求1所述的一种场景语义分割结果指导下的视频编码方法，其特征在于步骤(1.3)中，所述场景语义分割结果指导下的视频编码方法为：

(5.1)以人、车类别为重点对象，将其余类别视为非重点对象，根据前述视频语义分割结果，得到当前帧每个像素点的语义类别，将非重点对象的像素值设置为0，重点对象的像素值设置为1，从而生成当前帧语义划分掩膜；按照64×64像素大小对当前帧分块，形成编码块；当某个编码块对应的语义划分掩模中含有值为1的像素点时，该编码块作为重点块，否则作为非重点块；

(5.2)编码块的QP值由QP＝QP_base+QP_offset决定，结合上一帧到当前帧的光流信息

(5.3)根据公式Q_step＝2^(QP-4)/6计算得到Q_step，进而通过公式