CN112468808A

CN112468808A - 一种基于强化学习的i帧目标带宽分配方法及装置

Info

Publication number: CN112468808A
Application number: CN202011354798.1A
Authority: CN
Inventors: 王妙辉; 黄丽蓉
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-09
Anticipated expiration: 2040-11-26
Also published as: CN112468808B

Abstract

本发明提供了一种基于强化学习的I帧目标带宽分配方法及装置，包括：S1、将视频序列输入HM编码***；S2、当HM编码***给GOP分配目标带宽后，调用强化学习神经网络为当前I帧分配目标带宽；S3、HM编码***将分配目标带宽用于编码当前I帧数据，并将GOP中剩余帧继续编码，得到完成的GOP数据，将完成GOP数据输入缓冲区；S4、判断视频序列是否完成编码，否则获取下一GOP数据，并返回S2。本发明的有益效果在于：提供了一种利用强化学习神经网络进行I帧目标带宽分配的方法，该方法可以通过不断感知环境状态，为当前视频序列选择最优的目标带宽，帮助取得更好的视频质量和更小的码率误差。

Description

一种基于强化学习的I帧目标带宽分配方法及装置

技术领域

本发明涉及一种视频处理技术领域，尤其是指一种基于强化学习的I帧目标带宽分配方法及装置。

背景技术

码率控制算法的目标在于，在一个特定的带宽或存储下提供高质量的压缩序列，它对于维持视频应用的质量，尤其是对于实时性要求较高的***来说，起着决定性的作用。在视频编码中，平衡视频帧的码率和失真是码率控制的关键问题。现有技术是通过实验数据和研究经验建立数学模型，从而进行带宽分配、量化和参数调整。

H.265/HEVC的码率控制算法仍然采用传统的两步骤方式——目标带宽分配和量化参数确定。其中，图像级目标带宽分配的关键在于考虑视频帧率失真间的相互依赖关系，分配的带宽权重与目标码率、视频内容特性以及时域预测结构密切相关。

在HEVC中，目标带宽分配分为GOP级、图像级和CTU级，其中GOP级中有I、P、B三种视频帧类型，I帧为每个GOP的第一个帧，是自带全部信息的独立帧，而P帧和B帧需要依赖其他帧预测得到。当视频序列中存在动作剧烈变化和场景快速切换时，两个I帧的帧间相关性明显降低，从而需要消耗更多的带宽进行编码。现有的图像级目标带宽分配策略是按照目标码率、内容特性和时域预测结构来给图像分配权重，对于上述情况没有针对性的设计，并不能保证有效的处理。基于强化学习的方法则可以从端到端优化目标带宽分配过程，促进性能的进一步提升。因此，我们采用强化学习的方式，希望得到更合理的I帧目标带宽分配策略。

发明内容

本发明所要解决的技术问题是：针对现有技术的不足，提出了一个基于强化学习的I帧目标带宽分配方法及装置，目的在于优化码率控制过程中图像级的目标带宽分配，从而减少失真，提升视频质量。

为了解决上述技术问题，本发明采用的技术方案为：一种基于强化学习的I帧目标带宽分配方法，包括：

S1、将视频序列输入HM编码***；

S2、当HM编码***给GOP分配目标带宽后，调用强化学习神经网络为当前I帧分配目标带宽；

S3、HM编码***将分配目标带宽用于编码当前I帧数据，并将GOP中剩余帧继续编码，得到完成的GOP数据，将完成GOP数据输入缓冲区；

S4、判断视频序列是否完成编码，否则获取下一GOP数据，并返回S2。

进一步的，在步骤S2之前，还包括建立训练模型：

S21、选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频，按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数，并记录各视频的编码信息；

S22、将编码信息输入至强化学习神经网络进行强化学习。

进一步的，在步骤S22之中，采用A2C神经网络进行强化学习。

进一步的，在步骤S21之后，还包括获取补充编码信息：

S211、通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征，所述多尺度高斯差分融合公式为：

其中，(x,y)是空间坐标，σ大小决定图像的平滑程度，σ₁＝0.54，σ₂＝0.87，σ₃＝1.19，

w为高斯差分项的权重，w＝0.284，

a和b为高斯差分的参数，a＝0.75，b＝0.66；

S212、根据σ₁生成二维高斯分布矩阵，计算公式为：

其中，x和y为高斯核的维度，w₁，w₂，w₃为与人眼视觉特性相关的三个参数，分别为w₁＝0.536，w₂＝0.277，w₃＝0.187；

通过计算像素梯度矩阵G_xy获取当前I帧的边缘特征，像素梯度矩阵的计算公式为：

其中，I为灰度图像矩阵，S为Sobel算子，c＝2，图像矩阵坐标系原点在左上角，且x正方向从左到右，y正方向从上到下；

S213、通过颜色特征提取公式获取当前I帧的颜色特征，所述颜色特征提取公式为：

其中，h_i,j表示第i个颜色通道分量中灰度值为j的像素出现的概率，n表示图像灰度级数，d＝1.33；

S214、将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息，并输入至强化学习神经网络进行强化学习。

进一步的，在步骤S2之后，还包括结合当前帧编码后的失真度、以及已编码帧的失真度历史信息，采用奖励计算公式对行动网络分配的I帧目标带宽作出评价，所述评价带宽分配的奖励计算公式为：

其中，i为帧的序号，N表示已编码帧数，Q_i表示图像的PSNR值，a＝2，B_i表示滑动窗口大小，R_i表示编码带宽数，λ为拉格朗日优化因子值。

本发明还涉及一种基于强化学习的I帧目标带宽分配装置，包括传输模块、分配模块、调用模块、编码模块和判断模块，

所述传输模块用于将视频序列输入HM编码***；

所述分配模块用于为GOP分配目标带宽；

所述调用模块用于调用强化学习神经网络为当前I帧分配目标带宽；

所述编码模块用于将分配目标带宽用于编码当前I帧数据，并将GOP中剩余帧继续编码，得到完成的GOP数据；

所述传输模块还用于将完成的GOP数据输入缓冲区；

所述判断模块用于判断视频序列是否完成编码。

进一步的，还包括学习模块，所述学习模块用于选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频，按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数，并记录各视频的编码信息，将编码信息输入至强化学习神经网络进行强化学习。

进一步的，所述学习模块还用于采用A2C神经网络进行强化学习。

进一步的，还包括获取模块，所述获取模块用于获取补充编码信息，所述补充编码信息包括当前I帧的纹理特征、边缘特征和颜色特征，具体的：

通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征，所述多尺度高斯差分融合公式为：

其中，(x,y)是空间坐标，σ大小决定图像的平滑程度，即σ值的大小对于图像概貌特征和细节特征，σ₁＝0.54，σ₂＝0.87，σ₃＝1.19，

w为高斯差分项的权重，w＝0.284，

a和b为高斯差分的参数，a＝0.75，b＝0.66；

根据σ₁生成二维高斯分布矩阵，计算公式为：

通过颜色特征提取公式获取当前I帧的颜色特征，所述颜色特征提取公式为：

获取模块将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息。

进一步的，所述学习模块还用于结合当前帧编码后的失真度、以及已编码帧的失真度历史信息，采用奖励计算公式对行动网络分配的I帧目标带宽作出评价，所述评价带宽分配的奖励计算公式为：

本发明的有益效果在于：提供了一种利用强化学习神经网络进行I帧目标带宽分配的方法，该方法可以通过不断感知环境状态，为当前视频序列选择最优的目标带宽，帮助取得更好的视频质量和更小的码率误差。

附图说明

下面结合附图详述本发明的具体流程及结构：

图1为本发明的流程示意图；

图2为本发明的强化学习神经网络结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参阅图1，一种基于强化学习的I帧目标带宽分配方法，包括：

S1、将视频序列输入HM编码***；

为了能够让强化学习神经网络能够具备初步的分配目标带宽能力，需要为强化学习神经网络建立训练模型：

S21、选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频，按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数，并记录各视频的编码信息，

本实施例中，选取的视频分辨率有5种，分别是：352×288，720×480，1280×720，1920×1080，3840×2160；

选取的视频内容特性有3种，分别是：简单背景，画面色彩变化小，前景纹理及轮廓简单，运动均质平坦；背景较复杂，画面色彩丰富，前景有多种物体的纹理及轮廓，运动缓慢有物体旋转；背景复杂，画面色彩繁杂，纹理及轮廓细节众多，有剧烈运动或较快速的场景切换；

选取的视频时长差异有3种，分别是：10秒以内；10-30秒；30-60秒；

按照以上的视频差异性，每种特征的视频至少选取10个作为训练数据，另外选取2个作为测试数据。因此，共有450个训练数据，90个测试数据。训练数据集在编码时，对每一帧使用相同的量化参数，范围是从20到44(量化参数为整数)，记录实际的编码信息。

为了更好地体现I帧的帧间关联度，可以提取当前I帧的内容特征，内容特征包括纹理特征、轮廓特征和色彩特征，作为训练集的补充编码信息。

w为高斯差分项的权重，w＝0.284，

a和b为高斯差分的参数，a＝0.75，b＝0.66；

S212、根据σ₁生成二维高斯分布矩阵，计算公式为：

将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息。

S22、将编码信息及补充编码信息输入至强化学习神经网络进行强化学习。

采用A2C神经网络进行强化学习，强化学习神经网络包含一个行动网络，一个评价网络，其网络结构如图2所示。

行动网络用于输入包括当前I帧所在GOP的目标带宽、当前I帧的纹理特征、轮廓特征和色彩特征，以及上一I帧的纹理特征、轮廓特征和色彩特征。

行动网络输出为当前I帧的目标带宽。

在行动网络中，强化学习神经网络能够智能地结合历史编码信息、当前I帧与前一个I帧特征关联度、当前GOP目标带宽、帧层的目标带宽等信息，决策当前I帧的目标带宽。

为了能够对行动网络输出的当前I帧的目标带宽做评价，强化学习神经网络的评价网络用于输入当前I帧的目标带宽，输出为对于行动网络的评价值。

在评价网络中，强化学习神经网络能够智能地结合当前帧编码后的失真度以及已编码帧的失真度历史信息，采用评价带宽分配的奖励计算公式对行动网络分配的I帧目标带宽做出评价。同时，评价网络可将计算梯度进行反向传播，更新网络参数。

所述评价带宽分配的奖励计算公式为：

对数据集中的视频I帧，按照上述的特征提取方法进行特征采样，并将特征和所需的信息输入到行动网络中。在评价网络做出评价时，数据集中的编码信息作为历史信息的一部分，用于率失真性能评价，即可实现对强化学习神经网络的不断学习强化。

S3、把强化学习神经网络输出的I帧目标带宽用于后续的目标带宽分配及量化参数决策中，编码当前I帧数据，并将GOP中剩余帧继续编码，得到完成的GOP数据，将完成的GOP数据输入缓冲区；

S4、判断视频序列是否完成编码，否则获取下一GOP数据，并返回S2，如此循环，直到整个视频序列编码结束。

从上述描述可知，本发明的有益效果在于：提供了一种利用强化学习神经网络进行I帧目标带宽分配的方法，该方法可以通过提取I帧的纹理特征、轮廓特征和颜色特征，并对视频前文的内容特征进行关联，分析I帧的图像复杂程度，辅助进行更精确的带宽分配，同时不断感知环境状态，为当前视频序列选择最优的目标带宽，帮助取得更好的视频质量和更小的码率误差。

所述传输模块用于将视频序列输入HM编码***；

所述分配模块用于为GOP分配目标带宽；

所述传输模块还用于将完成的GOP数据输入缓冲区；

所述判断模块用于判断视频序列是否完成编码。

为了能够让强化学习神经网络能够具备初步的分配目标带宽能力，还包括学习模块，所述学习模块用于选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频，按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数，并记录各视频的编码信息，将编码信息输入至强化学习神经网络进行强化学习。

为了更好地体现I帧的帧间关联度，还包括获取模块，所述获取模块可提取当前I帧的内容特征，内容特征包括纹理特征、轮廓特征和色彩特征，作为训练集的补充编码信息，具体的：

w为高斯差分项的权重，w＝0.284，

a和b为高斯差分的参数，a＝0.75，b＝0.66；

根据σ₁生成二维高斯分布矩阵，计算公式为：

最后，获取模块将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息。

为了保证强化学习神经网络的学习效果，所述学习模块采用A2C神经网络进行强化学习。

其中，强化学习神经网络包含一个行动网络，一个评价网络。

行动网络输出为当前I帧的目标带宽。

为了能够对行动网络输出的当前I帧的目标带宽做评价，所述学习模块还用于结合当前帧编码后的失真度以及已编码帧的失真度历史信息，采用评价带宽分配的奖励计算公式对行动网络分配的I帧目标带宽做出评价，同时，评价网络可将计算梯度进行反向传播，更新网络参数。

所述评价带宽分配的奖励计算公式为：

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于强化学习的I帧目标带宽分配方法，包括：

S1、将视频序列输入HM编码***；

2.如权利要求1所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S2之前，还包括建立训练模型：

S22、将编码信息输入至强化学习神经网络进行强化学习。

3.如权利要求2所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S22之中，采用A2C神经网络进行强化学习。

4.如权利要求3所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S21之中，还包括获取补充编码信息：

w为高斯差分项的权重，w＝0.284，

a和b为高斯差分的参数，a＝0.75，b＝0.66；

S212、根据σ₁生成二维高斯分布矩阵，计算公式为：

5.如权利要求4所述的基于强化学习的I帧目标带宽分配方法，其特征在于：在步骤S2之后，还包括结合当前帧编码后的失真度、以及已编码帧的失真度历史信息，采用奖励计算公式对行动网络分配的I帧目标带宽作出评价，所述评价带宽分配的奖励计算公式为：

6.一种基于强化学习的I帧目标带宽分配装置，其特征在于：包括传输模块、分配模块、调用模块、编码模块和判断模块，

所述传输模块用于将视频序列输入HM编码***；

所述分配模块用于为GOP分配目标带宽；

所述传输模块还用于将完成的GOP数据输入缓冲区；

所述判断模块用于判断视频序列是否完成编码。

7.如权利要求6所述的基于强化学习的I帧目标带宽分配装置，其特征在于：还包括学习模块，所述学习模块用于选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频，按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数，并记录各视频的编码信息，将编码信息输入至强化学习神经网络进行强化学习。

8.如权利要求7所述的基于强化学习的I帧目标带宽分配装置，其特征在于：所述学习模块还用于采用A2C神经网络进行强化学习。

9.如权利要求8所述的基于强化学习的I帧目标带宽分配装置，其特征在于：还包括获取模块，所述获取模块用于获取补充编码信息，所述补充编码信息包括当前I帧的纹理特征、边缘特征和颜色特征，具体的：

w为高斯差分项的权重，w＝0.284，

a和b为高斯差分的参数，a＝0.75，b＝0.66；

根据σ₁生成二维高斯分布矩阵，计算公式为：

10.如权利要求9所述的基于强化学习的I帧目标带宽分配装置，其特征在于：所述学习模块还用于结合当前帧编码后的失真度、以及已编码帧的失真度历史信息，采用奖励计算公式对行动网络分配的I帧目标带宽作出评价，所述评价带宽分配的奖励计算公式为：