CN112468808A - 一种基于强化学习的i帧目标带宽分配方法及装置 - Google Patents

一种基于强化学习的i帧目标带宽分配方法及装置 Download PDF

Info

Publication number
CN112468808A
CN112468808A CN202011354798.1A CN202011354798A CN112468808A CN 112468808 A CN112468808 A CN 112468808A CN 202011354798 A CN202011354798 A CN 202011354798A CN 112468808 A CN112468808 A CN 112468808A
Authority
CN
China
Prior art keywords
frame
target bandwidth
current
reinforcement learning
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011354798.1A
Other languages
English (en)
Other versions
CN112468808B (zh
Inventor
王妙辉
黄丽蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202011354798.1A priority Critical patent/CN112468808B/zh
Publication of CN112468808A publication Critical patent/CN112468808A/zh
Application granted granted Critical
Publication of CN112468808B publication Critical patent/CN112468808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/115Selection of the code volume for a coding unit prior to coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种基于强化学习的I帧目标带宽分配方法及装置,包括:S1、将视频序列输入HM编码***;S2、当HM编码***给GOP分配目标带宽后,调用强化学习神经网络为当前I帧分配目标带宽;S3、HM编码***将分配目标带宽用于编码当前I帧数据,并将GOP中剩余帧继续编码,得到完成的GOP数据,将完成GOP数据输入缓冲区;S4、判断视频序列是否完成编码,否则获取下一GOP数据,并返回S2。本发明的有益效果在于:提供了一种利用强化学习神经网络进行I帧目标带宽分配的方法,该方法可以通过不断感知环境状态,为当前视频序列选择最优的目标带宽,帮助取得更好的视频质量和更小的码率误差。

Description

一种基于强化学习的I帧目标带宽分配方法及装置
技术领域
本发明涉及一种视频处理技术领域,尤其是指一种基于强化学习的I帧目标带宽分配方法及装置。
背景技术
码率控制算法的目标在于,在一个特定的带宽或存储下提供高质量的压缩序列,它对于维持视频应用的质量,尤其是对于实时性要求较高的***来说,起着决定性的作用。在视频编码中,平衡视频帧的码率和失真是码率控制的关键问题。现有技术是通过实验数据和研究经验建立数学模型,从而进行带宽分配、量化和参数调整。
H.265/HEVC的码率控制算法仍然采用传统的两步骤方式——目标带宽分配和量化参数确定。其中,图像级目标带宽分配的关键在于考虑视频帧率失真间的相互依赖关系,分配的带宽权重与目标码率、视频内容特性以及时域预测结构密切相关。
在HEVC中,目标带宽分配分为GOP级、图像级和CTU级,其中GOP级中有I、P、B三种视频帧类型,I帧为每个GOP的第一个帧,是自带全部信息的独立帧,而P帧和B帧需要依赖其他帧预测得到。当视频序列中存在动作剧烈变化和场景快速切换时,两个I帧的帧间相关性明显降低,从而需要消耗更多的带宽进行编码。现有的图像级目标带宽分配策略是按照目标码率、内容特性和时域预测结构来给图像分配权重,对于上述情况没有针对性的设计,并不能保证有效的处理。基于强化学习的方法则可以从端到端优化目标带宽分配过程,促进性能的进一步提升。因此,我们采用强化学习的方式,希望得到更合理的I帧目标带宽分配策略。
发明内容
本发明所要解决的技术问题是:针对现有技术的不足,提出了一个基于强化学习的I帧目标带宽分配方法及装置,目的在于优化码率控制过程中图像级的目标带宽分配,从而减少失真,提升视频质量。
为了解决上述技术问题,本发明采用的技术方案为:一种基于强化学习的I帧目标带宽分配方法,包括:
S1、将视频序列输入HM编码***;
S2、当HM编码***给GOP分配目标带宽后,调用强化学习神经网络为当前I帧分配目标带宽;
S3、HM编码***将分配目标带宽用于编码当前I帧数据,并将GOP中剩余帧继续编码,得到完成的GOP数据,将完成GOP数据输入缓冲区;
S4、判断视频序列是否完成编码,否则获取下一GOP数据,并返回S2。
进一步的,在步骤S2之前,还包括建立训练模型:
S21、选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频,按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数,并记录各视频的编码信息;
S22、将编码信息输入至强化学习神经网络进行强化学习。
进一步的,在步骤S22之中,采用A2C神经网络进行强化学习。
进一步的,在步骤S21之后,还包括获取补充编码信息:
S211、通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征,所述多尺度高斯差分融合公式为:
Figure BDA0002802258390000021
其中,(x,y)是空间坐标,σ大小决定图像的平滑程度,σ1=0.54,σ2=0.87,σ3=1.19,
w为高斯差分项的权重,w=0.284,
a和b为高斯差分的参数,a=0.75,b=0.66;
S212、根据σ1生成二维高斯分布矩阵,计算公式为:
Figure BDA0002802258390000031
其中,x和y为高斯核的维度,w1,w2,w3为与人眼视觉特性相关的三个参数,分别为w1=0.536,w2=0.277,w3=0.187;
通过计算像素梯度矩阵Gxy获取当前I帧的边缘特征,像素梯度矩阵的计算公式为:
Figure BDA0002802258390000032
其中,I为灰度图像矩阵,S为Sobel算子,c=2,图像矩阵坐标系原点在左上角,且x正方向从左到右,y正方向从上到下;
S213、通过颜色特征提取公式获取当前I帧的颜色特征,所述颜色特征提取公式为:
Figure BDA0002802258390000033
其中,hi,j表示第i个颜色通道分量中灰度值为j的像素出现的概率,n表示图像灰度级数,d=1.33;
S214、将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息,并输入至强化学习神经网络进行强化学习。
进一步的,在步骤S2之后,还包括结合当前帧编码后的失真度、以及已编码帧的失真度历史信息,采用奖励计算公式对行动网络分配的I帧目标带宽作出评价,所述评价带宽分配的奖励计算公式为:
Figure BDA0002802258390000034
其中,i为帧的序号,N表示已编码帧数,Qi表示图像的PSNR值,a=2,Bi表示滑动窗口大小,Ri表示编码带宽数,λ为拉格朗日优化因子值。
本发明还涉及一种基于强化学习的I帧目标带宽分配装置,包括传输模块、分配模块、调用模块、编码模块和判断模块,
所述传输模块用于将视频序列输入HM编码***;
所述分配模块用于为GOP分配目标带宽;
所述调用模块用于调用强化学习神经网络为当前I帧分配目标带宽;
所述编码模块用于将分配目标带宽用于编码当前I帧数据,并将GOP中剩余帧继续编码,得到完成的GOP数据;
所述传输模块还用于将完成的GOP数据输入缓冲区;
所述判断模块用于判断视频序列是否完成编码。
进一步的,还包括学习模块,所述学习模块用于选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频,按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数,并记录各视频的编码信息,将编码信息输入至强化学习神经网络进行强化学习。
进一步的,所述学习模块还用于采用A2C神经网络进行强化学习。
进一步的,还包括获取模块,所述获取模块用于获取补充编码信息,所述补充编码信息包括当前I帧的纹理特征、边缘特征和颜色特征,具体的:
通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征,所述多尺度高斯差分融合公式为:
Figure BDA0002802258390000041
其中,(x,y)是空间坐标,σ大小决定图像的平滑程度,即σ值的大小对于图像概貌特征和细节特征,σ1=0.54,σ2=0.87,σ3=1.19,
w为高斯差分项的权重,w=0.284,
a和b为高斯差分的参数,a=0.75,b=0.66;
根据σ1生成二维高斯分布矩阵,计算公式为:
Figure BDA0002802258390000042
其中,x和y为高斯核的维度,w1,w2,w3为与人眼视觉特性相关的三个参数,分别为w1=0.536,w2=0.277,w3=0.187;
通过计算像素梯度矩阵Gxy获取当前I帧的边缘特征,像素梯度矩阵的计算公式为:
Figure BDA0002802258390000051
其中,I为灰度图像矩阵,S为Sobel算子,c=2,图像矩阵坐标系原点在左上角,且x正方向从左到右,y正方向从上到下;
通过颜色特征提取公式获取当前I帧的颜色特征,所述颜色特征提取公式为:
Figure BDA0002802258390000052
其中,hi,j表示第i个颜色通道分量中灰度值为j的像素出现的概率,n表示图像灰度级数,d=1.33;
获取模块将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息。
进一步的,所述学习模块还用于结合当前帧编码后的失真度、以及已编码帧的失真度历史信息,采用奖励计算公式对行动网络分配的I帧目标带宽作出评价,所述评价带宽分配的奖励计算公式为:
Figure BDA0002802258390000053
其中,i为帧的序号,N表示已编码帧数,Qi表示图像的PSNR值,a=2,Bi表示滑动窗口大小,Ri表示编码带宽数,λ为拉格朗日优化因子值。
本发明的有益效果在于:提供了一种利用强化学习神经网络进行I帧目标带宽分配的方法,该方法可以通过不断感知环境状态,为当前视频序列选择最优的目标带宽,帮助取得更好的视频质量和更小的码率误差。
附图说明
下面结合附图详述本发明的具体流程及结构:
图1为本发明的流程示意图;
图2为本发明的强化学习神经网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参阅图1,一种基于强化学习的I帧目标带宽分配方法,包括:
S1、将视频序列输入HM编码***;
S2、当HM编码***给GOP分配目标带宽后,调用强化学习神经网络为当前I帧分配目标带宽;
为了能够让强化学习神经网络能够具备初步的分配目标带宽能力,需要为强化学习神经网络建立训练模型:
S21、选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频,按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数,并记录各视频的编码信息,
本实施例中,选取的视频分辨率有5种,分别是:352×288,720×480,1280×720,1920×1080,3840×2160;
选取的视频内容特性有3种,分别是:简单背景,画面色彩变化小,前景纹理及轮廓简单,运动均质平坦;背景较复杂,画面色彩丰富,前景有多种物体的纹理及轮廓,运动缓慢有物体旋转;背景复杂,画面色彩繁杂,纹理及轮廓细节众多,有剧烈运动或较快速的场景切换;
选取的视频时长差异有3种,分别是:10秒以内;10-30秒;30-60秒;
按照以上的视频差异性,每种特征的视频至少选取10个作为训练数据,另外选取2个作为测试数据。因此,共有450个训练数据,90个测试数据。训练数据集在编码时,对每一帧使用相同的量化参数,范围是从20到44(量化参数为整数),记录实际的编码信息。
为了更好地体现I帧的帧间关联度,可以提取当前I帧的内容特征,内容特征包括纹理特征、轮廓特征和色彩特征,作为训练集的补充编码信息。
通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征,所述多尺度高斯差分融合公式为:
Figure BDA0002802258390000071
其中,(x,y)是空间坐标,σ大小决定图像的平滑程度,即σ值的大小对于图像概貌特征和细节特征,σ1=0.54,σ2=0.87,σ3=1.19,
w为高斯差分项的权重,w=0.284,
a和b为高斯差分的参数,a=0.75,b=0.66;
S212、根据σ1生成二维高斯分布矩阵,计算公式为:
Figure BDA0002802258390000072
其中,x和y为高斯核的维度,w1,w2,w3为与人眼视觉特性相关的三个参数,分别为w1=0.536,w2=0.277,w3=0.187;
通过计算像素梯度矩阵Gxy获取当前I帧的边缘特征,像素梯度矩阵的计算公式为:
Figure BDA0002802258390000073
其中,I为灰度图像矩阵,S为Sobel算子,c=2,图像矩阵坐标系原点在左上角,且x正方向从左到右,y正方向从上到下;
通过颜色特征提取公式获取当前I帧的颜色特征,所述颜色特征提取公式为:
Figure BDA0002802258390000081
其中,hi,j表示第i个颜色通道分量中灰度值为j的像素出现的概率,n表示图像灰度级数,d=1.33;
将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息。
S22、将编码信息及补充编码信息输入至强化学习神经网络进行强化学习。
采用A2C神经网络进行强化学习,强化学习神经网络包含一个行动网络,一个评价网络,其网络结构如图2所示。
行动网络用于输入包括当前I帧所在GOP的目标带宽、当前I帧的纹理特征、轮廓特征和色彩特征,以及上一I帧的纹理特征、轮廓特征和色彩特征。
行动网络输出为当前I帧的目标带宽。
在行动网络中,强化学习神经网络能够智能地结合历史编码信息、当前I帧与前一个I帧特征关联度、当前GOP目标带宽、帧层的目标带宽等信息,决策当前I帧的目标带宽。
为了能够对行动网络输出的当前I帧的目标带宽做评价,强化学习神经网络的评价网络用于输入当前I帧的目标带宽,输出为对于行动网络的评价值。
在评价网络中,强化学习神经网络能够智能地结合当前帧编码后的失真度以及已编码帧的失真度历史信息,采用评价带宽分配的奖励计算公式对行动网络分配的I帧目标带宽做出评价。同时,评价网络可将计算梯度进行反向传播,更新网络参数。
所述评价带宽分配的奖励计算公式为:
Figure BDA0002802258390000082
其中,i为帧的序号,N表示已编码帧数,Qi表示图像的PSNR值,a=2,Bi表示滑动窗口大小,Ri表示编码带宽数,λ为拉格朗日优化因子值。
对数据集中的视频I帧,按照上述的特征提取方法进行特征采样,并将特征和所需的信息输入到行动网络中。在评价网络做出评价时,数据集中的编码信息作为历史信息的一部分,用于率失真性能评价,即可实现对强化学习神经网络的不断学习强化。
S3、把强化学习神经网络输出的I帧目标带宽用于后续的目标带宽分配及量化参数决策中,编码当前I帧数据,并将GOP中剩余帧继续编码,得到完成的GOP数据,将完成的GOP数据输入缓冲区;
S4、判断视频序列是否完成编码,否则获取下一GOP数据,并返回S2,如此循环,直到整个视频序列编码结束。
从上述描述可知,本发明的有益效果在于:提供了一种利用强化学习神经网络进行I帧目标带宽分配的方法,该方法可以通过提取I帧的纹理特征、轮廓特征和颜色特征,并对视频前文的内容特征进行关联,分析I帧的图像复杂程度,辅助进行更精确的带宽分配,同时不断感知环境状态,为当前视频序列选择最优的目标带宽,帮助取得更好的视频质量和更小的码率误差。
本发明还涉及一种基于强化学习的I帧目标带宽分配装置,包括传输模块、分配模块、调用模块、编码模块和判断模块,
所述传输模块用于将视频序列输入HM编码***;
所述分配模块用于为GOP分配目标带宽;
所述调用模块用于调用强化学习神经网络为当前I帧分配目标带宽;
所述编码模块用于将分配目标带宽用于编码当前I帧数据,并将GOP中剩余帧继续编码,得到完成的GOP数据;
所述传输模块还用于将完成的GOP数据输入缓冲区;
所述判断模块用于判断视频序列是否完成编码。
为了能够让强化学习神经网络能够具备初步的分配目标带宽能力,还包括学习模块,所述学习模块用于选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频,按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数,并记录各视频的编码信息,将编码信息输入至强化学习神经网络进行强化学习。
本实施例中,选取的视频分辨率有5种,分别是:352×288,720×480,1280×720,1920×1080,3840×2160;
选取的视频内容特性有3种,分别是:简单背景,画面色彩变化小,前景纹理及轮廓简单,运动均质平坦;背景较复杂,画面色彩丰富,前景有多种物体的纹理及轮廓,运动缓慢有物体旋转;背景复杂,画面色彩繁杂,纹理及轮廓细节众多,有剧烈运动或较快速的场景切换;
选取的视频时长差异有3种,分别是:10秒以内;10-30秒;30-60秒;
按照以上的视频差异性,每种特征的视频至少选取10个作为训练数据,另外选取2个作为测试数据。因此,共有450个训练数据,90个测试数据。训练数据集在编码时,对每一帧使用相同的量化参数,范围是从20到44(量化参数为整数),记录实际的编码信息。
为了更好地体现I帧的帧间关联度,还包括获取模块,所述获取模块可提取当前I帧的内容特征,内容特征包括纹理特征、轮廓特征和色彩特征,作为训练集的补充编码信息,具体的:
通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征,所述多尺度高斯差分融合公式为:
Figure BDA0002802258390000101
其中,(x,y)是空间坐标,σ大小决定图像的平滑程度,即σ值的大小对于图像概貌特征和细节特征,σ1=0.54,σ2=0.87,σ3=1.19,
w为高斯差分项的权重,w=0.284,
a和b为高斯差分的参数,a=0.75,b=0.66;
根据σ1生成二维高斯分布矩阵,计算公式为:
Figure BDA0002802258390000102
其中,x和y为高斯核的维度,w1,w2,w3为与人眼视觉特性相关的三个参数,分别为w1=0.536,w2=0.277,w3=0.187;
通过计算像素梯度矩阵Gxy获取当前I帧的边缘特征,像素梯度矩阵的计算公式为:
Figure BDA0002802258390000111
其中,I为灰度图像矩阵,S为Sobel算子,c=2,图像矩阵坐标系原点在左上角,且x正方向从左到右,y正方向从上到下;
通过颜色特征提取公式获取当前I帧的颜色特征,所述颜色特征提取公式为:
Figure BDA0002802258390000112
其中,hi,j表示第i个颜色通道分量中灰度值为j的像素出现的概率,n表示图像灰度级数,d=1.33;
最后,获取模块将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息。
为了保证强化学习神经网络的学习效果,所述学习模块采用A2C神经网络进行强化学习。
其中,强化学习神经网络包含一个行动网络,一个评价网络。
行动网络用于输入包括当前I帧所在GOP的目标带宽、当前I帧的纹理特征、轮廓特征和色彩特征,以及上一I帧的纹理特征、轮廓特征和色彩特征。
行动网络输出为当前I帧的目标带宽。
在行动网络中,强化学习神经网络能够智能地结合历史编码信息、当前I帧与前一个I帧特征关联度、当前GOP目标带宽、帧层的目标带宽等信息,决策当前I帧的目标带宽。
为了能够对行动网络输出的当前I帧的目标带宽做评价,所述学习模块还用于结合当前帧编码后的失真度以及已编码帧的失真度历史信息,采用评价带宽分配的奖励计算公式对行动网络分配的I帧目标带宽做出评价,同时,评价网络可将计算梯度进行反向传播,更新网络参数。
所述评价带宽分配的奖励计算公式为:
Figure BDA0002802258390000121
其中,i为帧的序号,N表示已编码帧数,Qi表示图像的PSNR值,a=2,Bi表示滑动窗口大小,Ri表示编码带宽数,λ为拉格朗日优化因子值。
对数据集中的视频I帧,按照上述的特征提取方法进行特征采样,并将特征和所需的信息输入到行动网络中。在评价网络做出评价时,数据集中的编码信息作为历史信息的一部分,用于率失真性能评价,即可实现对强化学习神经网络的不断学习强化。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于强化学习的I帧目标带宽分配方法,包括:
S1、将视频序列输入HM编码***;
S2、当HM编码***给GOP分配目标带宽后,调用强化学习神经网络为当前I帧分配目标带宽;
S3、HM编码***将分配目标带宽用于编码当前I帧数据,并将GOP中剩余帧继续编码,得到完成的GOP数据,将完成GOP数据输入缓冲区;
S4、判断视频序列是否完成编码,否则获取下一GOP数据,并返回S2。
2.如权利要求1所述的基于强化学习的I帧目标带宽分配方法,其特征在于:在步骤S2之前,还包括建立训练模型:
S21、选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频,按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数,并记录各视频的编码信息;
S22、将编码信息输入至强化学习神经网络进行强化学习。
3.如权利要求2所述的基于强化学习的I帧目标带宽分配方法,其特征在于:在步骤S22之中,采用A2C神经网络进行强化学习。
4.如权利要求3所述的基于强化学习的I帧目标带宽分配方法,其特征在于:在步骤S21之中,还包括获取补充编码信息:
S211、通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征,所述多尺度高斯差分融合公式为:
Figure FDA0002802258380000011
其中,(x,y)是空间坐标,σ大小决定图像的平滑程度,σ1=0.54,σ2=0.87,σ3=1.19,
w为高斯差分项的权重,w=0.284,
a和b为高斯差分的参数,a=0.75,b=0.66;
S212、根据σ1生成二维高斯分布矩阵,计算公式为:
Figure FDA0002802258380000012
其中,x和y为高斯核的维度,w1,w2,w3为与人眼视觉特性相关的三个参数,分别为w1=0.536,w2=0.277,w3=0.187;
通过计算像素梯度矩阵Gxy获取当前I帧的边缘特征,像素梯度矩阵的计算公式为:
Figure FDA0002802258380000021
其中,I为灰度图像矩阵,S为Sobel算子,c=2,图像矩阵坐标系原点在左上角,且x正方向从左到右,y正方向从上到下;
S213、通过颜色特征提取公式获取当前I帧的颜色特征,所述颜色特征提取公式为:
Figure FDA0002802258380000022
其中,hi,j表示第i个颜色通道分量中灰度值为j的像素出现的概率,n表示图像灰度级数,d=1.33;
S214、将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息,并输入至强化学习神经网络进行强化学习。
5.如权利要求4所述的基于强化学习的I帧目标带宽分配方法,其特征在于:在步骤S2之后,还包括结合当前帧编码后的失真度、以及已编码帧的失真度历史信息,采用奖励计算公式对行动网络分配的I帧目标带宽作出评价,所述评价带宽分配的奖励计算公式为:
Figure FDA0002802258380000023
其中,i为帧的序号,N表示已编码帧数,Qi表示图像的PSNR值,a=2,Bi表示滑动窗口大小,Ri表示编码带宽数,λ为拉格朗日优化因子值。
6.一种基于强化学习的I帧目标带宽分配装置,其特征在于:包括传输模块、分配模块、调用模块、编码模块和判断模块,
所述传输模块用于将视频序列输入HM编码***;
所述分配模块用于为GOP分配目标带宽;
所述调用模块用于调用强化学习神经网络为当前I帧分配目标带宽;
所述编码模块用于将分配目标带宽用于编码当前I帧数据,并将GOP中剩余帧继续编码,得到完成的GOP数据;
所述传输模块还用于将完成的GOP数据输入缓冲区;
所述判断模块用于判断视频序列是否完成编码。
7.如权利要求6所述的基于强化学习的I帧目标带宽分配装置,其特征在于:还包括学习模块,所述学习模块用于选取至少两种具有分辨率差异的视频、至少两种具有内容差异的视频以及至少两种具有时长差异的视频,按照HM编码***对H.265/HEVC视频的编码流程进行带宽分配及选择量化参数,并记录各视频的编码信息,将编码信息输入至强化学习神经网络进行强化学习。
8.如权利要求7所述的基于强化学习的I帧目标带宽分配装置,其特征在于:所述学习模块还用于采用A2C神经网络进行强化学习。
9.如权利要求8所述的基于强化学习的I帧目标带宽分配装置,其特征在于:还包括获取模块,所述获取模块用于获取补充编码信息,所述补充编码信息包括当前I帧的纹理特征、边缘特征和颜色特征,具体的:
通过多尺度高斯差分融合计算公式获取当前I帧的纹理特征,所述多尺度高斯差分融合公式为:
Figure FDA0002802258380000031
其中,(x,y)是空间坐标,σ大小决定图像的平滑程度,σ1=0.54,σ2=0.87,σ3=1.19,
w为高斯差分项的权重,w=0.284,
a和b为高斯差分的参数,a=0.75,b=0.66;
根据σ1生成二维高斯分布矩阵,计算公式为:
Figure FDA0002802258380000032
其中,x和y为高斯核的维度,w1,w2,w3为与人眼视觉特性相关的三个参数,分别为w1=0.536,w2=0.277,w3=0.187;
通过计算像素梯度矩阵Gxy获取当前I帧的边缘特征,像素梯度矩阵的计算公式为:
Figure FDA0002802258380000041
其中,I为灰度图像矩阵,S为Sobel算子,c=2,图像矩阵坐标系原点在左上角,且x正方向从左到右,y正方向从上到下;
通过颜色特征提取公式获取当前I帧的颜色特征,所述颜色特征提取公式为:
Figure FDA0002802258380000042
其中,hi,j表示第i个颜色通道分量中灰度值为j的像素出现的概率,n表示图像灰度级数,d=1.33;
获取模块将当前I帧的纹理特征、边缘特征和颜色特征打包为当前I帧的补充编码信息。
10.如权利要求9所述的基于强化学习的I帧目标带宽分配装置,其特征在于:所述学习模块还用于结合当前帧编码后的失真度、以及已编码帧的失真度历史信息,采用奖励计算公式对行动网络分配的I帧目标带宽作出评价,所述评价带宽分配的奖励计算公式为:
Figure FDA0002802258380000043
其中,i为帧的序号,N表示已编码帧数,Qi表示图像的PSNR值,a=2,Bi表示滑动窗口大小,Ri表示编码带宽数,λ为拉格朗日优化因子值。
CN202011354798.1A 2020-11-26 2020-11-26 一种基于强化学习的i帧目标带宽分配方法及装置 Active CN112468808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011354798.1A CN112468808B (zh) 2020-11-26 2020-11-26 一种基于强化学习的i帧目标带宽分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011354798.1A CN112468808B (zh) 2020-11-26 2020-11-26 一种基于强化学习的i帧目标带宽分配方法及装置

Publications (2)

Publication Number Publication Date
CN112468808A true CN112468808A (zh) 2021-03-09
CN112468808B CN112468808B (zh) 2022-08-12

Family

ID=74809592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011354798.1A Active CN112468808B (zh) 2020-11-26 2020-11-26 一种基于强化学习的i帧目标带宽分配方法及装置

Country Status (1)

Country Link
CN (1) CN112468808B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116208788A (zh) * 2023-05-04 2023-06-02 海马云(天津)信息技术有限公司 提供网络应用服务的方法及装置、服务器设备和存储介质
CN117196999A (zh) * 2023-11-06 2023-12-08 浙江芯劢微电子股份有限公司 一种自适应视频流图像边缘增强方法和***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743778A (zh) * 2019-01-14 2019-05-10 长沙学院 一种基于强化学习的资源分配优化方法和***
CN111031387A (zh) * 2019-11-21 2020-04-17 南京大学 一种监控视频发送端视频编码流速控制的方法
CN111294595A (zh) * 2020-02-04 2020-06-16 清华大学深圳国际研究生院 一种基于深度强化学习的视频编码帧内码率控制方法
CN111405327A (zh) * 2020-04-03 2020-07-10 广州市百果园信息技术有限公司 网络带宽预测模型训练方法、视频数据播放方法及装置
US20200344472A1 (en) * 2019-04-23 2020-10-29 National Chiao Tung University Reinforcement learning method for video encoder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109743778A (zh) * 2019-01-14 2019-05-10 长沙学院 一种基于强化学习的资源分配优化方法和***
US20200344472A1 (en) * 2019-04-23 2020-10-29 National Chiao Tung University Reinforcement learning method for video encoder
CN111031387A (zh) * 2019-11-21 2020-04-17 南京大学 一种监控视频发送端视频编码流速控制的方法
CN111294595A (zh) * 2020-02-04 2020-06-16 清华大学深圳国际研究生院 一种基于深度强化学习的视频编码帧内码率控制方法
CN111405327A (zh) * 2020-04-03 2020-07-10 广州市百果园信息技术有限公司 网络带宽预测模型训练方法、视频数据播放方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MINGLIANG ZHOU 等: "Rate Control Method Based on Deep Reinforcement Learning for Dynamic Video Sequences in HEVC", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116208788A (zh) * 2023-05-04 2023-06-02 海马云(天津)信息技术有限公司 提供网络应用服务的方法及装置、服务器设备和存储介质
CN116208788B (zh) * 2023-05-04 2023-07-21 海马云(天津)信息技术有限公司 提供网络应用服务的方法及装置、服务器设备和存储介质
CN117196999A (zh) * 2023-11-06 2023-12-08 浙江芯劢微电子股份有限公司 一种自适应视频流图像边缘增强方法和***
CN117196999B (zh) * 2023-11-06 2024-03-12 浙江芯劢微电子股份有限公司 一种自适应视频流图像边缘增强方法和***

Also Published As

Publication number Publication date
CN112468808B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN111432207B (zh) 基于显著目标检测和显著性指导的感知高清视频编码方法
Tang Spatiotemporal visual considerations for video coding
CN110087087B (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
CN112399176B (zh) 一种视频编码方法、装置、计算机设备及存储介质
CN108495135B (zh) 一种屏幕内容视频编码的快速编码方法
CN103188493B (zh) 图像编码装置及图像编码方法
CN107155107A (zh) 视频编码方法和装置、视频解码方法和装置
CN102065298B (zh) 高性能宏块编码实现方法
CN110751649B (zh) 视频质量评估方法、装置、电子设备及存储介质
CN112468808B (zh) 一种基于强化学习的i帧目标带宽分配方法及装置
CN108063944B (zh) 一种基于视觉显著性的感知码率控制方法
CN107371022B (zh) 应用于hevc医学影像无损编码的帧间编码单元快速划分方法
CN101710993A (zh) 基于块的自适应超分辨率视频处理方法及***
CN104539962A (zh) 一种融合视觉感知特征的可分层视频编码方法
CN111182303A (zh) 共享屏幕的编码方法、装置、计算机可读介质及电子设备
CN108347612A (zh) 一种基于视觉注意机制的监控视频压缩与重构方法
CN112291562B (zh) 针对h.266/vvc的快速cu分区和帧内模式决策方法
CN111083477A (zh) 基于视觉显著性的hevc优化算法
Liu et al. End-to-end neural video coding using a compound spatiotemporal representation
CN108513132B (zh) 一种视频质量评价方法及装置
CN115941943A (zh) 一种hevc视频编码方法
Wang et al. Perceptually quasi-lossless compression of screen content data via visibility modeling and deep forecasting
Wang et al. Semantic-aware video compression for automotive cameras
CN106686383A (zh) 一种保留深度图边缘的深度图帧内编码方法
EP1802127B1 (en) Method for performing motion estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant