CN113542745B - 一种率失真编码优化方法 - Google Patents

一种率失真编码优化方法 Download PDF

Info

Publication number
CN113542745B
CN113542745B CN202110588067.1A CN202110588067A CN113542745B CN 113542745 B CN113542745 B CN 113542745B CN 202110588067 A CN202110588067 A CN 202110588067A CN 113542745 B CN113542745 B CN 113542745B
Authority
CN
China
Prior art keywords
coding
distortion
coding block
value
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110588067.1A
Other languages
English (en)
Other versions
CN113542745A (zh
Inventor
马思伟
黄志勐
贾川民
王苫社
赵利平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing Beida Information Technology Innovation Center
Original Assignee
Shaoxing Beida Information Technology Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoxing Beida Information Technology Innovation Center filed Critical Shaoxing Beida Information Technology Innovation Center
Priority to CN202110588067.1A priority Critical patent/CN113542745B/zh
Publication of CN113542745A publication Critical patent/CN113542745A/zh
Application granted granted Critical
Publication of CN113542745B publication Critical patent/CN113542745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明是一种率失真编码优化方法,包括以下步骤:在对一幅图像进行编码时,首先根据预设的图像特征分析网络获得该图像的特征;然后根据图像的特征为每一个编码块计算一个机器感兴趣程度的数值(记为ROIM),ROIM越高,表示在未来的视觉分析任务上机器可能会更感兴趣;根据ROIM来对图像中的每一个编码块进行码率分配;码率分配之后我们修改了率失真误差的计算方式,用全新的基于特征失真来表示面向机器分析的编码失真,最后使得编码后的图像在视觉分析任务中的性能得到了提升。

Description

一种率失真编码优化方法
技术领域
本发明属于图像、视频压缩领域,特别是一种率失真编码优化方法。
背景技术
现有的图像/视频压缩的率失真编码优化方法主要采用以下两种方式:
一、在AVS系列视频编码标准以及H.26x系列视频编码中,大部分图像/视频压缩的率失真优化方法采用了基于像素信号均方误差的率失真编码方法,均方误差主要是用于估计图像压缩后和原图像在像素级别的一致性,追求的是所有的像素平均起来数值上和原图最为相似。但是这个方法已经被很多工作证明会被噪声影响,比如将误差集中在图像的某些区域,这样一来即使其他区域零误差也会导致视觉效果交叉。很多时候基于均方误差的率失真优化方法并不能准确的代表人类视觉***的主观感受。
二、为了解决像素级别失真和人类视觉***之间的不匹配,很多新方法都采用了面向主观视觉的率失真优化方法去提升。一般使用的方法是结构相似性或者是多尺度结构相似性。这些率失真优化方法更加关注压缩后图像和原图像的结构上的相似性,尽可能还原出和原图一样的图形结构。但是这一类方法处理视觉分析任务的时候还具有很多的局限性。
发明内容:
本发明要解决的技术问题是现有率失真编码算法在视觉分析任务里性能低下。
本发明提出一种率失真编码优化方法,包括以下步骤:
步骤1:输入图像,用RPN网络(Region Proposal Network,区域生成网络)提取边框,获得该图像的预设图像特征;
步骤2:根据预设图像特征计算每个编码块的机器感兴趣值,并根据每个编码块的机器感兴趣值分配编码比特数目;
步骤3:对于每两个相邻的编码块,根据预设图像特征计算相邻编码块相关指数,并根据相邻编码块相关指数来对实际编码中的QP 计算进行限制;
步骤4:对于每个编码块,通过卷积神经网络提取特征,计算特征之间的余弦距离作为失真,根据失真和码率计算率失真损失,用率失真损失建立率失真优化,输出优化后的图像。
进一步的,所述步骤1中的预设图像特征为边框和每个编码块重合的频率或边框和每个编码块重合的大小比例或边框和两个相邻编码块的边界重合的大小比例或上述三者的任意组合。
进一步的,所述步骤2中机器感兴趣值的计算方法为:
A,定义每个编码块的机器感兴趣值;
B,对于每个编码块,遍历全部步骤1中的边框,计算边框和编码块的交占编码块自身面积的比例F;
C,将所有编码块中F最大的编码块对应的F数值记为FMAX,然后把所有编码块对应的F除以FMAX进行归一化处理,根据归一化处理得到的结果对每个编码块的机器感兴趣值赋值。
进一步的,所述编码比特数目的分配方法为:
A,初始化整张图像的比特数目;
B,对于每个编码块,跟据整张图像的比特数目和已经消耗的比特数目计算当前还可以使用的比特数目以及计算每个编码块的SATD 值和机器感兴趣值的加权和,然后计算当前编码块的SATD值和机器感兴趣值的加权和占所有编码块的SATD值和机器感兴趣值的加权和的总和比例,根据该比例分配当前可以使用的比特数目;
C,每次分配完毕后,编码器进行编码,根据编码器编码所消耗的比特数更新已经消耗的比特数目。
进一步的,所述步骤3中,相邻编码块相关指数的计算公式为: MC=A/B,其中MC为相邻编码块相关指数,A为跨当前相邻编码块的边框的长度的交集,其中B为当前相邻编码框的相邻边的长度。
进一步的,所述步骤3中,限制方法为:如果相邻编码块相关指数大于0.7,则该相邻两个编码块QP差距不能超过2;否则,该相邻两个编码块QP差距不能超过9。当前图像不同编码树单元编码时需要对其中的QP进行设置,用以提高编码的质量。
进一步的,所述步骤4中,失真为特征失真和像素失真的加权和。
进一步的,所述特征失真的计算方法为:计算经神经网络提取后的当前块的特征F1和原始块的特征F2之间的余弦距离,该余弦距离为特征失真。
进一步的,所述像素失真的计算方法为:计算经神经网络提取后的当前块和原始块对应像素之间差的平方的平均值,该平均值为像素失真。
本发明同现有技术相比具有以下优点及效果:
1、本发明建立了全新的码率分配方式和率失真计算方法。
2、通过本发明压缩后的图像在同码率的前提条件下在视觉分析任务里可以获得更好的性能。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:一种率失真编码优化方法,包括以下步骤:
步骤1:输入一幅图像,采用预训练过RPN网络(Region Proposal Network,区域生成网络)提取边框,预训练方法和RPN网络均采用现有算法,例如采用作者S.Ren、K.He、R.Girshick和J.Sun的文章《Fasterr-cnn:Towards real-time object detection withregion proposal networks》(期刊号Advances in neural information processingsystems, 2015,pp.91–99)中的算法,将边框和每个编码块重合的频率或边框和每个编码块重合的大小比例或边框和两个相邻编码块的边界重合的大小比例或上述三者的任意组合定义为预设图像特征,例如预设特征为;
步骤2.1:定义每个编码块的机器感兴趣值(以下简称为“ROIM 值”),对于每个编码块,遍历全部步骤1中的边框,即枚举步骤1 中获得的所有边框,计算边框和编码块的交占编码块自身面积的比例 F,将所有编码块中F最大的编码块对应的F数值记为FMAX,然后把所有编码块对应的F除以FMAX进行归一化处理,根据归一化处理得到的结果对每个编码块的机器感兴趣值赋值。例如,一个编码块尺寸为128x128,边框和这个编码块交的尺寸为7285个像素,那么 F=7285/(128*128)=0.44;对于每一个编码块对应的F,其中最大的为0.75,则FMAX=0.75,用F除以FMAX进行归一化处理得到每一个编码块的ROIM值。
步骤2.2:初始化整张图像的比特数目,即输入整张图像的比特数目为一定值,例如100,然后从上到下、从左到右按照顺序遍历每一个编码块,对于每一个编码块,先把整张图像的比特数目和已经消耗的比特数目来得到当前还可以使用的比特数目。同时,计算每一个编码块的SATD(Sum of Absolute Transformed Difference,哈达玛变换后再绝对值求和)值和ROIM值的加权和,其中SATD计算方式采用VVC(Versatile Video Coding)标准中的计算方式,计算当前编码块的SATD值和ROIM值的加权和占所有编码块的SATD值和ROIM值的加权和的总和比例,用这个比例作为分配系数去分配当前可以使用的比特数目,即采用现有VTM编码器对不同的编码块进行码率分配,其中,每次分配完毕后,VTM编码器进行编码,并根据VTM编码器编码所消耗的实际比特数去更新已经消耗的比特数目。
步骤3.1:对于每两个相邻的编码块,根据预设图像特征计算一个相邻编码块相关指数(MC),其计算公式为:MC=A/B,其中MC 为相邻编码块相关指数,A为跨当前相邻编码块的边框的长度的交集,其中B为当前相邻编码框的相邻边的长度。例如,VTM中默认编码块的大小为128,对两个相邻的编码块,跨这两个编码块的边框长度为 96,那么MC=96/128=0.75。
步骤3.2:根据MC来对当前编码树单元在以后应用过程中的实际编码中的QP计算进行限制,如果MC大于0.7,则该相邻两个编码块QP差距不能超过2;否则,该相邻两个编码块QP差距不能超过9。例如,MC=96/128=0.75,MC大于0.7,则QP差距不能超过2。
步骤4:对于每一个编码块,通过一个提前训练好的卷积神经网络提取特征,卷积神经网络和训练方法采用现有算法,例如采用作者为K.Simonyan和A.Zisserman的文章《Very deep convolutional networks for large-scale image recognition》(期刊号arXiv preprint arXiv:1409.1556,2014)中的VGG-19网络去掉最后的池化层和全连接层之后得到的子网络,计算经神经网络提取后的当前块的特征F1 和原始块的特征F2之间的余弦距离(定义为特征失真)以及经神经网络提取后的当前块和原始块对应像素之间差的平方的平均值(定义为像素失真),将特征失真和像素失真的加权和定义为失真,然后用这个失真和当前配置消耗的码率共同计算出一个率失真损失,率失真损失的计算方法为R+lambda*D,R为码率,D为失真,lambda为编码器内参数,用这个率失真损失来进行划分时的率失真优化。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种率失真编码优化方法,其特征在于,包括以下步骤:
步骤1:输入图像,用RPN网络提取边框,获得该图像的预设图像特征;
步骤2:根据预设图像特征计算每个编码块的机器感兴趣值,所述机器感兴趣值的计算方法为:
A,定义每个编码块的机器感兴趣值;
B,对于每个编码块,遍历全部步骤1中的边框,计算边框和编码块的交占编码块自身面积的比例F;
C,将所有编码块中F最大的编码块对应的F数值记为FMAX,然后把所有编码块对应的F除以FMAX进行归一化处理,根据归一化处理得到的结果对每个编码块的机器感兴趣值赋值;
并根据每个编码块的机器感兴趣值分配编码比特数目,所述编码比特数目的分配方法为:
A,初始化整张图像的比特数目;
B,对于每个编码块,跟据整张图像的比特数目和已经消耗的比特数目计算当前还可以使用的比特数目以及计算每个编码块的SATD值和机器感兴趣值的加权和,然后计算当前编码块的SATD值和机器感兴趣值的加权和占所有编码块的SATD值和机器感兴趣值的加权和的总和比例,根据该比例分配当前可以使用的比特数目;
C,每次分配完毕后,编码器进行编码,根据编码器编码所消耗的比特数更新已经消耗的比特数目;
步骤3:对于每两个相邻的编码块,根据预设图像特征计算相邻编码块相关指数,所述相邻编码块相关指数的计算公式为:MC=A/B,其中MC为相邻编码块相关指数,A为跨当前相邻编码块的边框的长度的交集,其中B为当前相邻编码框的相邻边的长度;并根据相邻编码块相关指数来对QP计算进行限制;
步骤4:对于每个编码块,通过卷积神经网络提取特征,计算特征之间的余弦距离作为失真,根据失真和码率计算率失真损失,用率失真损失建立率失真优化,输出优化后的图像。
2.根据权利要求1所述的率失真编码优化方法,其特征在于,所述步骤1中的预设图像特征为边框和每个编码块重合的频率或边框和每个编码块重合的大小比例或边框和两个相邻编码块的边界重合的大小比例或上述三者的任意组合。
3.根据权利要求2所述的率失真编码优化方法,其特征在于,所述步骤3中,限制方法为:如果相邻编码块相关指数大于0.7,则该相邻两个编码块QP差距不能超过2;否则,该相邻两个编码块QP差距不能超过9。
4.根据权利要求2所述的率失真编码优化方法,其特征在于,所述步骤4中,失真为特征失真和像素失真的加权和。
5.根据权利要求4所述的率失真编码优化方法,其特征在于,所述特征失真的计算方法为:计算经神经网络提取后的当前块的特征F1和原始块的特征F2之间的余弦距离,该余弦距离为特征失真。
6.根据权利要求4所述的率失真编码优化方法,其特征在于,所述像素失真的计算方法为:计算经神经网络提取后的当前块和原始块对应像素之间差的平方的平均值,该平均值为像素失真。
CN202110588067.1A 2021-05-27 2021-05-27 一种率失真编码优化方法 Active CN113542745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110588067.1A CN113542745B (zh) 2021-05-27 2021-05-27 一种率失真编码优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110588067.1A CN113542745B (zh) 2021-05-27 2021-05-27 一种率失真编码优化方法

Publications (2)

Publication Number Publication Date
CN113542745A CN113542745A (zh) 2021-10-22
CN113542745B true CN113542745B (zh) 2024-06-25

Family

ID=78124465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110588067.1A Active CN113542745B (zh) 2021-05-27 2021-05-27 一种率失真编码优化方法

Country Status (1)

Country Link
CN (1) CN113542745B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118233638A (zh) * 2024-05-24 2024-06-21 宁波康达凯能医疗科技有限公司 一种面向机器视觉的帧间图像编码率失真优化方法与***

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2006203176B2 (en) * 2002-04-15 2008-07-31 Godo Kaisha Ip Bridge 1 Image encoding method and image decoding method
US6757434B2 (en) * 2002-11-12 2004-06-29 Nokia Corporation Region-of-interest tracking method and device for wavelet-based video coding
CN100574441C (zh) * 2007-12-14 2009-12-23 武汉大学 一种感兴趣区域的率失真优化帧内刷新与码率分配方法
US9479786B2 (en) * 2008-09-26 2016-10-25 Dolby Laboratories Licensing Corporation Complexity allocation for video and image coding applications
KR20100071834A (ko) * 2008-12-19 2010-06-29 주식회사 케이티 동영상 왜곡 계산 장치 및 그 방법
EP2868103B1 (en) * 2012-06-29 2016-12-07 GE Video Compression, LLC Video data stream concept
CN104539962B (zh) * 2015-01-20 2017-12-01 北京工业大学 一种融合视觉感知特征的可分层视频编码方法
CN109889839B (zh) * 2019-03-27 2020-11-20 上海交通大学 基于深度学习的感兴趣区域图像编码、解码***及方法
CN112752102B (zh) * 2019-10-31 2022-12-30 北京大学 一种基于视觉显著性的视频码率分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Rate-Distortion Optimization for Stereoscopic Video Streaming with Unequal Error Protection;A. Serdar Tan;EURASIP Journal on Advances in Signal Processing;全文 *
基于感兴趣区域率失真优化的视频压缩编码通信***设计;张哲为;中国优秀硕博毕业论文;全文 *

Also Published As

Publication number Publication date
CN113542745A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN110418135B (zh) 一种基于邻居的权重优化的点云帧内预测方法及设备
US10552989B2 (en) Point cloud attribute compression method based on KD tree and optimized graph transformation
CN108322742B (zh) 一种基于帧内预测的点云属性压缩方法
WO2019213986A1 (zh) 一种基于多角度自适应帧内预测的点云属性压缩方法
CN106604031A (zh) 一种基于兴趣区域的h.265视频质量提升方法
CN103402087A (zh) 一种基于可分级位流的视频编解码方法
CN107454413B (zh) 一种保留特征的视频编码方法
CN106658004B (zh) 一种基于图像平坦区域特征的压缩方法和装置
CN113542745B (zh) 一种率失真编码优化方法
CN108347612A (zh) 一种基于视觉注意机制的监控视频压缩与重构方法
CN104754335B (zh) 一种视频编码码率控制方法
Zhu et al. Lossy point cloud geometry compression via region-wise processing
CN113518226A (zh) 一种基于地面分割的g-pcc点云编码改进方法
CN105933705B (zh) 一种hevc解码视频主观质量评价方法
CN108833928B (zh) 交通监控视频编码方法
CN105306946B (zh) 一种基于均方误差门限的质量可分级视频编码方法
CN1151678C (zh) 对于视频信号中的目标轮廓图象进行编码的方法和装置
CN115841462A (zh) 一种立体视觉感知和Transformer融合的无参考立体图像质量评价方法
CN113542753B (zh) Avs3视频编码方法及编码器
CN112509107B (zh) 一种点云属性重着色方法、装置及编码器
CN112218083B (zh) 高效视频编码标准帧内图像码率估计方法
CN104320661A (zh) 基于差分熵和结构相似性的图像编码质量预测方法
CN112929663A (zh) 一种基于知识蒸馏的图像压缩质量增强方法
Xu et al. Fast Implementation of Image Structural Similarity Algorithm
CN106028043B (zh) 基于新的邻域函数的三维自组织映射图像编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ma Siwei

Inventor after: Huang Zhimeng

Inventor after: Jia Chuanmin

Inventor after: Wang Shanshe

Inventor after: Zhao Liping

Inventor before: Ma Siwei

GR01 Patent grant
GR01 Patent grant