CN110557646B - 一种智能视点间的编码方法 - Google Patents

一种智能视点间的编码方法 Download PDF

Info

Publication number
CN110557646B
CN110557646B CN201910775875.1A CN201910775875A CN110557646B CN 110557646 B CN110557646 B CN 110557646B CN 201910775875 A CN201910775875 A CN 201910775875A CN 110557646 B CN110557646 B CN 110557646B
Authority
CN
China
Prior art keywords
block
prediction
prediction block
mode
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910775875.1A
Other languages
English (en)
Other versions
CN110557646A (zh
Inventor
雷建军
张宗千
侯春萍
张凯明
刘晓寰
石雅南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910775875.1A priority Critical patent/CN110557646B/zh
Publication of CN110557646A publication Critical patent/CN110557646A/zh
Application granted granted Critical
Publication of CN110557646B publication Critical patent/CN110557646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种智能视点间的编码方法,包括:分别获取基于相邻块视差矢量模式得到的第一预测块、基于传统视差补偿预测模式得到的第二预测块;构建可变卷积核大小的残差学习卷积神经网络结构;将上述两个预测块的亮度分量通道级联后的结果作为卷积神经网络的输入,网络的输出为原始图像块的增强预测块;根据四种不同的量化参数训练四种不同的网络模型;分别提取第一、第二预测块的亮度分量并进行通道级联,将级联后的结果根据当前编码块的大小以及量化参数值调用相应的网络模型;最后对增强预测块计算率失真代价并与当前编码块的最优模式代价进行比较,如果小于最优模式代价,选择本方法作为最优编码模式,并对相应的标志进行编码传输至解码端。

Description

一种智能视点间的编码方法
技术领域
本发明涉及3D视频编码领域,尤其涉及一种智能视点间的编码方法。
背景技术
3D视频数据量大,对视频的存储和传输带来了前所未有的困难与挑战。因此,如何实现高效的3D视频编码具有重要的理论研究意义和实际应用价值。目前,由MPEG(动态图像专家组)和VCEG(视频编码专家组)联合组建的视频编码国际标准组织JCT-VC开发的3D-HEVC(3D高效视频编码)是最新的3D视频编码标准。3D-HEVC对非独立视点及深度视频引入了新的预测技术和编码工具,增加了适用于多视点视频编码和深度视频编码的技术,提高了编码效率。然而,多视点视频编码的视点间预测技术仍有很大的提升空间。
目前人们对视点间预测编码技术的研究主要集中在视差矢量的获取和视差补偿预测等方面。Chen等利用视频空时域相邻编码块的视差矢量与当前块视差矢量的相关性,计算当前块的视差矢量,降低了视差矢量对深度图编码的依赖。Zhang等提出一种仅从当前编码块的空域和时域邻块来获取当前编码块视差矢量、并进行视点间预测的方法,提升了编码效率。Woontack等提出了一种重叠块视差补偿与自适应窗口立体图像编码方案。Wong等详细分析了视图间存在的水平缩放和剪切现象,为了以最小的复杂度实现基于HSS(水平缩放和剪切)的视差补偿预测,采用了一种高效的亚采样块匹配技术,有效的实现了多视点视频编码的比特节省。
深度学***面彩***编码的研究,在帧内预测、帧间预测、滤波后处理、端到端图像编码等方面实现了编码性能的显著提升。
Cui等提出一种针对帧内预测的卷积神经网络,该网络以预测块周围已编码块作为输入,能够充分学习参考块的纹理信息,提供准确的预测结果。Yan等人将分数像素运动补偿转化为图像间的回归问题,利用卷积神经网络解决这一问题,提高了编码效率。Liu等提出一种基于CNN(卷积神经网络)的运动补偿增强算法,不仅对当前块进行运动补偿,还利用当前编码块的临近重建区域来进一步提高预测的准确度。Li等人提出了一种帧级的动态元数据后处理方法,首先将视频帧依据内容复杂度和质量进行分类,并将分类标志传输到解码端作为辅助信息,然后利用一个20层的卷积神经网络对不同类别的帧进行图像增强,实现了滤波性能的提高。然而,在利用深度学习技术提高3D视频编码性能方面,还少有人研究,尤其目前还没有智能的视点间编码方法,因此提出一种智能的视点间编码方法就成为本发明的根本立意所在。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
现有建模视差关系的算法,对参考图像进行伸缩和剪切等操作,虽然能有效提高预测的准确度,但适用性较差,对于纹理复杂且动作丰富的视频,效果欠佳;目前缺乏智能视点间的编码方法。
发明内容
本发明提供了一种智能视点间的编码方法,本发明通过充分挖掘相邻视点间的高度相似性,利用3D视频编码过程中的预测信息,设计一种基于卷积神经网络的智能视点间预测模型,获得对当前编码块更加精确的预测,进一步提高了编码效率,详见下文描述:
一种智能视点间的编码方法,所述方法包括以下步骤:
分别获取基于相邻块视差矢量模式得到的第一预测块、基于传统视差补偿预测模式得到的第二预测块;
构建可变卷积核大小的残差学习卷积神经网络结构;将上述两个预测块的亮度分量通道级联后的结果作为卷积神经网络的输入,网络的输出为原始图像块的增强预测块;
根据四种不同的量化参数训练四种不同的网络模型;
分别提取第一、第二预测块的亮度分量并进行通道级联,将级联后的结果根据当前编码块的大小以及量化参数值调用相应的网络模型;
最后对增强预测块计算率失真代价并与当前编码块的最优模式代价进行比较,如果小于最优模式代价,选择本方法作为最优编码模式,并对相应的标志进行编码传输至解码端。
其中,所述获取基于相邻块视差矢量模式得到的第一预测块具体为:
如果存在基于相邻块视差矢量模式得到的视差矢量,则设定标志记录其在最终候选列表中的位置,保存使用该视差矢量进行补偿所得到的预测块,待编码完整帧图像后输出预测图像;
将存在且使用该视差矢量进行预测的块标记为1,否则为0,将标记以表格的形式输出并对预测图像进行切割,仅保留使用相邻块视差矢量模式的预测块作为训练数据。
进一步地,所述获取基于传统视差补偿预测模式得到的第二预测块具体为:
通过判断参考图片的视点索引找到视点间参考图片,使用该参考图片进行视差补偿,采用率失真优化,保存不同PU划分方式下最优的预测结果作为DCP预测块;
待编码完整帧图像后输出预测图像,利用表格,对预测图像进行切割,并按顺序输出和存储。
其中,所述构建可变卷积核大小的残差学习卷积神经网络可表示为:
Figure BDA0002175028880000031
其中,f(·)为预测函数,
Figure BDA0002175028880000032
表示通道级联,l{·,·}表示损失函数,用于计算预测值与真实值之间的误差,第一预测块记为P1,第二预测块记为P2,原始图像块作为Label,记为Y。
本发明提供的技术方案的有益效果是:
1、本发明充分利用视点间预测信息,将深度学习技术引入到3D视频视点间预测编码领域,利用卷积神经网络的学习特性生成更加准确的预测块,使其更加接近于原始图像块,从而减小原始图像块与预测块之间的残差,降低编码传输所需的比特开销,进一步提高编码效率;
2、本发明采用数据驱动的方式,利用丰富多样的数据来训练卷积神经网络,使得本发明有更好的泛化性。
附图说明
图1为一种智能视点间的编码方法的流程图。
图2为智能视点间预测的网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
本发明实施例提出了一种智能视点间的编码方法,将编码过程中由NBDV(相邻块视差矢量)模式得到的预测块与DCP(传统视差补偿预测)模式得到的预测块进行融合,并利用卷积神经网络的学习特性,生成更加精确的预测块,具体实现步骤如下:
一、获取训练数据
基于NBDV的预测与DCP是3D视频编码中两种不同的视点间预测编码模式,然而有些待编码块没有NBDV矢量,因此在获取训练数据过程中需要分别获取由NBDV过程得到的预测块及与之对应的DCP预测块。在本发明实施例中获取的预测块的大小为64×64,后续会对更小的预测块进行实验。
1)NBDV数据的获取
NBDV模式存在于Merge模式中,通过NBDV过程获得的视差矢量(记为IvDC)会作为Merge候选列表中的一个预测候选,在编码过程中会遍历列表中的每一个候选,此时,如果存在IvDC,则设定一个额外的标志记录其在最终候选列表中的位置,同时保存使用IvDC矢量进行补偿所得到的预测块。
然而,并不是所有的待编码块都能通过NBDV获得视差矢量,也不是所有的IvDC矢量都能存入最终的候选列表,因此,将存在且使用IvDC进行预测的块标记为1,否则标记为0。待编码完整帧图像后输出预测图像,同时将这些标记以表格的形式输出,最后利用matlab将输出的预测结果结合对应的表格进行切割,并按顺序输出,只保留那些使用NBDV模式的预测块作为训练数据。
2)DCP数据的获取
视差补偿预测和运动补偿预测具有相似的概念,均可理解为帧间预测的一种方法。但是两者的参考帧是有本质区别的。运动补偿预测(MCP)的参考帧是不同时刻,同一视点的已编码帧,而视差补偿预测(DCP)参考的是同一时刻,不同视点的已编码帧。由于DCP与MCP有异曲同工的作用,因此DCP模式与MCP模式混合存在于帧间预测模式中。在进行帧间预测/视点间预测的运动估计过程中会遍历参考图片列表,此时通过判断参考图片的视点索引找到视点间参考图片,保存使用该参考图片进行补偿所得到的预测块。
此外,考虑到Merge模式只能应用于PU大小为2N×2N的预测块,而对于同一大小的编码单元CU来说,帧间预测模式会遍历所有的PU划分方式,包括2N×2N、2N×N以及N×N等。在此,为了获得更高质量的预测块,本发明实施例采用率失真优化技术,对不同PU划分方式下的预测结果进行比较,保存不同PU划分方式下最优的预测结果作为DCP预测块。
为了从输出的预测图中找到与NBDV预测块相对应的DCP预测块,再利用前面获取NBDV数据过程中得到的表格,对其进行切割,并按顺序输出和存储。
二、预测网络的构建
本发明实施例基于VRCNN(可变卷积核大小的残差学习卷积神经网络)的网络结构,利用上一步方法获得NBDV数据和DCP数据,将通过NBDV模式得到的预测块记为P1,通过DCP模式得到的预测块记为P2,对应的原始图像块作为Label,记为Y。通过网络,获得更好的预测,使得预测块尽可能的接近原始图像,公式记为:
Figure BDA0002175028880000051
其中,f(·)为预测函数,
Figure BDA0002175028880000054
表示通道级联,l{·,·}表示损失函数,用于计算预测值与真实值之间的误差。从回归的角度分析,公式可写成如下形式:
Figure BDA0002175028880000052
其中,r(·)代表卷积神经网络,θ为网络参数,Pi为网络的输入数据,Yi为其对应的Label。损失函数l{·,·}可具体写为:
Figure BDA0002175028880000053
三、网络模型训练
本发明实施例将NBDV预测块与DCP预测块通道级联后的结果作为网络的输入,网络的输出为更加接近于原始图像块的增强预测块。网络总共包含四个卷积层,除最后一层外,每一层均使用ReLU作为非线性激活函数,f(x)=max(0,x),其中第二层和第三层分为两支,用不同大小的卷积核提取特征并进行融合,融合后的特征作为下一层的输入。最后采用残差学习的方式,先将输入的两通道数据进行线性叠加,再与网络的最后一层的输出相加得到最终的增强预测块,这样既有利于网络的收敛,又能提高网络预测的准确度。具体的网络结构见图2。
本发明实施例在Caffe平台上进行训练,针对四种不同QP训练不同的模型(25_34、30_39、35_42、40_45),训练的块大小为64×64。后续会根据不同大小的块训练不同的模型,如32×32、16×16、8×8。本发明实施例中的训练和测试都只针对亮度分量进行。
四、嵌入编码框架
本发明实施例使用的编码平台为HTM16.2,将网络与编码框架整合,首先分别提取NBDV模式得到的预测块与对应的DCP预测块的亮度分量并进行通道级联,然后将级联后的结果根据当前块的大小以及QP(量化参数)值调用相应的网络模型,最后对网络输出的预测块计算率失真代价并与当前编码块的最优模式代价进行比较,如果小于最优模式代价,选择本发明所提方法作为最优编码模式,并对相应的标志进行编码传输至解码端。
其中,将代价最小的模式作为最优模式。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种智能视点间的编码方法,其特征在于,所述方法包括以下步骤:
分别获取基于相邻块视差矢量模式得到的第一预测块、基于传统视差补偿预测模式得到的第二预测块;
构建可变卷积核大小的残差学习卷积神经网络结构;将上述两个预测块的亮度分量通道级联后的结果作为卷积神经网络的输入,网络的输出为原始图像块的增强预测块;
根据四种不同的量化参数训练四种不同的网络模型;
分别提取第一、第二预测块的亮度分量并进行通道级联,将级联后的结果根据当前编码块的大小以及量化参数值调用相应的网络模型;
最后对增强预测块计算率失真代价并与当前编码块的最优模式代价进行比较,如果小于最优模式代价,选择本方法作为最优编码模式,并对相应的标志进行编码传输至解码端。
2.根据权利要求1所述的一种智能视点间的编码方法,其特征在于,所述获取基于相邻块视差矢量模式得到的第一预测块具体为:
如果存在基于相邻块视差矢量模式得到的视差矢量,则设定标志记录其在最终候选列表中的位置,保存使用该视差矢量进行补偿所得到的预测块,待编码完整帧图像后输出预测图像;
将存在且使用该视差矢量进行预测的块标记为1,否则为0,将标记以表格的形式输出并对预测图像进行切割,仅保留使用相邻块视差矢量模式的预测块作为训练数据。
3.根据权利要求1所述的一种智能视点间的编码方法,其特征在于,所述获取基于传统视差补偿预测模式得到的第二预测块具体为:
通过判断参考图片的视点索引找到视点间参考图片,使用该参考图片进行视差补偿,采用率失真优化,保存不同PU划分方式下最优的预测结果作为传统视差补偿预测模式得到的第二预测块;
待编码完整帧图像后输出预测图像,利用表格,对预测图像进行切割,并按顺序输出和存储。
4.根据权利要求1所述的一种智能视点间的编码方法,其特征在于,所述构建可变卷积核大小的残差学习卷积神经网络表示为:
Figure FDA0003278741920000021
其中,f(·)为预测函数,
Figure FDA0003278741920000022
表示通道级联,l{·,·}表示损失函数,用于计算预测值与真实值之间的误差,第一预测块记为P1,第二预测块记为P2,原始图像块作为Label,记为Y。
CN201910775875.1A 2019-08-21 2019-08-21 一种智能视点间的编码方法 Active CN110557646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910775875.1A CN110557646B (zh) 2019-08-21 2019-08-21 一种智能视点间的编码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910775875.1A CN110557646B (zh) 2019-08-21 2019-08-21 一种智能视点间的编码方法

Publications (2)

Publication Number Publication Date
CN110557646A CN110557646A (zh) 2019-12-10
CN110557646B true CN110557646B (zh) 2021-12-07

Family

ID=68737861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910775875.1A Active CN110557646B (zh) 2019-08-21 2019-08-21 一种智能视点间的编码方法

Country Status (1)

Country Link
CN (1) CN110557646B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111464814B (zh) * 2020-03-12 2022-01-04 天津大学 一种基于视差引导融合的虚拟参考帧生成方法
CN113949867B (zh) * 2020-07-16 2023-06-20 武汉Tcl集团工业研究院有限公司 一种图像处理的方法及装置
CN116472707A (zh) * 2020-09-30 2023-07-21 Oppo广东移动通信有限公司 图像预测方法、编码器、解码器以及计算机存储介质
WO2022087901A1 (zh) * 2020-10-28 2022-05-05 Oppo广东移动通信有限公司 图像预测方法、编码器、解码器以及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104429076A (zh) * 2012-07-10 2015-03-18 高通股份有限公司 用于可缩放视频译码和3d视频译码的一般化残差预测
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102535361B1 (ko) * 2017-10-19 2023-05-24 삼성전자주식회사 머신 러닝을 사용하는 영상 부호화기 및 그것의 데이터 처리 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104429076A (zh) * 2012-07-10 2015-03-18 高通股份有限公司 用于可缩放视频译码和3d视频译码的一般化残差预测
CN107396124A (zh) * 2017-08-29 2017-11-24 南京大学 基于深度神经网络的视频压缩方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fast Mode Decision Using Inter-View and Inter-Component Correlations for Multiview Depth Video Coding;Jianjun Lei;《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》;20150831;第11卷(第4期);全文 *
基于网格的立体图像编码算法;杨嘉琛;《光电子·激光》;20100131;第21卷(第1期);全文 *

Also Published As

Publication number Publication date
CN110557646A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN110557646B (zh) 一种智能视点间的编码方法
CN103873861B (zh) 一种用于hevc的编码模式选择方法
CN104378643B (zh) 一种3d视频深度图像帧内预测模式选择方法及***
CN104125473B (zh) 一种3d视频深度图像帧内预测模式选择方法及***
CN104125469B (zh) 一种用于hevc的快速编码方法
CN103338370B (zh) 一种多视点深度视频快速编码方法
CN101600108A (zh) 一种多视点视频编码中的运动和视差联合估计方法
CN104038760B (zh) 一种3d视频深度图像帧内楔形分割模式选择方法及***
CN111464814B (zh) 一种基于视差引导融合的虚拟参考帧生成方法
CN101986716A (zh) 一种快速深度视频编码方法
CN108347605B (zh) 3d视频深度图像四叉树编码结构划分的快速决策方法
CN103327327B (zh) 用于高性能视频编码hevc的帧间预测编码单元选择方法
CN104469336B (zh) 多视点深度视频信号的编码方法
WO2016155070A1 (zh) 一种面向多纹理多深度视频的相邻视差矢量获取方法
CN102045571B (zh) 一种立体视频编码快速迭代搜索方法
CN103873867B (zh) 自由视点视频深度图失真预测方法和编码方法
CN102316323B (zh) 一种快速的双目立体视频分形压缩与解压缩方法
CN106210741B (zh) 一种基于视点间相关性的深度视频编码算法
CN101568038B (zh) 基于视差/运动联合估计的多视点容错编码框架
CN111669601B (zh) 一种3d视频智能多域联合预测编码方法及装置
CN113068041B (zh) 一种智能仿射运动补偿编码方法
CN112929629B (zh) 一种智能虚拟参考帧生成方法
Yan et al. CTU layer rate control algorithm in scene change video for free-viewpoint video
CN101557519A (zh) 一种多视点视频编码方法
CN109547798A (zh) 一种快速的hevc帧间模式选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant