CN107945108A - 视频处理方法及装置 - Google Patents
视频处理方法及装置 Download PDFInfo
- Publication number
- CN107945108A CN107945108A CN201610895061.8A CN201610895061A CN107945108A CN 107945108 A CN107945108 A CN 107945108A CN 201610895061 A CN201610895061 A CN 201610895061A CN 107945108 A CN107945108 A CN 107945108A
- Authority
- CN
- China
- Prior art keywords
- video code
- code flow
- resolution
- quantization
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012545 processing Methods 0.000 title claims abstract description 25
- 238000013139 quantization Methods 0.000 claims abstract description 206
- 238000013507 mapping Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 6
- 239000000523 sample Substances 0.000 description 115
- 230000006835 compression Effects 0.000 description 7
- 238000007906 compression Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000012488 sample solution Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明实施例涉及一种视频处理方法及装置,该方法包括:接收第一视频码流,其中,所述第一视频码流的分辨率为第一分辨率,所述第一视频码流中包括所述第一视频码流的量化信息;根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差;根据预存的数据库码流样本以及所述第一视频码流的量化误差对所述第一视频码流进行超分辨率SR重建得到第二视频码流,其中,所述第二视频码流的分辨率为第二分辨率,所述第二分辨率大于所述第一分辨率。本发明实施例提供的视频处理方法及装置,考虑了视频码流的量化误差,使得SR重建得到的高分辨率视频码流的质量更高。
Description
技术领域
本发明涉及视频处理技术领域,尤其涉及一种视频处理方法及装置。
背景技术
随着高清超高清产业链的逐步成熟,从制播到传输再到终端都已经满足了高清市场化的必要条件,在图像或视频的处理过程中,图像或视频在终端显示之前,需要经过超分辨率(Super Resolution,SR)重建。
SR重建是指采用软件方法对图像或视频的分辨率进行提高,来满足现阶段的高分辨率要求。现有SR重建方法,基于已获得的高分辨率和低分辨率图像块的特征来训练三层深度网络得到非线性映射关系,根据非线性映射关系做单帧图像SR重建。或通过训练学习得到一个端到端的低分辨率与高分辨率图像之间的深度卷积神经网络(ConvolutionalNeural Network,CNN)映射关系,根据深度CNN映射关系做单帧图像的SR重建。
但是,现有SR重建技术,忽略了压缩视频码流时编码量化带来的图像降质,在解码重建时丢弃了量化误差的重要信息,造成了SR重建质量的损失。
发明内容
本发明实施例提供一种视频处理方法及装置,可以使得SR重建得到的高分辨率视频码流质量更好。
第一方面,本发明实施例提供了一种视频处理方法,该方法包括:接收第一视频码流,其中,所述第一视频码流的分辨率为第一分辨率,所述第一视频码流中包括所述第一视频码流的量化信息;根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差;根据预存的数据库码流样本以及所述第一视频码流的量化误差对所述第一视频码流进行超分辨率SR重建得到第二视频码流,其中,所述第二视频码流的分辨率为第二分辨率,所述第二分辨率大于所述第一分辨率。
具体地,本发明实施例提供的视频处理方法,考虑了视频码流的量化误差,SR重建得到的高分辨率视频码流的质量更高。
在一种可能的实施方式中,在接收第一视频码流之前,还包括:获取量化噪声模型,其中,所述量化噪声模型用于根据量化信息得到量化误差;所述根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差,包括:根据所述第一视频码流的量化信息和所述量化噪声模型得到所述第一视频码流的量化误差。
具体地,本发明实施例建立了量化噪声模型,在对低分辨率视频码流SR重建时,考虑相应的量化误差,提高了SR重建得到的高分辨率视频码流的质量。
在一种可能的实施方式中,所述根据预存的数据库码流样本以及所述量化误差对所述第一视频码流SR重建得到第二视频码流,包括:根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值;根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值;将所述多个第二中间值编码为第二视频码流。
在一种可能的实施方式中,所述量化信息包括量化参数QP信息和量化的离散余弦变换DCT系数信息。所述根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值,包括:对所述第一视频码流熵解码,得到第一视频码流的QP信息和量化的DCT系数信息;根据所述第一视频码流的QP信息对所述第一视频码流的量化的DCT系数信息进行反量化操作,得到多个反量化后的第一DCT系数;根据所述多个反量化后的第一DCT系数和所述第一视频码流的量化误差得到多个反量化后的第二DCT系数;对所述多个反量化后的第二DCT系数进行反离散余弦变换IDCT操作,得到所述多个第一中间值。
在一种可能的实施方式中,所述根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值之前,还包括:根据所述量化噪声模型对所述预存的数据库码流样本解码,得到低分辨率中间值样本和高分辨率中间值样本,其中,所述数据库码流样本包括低分辨率码流样本和高分辨率码流样本;对所述低分辨率中间值样本和高分辨率中间值样本进行训练学习,得到所述低分辨率中间值样本和所述高分辨率中间值样本之间的映射关系;所述根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值,包括:根据所述映射关系对所述多个第一中间值进行SR重建得到多个第二中间值。
具体地,本发明实施例提供的数据库样本包括低分辨率视频码流样本和高分辨率视频码流样本。再根据量化噪声模型对低分辨率视频码流样本和高分辨率视频码流样本解码,并训练学习低分辨率视频码流样本和高分辨率视频码流样本之间更加精确的映射关系。以使得SR重建的高分辨率视频码流更加接近理想值。
在一种可能的实施方式中,所述获取量化噪声模型,包括:根据所述QP信息和量化的DCT系数信息得到量化噪声模型。
第二方面,本发明实施例提供了一种视频处理装置,该装置包括:接收单元,用于接收第一视频码流,其中,所述第一视频码流的分辨率为第一分辨率,所述第一视频码流中包括所述第一视频码流的量化信息;量化误差单元,用于根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差;SR重建单元,用于根据预存的数据库码流样本以及所述第一视频码流的量化误差对所述第一视频码流进行超分辨率SR重建得到第二视频码流,其中,所述第二视频码流的分辨率为第二分辨率,所述第二分辨率大于所述第一分辨率。
在一种可能的实施方式中,还包括:量化噪声模型获取单元,用于获取量化噪声模型,其中,所述量化噪声模型用于根据量化信息得到量化误差;所述量化误差单元,具体用于根据所述第一视频码流的量化信息和所述量化噪声模型得到所述第一视频码流的量化误差。
在一种可能的实施方式中,所述SR重建单元具体用于:根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值;根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值;将所述多个第二中间值编码为第二视频码流。
在一种可能的实施方式中,所述量化信息包括量化参数QP信息和量化的离散余弦变换DCT系数信息。所述SR重建单元具体用于:对所述第一视频码流熵解码,得到第一视频码流的QP信息和量化的DCT系数信息;根据所述第一视频码流的QP信息对所述第一视频码流的量化的DCT系数信息进行反量化操作,得到多个反量化后的第一DCT系数;根据所述多个反量化后的第一DCT系数和所述第一视频码流的量化误差得到多个反量化后的第二DCT系数;对所述多个反量化后的第二DCT系数进行反离散余弦变换IDCT操作,得到所述多个第一中间值。
在一种可能的实施方式中,该装置还包括:码流样本解码单元,用于根据所述量化噪声模型对所述预存的数据库码流样本解码,得到低分辨率中间值样本和高分辨率中间值样本,其中,所述数据库码流样本包括低分辨率码流样本和高分辨率码流样本;训练学习单元,用于对所述低分辨率中间值样本和高分辨率中间值样本进行训练学习,得到所述低分辨率中间值样本和所述高分辨率中间值样本之间的映射关系;所述SR重建单元具体用于:根据所述映射关系对所述多个第一中间值进行SR重建得到多个第二中间值。
在一种可能的实施方式中,所述量化噪声模型获取单元,具体用于根据所述QP信息和量化的DCT系数信息得到量化噪声模型。
基于上述技术方案,本发明实施例提供的视频处理方法及装置,对低分辨率视频码流进行SR重建时,考虑低分辨率视频码流的量化误差,降低了量化过程带来的质量损失。使得SR重建得到的相应的高分辨率视频码流更加接近理想值,提高了SR重建质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的视频处理***架构图;
图2为本发明实施例提供的一种视频处理方法流程示意图;
图3为本发明实施例提供的数据库样本训练学习方法流程示意图;
图4为本发明实施例提供的视频处理装置架构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明实施例提及的视频编码或者视频解码可根据视频压缩标准而操作。例如,数字视频压缩格式H.264标准和高效率视频编码(High Efficiency Video Coding,HEVC)标准。其中,HEVC标准又可称为H.265标准。应理解,本发明的技术不限于任何特定编解码标准或技术。
需要说明的是,视频码流包括量化的DCT系数、量化参数(QuantizationParameter,QP)以及预测模式等信息,解码器可根据量化的DCT系数、QP等信息将视频码流解码为多个图像帧。
可以理解的是,视频码流的编码过程包括:对图像块的像素数据帧间和/或帧内预测、DCT变换、量化、熵编码以及码流输出等步骤。DCT变换操作将像素的空域值变换为频域值,量化操作对频域像素值进行压缩。其中,DCT变换操作得到原始DCT系数,对原始DCT系数进行量化操作得到量化后的DCT系数。视频码流的解码过程包括熵解码、反量化、反DCT(Inverse DCT,IDCT)变换、帧间和/或帧内预测恢复图像块像素数据等步骤。相应地,熵解码操作后,得到量化的DCT系数、QP以及预测模式等信息。根据QP对量化后的DCT系数进行反量化操作,得到反量化后的DCT系数。将反量化后的DCT系数进行IDCT操作,得到空域像素值。
需要说明的是,由于量化过程是多对一的映射,因此可能会在量化过程引入量化误差,丢失了有效的信息。因此,反量化后的DCT系数相比原始DCT系数有一定的量化误差,直接采用反量化的DCT系数解码得到的图像块相比原始图像块可能会有一定的质量损失。可将编码前的图像块的空域像素值记为浮点数,相应地,如考虑量化误差会有一定的质量损失,解码得到的图像块的空域像素值记为整数值。
现有数据库样本包括低分辨率图像样本库和高分辨率图像样本库,通过训练学习得到的低分辨率图像样本库和高分辨率图像样本库之间的映射关系。这里的映射关系,指的是数据库样本中,一张低分辨率图像唯一对应一张高分辨率图像。进一步地,SR重建时,根据数据库样本的映射关系,对接收的低分辨率图像进行重建,得到对应的高分辨率图像。
图1为本发明实施例提供的视频处理***架构图。如图1所示,视频处理***包括:视频处理装置100。视频处理装置100接收低分辨率视频码流,并对低分辨率视频码流进行SR处理,输出高分辨率视频码流。
视频处理装置100将接收的低分辨率视频码流解码,在解码过程中,考虑量化误差,得到对应的多个第一中间值。视频处理装置100对每个第一中间值进行SR重建,得到每个第一中间值对应的第二中间值。视频处理装置100将多个第二中间值编码为相应的高分辨率视频码流并输出。
本发明实施例建立一个量化噪声模型,该模型可估计相关量化信息对应的量化误差。视频处理装置100对接收的低分辨率视频码流解码时,根据量化噪声模型,考虑量化误差,得到对应的考虑量化误差的多个第一中间值,使得解码得到的多个第一中间值的从原先的整数值变为更加接近实际值的浮点值。
需要说明的是,如不考虑量化误差,直接对视频码流解码,将得到多个空域像素值为整数的图像帧。本发明实施例在此基础上,考虑了量化误差,得到的数值为精确的浮点数,故记为中间值,这些中间值与不考虑量化误差的图像帧的像素值一一对应。
本发明实施例的数据库样本为低分辨率视频码流样本和高分辨率视频码流样本,本发明实施例SR重建之前,视频处理装置100需要对低分辨率视频码流样本和高分辨率视频码流样本分别解码,同时在解码过程中,考虑量化误差,得到相应的低分辨率中间值样本和高分辨率中间值样本。通过训练学习得到低分辨率中间值样本和高分辨率中间值样本的映射关系。并根据该映射关系对每个第一中间值进行SR重建,得到每个第一中间值对应的第二中间值。最后,将多个第二中间值编码为相应的高分辨率视频码流并输出。
可以理解的是,待SR重建的低分辨率图像和高分辨率图像的分辨率可以为多种。例如,目前高清市场对4K分辨率(3840×2160)的高分辨率图像或视频的需求很大。同时,目前传输的视频分辨率大多为1080P分辨率(1920×1080)。故需要将传输的1080P低分辨率图像或视频SR重建为4K高分辨率图像或视频后再显示。本发明实施例以低分辨率为1080P,高分辨率为4K为例,进行说明。但并不用于限制本发明实施例。本发明实施例提供的视频重建方法同样适用于重建其他分辨率的视频。
本发明实施例提供的视频处理方法及***,通过建立量化噪声模型,在对数据库码流样本解码时考虑量化误差,得到更加精确的中间值样本。进一步得到更加精确的映射关系。并在SR重建过程中引入量化噪声模型,使得待SR重建的低分辨率中间值更精确。进一步地,通过更加精确的映射关系对低分辨率中间值SR重建得到的相应的高分辨率中间值,以使最终输出的高分辨率视频的质量更高。
可以理解的是,本发明实施例提供的视频处理***还可包括源装置和目的地装置。其中,源装置用于产生低分辨率视频码流并发送给视频处理装置100,目的地装置可解码以及显示视频处理装置100发送的高分辨率视频码流。需要说明的是,视频处理装置100也可与目的地装置整合为一体,也就是说,目的地装置可包括将低分辨率视频码流重建为高分辨率视频码流的模块,代替执行视频处理装置100的功能。
具体地,源装置及目的地装置可包括广泛范围的装置,例如,包含台式计算机、移动计算装置、笔记本(例如,膝上型)计算机、平板计算机、机顶盒、智能电话等手持机、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机,或其类似者。
下面结合附图2,详细说明本发明实施例提供的方案。图2为本发明实施例提供的一种视频处理方法流程示意图,在本发明实施例中实施主体为视频处理装置。如图2所示,该实施例具体包括以下步骤:
步骤S101,接收第一视频码流,其中,所述第一视频码流的分辨率为第一分辨率,所述第一视频码流中包括所述第一视频码流的量化信息。
需要说明的是,低分辨率视频码流可统称为第一视频码流。第二分辨率视频码流可统称为高分辨率视频码流。
其中,在接收第一视频码流之前,还包括以下步骤:获取量化噪声模型,其中,所述量化噪声模型用于根据量化信息得到量化误差。
需要说明的是,在反量化步骤中可以利用码流中的量化信息估计量化噪声的分布模型,然后根据分布模型得到更加精确的解码后的中间值,减少了量化过程造成的质量损失。
优选地,所述量化信息包括量化参数QP信息和量化的离散余弦变换(DiscreteCosine Transform,DCT)系数信息。
所述获取量化噪声模型,包括:根据所述QP信息和量化的DCT系数信息得到量化噪声模型。
具体地,设编码过程中第(k,l)个DCT变换得到的DCT系数记为Y[k,l],那么量化过程把实值量化间隔映射到单一的实数量化后的第(k,l)个量化的DCT系数为Yq[k,l]=Q[Y[k,l]]。其中,为第k行,第l列位置处,第i个量化等级对应的量化前的DCT系数值;i为量化等级的序号,量化等级即QP;k,l分别为当前DCT变换的图像块的第k行,第l列的位置标号。
需要说明的是,QP的数值反映压缩程度。QP数值越小,量化越细,压缩程度越低,码率越高。QP数值越大,量化越粗糙,压缩程度越高,码率越低。
在高码率时,由于QP较小,压缩程度较低。此时,可以认为量化噪声服从均匀分布,并且与输入的DCT信号不相关,即量化误差均匀地分布在量化边界内,此时,第(k,l)个DCT系数的量化误差为:
在低码率时,由于QP较大,压缩程度较高,量化间隔较大。此时需要把DCT系数的先验信息加入到模型中进行噪声的精确估计,DCT系数是频域信号,根据Lam等人对DCT系数的分布的研究,拉普拉斯模型很适合,此时,第(k,l)个DCT系数的量化误差为:
其中,γ为保证分布归一化的一个常数,pY[k,l](y)是Lam等人提出的拉普拉斯分布函数,y为系数值位于范围内的渐变积分值。
量化参数QP的取值范围一般为[0~t]。当QP取最小值0时代表最精细的量化,码率最高;当QP取最大值t时代表最粗糙的量化,码率最低。本发明实施例中,我们将两种码率下的模型通过一个权重函数λ统一起来:令第(k,l)个反量化后的DCT系数的量化误差σ2[k,l]可以归纳为:
需要说明的是,上述公式(3)所示的公式,即为本发明实施例提供的量化噪声模型。
需要说明的是,亮度编码对应QP的最大值t为51。色度编码对应QP的最大值t为39。另外,QP最大值的取值,还可根据标准的改变而有所变化。
步骤S102,根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差。
优选地,根据所述第一视频码流的量化信息和所述量化噪声模型得到所述第一视频码流的量化误差。
具体地,可根据上述公式(3)所示的量化噪声模型,以及第一视频码流中的量化信息,得到第(k,l)个反量化后的DCT系数的量化误差σ2[k,l]。
步骤S103,根据预存的数据库码流样本以及所述第一视频码流的量化误差对所述第一视频码流进行SR重建得到第二视频码流,其中,所述第二视频码流的分辨率为第二分辨率,所述第二分辨率大于所述第一分辨率。
优选地,根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值;根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值;将所述多个第二中间值编码为第二视频码流。
具体地,对所述第一视频码流熵解码,得到第一视频码流的量化的DCT系数信息和QP信息;根据所述第一视频码流的QP信息对所述第一视频码流的量化的DCT系数信息进行反量化操作,得到多个反量化后的第一DCT系数;根据所述多个反量化后的第一DCT系数和所述量化误差得到多个反量化后的第二DCT系数;对所述多个反量化后的第二DCT系数进行反离散余弦变换IDCT操作,得到所述多个第一中间值。
进一步地,对第(k,l)个量化的DCT系数为Yq[k,l]]进行反量化操作,得到第(k,l)个反量化后的第一DCT系数记为根据第(k,l)个反量化后的第一DCT系数的量化误差,得到多个反量化后的第二DCT系数
其中,为经过量化误差修正的更加精确的反量化后的DCT系数,未考虑量化误差的反量化后的DCT系数为
本发明实施例对经过量化噪声模型估计的精确DCT系数进行IDCT变换,将DCT系数从频域值转换为空域值,得到较为精确的空域中间值,此中间值为连续的浮点数,并不是原来的整数。采用量化噪声模型最终建立更加精确的映射关系,进而得到更加准确的高分辨率中间值以及相应的高分辨率视频码流。
优选地,所述根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值之前,还包括:根据所述量化噪声模型对所述预存的数据库码流样本解码,得到低分辨率中间值样本和高分辨率中间值样本,其中,所述数据库码流样本包括低分辨率码流样本和高分辨率码流样本;对所述低分辨率中间值样本和高分辨率中间值样本进行训练学习,得到所述低分辨率中间值样本和所述高分辨率中间值样本之间的映射关系。具体可参照图3所示。
需要说明的是,当考虑对视频码流样本的量化误差进行解码时,将得到相应的浮点中间值样本,这些浮点中间值样本与未考虑量化误差解码得到的像素值为整数的图像帧样本相对应。故在进行SR重建之前,需要训练学习这些对应的浮点中间值之间的映射关系。浮点中间值之间的映射关系相比之前未考虑量化误差解码得到的低分辨率图像样本和高分辨率图像样本之间的映射关系更精确。
图3为本发明实施例提供的数据库样本训练学习方法流程示意图。如图3所示,包括步骤S201至步骤S202:
步骤S201,对低分辨率视频码流样本解码,并根据量化噪声模型考虑低分辨率视频码流样本的量化误差,得到精确的低分辨率中间值样本。对高分辨率视频码流样本解码,并根据量化噪声模型考虑高分辨率视频码流样本的量化误差,得到精确的高分辨率中间值样本。
需要说明的是,本发明实施例对低分辨率视频码流样本和对应的高分辨率视频码流样本解码过程都做上述公式(3)的量化噪声估计。解码过程中利用量化噪声模型,使得解码得到的低分辨率中间值样本和高分辨率中间值样本为浮点值,得到更加精确的数据库样本。
步骤S202,对低分辨率中间值样本和高分辨率中间值样本进行训练学习,得到低分辨率中间值样本和高分辨率中间值样本之间的映射关系。
具体地,训练学习可包括深度CNN学习。训练学习的目的是输出低分辨率视频码流样本与高分辨率视频码流样本之间的映射关系。
进一步地,所述根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值,包括:根据所述映射关系对所述多个第一中间值进行SR重建得到多个第二中间值。最后,将所述多个第二中间值编码为第二视频码流。
本发明实施例提供的视频处理方法和装置,以低分辨率视频码流作为输入,经过加入量化噪声估计模型的解码过程后,生成精确的低分辨率中间值。将此中间值进行SR重建,得到高分辨率中间值,然后进行编码得到输出高分辨率视频码流。
本发明提供的视频处理方法和装置,将深度学习的训练样本进行预处理,使得样本值更加精确。本发明充分利用了输入的低分辨率视频码流所提供的量化信息,根据量化噪声的分布情况,对不同码率的量化噪声采用一个统一的模型更加精确的估计出了量化前的DCT系数,这样经过反DCT变换得到更加精确的像素空域中间值。同时,根据量化噪声模型处理后的样本值更加精确,学习得到更加精确的映射关系,对更加精确的解码得到的像素空域中间值根据更加精确的映射关系进行SR重建,使得SR重建得到的高分辨率视频码流质量更好。
图4为本发明实施例提供的视频处理装置架构图。如图4所示,包括:接收单元401、量化误差单元402、SR重建单元403、量化噪声模型获取单元404、码流样本解码单元405以及训练学习单元406。
本发明实施例提供的视频处理装置的接收单元401用于接收第一视频码流,其中,所述第一视频码流的分辨率为第一分辨率,所述第一视频码流中包括所述第一视频码流的量化信息。
量化误差单元402用于根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差。
SR重建单元403用于根据预存的数据库码流样本以及所述第一视频码流的量化误差对所述第一视频码流进行超分辨率SR重建得到第二视频码流,其中,所述第二视频码流的分辨率为第二分辨率,所述第二分辨率大于所述第一分辨率。
优选地,量化噪声模型获取单元404用于获取量化噪声模型,其中,所述量化噪声模型用于根据量化信息得到量化误差。
所述量化误差单元402具体用于根据所述第一视频码流的量化信息和所述量化噪声模型得到所述第一视频码流的量化误差。
优选地,所述SR重建单元403具体用于:根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值;根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值;将所述多个第二中间值编码为第二视频码流。
优选地,所述量化信息包括量化参数QP信息和量化的离散余弦变换DCT系数信息。
优选地,所述SR重建单元403具体用于:对所述第一视频码流熵解码,得到第一视频码流的QP信息和量化的DCT系数信息;根据所述第一视频码流的QP信息对所述第一视频码流的量化的DCT系数信息进行反量化操作,得到多个反量化后的第一DCT系数;根据所述多个反量化后的第一DCT系数和所述第一视频码流的量化误差得到多个反量化后的第二DCT系数;对所述多个反量化后的第二DCT系数进行反离散余弦变换IDCT操作,得到所述多个第一中间值。
需要说明的是,SR重建单元403的具体实现方式,可参照上述图2中的介绍。
优选地,码流样本解码单元405用于根据所述量化噪声模型对所述预存的数据库码流样本解码,得到低分辨率中间值样本和高分辨率中间值样本,所述数据库码流样本包括低分辨率码流样本和高分辨率码流样本。
训练学习单元406用于对所述低分辨率中间值样本和高分辨率中间值样本进行训练学习,得到所述低分辨率中间值样本和所述高分辨率中间值样本之间的映射关系。
需要说明的是,码流样本解码单元405以及训练学习单元406的具体实现方式,可参照上述图2及图3中的介绍。
所述SR重建单元403具体用于:根据所述映射关系对所述多个第一中间值进行SR重建得到多个第二中间值。
优选地,所述量化噪声模型获取单元404,具体用于根据所述QP信息和量化的DCT系数信息得到量化噪声模型。
需要说明的是,上述各单元的功能,旨在实现前述方法实施例中的各个步骤。其中,本发明实施例提供的视频处理装置还可包括更多或更少的单元,以能够实现本发明实施例的方法。
本发明实施例提供的数据库样本包括不同码率的1080P分辨率视频码流样本、不同码率的4K分辨率视频码流样本。深度学习SR重建方法的训练模块直接训练输入码流样本(如1080P分辨率视频码流)到输出码流样本(如4K分辨率视频码流)的映射关系。在训练输入码流到输出码流的映射关系中,考虑量化误差对视频码流解码得到中间值,使得训练得到低分辨率中间值样本与高分辨率中间值样本的映射关系更加精确。
本发明实施例提供的视频处理方法及装置,将量化噪声的估计加入了深度学习SR重建的训练模块,在学习训练阶段就考虑了量化误差,从根本上解决了训练学习得到的映射关系不准确的弊端,降低了量化过程带来的质量损失。以及,在对待进行SR重建的低分辨率视频码流解码阶段考虑了相应的量化误差,使得SR重建得到的相应的高分辨率视频码流更加接近理想值,提高了SR重建质量。
本发明实施例提供的视频处理方法及装置,还可以应用于图像或视频复原、图像视频去模糊等领域。需要改变数据库样本,输入输出为复原前和复原后的视频,或去模糊之前和去模糊之后的视频。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (12)
1.一种视频处理方法,其特征在于,所述方法包括:
接收第一视频码流,其中,所述第一视频码流的分辨率为第一分辨率,所述第一视频码流中包括所述第一视频码流的量化信息;
根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差;
根据预存的数据库码流样本以及所述第一视频码流的量化误差对所述第一视频码流进行超分辨率SR重建得到第二视频码流,其中,所述第二视频码流的分辨率为第二分辨率,所述第二分辨率大于所述第一分辨率。
2.根据权利要求1所述的方法,其特征在于,在接收第一视频码流之前,还包括:
获取量化噪声模型,其中,所述量化噪声模型用于根据量化信息得到量化误差;
所述根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差,包括:
根据所述第一视频码流的量化信息和所述量化噪声模型得到所述第一视频码流的量化误差。
3.根据权利要求2所述的方法,其特征在于,所述根据预存的数据库码流样本以及所述量化误差对所述第一视频码流进行SR重建得到第二视频码流,包括:
根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值;
根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值;
将所述多个第二中间值编码为第二视频码流。
4.根据权利要求3所述的方法,其特征在于,所述量化信息包括量化参数QP信息和量化的离散余弦变换DCT系数信息;所述根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值,包括:
对所述第一视频码流熵解码,得到第一视频码流的QP信息和量化的DCT系数信息;
根据所述第一视频码流的QP信息对所述第一视频码流的量化的DCT系数信息进行反量化操作,得到多个反量化后的第一DCT系数;
根据所述多个反量化后的第一DCT系数和所述第一视频码流的量化误差得到多个反量化后的第二DCT系数;
对所述多个反量化后的第二DCT系数进行反离散余弦变换IDCT操作,得到所述多个第一中间值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值之前,还包括:
根据所述量化噪声模型对所述预存的数据库码流样本解码,得到低分辨率中间值样本和高分辨率中间值样本,其中,所述数据库码流样本包括低分辨率码流样本和高分辨率码流样本;
对所述低分辨率中间值样本和高分辨率中间值样本进行训练学习,得到所述低分辨率中间值样本和所述高分辨率中间值样本之间的映射关系;
所述根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值,包括:
根据所述映射关系对所述多个第一中间值进行SR重建得到多个第二中间值。
6.根据权利要求4所述的方法,其特征在于,所述获取量化噪声模型,包括:
根据所述QP信息和量化的DCT系数信息得到量化噪声模型。
7.一种视频处理装置,其特征在于,所述装置包括:
接收单元,用于接收第一视频码流,其中,所述第一视频码流的分辨率为第一分辨率,所述第一视频码流中包括所述第一视频码流的量化信息;
量化误差单元,用于根据所述第一视频码流的量化信息得到所述第一视频码流的量化误差;
SR重建单元,用于根据预存的数据库码流样本以及所述第一视频码流的量化误差对所述第一视频码流进行超分辨率SR重建得到第二视频码流,其中,所述第二视频码流的分辨率为第二分辨率,所述第二分辨率大于所述第一分辨率。
8.根据权利要求7所述的装置,其特征在于,还包括:
量化噪声模型获取单元,用于获取量化噪声模型,其中,所述量化噪声模型用于根据量化信息得到量化误差;
所述量化误差单元,具体用于根据所述第一视频码流的量化信息和所述量化噪声模型得到所述第一视频码流的量化误差。
9.根据权利要求8所述的装置,其特征在于,所述SR重建单元具体用于:根据所述第一视频码流的量化误差对所述第一视频码流解码,得到多个第一中间值;根据所述预存的数据库码流样本对所述多个第一中间值进行SR重建得到多个第二中间值;将所述多个第二中间值编码为第二视频码流。
10.根据权利要求9所述的装置,其特征在于,所述量化信息包括量化参数QP信息和量化的离散余弦变换DCT系数信息;所述SR重建单元具体用于:对所述第一视频码流熵解码,得到第一视频码流的QP信息和量化的DCT系数信息;根据所述第一视频码流的QP信息对所述第一视频码流的量化的DCT系数信息进行反量化操作,得到多个反量化后的第一DCT系数;根据所述多个反量化后的第一DCT系数和所述第一视频码流的量化误差得到多个反量化后的第二DCT系数;对所述多个反量化后的第二DCT系数进行反离散余弦变换IDCT操作,得到所述多个第一中间值。
11.根据权利要求9所述的装置,其特征在于,还包括:
码流样本解码单元,用于根据所述量化噪声模型对所述预存的数据库码流样本解码,得到低分辨率中间值样本和高分辨率中间值样本,其中,所述数据库码流样本包括低分辨率码流样本和高分辨率码流样本;
训练学习单元,用于对所述低分辨率中间值样本和高分辨率中间值样本进行训练学习,得到所述低分辨率中间值样本和所述高分辨率中间值样本之间的映射关系;
所述SR重建单元具体用于:根据所述映射关系对所述多个第一中间值进行SR重建得到多个第二中间值。
12.根据权利要求10所述的装置,其特征在于,所述量化噪声模型获取单元,具体用于根据所述QP信息和量化的DCT系数信息得到所述量化噪声模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610895061.8A CN107945108A (zh) | 2016-10-13 | 2016-10-13 | 视频处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610895061.8A CN107945108A (zh) | 2016-10-13 | 2016-10-13 | 视频处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107945108A true CN107945108A (zh) | 2018-04-20 |
Family
ID=61928477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610895061.8A Withdrawn CN107945108A (zh) | 2016-10-13 | 2016-10-13 | 视频处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107945108A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113491134A (zh) * | 2018-12-28 | 2021-10-08 | 多玩国株式会社 | 图像收发***、数据收发***、收发方法、计算机程序、图像发送***、图像接收装置、发送***、接收装置 |
WO2023133888A1 (zh) * | 2022-01-17 | 2023-07-20 | 深圳市大疆创新科技有限公司 | 图像处理方法、装置、遥控设备、***及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551902A (zh) * | 2009-05-15 | 2009-10-07 | 武汉大学 | 基于学习的压缩视频超分辨率的特征匹配方法 |
CN101577825A (zh) * | 2009-05-15 | 2009-11-11 | 武汉大学 | 压缩视频超分辨率中交互式量化噪声计算方法 |
CN103475876A (zh) * | 2013-08-27 | 2013-12-25 | 北京工业大学 | 一种基于学习的低比特率压缩图像超分辨率重建方法 |
-
2016
- 2016-10-13 CN CN201610895061.8A patent/CN107945108A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101551902A (zh) * | 2009-05-15 | 2009-10-07 | 武汉大学 | 基于学习的压缩视频超分辨率的特征匹配方法 |
CN101577825A (zh) * | 2009-05-15 | 2009-11-11 | 武汉大学 | 压缩视频超分辨率中交互式量化噪声计算方法 |
CN103475876A (zh) * | 2013-08-27 | 2013-12-25 | 北京工业大学 | 一种基于学习的低比特率压缩图像超分辨率重建方法 |
Non-Patent Citations (1)
Title |
---|
LU TAO 等: "Super-resolution for compressed video based on DCT side information", 《2009 ASIA-PACIFIC CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND INDUSTRIAL APPLICATIONS》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113491134A (zh) * | 2018-12-28 | 2021-10-08 | 多玩国株式会社 | 图像收发***、数据收发***、收发方法、计算机程序、图像发送***、图像接收装置、发送***、接收装置 |
US11800185B2 (en) | 2018-12-28 | 2023-10-24 | Dwango Co., Ltd. | Image transmission and reception system, data transmission and reception system, transmission and reception method, computer program, image transmission system, image reception device, transmission system, reception device |
WO2023133888A1 (zh) * | 2022-01-17 | 2023-07-20 | 深圳市大疆创新科技有限公司 | 图像处理方法、装置、遥控设备、***及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220353534A1 (en) | Transform Kernel Selection and Entropy Coding | |
US9407915B2 (en) | Lossless video coding with sub-frame level optimal quantization values | |
KR101266667B1 (ko) | 장치 내 제어기에서 프로그래밍되는 압축 방법 및 시스템 | |
US11102477B2 (en) | DC coefficient sign coding scheme | |
CN104378636B (zh) | 一种视频图像编码方法及装置 | |
CN111741302B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
US9681140B2 (en) | Device and a method for encoding an image and corresponding decoding method and decoding device | |
US10021398B2 (en) | Adaptive tile data size coding for video and image compression | |
CN109922340A (zh) | 图像编解码方法、装置、***及存储介质 | |
CN107945108A (zh) | 视频处理方法及装置 | |
CN104581173A (zh) | 软解码验证模型平台 | |
JP7125559B2 (ja) | ビットレート削減のためのビデオストリーム適応フィルタリング | |
US11051018B2 (en) | Transforms for large video and image blocks | |
EP3026912A1 (en) | Method and device for encoding and decoding a HDR picture and a LDR picture using illumination information | |
CN111491166A (zh) | 基于内容分析的动态压缩***及方法 | |
CN110692247A (zh) | 复合运动补偿的预测 | |
WO2022120829A1 (zh) | 图像编码及解码方法和装置、图像处理装置、可移动平台 | |
WO2023000182A1 (zh) | 图像编解码及处理方法、装置及设备 | |
EP3035685A1 (en) | A device and a method for encoding an image and corresponding decoding method and decoding device | |
KR102398232B1 (ko) | 참조 영상 필터링을 통한 비디오 신호 복호화 방법 및 장치 | |
CN116830574A (zh) | 具有指定比特深度精度的调色板模式代码化 | |
CN115866244A (zh) | 图像编码方法及装置 | |
CN117939157A (zh) | 图像处理方法、装置及设备 | |
CN111147865A (zh) | 一种视频编码前的预解码方法 | |
Song et al. | Study on Nearly Lossless Compression with Progressive Decoding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180420 |