CN113422959A - 视频编解码的方法、装置、电子设备及存储介质 - Google Patents

视频编解码的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113422959A
CN113422959A CN202110599942.6A CN202110599942A CN113422959A CN 113422959 A CN113422959 A CN 113422959A CN 202110599942 A CN202110599942 A CN 202110599942A CN 113422959 A CN113422959 A CN 113422959A
Authority
CN
China
Prior art keywords
time
prediction
varying
brightness
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110599942.6A
Other languages
English (en)
Inventor
葛强
洪一帆
向国庆
滕波
杨光芒
周东东
吴亮
王琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Smart Video Security Innovation Center Co Ltd
Original Assignee
Zhejiang Smart Video Security Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Smart Video Security Innovation Center Co Ltd filed Critical Zhejiang Smart Video Security Innovation Center Co Ltd
Priority to CN202110599942.6A priority Critical patent/CN113422959A/zh
Publication of CN113422959A publication Critical patent/CN113422959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例公开了一种视频编解码的方法、装置、电子设备及存储介质。其中,视频编码的方法包括:确定视频数据中多帧连续图像里至少一个相似目标所在的内容区域;根据所述内容区域的图像数据建立所述视频数据的亮度时变预测模型;基于所述亮度时变预测模型对所述视频数据进行帧间运动预测和/或帧内编码。本申请实施例通过对图像块亮度随时间变化的情况进行计算和预测,有效解决了部分场景亮度差异大影响搜索和编码效率的问题。

Description

视频编解码的方法、装置、电子设备及存储介质
技术领域
本申请涉及多媒体处理技术领域,具体涉及一种视频编解码的方法、装置、电子设备及存储介质。
背景技术
视频是由一张张图片连接起来形成的动态图像序列,若直接将每张图片的每一个像素点数据都加以存储,视频码流所占用的带宽将不可估量。视频编解码的作用就是在摄像头采集画面后,将图像进行压缩和数字编码,获取更加优化、抗干扰能力强的码流,以用于传输。本质上,就是用尽可能小的带宽传送高质量的视频数据。从MPEG-1到MPEG-2,从H.263、H.264到H.265(HEVC),以及现在的H.266等一系列标准,都是为了让码流更优化、压缩效率更高、稳定性更强。
其中,视频编码的输入是一系列未压缩图像,比如是来自图像传感器采集到的一系列连续的图像帧构成的视频信息,输出为包括已压缩视频数据、视频压缩及传输有关的信息码流。在现有基于分块的视频编解码技术中,利用视频数据在空间、时间上的相关性,采用帧间运动预测、帧内相邻块预测算法可以极大地提高视频数据压缩率。目前主要的视频编码标准帧间预测部分都采用了基于分块的运动补偿技术。例如在HEVC和VCC标准中,将一帧图像分成若干的编码区域(Coding Tree Unit, CTU)。对于每个编码区域(CTU),可以进一步划分成方形或矩形的编码单元(Coding Unit,CU),每个编码单元(CU)在参考帧中(一般为时域附近的已重构帧)寻找最相似块作为当前编码单元(CU)的预测块(PU)。
在上述常规运动补偿技术中,必须要找到若干参考块(最相似块),以利用参考块与当前块的相似性进行多个图像块的编码压缩。目前搜索参考块的基本算法就是依据当前编码块与潜在参考块之间亮度的差异,差异足够小的才可以作为参考块,从而有效减少搜索量。然而在实际应用中,由于视频中有些区域的亮度可能会随时间持续变化,导致最理想的参考块与编码块之间仍存在较大的亮度数值差异,影响参考块定位的成功率,因而使编码效率较低。而这个问题在亮度随时间变化较快的场景中更为明显,比如动画和视频作品中,常规的运动预测和补偿技术在处理此类随时间变化较快的视频区域时编码效率较低。
发明内容
针对现有技术中的上述技术问题,本申请实施例提出了一种视频编解码的方法、装置、电子设备及存储介质,以解决现有视频压缩技术在亮度变化的场景中编码效率低的问题。
本申请实施例的第一方面提供了一种视频编码的方法,包括:
确定视频数据中多帧连续图像里至少一个相似目标所在的内容区域;
根据所述内容区域的图像数据建立所述视频数据的亮度时变预测模型;
基于所述亮度时变预测模型对所述视频数据进行帧间运动预测和/或帧内编码。
在一些实施例中,所述方法还包括:利用目标检测算法对所述视频数据中的所述多帧连续图像进行目标检测,以确定所述至少一个相似目标以及所述内容区域。
在一些实施例中,所述目标检测算法包括Fast RCNN、FasterRCNN、Mask RCNN、R-FCN、FPN中的至少一种。
在一些实施例中,所述亮度时变预测模型的建立包括:
确定所述多帧连续图像的时域时间差关系;
确定所述内容区域在所述多帧连续图像中的亮度值变化关系;
根据所述时域时间差关系和所述亮度值变化关系建立所述视频数据的亮度时变预测模型。
在一些实施例中,所述方法还包括:将所述亮度时变预测模型的参数编码到视频码流中。
本申请实施例的第二方面提供了一种视频解码的方法,包括:
对编码后视频数据解码得到当前编码块的像素预测值;
根据所述编码后视频数据中的亮度时变预测模型对所述像素预测值进行时变预测补偿,得到所述当前编码块的重构像素值;其中,所述亮度时变预测模型为多帧连续图像里至少一个相似目标所在的内容区域中的亮度值表达。
在一些实施例中,所述方法中,利用所述当前编码块附近已经解码完成的编码块、使用所述当前编码块的预测模式进行帧内预测和/或帧间预测,得到所述当前编码块的像素预测值。
在一些实施例中,所述方法还包括:
对所述编码后视频数据解码得到所述当前编码块的像素残差;
针对所述像素残差与所述像素预测值的叠加进行所述时变预测补偿。
本申请实施例的第三方面提供了一种视频编码的装置,包括:
区域确定模块,用于确定视频数据中多帧连续图像里至少一个相似目标所在的内容区域;
模型建立模块,用于根据所述内容区域的图像数据建立所述视频数据的亮度时变预测模型;
预测/编码模块,用于基于所述亮度时变预测模型对所述视频数据进行帧间运动预测和/或帧内编码。
在一些实施例中,所述装置还包括:目标检测模块,用于利用目标检测算法对所述视频数据中的所述多帧连续图像进行目标检测,以确定所述至少一个相似目标以及所述内容区域。
在一些实施例中,所述目标检测算法包括Fast RCNN、FasterRCNN、Mask RCNN、R-FCN、FPN中的至少一种。
在一些实施例中,所述模型建立模块包括:
第一确定模块,用于确定所述多帧连续图像的时域时间差关系;
第二确定模块,用于确定所述内容区域在所述多帧连续图像中的亮度值变化关系;
模型建立子模块,用于根据所述时域时间差关系和所述亮度值变化关系建立所述视频数据的亮度时变预测模型。
在一些实施例中,所述装置还包括:参数编码模块,用于将所述亮度时变预测模型的参数编码到视频码流中。
本申请实施例的第四方面提供了一种视频解码的装置,包括:
第一解码模块,用于对编码后视频数据解码得到当前编码块的像素预测值;
时变补偿模块,用于根据所述编码后视频数据中的亮度时变预测模型对所述像素预测值进行时变预测补偿,得到所述当前编码块的重构像素值;其中,所述亮度时变预测模型为多帧连续图像里至少一个相似目标所在的内容区域中的亮度值表达。
在一些实施例中,所述第一解码模块包括:预测解码模块,用于利用所述当前编码块附近已经解码完成的编码块、使用所述当前编码块的预测模式进行帧内预测和/或帧间预测,得到所述当前编码块的像素预测值。
在一些实施例中,所述装置还包括:
第二解码模块,用于对所述编码后视频数据解码得到所述当前编码块的像素残差;
所述时变补偿模块还用于针对所述像素残差与所述像素预测值的叠加进行所述时变预测补偿。
本申请实施例的第五方面提供了一种电子设备,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。
本申请实施例的第六方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。
本申请实施例的第七方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。
本申请实施例通过对图像块亮度随时间变化的情况进行计算和预测,有效解决了部分场景亮度差异大影响搜索和编码效率的问题。
附图说明
通过参考附图会更加清楚的理解本申请的特征和优点,附图是示意性的而不应理解为对本申请进行任何限制,在附图中:
图1是根据本申请的一些实施例所示的一种视频编码的方法的流程示意图;
图2是根据本申请的一些实施例所示的一种视频编码的装置的结构框图;
图3是根据本申请的一些实施例所示的用于视频编解码的一种电子设备的结构示意图。
具体实施方式
在下面的详细描述中,通过示例阐述了本申请的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本申请显而易见的可以在没有这些细节的情况下实施。应当理解的是,本申请中使用“***”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。
应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本申请所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。
本申请所用术语仅为了描述特定实施例,而非限制本申请范围。如本申请说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。
参看下面的说明以及附图,本申请的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本申请的保护范围。可以理解的是,附图并非按比例绘制。
本申请中使用了多种结构图用来说明根据本申请的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本申请。本申请的保护范围以权利要求为准。
为了充分提高压缩率,视频编码时会尽量把图像块采用简短的编码表示,解码时再使用简短编码还原该图像块。大多数视频序列中,相邻图像内容有较高的相似度,因而只需要找到相似图像块在各个图像帧的出现位置,就可以使用一个图像块的编码来表示多帧中的多个图像块,从而提高压缩率。现有技术中,为实现对图像块位置的快速搜索,其基本算法首先利用图像块之间的亮度差异来筛选可能的参考块。现有技术的方式虽然一定程度上减少了搜索计算量,但其仅在亮度变化小的情况下有效,对于亮度变化较大较快的场景中,现有方式反而会将参考块首先排除掉,使得后续的搜索和编码压缩工作无法有效开展,既不能提升搜索效率,也无法提升编码效率。
有鉴于此,本申请的实施例提出了一种视频编码的方法,通过对图像块亮度随时间变化的情况进行计算和预测,有效解决了部分场景亮度差异大影响搜索和编码效率的问题。具体地,参见图1,在本申请的一个实施例中,所述视频编码的方法包括:
S101,确定视频数据中多帧连续图像里至少一个相似目标所在的内容区域;
S102,根据所述内容区域的图像数据建立所述视频数据的亮度时变预测模型;
S103,基于所述亮度时变预测模型对所述视频数据进行帧间运动预测和/或帧内编码。
在本申请的实施例中,通过建立亮度时变预测模型,对视频数据中图像区域的像素点亮度变化情况进行预测,从而可在图像块搜索之前大致确定参考块的亮度值,使得基于亮度差异进行的参考块筛选可有效应对亮度变化快的场景,保证了后续帧间运动预测和/或帧内编码的块搜索成功率和编码效率。
在本申请的一个实施例中,所述方法还包括:对视频数据中多帧连续图像进行目标检测,确定所述多帧连续图像中至少一个相似目标的内容区域。其中,目标及内容区域的检测优选通过目标检测算法进行;目标检测算法是人工智能领域中的图像处理(识别)算法,通过机器学习(比如深度学习)训练后的模型来检测识别图像中的一个或多个目标,并确定各个目标所在的区域。优选地,在本申请的实施例中,基于Fast RCNN(RegionConvolutional Neural Networks,区域卷积神经网络)、FasterRCNN、Mask RCNN、R-FCN(Region Fully Convolutional Networks,区域全卷积网络)、FPN(Feature PyramidNetworks,特征金字塔网络)中的至少一种目标检测算法对所述视频数据中的所述多帧连续图像进行目标检测,以确定所述至少一个相似目标以及所述内容区域。
当然,本领域相关技术人员应当理解,采用目标检测算法进行目标检测仅仅是优选的实施方式之一,利用相对成熟的人工智能模型可以在一定程度上提升处理效率,但其显然并非唯一的目标检测手段。事实上,在本申请的实施例中,采用更传统的图像处理手段,比如通过图像标准化、平滑处理、边缘分割、轮廓提取和特征提取等处理步骤进行的目标检测也同样可适用于本申请的技术方案中。在其他一些可选的实施方式中,对于重要的视频数据、或是典型的亮度变化情况、又或者是大量相似图像帧集中处理等场合,采用人工标注相似目标以及内容区域方式显然也是可行的。因而此处目标检测的方式不应视作对本申请具体实现手段的限制,任何可行的方式均可适用于本申请的技术方案中。
在本申请的一个实施例中,所述亮度时变预测模型的建立进一步包括:
确定所述多帧连续图像的时域时间差关系;
确定所述内容区域在所述多帧连续图像中的亮度值变化关系;
根据所述时域时间差关系和所述亮度值变化关系建立所述视频数据的亮度时变预测模型。
其中,所述多帧连续图像的具体数量可根据预测模型的精度要求而设定,在本申请的一个优选实施例中,以2帧连续图像为例介绍了一种亮度时变预测模型的实现方式,本领域相关技术人员应当理解,该优选实施例仅仅是一种示例性的说明,不应视作对本申请具体实现方式的限制。
可选地,亮度时变预测模型的目的是确定各帧图像中相似目标所在区域的亮度值计算和表达方式,以便在编码时利用其快速筛选参考块;并传递给解码端,在解码时利用其快速还原编码块信息。假设将区域中同一位置点(x,y)的像素亮度值I(x,y)随时间t变化的函数值表示为I(x,y,t)=C(x,y)+f(x,y,Δt);其中,C(x,y)为点(x,y)在t0时刻的像素亮度值(即I(x,y,t0)=C(x,y)),Δt=t-t0,f(x,y,Δt)为跟位置有关的亮度值随时间变化关系。
当时间间隔较短、即Δt较小时(视频图像通常每秒24帧以上,显然两帧之间的时间间隔非常短),可以将f(x,y,Δt)近似为一维线性函数,即有f(x,y,Δt)≈g(x,y)*Δt;而如果所在区域(编码块)较小(由算法决定,通常编码块大小相对于整幅图像来说非常小),可以进一步假定在整个编码块内一维线性函数g(x,y)都是相同的常数G,即有f(x,y,Δt)=G*Δt。
因此,在上述假设成立的情况下,位置点(x,y)的像素亮度函数值可表示为I(x,y,t)=C(x,y)+ G*Δt;亮度时变预测模型中只需确定常数G和初始亮度值C(x,y)即可预测相似目标在多个图像帧中可能的亮度值;其中C(x,y)也可以理解为排除时变影响下位置点(x,y)的基础亮度值。
以2帧连续图像为例,首先确定其中相似目标所在的内容区域;确定后,计算2帧图像的时域时间差t2-t1,其中t1为第一帧图像的在时域上的第一时刻,t2为第二帧图像的在时域上的第二时刻。通常情况下,视频中连续两帧的时间差有一定标准,故t1和t2通常无需准确确定,根据视频每秒帧率计算连续两帧的时间差即可。另外,原则上两帧图像的初始亮度值/排除时变影响的基础亮度值C(x,y)应该不变(即相同),且对于确定的两帧图像来说,其像素亮度值可以根据图像数据准确确定;故可以通过G=I(x,y,t2) - I(x,y,t1)来计算出常数G,其中I(x,y,t2)和I(x,y,t1)可以为2帧连续图像里相似目标所在区域的像素平均亮度值;或是按照其定义,是同一位置点(可以有默认点、也可指定或随机选定)在2帧连续图像里的亮度值。
求得常数G后,就可以进一步推算初始亮度值/排除时变影响的基础亮度值C(x,y),比如根据时刻t0和t1(或t2)的具体数值代入进行计算;或是将相似目标首次出现的视频帧的亮度值指定为C(x,y);又或者按照一定的逻辑选定多帧连续图像中的一帧的亮度值指定为C(x,y)。从而最终确定亮度时变预测模型的表达方式I(x,y,t)=C(x,y)+ G*Δt中的各项参数。
根据最终确定的亮度时变预测模型,将时变预测后的结果作为帧间运动预测或帧内编码算法中的像素亮度值,这样可以消除亮度受时变因素的影响,从而使得基于亮度的参考块的筛选和搜索可与亮度变化的场景相符合,确保了各算法的有效性和编码效率。
当然,本领域相关技术人员应当理解,上述亮度时变预测模型的表达方式仅仅是本申请一个优选实施例中的近似表达方式,并非唯一可行的实施方式。事实上,当采用足够多的图像数据时,上述一维线性函数g(x,y)和/或时变关系函数f(x,y,Δt)也可以精确拟合/确定,甚至可以建立区域中多个位置点的多个亮度值表达式,又或者是建立整个区域所有像素点的亮度值时变模型(比如基于人工智能模型实现)。因而本申请的技术方案中存在多种可行的实施方式,任何可行的方式均可适用于本申请,上述优选的表达方式仅仅是在多种实现方式中根据成本、性能和效率等需求所做的一种折衷的选择,不应视作对本申请具体实现手段的限制。
进一步地,在本申请的一些实施例中,将时变预测模型的参数编码到视频码流中,用于在解码端恢复原始视频信息。
当然,本领域技术人员应当理解,本申请的技术方案所要解决的技术问题是消除亮度变化对参考块搜索/预测的影响,因而主要关注亮度时变预测模型的建立及使用的实现方式。事实上,完整的视频编码过程通常还包括一些进一步优化的手段,比如运动估计、帧间预测、帧内预测/编码、运动补偿、DCT(离散余弦变换,Discrete Cosine Transform)、量化、熵编码和滤波等,故本申请的实施例除亮度时变预测外,还会进一步结合上述一种或多种优化手段来完成完整的视频编码。鉴于现有技术对这些优化手段已有充分的研究,本申请的实施例可直接使用现有手段来实现,故不再一一展开说明,上述优化手段也不应视作对本申请具体实现的限制。
与上述视频编码的方法相对应地,本申请的实施例还提供了一种视频解码的方法,解码过程通常是编码过程的逆过程。在本申请的一个实施例中,所述视频解码的方法包括:
对编码后视频数据解码得到当前编码块的像素预测值;
根据所述编码后视频数据中的亮度时变预测模型对所述像素预测值进行时变预测补偿,得到所述当前编码块的重构像素值;其中,所述亮度时变预测模型为多帧连续图像里至少一个相似目标所在的内容区域中的亮度值表达。
其中,在编码端,编码器根据本申请实施例得到的亮度时变预测模型对帧间预测(运动估计、运动补偿等)和/或帧内预测等处理做进一步的优化,对视频数据进行编码得到压缩的视频码流。优选地,亮度时变预测模型的参数也会一并编码到视频码流中,随后视频码流被传输到解码端。解码端的解码器根据编码处理的逆运算对压缩的视频码流进行解码,比如通过当前编码块相邻的(通常为左边、左上、上边等)已经解码完成的编码块,使用所述当前编码块的预测模式进行帧内预测和/或帧间预测,得到所述当前编码块的像素预测值。
在一些实施例中,所述方法还包括:对所述编码后视频数据解码得到所述当前编码块的像素残差;针对所述像素残差与所述像素预测值的叠加进行所述时变预测补偿。具体预测值的获得方式和残差的使用方式参见现有的运动估计和运动补偿等算法的具体实现,本申请中不再逐一展开说明。残差与预测值的叠加得到的是通用重构像素值(以下称第一重构像素值);第一重构像素值是不考虑亮度受时变因素的影响下的结果,即为上述公式中的基础亮度值C(x,y),因此其需要进行时变预测补偿。时变预测补偿是时变预测的逆过程;仍以上述公式为例,从视频码流中提取时变参数G,计算Δt为当前编码块与参考块时域上的时间差,再根据I(x,y,t)=C(x,y)+G*Δt得到I(x,y,t)为最终重构像素值的亮度。
在本申请的实施例中,通过在编码端和/或解码端使用亮度时变预测模型,可以准确对图像块的亮度变化情况(尤其适用于亮度随时间变化较快的场景)进行预测;从而在搜索参考块时使用更加精确的亮度值来筛选潜在参考块,在减少搜索量的同时确保搜索成功率,有效提升了编码效率。
图2是根据本申请的一些实施例所示的视频编码的装置示意图。如图2所示,所述视频编码的装置200包括:
区域确定模块210,用于确定视频数据中多帧连续图像里至少一个相似目标所在的内容区域;
模型建立模块220,用于根据所述内容区域的图像数据建立所述视频数据的亮度时变预测模型;
预测/编码模块230,用于基于所述亮度时变预测模型对所述视频数据进行帧间运动预测和/或帧内编码。
在一些实施例中,所述装置还包括:目标检测模块,用于利用目标检测算法对所述视频数据中的所述多帧连续图像进行目标检测,以确定所述至少一个相似目标以及所述内容区域。
在一些实施例中,所述目标检测算法包括Fast RCNN、FasterRCNN、Mask RCNN、R-FCN、FPN中的至少一种。
在一些实施例中,所述模型建立模块包括:
第一确定模块,用于确定所述多帧连续图像的时域时间差关系;
第二确定模块,用于确定所述内容区域在所述多帧连续图像中的亮度值变化关系;
模型建立子模块,用于根据所述时域时间差关系和所述亮度值变化关系建立所述视频数据的亮度时变预测模型。
在一些实施例中,所述装置还包括:参数编码模块,用于将所述亮度时变预测模型的参数编码到视频码流中。
同样与上述视频编码的装置相对应地,本申请的实施例还提供了一种视频解码的装置,包括:第一解码模块,用于对编码后视频数据解码得到当前编码块的像素预测值;
时变补偿模块,用于根据所述编码后视频数据中的亮度时变预测模型对所述像素预测值进行时变预测补偿,得到所述当前编码块的重构像素值;其中,所述亮度时变预测模型为多帧连续图像里至少一个相似目标所在的内容区域中的亮度值表达。
在一些实施例中,所述第一解码模块包括:预测解码模块,用于利用所述当前编码块附近已经解码完成的编码块、使用所述当前编码块的预测模式进行帧内预测和/或帧间预测,得到所述当前编码块的像素预测值。
在一些实施例中,所述装置还包括:
第二解码模块,用于对所述编码后视频数据解码得到所述当前编码块的像素残差;
所述时变补偿模块还用于针对所述像素残差与所述像素预测值的叠加进行所述时变预测补偿。
参考附图3,本申请一个实施例还提供了一种电子设备。如图3所示,该电子设备300包括:
存储器330以及一个或多个处理器310;
其中,所述存储器330与所述一个或多个处理器310通信连接,所述存储器330中存储有可被所述一个或多个处理器执行的指令332,所述指令332被所述一个或多个处理器310执行,以使所述一个或多个处理器310执行本申请前述实施例中的方法。
具体地,处理器310和存储器330可以通过总线或者其他方式连接,图3中以通过总线340连接为例。处理器310可以为中央处理器(Central Processing Unit,CPU)。处理器310还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器330作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的级联渐进网络等。处理器310通过运行存储在存储器330中的非暂态软件程序、指令以及功能模块332,从而执行处理器的各种功能应用以及数据处理。
存储器330可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器310所创建的数据等。此外,存储器330可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器330可选包括相对于处理器310远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口320)连接至处理器310。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行本申请前述实施例中的方法。
前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括,但不限于,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、可擦除可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存或其他固态存储器技术、CD-ROM、数字多功能盘(DVD)、HD-DVD、蓝光(Blue-Ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。
尽管此处所述的主题是在结合操作***和应用程序在计算机***上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机***配置来实践,包括手持式设备、多处理器***、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。
本领域普通技术人员可以意识到,结合本文中所本申请的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
综上所述,本申请提出了一种视频编解码的方法、装置、电子设备及存储介质。本申请实施例通过对图像块亮度随时间变化的情况进行计算和预测,有效解决了部分场景亮度差异大影响搜索和编码效率的问题。其中,使用亮度时变预测模型,可以准确对图像块的亮度变化情况(尤其适用于亮度随时间变化较快的场景)进行预测;从而在搜索参考块时使用更加精确的亮度值来筛选潜在参考块,在减少搜索量的同时确保搜索成功率,有效提升了编码效率。
应当理解的是,本申请的上述具体实施方式仅仅用于示例性说明或解释本申请的原理,而不构成对本申请的限制。因此,在不偏离本申请的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。此外,本申请所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (18)

1.一种视频编码的方法,其特征在于,所述方法包括:
确定视频数据中多帧连续图像里至少一个相似目标所在的内容区域;
根据所述内容区域的图像数据建立所述视频数据的亮度时变预测模型;
基于所述亮度时变预测模型对所述视频数据进行帧间运动预测和/或帧内编码。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用目标检测算法对所述视频数据中的所述多帧连续图像进行目标检测,以确定所述至少一个相似目标以及所述内容区域。
3.根据权利要求2所述的方法,其特征在于,所述目标检测算法包括Fast RCNN、FasterRCNN、Mask RCNN、R-FCN、FPN中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述亮度时变预测模型的建立包括:
确定所述多帧连续图像的时域时间差关系;
确定所述内容区域在所述多帧连续图像中的亮度值变化关系;
根据所述时域时间差关系和所述亮度值变化关系建立所述视频数据的亮度时变预测模型。
5.根据权利要求1或4所述的方法,其特征在于,所述方法还包括:
将所述亮度时变预测模型的参数编码到视频码流中。
6.一种视频解码的方法,其特征在于,所述方法包括:
对编码后视频数据解码得到当前编码块的像素预测值;
根据所述编码后视频数据中的亮度时变预测模型对所述像素预测值进行时变预测补偿,得到所述当前编码块的重构像素值;其中,所述亮度时变预测模型为多帧连续图像里至少一个相似目标所在的内容区域中的亮度值表达。
7.根据权利要求6所述的方法,其特征在于,所述方法中,利用所述当前编码块相邻的已经解码完成的编码块、使用所述当前编码块的预测模式进行帧内预测和/或帧间预测,得到所述当前编码块的像素预测值。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对所述编码后视频数据解码得到所述当前编码块的像素残差;
针对所述像素残差与所述像素预测值的叠加进行所述时变预测补偿。
9.一种视频编码的装置,其特征在于,所述装置包括:
区域确定模块,用于确定视频数据中多帧连续图像里至少一个相似目标所在的内容区域;
模型建立模块,用于根据所述内容区域的图像数据建立所述视频数据的亮度时变预测模型;
预测/编码模块,用于基于所述亮度时变预测模型对所述视频数据进行帧间运动预测和/或帧内编码。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
目标检测模块,用于利用目标检测算法对所述视频数据中的所述多帧连续图像进行目标检测,以确定所述至少一个相似目标以及所述内容区域。
11.根据权利要求10所述的装置,其特征在于,所述目标检测算法包括Fast RCNN、Faster RCNN、Mask RCNN、R-FCN、FPN中的至少一种。
12.根据权利要求9所述的装置,其特征在于,所述模型建立模块包括:
第一确定模块,用于确定所述多帧连续图像的时域时间差关系;
第二确定模块,用于确定所述内容区域在所述多帧连续图像中的亮度值变化关系;
模型建立子模块,用于根据所述时域时间差关系和所述亮度值变化关系建立所述视频数据的亮度时变预测模型。
13.根据权利要求9或12所述的装置,其特征在于,所述装置还包括:
参数编码模块,用于将所述亮度时变预测模型的参数编码到视频码流中。
14.一种视频解码的装置,其特征在于,所述装置包括:
第一解码模块,用于对编码后视频数据解码得到当前编码块的像素预测值;
时变补偿模块,用于根据所述编码后视频数据中的亮度时变预测模型对所述像素预测值进行时变预测补偿,得到所述当前编码块的重构像素值;其中,所述亮度时变预测模型为多帧连续图像里至少一个相似目标所在的内容区域中的亮度值表达。
15.根据权利要求14所述的装置,其特征在于,所述第一解码模块包括:
预测解码模块,用于利用所述当前编码块附近已经解码完成的编码块、使用所述当前编码块的预测模式进行帧内预测和/或帧间预测,得到所述当前编码块的像素预测值。
16.根据权利要求14所述的装置,其特征在于,所述装置还包括:
第二解码模块,用于对所述编码后视频数据解码得到所述当前编码块的像素残差;
所述时变补偿模块还用于针对所述像素残差与所述像素预测值的叠加进行所述时变预测补偿。
17.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如权利要求1-8任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如权利要求1-8任一项所述的方法。
CN202110599942.6A 2021-05-31 2021-05-31 视频编解码的方法、装置、电子设备及存储介质 Pending CN113422959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599942.6A CN113422959A (zh) 2021-05-31 2021-05-31 视频编解码的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599942.6A CN113422959A (zh) 2021-05-31 2021-05-31 视频编解码的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113422959A true CN113422959A (zh) 2021-09-21

Family

ID=77713298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599942.6A Pending CN113422959A (zh) 2021-05-31 2021-05-31 视频编解码的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113422959A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257817A (zh) * 2022-03-01 2022-03-29 浙江智慧视频安防创新中心有限公司 一种多任务数字视网膜特征流的编码方法及解码方法
CN115052160A (zh) * 2022-04-22 2022-09-13 江西中烟工业有限责任公司 基于云数据自动下载的图像编码方法、装置及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072355A (zh) * 2006-05-12 2007-11-14 中国科学院计算技术研究所 一种加权预测运动补偿方法
CN102209243A (zh) * 2011-05-27 2011-10-05 山东大学 基于线性模型的深度图帧内预测方法
CN102301716A (zh) * 2009-02-02 2011-12-28 汤姆森特许公司 解码代表画面序列的流的方法,编码画面序列的方法以及编码的数据结构
CN107155108A (zh) * 2017-06-19 2017-09-12 电子科技大学 一种基于亮度变化的帧内预测方法
CN108320298A (zh) * 2018-04-28 2018-07-24 亮风台(北京)信息科技有限公司 一种视觉目标跟踪方法与设备
CN111526362A (zh) * 2019-02-01 2020-08-11 华为技术有限公司 帧间预测方法和装置
CN112203085A (zh) * 2020-09-30 2021-01-08 字节跳动(香港)有限公司 图像处理方法、装置、终端和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072355A (zh) * 2006-05-12 2007-11-14 中国科学院计算技术研究所 一种加权预测运动补偿方法
CN102301716A (zh) * 2009-02-02 2011-12-28 汤姆森特许公司 解码代表画面序列的流的方法,编码画面序列的方法以及编码的数据结构
CN102209243A (zh) * 2011-05-27 2011-10-05 山东大学 基于线性模型的深度图帧内预测方法
CN107155108A (zh) * 2017-06-19 2017-09-12 电子科技大学 一种基于亮度变化的帧内预测方法
CN108320298A (zh) * 2018-04-28 2018-07-24 亮风台(北京)信息科技有限公司 一种视觉目标跟踪方法与设备
CN111526362A (zh) * 2019-02-01 2020-08-11 华为技术有限公司 帧间预测方法和装置
CN112203085A (zh) * 2020-09-30 2021-01-08 字节跳动(香港)有限公司 图像处理方法、装置、终端和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257817A (zh) * 2022-03-01 2022-03-29 浙江智慧视频安防创新中心有限公司 一种多任务数字视网膜特征流的编码方法及解码方法
CN114257817B (zh) * 2022-03-01 2022-09-02 浙江智慧视频安防创新中心有限公司 一种多任务数字视网膜特征流的编码方法及解码方法
CN115052160A (zh) * 2022-04-22 2022-09-13 江西中烟工业有限责任公司 基于云数据自动下载的图像编码方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN110087087B (zh) Vvc帧间编码单元预测模式提前决策及块划分提前终止方法
US9621917B2 (en) Continuous block tracking for temporal prediction in video encoding
KR101379255B1 (ko) 미분 방정식을 이용한 인트라 예측 부호화, 복호화 방법 및장치
US20100166073A1 (en) Multiple-Candidate Motion Estimation With Advanced Spatial Filtering of Differential Motion Vectors
KR20090095014A (ko) 필터링된 예측 블록을 이용한 영상 부호화, 복호화 방법 및장치
TWI477154B (zh) 用於編碼數位視訊資料之方法及數位視訊編碼器系統
US8285064B2 (en) Method for processing images and the corresponding electronic device
KR20090095012A (ko) 연속적인 움직임 추정을 이용한 영상 부호화, 복호화 방법및 장치
KR20140110008A (ko) 객체 검출 정보에 따른 인코딩
CN101888546B (zh) 一种运动估计的方法及装置
CN111316642B (zh) 信令图像编码和解码划分信息的方法和装置
CN113422959A (zh) 视频编解码的方法、装置、电子设备及存储介质
Liu et al. H. 264/AVC video error concealment algorithm by employing motion vector recovery under cloud computing environment
CN114157863B (zh) 基于数字视网膜的视频编码方法、***及存储介质
CN108401185B (zh) 参考帧选择方法、视频转码方法、电子设备和存储介质
CN109565592B (zh) 一种使用基于分割的视频编码块划分的视频编码设备和方法
CN117750034A (zh) 一种可学习视频编码方法、***、设备及存储介质
JP2001251627A (ja) 符号化装置、符号化方法及びプログラムを記録した記録媒体
JP2005348008A (ja) 動画像符号化方法、動画像符号化装置、動画像符号化プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体
CN112468815B (zh) 视频编解码的方法、装置、电子设备及存储介质
CN109618152B (zh) 深度划分编码方法、装置和电子设备
WO2020129681A1 (ja) 符号化装置及びプログラム
CN102907099A (zh) 适用利用选择性运动检索区域的运动补偿方法的视频压缩编码装置及解码装置和用于运动补偿的选择性运动检索区域的决定方法
CN106162196B (zh) 一种面向智能分析的视频编码***及方法
KR101247024B1 (ko) 루프 내 전처리 필터링을 이용한 움직임 추정 및 보상 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination