CN118075485A - 帧间运动估计方法、装置及电子设备和存储介质 - Google Patents

帧间运动估计方法、装置及电子设备和存储介质 Download PDF

Info

Publication number
CN118075485A
CN118075485A CN202211473468.3A CN202211473468A CN118075485A CN 118075485 A CN118075485 A CN 118075485A CN 202211473468 A CN202211473468 A CN 202211473468A CN 118075485 A CN118075485 A CN 118075485A
Authority
CN
China
Prior art keywords
rate distortion
distortion cost
pixel point
interest
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211473468.3A
Other languages
English (en)
Inventor
宋剑军
翟云
杨作兴
胡祥斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen MicroBT Electronics Technology Co Ltd
Original Assignee
Shenzhen MicroBT Electronics Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen MicroBT Electronics Technology Co Ltd filed Critical Shenzhen MicroBT Electronics Technology Co Ltd
Priority to CN202211473468.3A priority Critical patent/CN118075485A/zh
Publication of CN118075485A publication Critical patent/CN118075485A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明实施方式提出帧间运动估计方法、装置及电子设备和存储介质。方法包括:确定当前编码块的感兴趣程度;基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少;基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计。本发明实施方式考虑到不同区域之间的感兴趣程度的差异,对拉格朗日因子进行调节,可以在图像帧的图像质量与复杂度之间实现良好折中。

Description

帧间运动估计方法、装置及电子设备和存储介质
技术领域
本发明属于视频编解码技术领域,特别是涉及帧间运动估计方法、装置及电子设备和存储介质。
背景技术
视频编码的主要过程包括预测、变换、量化和熵编码,其中预测包括帧内预测和帧间预测。帧间预测是指利用视频时间域的相关性,使用时间上相邻的已编码图像的已编码像素块预测当前待编码图像的当前像素块,以达到去除视频时域冗余的目的。
帧间预测的核心是基于块的运动估计,即为当前图像的每个像素块在之前已编码图像中寻找最佳匹配块,从而得到每个像素块对应的运动向量。用于预测的图像称为参考图像,参考图像中的像素块称为参考块。当前图像中待预测的像素块称当前编码块,参考块到当前编码块的位移称为运动向量。
在现有技术中,对整帧图像不区分地执行相同的运动估计策略,难以在编码质量与编码复杂度之间实现良好折中。
发明内容
本发明实施方式提出帧间运动估计方法、装置及电子设备和存储介质。
本发明实施方式的技术方案如下:
一种帧间运动估计方法,包括;
确定当前编码块的感兴趣程度;
基于所述级别,确定所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少;
基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计。
在示范性实施方式中,所述基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子包括:
基于所述感兴趣程度,调整所述当前编码块的量化参数值,其中所述量化参数值随着所述感兴趣程度的增加而减少;
基于调整后的量化参数值,确定所述当前编码块的拉格朗日因子。
在示范性实施方式中,所述基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子包括:
基于所述当前编码块的量化参数值,确定所述当前编码块的拉格朗日因子;
基于所述感兴趣程度,调整所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少。
在示范性实施方式中,所述感兴趣程度具有级别,所述级别包括下列中的至少一个:
第一级,与从图像帧中分割出的前景区域相关联;
第二级,与从图像帧中分割出的背景区域相关联;
第三级,与图像帧中除了前景区域和背景区域之外的剩余区域相关联;
其中第一级表征的感兴趣程度大于第三级表征的感兴趣程度,第三级表征的感兴趣程度大于第二级表征的感兴趣程度。
在示范性实施方式中,所述当前编码块的级别为第一级;所述基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计包括:
在所述当前编码块的参考帧搜索区域中,采用1像素步长执行整像素搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点;
在所述率失真代价最小的像素点的周围采用1/2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;
在所述率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;
基于所述率失真代价最小的1/4像素点,确定所述当前编码块的运动向量。
在示范性实施方式中,所述当前编码块的级别为第三级;所述基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计包括:
在所述当前编码块的参考帧搜索区域中,采用2像素步长执行整像素搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,并确定步长为2时率失真代价最小的像素点;
在所述步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定步长为1时率失真代价最小的像素点;
在所述步长为1时率失真代价最小的像素点周围采用1/2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;
在所述率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;
基于所述率失真代价最小的1/4像素点,确定所述当前编码块的运动向量。
在示范性实施方式中,所述当前编码块的级别为第二级;所述基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计包括:
在所述当前编码块的参考帧搜索区域中,采用4像素步长执行整像素搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,并确定步长为4时率失真代价最小的像素点;
在所述步长为4时率失真代价最小的像素点周围采用2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定步长为2时率失真代价最小的像素点;
在所述步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点;
在所述率失真代价最小的像素点周围采用1/2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;
在所述率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;
基于所述率失真代价最小的1/4像素点,确定所述当前编码块的运动向量。
一种帧间运动估计装置,包括:
第一确定模块,被配置为确定当前编码块的感兴趣程度;
第二确定模块,被配置为基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少;
运动估计模块,被配置为基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计。
在示范性实施方式中,所述第二确定模块,被配置为基于所述感兴趣程度,调整所述当前编码块的量化参数值,其中所述量化参数值随着所述感兴趣程度的增加而减少;基于调整后的量化参数值,确定所述当前编码块的拉格朗日因子。
在示范性实施方式中,所述第二确定模块,被配置为基于所述当前编码块的量化参数值,确定所述当前编码块的拉格朗日因子;基于所述感兴趣程度,调整所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少。
在示范性实施方式中,所述感兴趣程度具有级别,所述级别包括下列中的至少一个:
第一级,与从图像帧中分割出的前景区域相关联;
第二级,与从图像帧中分割出的背景区域相关联;
第三级,与图像帧中除了前景区域和背景区域之外的剩余区域相关联;
其中第一级表征的感兴趣程度大于第三级表征的感兴趣程度,第三级表征的感兴趣程度大于第二级表征的感兴趣程度。
一种电子设备,包括:
存储器;
处理器;
其中所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上任一项所述的帧间运动估计方法。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使所述处理器执行如上任一项所述的帧间运动估计方法。
从上述技术方案可以看出,在本发明实施方式中,确定当前编码块的感兴趣程度;基于感兴趣程度,确定当前编码块的拉格朗日因子,其中拉格朗日因子随着感兴趣程度的增加而减少;基于拉格朗日因子,对当前编码块执行帧间运动估计。因此,本发明实施方式考虑到不同区域之间的感兴趣差异程度对拉格朗日因子进行调节,对于感兴趣程度较高的当前编码块,通过减少其拉格朗日因子,增加了率失真代价计算模型中的失真权重,因此在搜索选择过程中倾向于选择失真更小(即图像质量更好)的像素点,增加当前编码块的成像质量(相应地增加了复杂度)。类似地,对于感兴趣程度较低的当前编码块,倾向于选择失真更大的像素点,从而降低复杂度。因此,本发明实施方式可以在图像帧的图像质量与复杂度之间实现良好折中。
附图说明
图1是本发明实施方式的帧间运动估计方法的示范性流程图。
图2是本发明实施方式的图像帧中的区域与感兴趣程度的示范性示意图。
图3是本发明实施方式的图像帧的帧间运动估计过程的示范性示意图。
图4是本发明实施方式的帧间运动估计装置的示范性结构图。
图5是本发明实施方式的电子设备的示范性结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
为了描述上的简洁和直观,下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显,本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案,一些实施方式没有进行细致地描述,而是仅给出了框架。下文中,“包括”是指“包括但不限于”,“根据……”是指“至少根据……,但不限于仅根据……”。由于汉语的语言习惯,下文中没有特别指出一个成分的数量时,意味着该成分可以是一个也可以是多个,或可理解为至少一个。
以下,对本公开实施方式涉及的术语进行解释说明。
率失真优化(Rate-distortion optimization,RDO):在有限的编码码率情况下,选择一个失真最小的模式。
量化(Quantization):量化是指将信号的连续取值(或者大量可能的离散取值)映射为有限多个离散幅值的过程,实现信号取值多对一的映射。
量化参数(Quantization Parameter,QP):是量化步长(Qstep)的序号,反映了空间细节压缩情况。量化参数值越小,量化越精细,图像质量越高,产生的码流也越长。
拉格朗日因子:在编码码率和失真之间取得平衡是视频编码中的关键因子。在计算率失真代价时,失真和编码速码率可以通过拉格朗日因子的作用相结合。
运动估计是由搜索算法完成的。传统视频编码标准通常采用全搜索、二维对数(Two-Dimensional Logarithmic)、三维对数(Three-Dimensional Logarithmic)、UMHexagonS或TZsearch等搜索方法。全搜索复杂度高,难以满足实时编码需求,而其余的搜索算法只能得到局部最优参考块,编码质量不如全搜索。在搜索算法中,通常选择率失真代价最小的像素点作为搜索结果。常见的率失真代价计算模型为 J=D+λ*R ;其中:J表示率失真代价;D表示失真;R表示编码输出比特率;λ表示失真和比特率之间的权重,即为拉格朗日因子。通常选择J的最小值(minJ)时的像素点作为搜索结果。
在现有技术中,基于当前编码块的量化参数确定拉格朗日因子,并利用该拉格朗日因子直接对当前编码块执行运动估计。也就是,现有技术中并没有基于当前编码块所属的图像帧不同区域对拉格朗日因子进行适应性调节。
申请人发现:实际上,图像帧不同区域的成像质量需求和复杂度容忍程度是存在差异的。比如:感兴趣区域需要具有较高的图像质量,且容忍较高的复杂度;非感兴趣区域可以容忍较低的图像质量,但需要较低的复杂度。因此,如果考虑到不同区域之间的感兴趣差异程度对拉格朗日因子进行调节,可以在图像帧的图像质量与复杂度之间实现良好折中。
图1是本发明实施方式的帧间运动估计方法的示范性流程图。如图1所示,该方法包括:
步骤101:确定当前编码块的感兴趣程度。
当前编码块为图像帧中当前编码到的像素块。图像帧为对原始图像帧采用视频编码压缩技术以减少码率后的重构图像帧。比如,视频编码压缩技术可以包括:(1)、ISO-MPEG/ITU-T 系列:由国际标准组织机构(ISO)下属的运动图像专家组(MPEG)和国际电传视讯联盟远程通信标准化组织(ITU-T)开发的系列编码标准,具体包括:(1.1)、H.265,也被称为高效率视频编码(High Efficiency Video Coding,HEVC),是 H.264 的继任者;(1.2)、H.266,也被称为多功能视频编码(Versatile Video Coding, VVC),是 H.265 的继任者,等等。(2)、AOM 系列:开放媒体联盟(Alliance for Open Media,AOM)开发的编码标准。具体包括:(2.1)、VP8;(2.2)、VP9;(2.3)、AV1,等等。 (3)、AVS 系列:具体包括:(3.1)、第二代数字音视频编解码技术标准(AVS2);第二代数字音视频编解码技术标准(AVS3),等等。
编码块可以实施为编码树单元(Coding Tree Unit,CTU)、编码单元(CodingUnit,CU)、预测单元(Prediction Unit,PU)或转换单元(Transform Unit,TU),等等。
以上示范性描述了视频编码压缩技术和编码块的典型实例,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。
在本发明实施方式中,感兴趣程度可以由用户或计算机视觉算法所确定。比如,可以采用自动图像分割技术对图像帧中的区域的感兴趣程度进行自动识别,或基于人工框选方式进行识别。举例,自动图像分割技术可以包括:传统图像分割方法(比如:分水岭法、GrabCut法、MeanShift法和背景扣除法,等等)和基于深度学习的图像分割方法(比如:全卷积层网络、具有Encode-Decode结构的UNet网络及空间金字塔池化网络(PSPNet),等等)。
在一个实施方式中,感兴趣程度具有级别,其中级别包括:
(1):第一级,与从图像帧中分割出的前景区域(比如,可以为车辆等移动目标或人脸等特定目标)相关联;
(2):第二级,与从图像帧中分割出的背景区域(比如,可以为静止不动的图案背景)相关联;
(3):第三级,与图像帧中除了前景区域和背景区域之外的剩余区域相关联。
其中:第一级表征的感兴趣程度大于第三级表征的感兴趣程度,第三级表征的感兴趣程度大于第二级表征的感兴趣程度。
图2是本发明实施方式的图像帧中的区域与感兴趣程度的示范性示意图。
图像帧ABCD包含前景区域IJKL。前景区域IJKL 的感兴趣程度最高,为第一级。前景区域IJKL被预定大小的区域EFGH包围。从图像帧ABCD中去除区域EFGH后的剩余区域,为感兴趣程度最低的背景区域,即为第二级。从区域EFGH中去除前景区域IJKL后的剩余部分,为感兴趣程度介于前景区域与背景区域之间的区域,即为第三级。
以上示范性描述了感兴趣程度的级别的典型实例,本领域技术人员可以意识到,这种描述仅是示范性的,并不用于限定本发明实施方式的保护范围。实际上,还可以对上述的三个级别进行细化或概括,本发明实施方式对此并无限定。
步骤102:基于感兴趣程度,确定当前编码块的拉格朗日因子,其中拉格朗日因子随着感兴趣程度的增加而减少。
在这里,对于感兴趣程度较高的当前编码块,通过减少其拉格朗日因子,增加了率失真代价计算模型(J=D+λ*R)中的D的权重,因此在搜索选择过程中倾向于选择D更小(即图像质量更好)的像素点,从而增加当前编码块的成像质量(相应地增加了复杂度)。类似地,对于感兴趣程度较低的当前编码块,倾向于选择失真更大的像素点,从而降低复杂度。
在一个实施方式中,步骤102具体包括:基于感兴趣程度,调整当前编码块的量化参数值,其中量化参数值随着感兴趣程度的增加而减少;基于调整后的量化参数值,确定当前编码块的拉格朗日因子。因此,通过直接调整当前编码块的量化参数值,可以调节当前编码块的拉格朗日因子。在这个实施方式中,对于具有不同的感兴趣程度的当前编码块,首先分别调整其量化参数,其中量化参数值随着感兴趣程度的增加而减少。比如,当级别为第一级时,减少当前编码块的量化参数值;当级别为第三级时,将当前编码块的量化参数值保存不变;当级别为第二级时,增加当前编码块的量化参数值增加。然后,基于分别调整后的量化参数,分别计算当前编码块的拉格朗日因子。
比如,以H.265为例,拉格朗日因子λ的计算公式如下:
λ=α*W k *2((QP-12)/3.0)
其中Wk为加权因子,与图像在图像组(GOP)中的位置有关;α为参考帧因子,若不是参考帧则为1,若为参考帧则略小于1;QP为上述调整后的量化参数。
以上以H.265为例,描述了基于量化参数确定拉格朗日因子的典型实例。实际上,基于量化参数确定拉格朗日因子的具体计算方式还可以包含诸多形式的变换,本发明实施方式对此并无限定。
在一个实施方式中,步骤102具体包括:基于当前编码块的量化参数值,确定当前编码块的拉格朗日因子;基于感兴趣程度,调整当前编码块的拉格朗日因子,其中拉格朗日因子随着感兴趣程度的增加而减少。
在这个实施方式中,对于具有不同的感兴趣程度的当前编码块,并不调整其量化参数,而是首先基于不被调整的量化参数计算出拉格朗日因子(比如,参照上述拉格朗日因子λ的计算公式),再对拉格朗日因子进行调节。比如,当级别为第一级时,将当前编码块的量化参数值减少3;当级别为第三级时,将当前编码块的量化参数值保存不变;当级别为第二级时,将当前编码块的量化参数值增加3。可见,直接对拉格朗日因子进行调节,而无需调整量化参数值。
步骤103:基于拉格朗日因子,对当前编码块执行帧间运动估计。
在这里,可以采用全搜索、二维对数、三维对数、UMHexagonS、TZsearch等搜索方法执行运动估计,选择利用拉格朗日因子计算出的率失真代价的最小值时的像素点作为搜索结果。
优选地,为了在编码质量与编码复杂度之间实现更好的折中,还可以基于编码块的级别差异,在搜索算法的复杂度上执行差异化处理,其中感兴趣程度越大的编码块,采用更为复杂的搜索算法。
在一个实施方式中,当前编码块的级别为第一级,执行高复杂度的运动估计过程。此时,步骤103具体包括:
步骤(1):在当前编码块的参考帧搜索区域中,采用1像素步长执行整像素搜索,基于拉格朗日因子λH计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点。比如,假定基于当前编码块的量化参数计算出的拉格朗日因子的初始值为λ1,λH1-3。假定当前搜索搜索区域的大小M*N,则J的数目是M*N。
步骤(2):在率失真代价最小的像素点的周围采用1/2像素步长执行搜索(比如,搜索附近的4个或8个1/2像素点,即J为4或8),基于拉格朗日因子λH计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点。
步骤(3):在率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索(比如,搜索附近的4个或8个1/4像素点,即J为4或8),基于拉格朗日因子λH计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点。
步骤(4):基于率失真代价最小的1/4像素点,确定当前编码块的运动向量。
在步骤(4)中,以率失真代价最小的1/4像素点确定当前编码块的运动向量,这符合H.265中针对1/4像素精度的相应描述。实际上,还可以在率失真代价最小的1/4像素点的周围采用更小的像素步长(比如,1/8像素步长)执行搜索,以实现更小的像素精度(比如,H.266中存在的1/8像素精度)。总之,基于期望获取的像素精度,在高复杂度的运动估计过程中可以按照更大或更小的像素步长执行搜索,本发明实施方式对此并无限定。其中:高复杂度的运动估计过程的步骤(1)中的整像素搜索算法可以实施为:全搜索(Full)算法、菱形搜索(DIA)算法、六边形搜索(HEX)算法、对称十字型多层次六边形格点搜索(UMH)算法、 星状搜索(STAR)算法、连续消除(SEA)算法中的任一个。
在一个实施方式中,当前编码块的级别为第三级,执行中复杂度的运动估计过程。此时,步骤103具体包括:
步骤(1):在当前编码块的参考帧搜索区域中,采用2像素步长执行整像素搜索,基于拉格朗日因子λM计算搜索到的每个像素点的率失真代价,并确定步长为2时率失真代价最小的像素点。比如,假定基于当前编码块的量化参数计算出的拉格朗日因子的初始值为λ2,λM2。假定当前搜索搜索区域的大小M*N,则J的数目是M*N/4。
步骤(2):在步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索(比如,搜索附近的4个或8个像素点,即J为4或8),基于拉格朗日因子λM计算搜索到的每个像素点的率失真代价,确定步长为1时率失真代价最小的像素点。
步骤(3):在步长为1时率失真代价最小的像素点周围采用1/2像素步长执行搜索(比如,搜索附近的4个或8个1/2像素点,即J为4或8),基于拉格朗日因子λM计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点。
步骤(4):在率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索(比如,搜索附近的4个或8个1/4像素点,即J为4或8),基于拉格朗日因子λM计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点。
步骤(5):基于率失真代价最小的1/4像素点,确定当前编码块的运动向量。
在步骤(5)中,以率失真代价最小的1/4像素点确定当前编码块的运动向量,这符合H.265中针对1/4像素精度的相应描述。实际上,还可以在率失真代价最小的1/4像素点的周围采用更小的像素步长(比如,1/8像素步长)执行搜索,以实现更小的像素精度(比如,H.266中存在的1/8像素精度)。总之,基于期望获取的像素精度,在中复杂度的运动估计过程中可以按照更大或更小的像素步长执行搜索,本发明实施方式对此并无限定。
其中:中复杂度的运动估计过程的步骤(1)中的整像素搜索算法可以实施为:Full算法、DIA算法、HEX算法、UMH算法、STAR算法、SEA中的任一个。
在一个实施方式中,当前编码块的级别为第二级,执行低复杂度的运动估计过程。此时,步骤103具体包括:
步骤(1):在当前编码块的参考帧搜索区域中,采用4像素步长执行整像素搜索,基于拉格朗日因子λL计算搜索到的每个像素点的率失真代价,并确定步长为4时率失真代价最小的像素点。比如,假定基于当前编码块的量化参数计算出的拉格朗日因子的初始值为λ3,λL3+3。假定当前搜索搜索区域的大小M*N,则J的数目是M*N/16。
步骤(2):在步长为4时率失真代价最小的像素点周围采用2像素步长执行搜索(比如,搜索附近的4个或8个像素点,即J为4或8),基于拉格朗日因子λL计算搜索到的每个像素点的率失真代价,确定步长为2时率失真代价最小的像素点。
步骤(3):在步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索(比如,搜索附近的4个或8个像素点,即J为4或8),基于拉格朗日因子λL计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点。
步骤(4):在率失真代价最小的像素点周围采用1/2像素步长执行搜索(比如,搜索附近的4个或8个1/2像素点,即J为4或8),基于拉格朗日因子λL计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点。
步骤(5):在率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索(比如,搜索附近的4个或8个1/4像素点,即J为4或8),基于拉格朗日因子λL计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点。
步骤(6):基于率失真代价最小的1/4像素点,确定当前编码块的运动向量。
在步骤(6)中,以率失真代价最小的1/4像素点确定当前编码块的运动向量,这符合H.265中针对1/4像素精度的相应描述。实际上,还可以在率失真代价最小的1/4像素点的周围采用更小的像素步长(比如,1/8像素步长)执行搜索,以实现更小的像素精度(比如,H.266中存在的1/8像素精度)。总之,基于期望获取的像素精度,在低复杂度的运动估计过程中可以按照更大或更小的像素步长执行搜索,本发明实施方式对此并无限定。
其中:低复杂度的运动估计过程的步骤(1)中的整像素搜索算法可以实施为:Full算法、DIA算法、HEX算法、UMH算法、STAR算法、SEA中的任一个。
图3是本发明实施方式的图像帧的帧间运动估计过程的示范性示意图。如图3所示,该帧间运动估计过程包括:
步骤301:判断当前编码块是否属于前景区域,如果是,执行步骤306并结束本流程,如果不是,执行步骤302及其后续步骤。
步骤302:判断当前编码块是否属于背景区域,如果是,执行步骤307并结束本流程,如果不是,执行步骤303及其后续步骤。
步骤303:执行中复杂度的运动估计过程。
步骤304:判断当前编码块是否为最后一个编码块,如果是,结束本流程,如果不是,执行步骤305及其后续步骤。
步骤305:切换到下一个编码块,并返回执行步骤301。
步骤306:执行高复杂度的运动估计过程。
步骤307:执行低复杂度的运动估计过程。
基于上述描述,本发明实施方式还提出了帧间运动估计装置。图4是本发明实施方式的帧间运动估计装置的示范性结构图。如图4所示,帧间运动估计装置400包括:第一确定模块401,被配置为确定当前编码块的感兴趣程度;第二确定模块402,被配置为基于感兴趣程度,确定当前编码块的拉格朗日因子,其中拉格朗日因子随着感兴趣程度的增加而减少;运动估计模块403,被配置为基于拉格朗日因子,对当前编码块执行帧间运动估计。
在一个实施方式中,第二确定模块402,被配置为基于感兴趣程度,调整当前编码块的量化参数值,其中量化参数值随着感兴趣程度的增加而减少;基于调整后的量化参数值,确定当前编码块的拉格朗日因子。
在一个实施方式中,第二确定模块402,被配置为基于当前编码块的量化参数值,确定当前编码块的拉格朗日因子;基于感兴趣程度,调整当前编码块的拉格朗日因子,其中拉格朗日因子随着感兴趣程度的增加而减少。
在一个实施方式中,感兴趣程度具有级别,其中级别包括下列中的至少一个:第一级,与从图像帧中分割出的前景区域相关联;第二级,与从图像帧中分割出的背景区域相关联;第三级,与图像帧中除了前景区域和背景区域之外的剩余区域相关联;其中第一级表征的感兴趣程度大于第三级表征的感兴趣程度,第三级表征的感兴趣程度大于第二级表征的感兴趣程度。
在一个实施方式中,当前编码块的级别为第一级;运动估计模块403,被配置为:在当前编码块的参考帧搜索区域中,采用1像素步长执行整像素搜索,基于拉格朗日因子计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点;在率失真代价最小的像素点的周围采用1/2像素步长执行搜索,基于拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;在率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;基于率失真代价最小的1/4像素点,确定当前编码块的运动向量。
在一个实施方式中,当前编码块的级别为第三级;运动估计模块403,被配置为:在当前编码块的参考帧搜索区域中,采用2像素步长执行整像素搜索,基于拉格朗日因子计算搜索到的每个像素点的率失真代价,并确定步长为2时率失真代价最小的像素点;在步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索,基于拉格朗日因子计算搜索到的每个像素点的率失真代价,确定步长为1时率失真代价最小的像素点;在步长为1时率失真代价最小的像素点周围采用1/2像素步长执行搜索,基于拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;在率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;基于率失真代价最小的1/4像素点,确定当前编码块的运动向量。
在一个实施方式中,当前编码块的级别为第二级;运动估计模块403,被配置为:在当前编码块的参考帧搜索区域中,采用4像素步长执行整像素搜索,基于拉格朗日因子计算搜索到的每个像素点的率失真代价,并确定步长为4时率失真代价最小的像素点;在步长为4时率失真代价最小的像素点周围采用2像素步长执行搜索,基于拉格朗日因子计算搜索到的每个像素点的率失真代价,确定步长为2时率失真代价最小的像素点;在步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索,基于拉格朗日因子计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点;在率失真代价最小的像素点周围采用1/2像素步长执行搜索,基于拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;在率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;基于率失真代价最小的1/4像素点,确定当前编码块的运动向量。
图5是本发明实施方式的电子设备的示范性结构图。如图5所示,电子设备800包括:处理器801和存储器802。处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(Central Processing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施方式中,处理器801可以在集成有图像处理器(GraphicsProcessing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施方式中,处理器801还可以包括AI处理器,该AI处理器用于处理有关机器学习的计算操作。比如,AI处理器可以实施为神经网络处理器。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。
在一些实施方式中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,至少一个指令用于被处理器801所执行以实现本公开中各个实施方式提供的帧间运动估计方法。在一些实施方式中,电子设备800还可选包括有:***设备接口803和至少一个***设备。处理器801、存储器802和***设备接口803之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口803相连。具体地,***设备包括:射频电路804、触摸显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。***设备接口803可被用于将输入/输出(Input /Output,I/O)相关的至少一个***设备连接到处理器801和存储器802。在一些实施方式中,处理器801、存储器802和***设备接口803被集成在同一芯片或电路板上;在一些其他实施方式中,处理器801、存储器802和***设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施方式对此不加以限定。
射频电路804用于接收和发射射频(Radio Frequency,RF)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(Wireless Fidelity,Wi-Fi)网络。在一些实施方式中,射频电路804还可以包括近距离无线通信(Near Field Communication,NFC)有关的电路,本发明实施方式对此不加以限定。
显示屏805用于显示用户界面(User Interface,UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施方式中,显示屏805可以为一个,设置在电子设备800的前面板;在另一些实施方式中,显示屏805可以为至少两个,分别设置在电子设备800的不同表面或呈折叠设计;在一些实施方式中,显示屏805可以是柔性显示屏,设置在电子设备800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用液晶显示屏(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施方式中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(Virtual Reality,VR)拍摄功能或者其它融合拍摄功能。在一些实施方式中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施方式中,音频电路807还可以包括耳机插孔。定位组件808用于定位电子设备800的当前地理位置,以实现导航或基于位置的服务(Location Based Service,LBS)。定位组件808可以是基于美国的全球定位***(Global Positioning System,GPS)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。电源809用于为电子设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。
本领域技术人员可以理解,上述的结构并不构成对电子设备800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。需要说明的是,上述各流程和各结构图中不是所有的步骤和模块都是必须的,可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的,可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分,实际实现时,一个模块可以分由多个模块实现,多个模块的功能也可以由同一个模块实现,这些模块可以位于同一个设备中,也可以位于不同的设备中。各实施方式中的硬件模块可以以机械方式或电子方式实现。例如,一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器,如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式,或是采用专用的永久性电路,或是采用临时配置的电路(如由软件进行配置)来实现硬件模块,可以根据成本和时间上的考虑来决定。
本发明还提供了一种机器可读的存储介质,存储用于使一机器执行如本申请方法的指令。具体地,可以提供配有存储介质的***或者装置,在该存储介质上存储着实现上述实施方式中任一实施方式的功能的软件程序代码,且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外,还可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作,从而实现上述实施方式中任一实施方式的功能。用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机或云上下载程序代码。
以上,仅为本发明的较佳实施方式而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种帧间运动估计方法,其特征在于,包括;
确定当前编码块的感兴趣程度;
基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少;
基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计。
2.根据权利要求1所述的方法,其特征在于,所述基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子包括:
基于所述感兴趣程度,调整所述当前编码块的量化参数值,其中所述量化参数值随着所述感兴趣程度的增加而减少;
基于调整后的量化参数值,确定所述当前编码块的拉格朗日因子。
3.根据权利要求1所述的方法,其特征在于,所述基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子包括:
基于所述当前编码块的量化参数值,确定所述当前编码块的拉格朗日因子;
基于所述感兴趣程度,调整所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述感兴趣程度具有级别,所述级别包括下列中的至少一个:
第一级,与从图像帧中分割出的前景区域相关联;
第二级,与从图像帧中分割出的背景区域相关联;
第三级,与图像帧中除了前景区域和背景区域之外的剩余区域相关联;
其中第一级表征的感兴趣程度大于第三级表征的感兴趣程度,第三级表征的感兴趣程度大于第二级表征的感兴趣程度。
5.根据权利要求4所述的方法,其特征在于,所述当前编码块的级别为第一级;所述基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计包括:
在所述当前编码块的参考帧搜索区域中,采用1像素步长执行整像素搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点;
在所述率失真代价最小的像素点的周围采用1/2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;
在所述率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;
基于所述率失真代价最小的1/4像素点,确定所述当前编码块的运动向量。
6.根据权利要求4所述的方法,其特征在于,所述当前编码块的级别为第三级;所述基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计包括:
在所述当前编码块的参考帧搜索区域中,采用2像素步长执行整像素搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,并确定步长为2时率失真代价最小的像素点;
在所述步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定步长为1时率失真代价最小的像素点;
在所述步长为1时率失真代价最小的像素点周围采用1/2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;
在所述率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;
基于所述率失真代价最小的1/4像素点,确定所述当前编码块的运动向量。
7.根据权利要求4所述的方法,其特征在于,所述当前编码块的级别为第二级;所述基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计包括:
在所述当前编码块的参考帧搜索区域中,采用4像素步长执行整像素搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,并确定步长为4时率失真代价最小的像素点;
在所述步长为4时率失真代价最小的像素点周围采用2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定步长为2时率失真代价最小的像素点;
在所述步长为2时率失真代价最小的像素点周围采用1像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个像素点的率失真代价,确定率失真代价最小的像素点;
在所述率失真代价最小的像素点周围采用1/2像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/2像素点的率失真代价,确定率失真代价最小的1/2像素点;
在所述率失真代价最小的1/2像素点周围采用1/4像素步长执行搜索,基于所述拉格朗日因子计算搜索到的每个1/4像素点的率失真代价,确定率失真代价最小的1/4像素点;
基于所述率失真代价最小的1/4像素点,确定所述当前编码块的运动向量。
8.一种帧间运动估计装置,其特征在于,包括:
第一确定模块,被配置为确定当前编码块的感兴趣程度;
第二确定模块,被配置为基于所述感兴趣程度,确定所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少;
运动估计模块,被配置为基于所述拉格朗日因子,对所述当前编码块执行帧间运动估计。
9.根据权利要求8所述的装置,其特征在于,
所述第二确定模块,被配置为基于所述感兴趣程度,调整所述当前编码块的量化参数值,其中所述量化参数值随着所述感兴趣程度的增加而减少;基于调整后的量化参数值,确定所述当前编码块的拉格朗日因子。
10.根据权利要求8所述的装置,其特征在于,
所述第二确定模块,被配置为基于所述当前编码块的量化参数值,确定所述当前编码块的拉格朗日因子;基于所述感兴趣程度,调整所述当前编码块的拉格朗日因子,其中所述拉格朗日因子随着所述感兴趣程度的增加而减少。
11.根据权利要求8-10中任一项所述的装置,其特征在于,所述感兴趣程度具有级别,所述级别包括下列中的至少一个:
第一级,与从图像帧中分割出的前景区域相关联;
第二级,与从图像帧中分割出的背景区域相关联;
第三级,与图像帧中除了前景区域和背景区域之外的剩余区域相关联;
其中第一级表征的感兴趣程度大于第三级表征的感兴趣程度,第三级表征的感兴趣程度大于第二级表征的感兴趣程度。
12.一种电子设备,其特征在于,包括:
存储器;
处理器;
其中所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如权利要求1-7中任一项所述的帧间运动估计方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的帧间运动估计方法。
CN202211473468.3A 2022-11-23 2022-11-23 帧间运动估计方法、装置及电子设备和存储介质 Pending CN118075485A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211473468.3A CN118075485A (zh) 2022-11-23 2022-11-23 帧间运动估计方法、装置及电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211473468.3A CN118075485A (zh) 2022-11-23 2022-11-23 帧间运动估计方法、装置及电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN118075485A true CN118075485A (zh) 2024-05-24

Family

ID=91109716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211473468.3A Pending CN118075485A (zh) 2022-11-23 2022-11-23 帧间运动估计方法、装置及电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN118075485A (zh)

Similar Documents

Publication Publication Date Title
US11601669B2 (en) Image encoding device, image decoding device, image encoding method, and image decoding method
US11870992B2 (en) Encoder that determines an intra prediction mode used for a current block and performs quantization on first transform coefficients or second transform coefficients based on whether a primary transform basis is included in predetermined transform bases
US10356417B2 (en) Method and system of video coding using projected motion vectors
US11895322B2 (en) Encoder, decoder, encoding method, and decoding method
US11930206B2 (en) Encoder, decoder, encoding method, and decoding method
US11831905B2 (en) Encoding method, decoding method, encoder, and decoder
US20230269390A1 (en) Encoder, decoder, encoding method, and decoding method
US11838505B2 (en) Encoder, decoder, encoding method, and decoding method
US11917150B2 (en) Encoder, decoder, encoding method, and decoding method
US20190373280A1 (en) Encoder, decoder, encoding method, and decoding method
US20240107012A1 (en) Encoder, decoder, encoding method, and decoding method
US20230421762A1 (en) Encoder, decoder, encoding method, and decoding method
US20230362408A1 (en) Encoder, decoder, encoding method, and decoding method
US20230262252A1 (en) Encoder, decoder, encoding method, and decoding method
US11095909B2 (en) Encoder, decoder, encoding method, and decoding method
US10986354B2 (en) Encoder, decoder, encoding method, and decoding method
CN118075485A (zh) 帧间运动估计方法、装置及电子设备和存储介质
US11778207B2 (en) Encoder, decoder, encoding method, and decoding method
RU2787885C2 (ru) Способ и оборудование взаимного прогнозирования, поток битов и энергонезависимый носитель хранения

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination