WO2024001345A1

WO2024001345A1 - 图像处理方法、电子设备及计算机存储介质

Info

Publication number: WO2024001345A1
Application number: PCT/CN2023/084039
Authority: WO
Inventors: 游晶; 陈杰; 孔德辉; 徐科
Original assignee: 深圳市中兴微电子技术有限公司
Priority date: 2022-06-30
Filing date: 2023-03-27
Publication date: 2024-01-04
Also published as: CN117376571A

Abstract

本申请提供一种图像处理方法，所述方法包括：从待处理图像帧中划分出静止区域和疑似运动区域；确定出所述疑似运动区域中各像素的运动矢量信息，并根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素；对所述静止像素以及所述静止区域中的所有像素进行静止状态的标记，对所述运动像素进行运动状态以及相应的所述运动矢量信息的标记；对标记后的所述待处理图像帧进行视频编解码处理。本申请还提供一种电子设备及计算机存储介质。

Description

图像处理方法、电子设备及计算机存储介质

相关申请的交叉引用

本申请要求2022年6月30日提交给中国专利局的第202210761067.1号专利申请的优先权，其全部内容通过引用合并于此。

技术领域

本公开涉及但不限于图像处理技术领域。

背景技术

运动估计(Motion Estimation)是视频编解码和视频处理(例如去交织)中广泛使用的一种技术。在传统的视频编解码技术中，运动估计通常是基于划分预测单元(PU)进行的，而划分PU通常又是直接根据位置信息进行粗暴的分割，因此在进行运动估计时，不可避免地会出现PU的运动估计准确性较低的问题。并且，传统的视频编解码技术通常采用的是全局运动估计，全局运动估计不仅耗时长，而且还需要较大的带宽支持，再加之视频质量、视频分辨率的不断提升，对带宽的要求更大。

发明内容

本公开提供一种图像处理方法、一种电子设备及一种计算机存储介质。

第一方面，本公开提供一种图像处理方法，所述方法包括：从待处理图像帧中划分出静止区域和疑似运动区域；确定出所述疑似运动区域中各像素的运动矢量信息，并根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素；对所述静止像素以及所述静止区域中的所有像素进行静止状态的标记，对所述运动像素进行运动状态以及相应的所述运动矢量信息的标记；对标记后的所述待处理图像帧进行视频编解码处理。

第二方面，本公开提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本文所述的任一图像处理方法。

第三方面，本公开提供一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时，使得所述处理器实现本文所述的任一图像处理方法。

附图说明

图1是本公开提供的图像处理方法的流程示意图；

图2是本公开提供的图像处理方法的流程示意图；

图3是本公开提供的块匹配示意图；

图4是本公开提供的图像处理方法的流程示意图；

图5是本公开提供的图像处理方法的流程示意图；

图6是本公开提供的图像处理方法的流程示意图。

具体实施方式

在下文中将参考附图更充分地描述示例实施方式，但是所述示例实施方式可以以不同形式来体现且不应当被解释为限于本文阐述的实施方式。反之，提供这些实施方式的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施方式，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施方式可借助本公开的理想示意图而参考平面图和/ 或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施方式不限于附图中所示的实施方式，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

由于在传统的视频编解码技术中通常基于划分PU来进行运动估计并且是对图像帧进行全局运动估计，准确率较低、耗时长且对带宽要求较高，有鉴于此，本公开实施方式提出，对于一些局部运动场景(例如直播场景)来说，这些场景都有一个共同特点，就是大部分区域其实都是处于静止状态的，只有小部分区域是处于运动状态的，因此，可以先初步检测出静止区域和疑似运动区域，然后在疑似运动区域中进一步地进行运动检测，对疑似运动区域进行局部的运动估计，以便确定出疑似运动区域内像素的运动矢量信息，进一步划分出疑似运动区域中的静止像素和运动像素，分别给静止像素和运动像素做运动状态的相关标记，直接根据像素的运动状态的相关标记进行视频编解码处理即可。

如图1所示，本公开提供一种图像处理方法，所述方法可以包括如下步骤S11至S14。

在步骤S11中，从待处理图像帧中划分出静止区域和疑似运动区域。

在步骤S12中，确定出所述疑似运动区域中各像素的运动矢量信息，并根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素。

在步骤S13中，对所述静止像素以及所述静止区域中的所有像素进行静止状态的标记，对所述运动像素进行运动状态以及相应的所述运动矢量信息的标记。

在步骤S14中，对标记后的所述待处理图像帧进行视频编解码处理。

其中，静止区域内和疑似运动区域内均包括多个像素，静止区域指的是其中的像素不存在运动的区域，疑似运动区域指的是其中的像素疑似发生了运动的区域。

从待处理图像帧中划分出静止区域和疑似运动区域是一个运动检测的过程，可以通过任何能够进行运动检测的传统图像处理操作或深度学***均值)操作、SAD(Sum of Absolute Difference，绝对误差和)操作、帧差计算等来进行。

确定出所述疑似运动区域中各像素的运动矢量信息，并根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素，是一个局部运动估计的过程，可以通过任何能够进行运动估计的传统图像处理操作或深度学习神经网络来进行，例如通过图像块匹配法、光流法、光流网络等来进行。

从上述步骤S11-S14可以看出，本公开实施方式提供的图像处理方法，通过从待处理图像帧中划分出静止区域和疑似运动区域，仅对疑似运动区域进行局部的运动估计，以便确定出所述疑似运动区域中各像素的运动矢量信息，并根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素，对所述静止像素以及所述静止区域中的所有像素进行静止状态的标记，对所述运动像素进行运动状态以及相应的所述运动矢量信息的标记，对标记后的所述待处理图像帧进行视频编解码处理，而无需对待处理图像帧进行全局的运动估计，缩短了运动估计的时长，提高了图像处理的效率，并且识别出来的静止像素(包括静止区域内的像素)在进行视频编解码处理时具有较小的带宽需求，而运动像素在进行视频编解码处理时具有较大的带宽需求，对静止像素和运动像素分别进行针对性处理，还能够节省带宽资源，缓解视频传输的压力。

仅对疑似运动区域进行运动估计，可以采用图像块匹配法、光流法、光流网络等等，其中，使用图像块匹配法方便快捷且具有较高的准确性。相应的，在一些实施方式中，如图2所示，所述确定出所述疑似运动区域中各像素的运动矢量信息(即步骤S12中所述)可以包括如下步骤S121至S123。

在步骤S121中，将所述疑似运动区域划分为多个互不重叠的宏块。

在步骤S122中，对于每一所述宏块，均从当前所述宏块对应的参考帧中，确定出当前所述宏块的匹配块。

在步骤S123中，根据各所述宏块以及各所述宏块的匹配块，确定出各所述宏块中所有像素的运动矢量信息。

其中，一个宏块通常由一个亮度像素块和附加的两个色度像素块组成，与宏块对应的参考帧，指的是宏块所在的图像帧的参考帧，在本领域中，参考帧的类型和数量，与当前帧的类型有关，譬如，当前帧为P帧时参考帧为当前帧前面的I帧或P帧，当前帧为B帧时参考帧为当前帧前面的和/或后面的、I帧和/或P帧，本公开实施方式不再赘述。

首先将所述疑似运动区域划分为多个互不重叠的宏块，认为每个宏块内的所有像素具有相同的运动矢量信息。进一步的，针对每个宏块，均从参考帧中搜索得到与该宏块最相似的块，称为该宏块的匹配块，其中计算相似度并确定出最相似的块，可以采用SAD算法进行，该算法简单快速。最后，针对每个宏块，根据该宏块以及该宏块的匹配块即可确定出该宏块对应的运动矢量信息，也即该宏块内所有像素的运动矢量信息。

举例来说，如图3所示，为本公开提供的一种块匹配示意图，以疑似运动区域的某一宏块(称为当前块(current block))为例，在参考帧中以当前块的中心点为中心点(即图中所示点(x,y))，在该中心点附近的一个搜索范围(Search Region)内，搜索与当前块最相似的匹配块，匹配块的中心点为(x1,y1)，当前块的中心点与匹配块的中心点之间的几何坐标差值可以作为当前块到匹配块的运动矢量 (Motion Vector)，也可以作为当前块中所有像素的运动矢量。

相应的，在一些实施方式中，所述根据各所述宏块以及各所述宏块的匹配块，确定出各所述宏块中所有像素的运动矢量信息(即步骤S123)可以包括如下步骤：对于每一所述宏块，均确定出当前宏块的匹配块的中心点与所述当前宏块的中心点之间的几何坐标差值，作为所述当前宏块中所有像素的运动矢量信息。

例如，当前宏块的匹配块的中心点为(x1,y1)，当前宏块的中心点为(x,y)，那么计算(x1,y1)与(x,y)的几何坐标差值mv即可作为当前宏块中所有像素的运动矢量信息。

在运动矢量不为零的情况下，可以说明像素必定发生了运动，而在运动矢量为零的情况下，并不足以说明像素必定不存在运动，还需结合像素所在的待处理图像帧与其参考帧之间的帧差来进一步判断。相应的，在一些实施方式中，根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素(即步骤S12中所述)包括：将所述各像素中满足预设条件的像素确定为所述静止像素，并将所述各像素中除所述静止像素之外的像素均确定为所述运动像素，其中，所述预设条件包括：运动矢量信息为零，且像素所在的待处理图像帧与其参考帧之间的帧差小于预设阈值。

也就是说，可以将疑似运动区域中各像素中的运动矢量信息为零且对应的帧差小于预设阈值的像素均确定为静止像素，将疑似运动区域中各像素中的运动矢量信息为零且对应的帧差大于或等于预设阈值、以及运动矢量不为零(此时无论对应的帧差是否为零)的像素均确定为运动像素。

像素所在的待处理图像帧与其参考帧之间的帧差，指的是像素所在的待处理图像帧中的各像素与参考帧中的各像素之间的差值的平均值，即平均像素差值。在运动矢量信息为零且像素所在的待处理图像帧与其参考帧之间的帧差小于预设阈值的情况下，可以合理认为像素不存在运动，属于静止像素。

从待处理图像帧中划分出静止区域和疑似运动区域，可以是采用图像分割算法从每张图像帧中分割出静止区域和疑似运动区域，也可以是通过进行运动预检测直接将多张图像帧进行分类，将每一张图像帧确定为静止区域或疑似运动区域。

相应的，在一些实施方式中，所述静止区域包括背景区域和静止目标区域，所述疑似运动区域包括运动目标区域；如图4所示，所述从待处理图像帧中划分出静止区域和疑似运动区域(即步骤S11)可以包括如下步骤S111至S113。

在步骤S111中，将所述待处理图像帧分割为前景区域和背景区域。

在步骤S112中，识别出各所述前景区域中的目标。

在步骤S113中，根据各所述前景区域中的目标，将各所述前景区域均划分为静止目标区域和运动目标区域。

其中，将所述待处理图像帧分割为前景区域和背景区域以及识别出各所述前景区域中的目标，可以通过任何能够进行图像分割的传统图像处理操作或深度学习神经网络来进行，例如，可以通过FCN(Full Connected Network，全连接网络)、SegNet(分割网络)、U-Net(U-shape Network，U型网络)等来进行。在本领域中，前景区域通常指的是包含了局部运动的区域，目标通常指的是图像中的主体例如人、动物、植物等等，本公开实施方式在此不再赘述。

将各所述前景区域均划分为静止目标区域和运动目标区域之后，静止目标区域和背景区域均直接作为静止区域，认为区域内的像素不存在运动，不需要进行运动估计。而运动目标区域则作为疑似运动区域，需要进行运动估计，以进一步判断运动目标区域中的各像素是否存在运动。

识别出各前景区域中的目标之后，可以进一步检测目标是否存在运动。相应的，在一些实施方式中，如图5所示，所述根据各所述前景区域中的目标，将各所述前景区域均划分为静止目标区域和运动目标区域(即步骤S113)可以包括如下步骤S1131和S1132。

在步骤S1131中，对于任一所述前景区域的任一所述目标，当检测到当前所述目标存在运动时，将当前所述前景区域中以当前所述目标为中心的预设范围区域，确定为所述运动目标区域。

在步骤S1132中，将各所述前景区域中除所述运动目标区域之外的区域均确定为所述静止目标区域。

其中，检测目标是否存在运动，可以通过一些简单的图像处理方法来进行，例如可以通过比较目标在前后帧之间的几何位置变化量来进行，前后帧指的是目标所在的待处理图像帧的前一帧和后一帧。以目标为中心的预设范围区域，需要至少将目标全部包括在内。对于检测到存在运动的目标，将以该目标为中心的预设范围区域作为运动目标区域，各运动目标区域之间可以有交集，确定出所有的运动目标区域之后，将除运动目标区域之外的区域均作为静止目标区域。

而之所以在确定出所有的运动目标区域之后才将除运动目标区域之外的区域均作为静止目标区域，而不是在检测到目标不存在运动时将以该目标为中心的预设范围区域作为静止目标区域，是因为若依次检测目标并且依次将以存在运动的目标为中心的预设范围区域作为运动目标区域、将以不存在运动的目标为中心的预设范围区域作为静止目标区域，则很有可能导致后确定出来的静止目标区域覆盖之前确定出来的运动目标区域，也就是导致运动目标区域被误识别为静止目标区域，因此为了避免运动目标区域被误识别为静止目标区域从而降低误识别的风险、提高识别准确度，在确定出所有的运动目标区域之后才将除运动目标区域之外的区域均作为静止目标区域。

除了可以采用图像分割算法从每张图像帧中分割出静止区域和疑似运动区域之外，还可以通过进行运动预检测直接将多张图像帧进行分类。运动预检测可以采用传统的图像处理操作例如计算帧差。相应的，在一些实施方式中，所述待处理图像帧的数量为多个；如图6所示，所述从待处理图像帧中划分出静止区域和疑似运动区域(即步骤S11)可以包括如下步骤S111’和S112’。

在步骤S111’中，确定各所述待处理图像帧与相应参考帧之间的帧差。

在步骤S112’中，根据各所述帧差将各所述待处理图像帧划分为所述静止区域和所述疑似运动区域。

其中，待处理图像帧与相应参考帧之间的帧差，指的是待处理图像帧中的各像素与参考帧中的各像素之间的差值的平均值，即平均像素差值。计算当前待处理图像帧与参考帧之间的差值，可以表示为：frame_diff＝|frame(t)-frame(t-1)|，frame(t)表示当前待处理图像帧，frame(t-1)表示当前待处理图像帧的参考帧，frame_diff表示帧差。

在帧差足够小的情况下，说明当前待处理图像帧与参考帧之间的差别较小，可以合理地认为当前待处理图像帧属于静止区域，即当前待处理图像帧中的像素不存在运动。相应的，在一些实施方式中，所述根据各所述帧差将各所述待处理图像帧划分为所述静止区域和所述疑似运动区域(即步骤S112’)可以包括如下步骤：将帧差大于或等于预设动静判别阈值的待处理图像帧确定为所述疑似运动区域，将帧差小于所述预设动静判别阈值的待处理图像帧确定为所述静止区域。

将预设动静判别阈值表示为threshold，则帧差大于或等于预设动静判别阈值可以表示为：frame_diff＞＝threshold，帧差小于所述预设动静判别阈值可以表示为：frame_diff＜threshold。

此外，本公开还提供一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如前所述的图像处理方法。

此外，本公开还提供一种计算机存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时，使得所述处理器实现如前所述的图像处理方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施方式，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施方式相结合描述的特征、特性和/或元素，或可与其他实施方式相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

一种图像处理方法，包括：

从待处理图像帧中划分出静止区域和疑似运动区域；

确定出所述疑似运动区域中各像素的运动矢量信息，并根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素；

对所述静止像素以及所述静止区域中的所有像素进行静止状态的标记，对所述运动像素进行运动状态以及相应的所述运动矢量信息的标记；

对标记后的所述待处理图像帧进行视频编解码处理。
根据权利要求1所述的方法，其中，所述确定出所述疑似运动区域中各像素的运动矢量信息包括：

将所述疑似运动区域划分为多个互不重叠的宏块；

对于每一所述宏块，均从当前所述宏块对应的参考帧中，确定出当前所述宏块的匹配块；

根据各所述宏块以及各所述宏块的匹配块，确定出各所述宏块中所有像素的运动矢量信息。
根据权利要求2所述的方法，其中，所述根据各所述宏块以及各所述宏块的匹配块，确定出各所述宏块中所有像素的运动矢量信息包括：

对于每一所述宏块，均确定出当前宏块的匹配块的中心点与所述当前宏块的中心点之间的几何坐标差值，作为所述当前宏块中所有像素的运动矢量信息。
根据权利要求3所述的方法，其中，根据所述各像素的运动矢量信息将所述各像素划分为运动像素和静止像素包括：

将所述各像素中满足预设条件的像素确定为所述静止像素，并将所述各像素中除所述静止像素之外的像素均确定为所述运动像素，其中，所述预设条件包括：运动矢量信息为零，且像素所在的待处理图像帧与其参考帧之间的帧差小于预设阈值。
根据权利要求1-4中任一项所述的方法，其中，所述静止区域包括背景区域和静止目标区域，所述疑似运动区域包括运动目标区域；所述从待处理图像帧中划分出静止区域和疑似运动区域包括：

将所述待处理图像帧分割为前景区域和背景区域；

识别出各所述前景区域中的目标；

根据各所述前景区域中的目标，将各所述前景区域均划分为静止目标区域和运动目标区域。
根据权利要求5所述的方法，其中，所述根据各所述前景区域中的目标，将各所述前景区域均划分为静止目标区域和运动目标区域包括：

对于任一所述前景区域的任一所述目标，当检测到当前所述目标存在运动时，将当前所述前景区域中以当前所述目标为中心的预设范围区域，确定为所述运动目标区域；

将各所述前景区域中除所述运动目标区域之外的区域均确定为所述静止目标区域。
根据权利要求1-4中任一项所述的方法，其中，所述待处理图像帧的数量为多个；所述从待处理图像帧中划分出静止区域和疑似运动区域包括：

确定各所述待处理图像帧与相应参考帧之间的帧差；

根据各所述帧差将各所述待处理图像帧划分为所述静止区域和所述疑似运动区域。
根据权利要求7所述的方法，其中，所述根据各所述帧差将各所述待处理图像帧划分为所述静止区域和所述疑似运动区域包括：

将帧差大于或等于预设动静判别阈值的待处理图像帧确定为所述疑似运动区域，将帧差小于所述预设动静判别阈值的待处理图像帧确定为所述静止区域。
一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8任一项所述的图像处理方法。
一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时，使得所述处理器实现如权利要求1-8任一项所述的图像处理方法。