CN113810692B

CN113810692B - 对变化和移动进行分帧的方法、图像处理装置及程序产品

Info

Publication number: CN113810692B
Application number: CN202110663346.XA
Authority: CN
Inventors: 哈弗德·格拉夫
Original assignee: Pexip AS
Current assignee: Pexip AS
Priority date: 2020-06-17
Filing date: 2021-06-15
Publication date: 2024-05-10
Anticipated expiration: 2041-06-15
Also published as: US20220012857A1; NO20200708A1; EP3926584A1; CN113810692A; NO346137B1; US11538169B2

Abstract

本发明涉及对变化和移动进行分帧的方法、图像处理装置及程序产品。该方法包括通过对像素位置的每个N×N块进行DCT变换来计算视频图像的第一位图，当大于变化量时，将第一二进制值分配给N×N块的像素位置，并且当小于变化量时，将第二二进制值分配给N×N块的像素位置。通过表示视频图像的过去时间帧的多个位图之间的或运算来计算第三位图，通过执行表示视频图像的当前时间帧的第三位图的膨胀处理来计算第四位图，并且基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。

Description

对变化和移动进行分帧的方法、图像处理装置及程序产品

技术领域

本发明涉及检测视频流中的变化和移动对象以识别受关注的区域。

背景技术

移动图像的实时传输被用于若干应用，例如视频会议、网络会议和视频电话。

然而，表示移动图像需要大量信息，因为数字视频通常由每秒多达60张图片表示，每张图片由大量像素表示，这些像素进而由至少一个字节的数字数据表示。这样的未压缩的视频数据导致大数据量，并且不能通过常规的通信网络和传输线实时传输，因为这将需要不切实际的高网络带宽。

因此，实时视频传输视频压缩，其中，主要目标是用尽可能少的位来表示视频信息，引入尽可能低的延迟，并且不会过多地损害视频质量。

MPEG*、H.26*和VP*标准中描述了最常见的视频编码方法。视频数据在传输之前进行四个主要处理，即预测、变换、量化和熵编码。

预测处理显著减小了要传送的视频序列中的每张图片所需的位量。它利用序列的部分与序列的其他部分的相似性。由于预测器部分对编码器和解码器两者都是已知的，因此仅需传送序列之间的差异。这种差异通常需要更少的容量来表示，并且通常被称为残差。表示为数据块(例如，8×8像素)的残差仍然包含内部相关性。利用这一点的公知方法是执行二维块变换。VP9协议使用8×8整数DCT(离散余弦变换)变换。这将8×8像素变换为通常可以由比像素表示更少的位来表示的8×8变换系数。

具有内部相关性的8×8像素阵列的变换将可能导致具有比原始8×8像素块少得多的非零值的8×8变换系数块。

视频会议不断引入新特征以增加用户体验，并且提取大数据和统计数据以支持机器学***衡的用户界面，减少单个视频源的混排。例如，在AD中，具有检测到的最多人数的视图将倾向于被放置在屏幕的上部。这需要在每个视图中进行某种面部检测或面部计数。面部检测在处理器使用和时间消耗方面是相对昂贵的处理，因为像眼睛和头部形状的面部特征应在陈述视图中存在面部之前被识别。在实时通信中，这可能引入不可接受的延迟并且占用许多可用的处理器容量。

因此，需要一种减小实时视频通信中面部检测的处理器和时间消耗而不损害面部检测精度的方法。

发明内容

鉴于上述，本发明的目的是克服或至少减轻现有技术视频会议***的缺点。

在第一方面，本发明提供一种对被划分为N×N块的像素位置的视频图像中的变化和移动进行分帧的方法。该方法包括：通过对像素位置的每个N×N块进行DCT(离散余弦变换)变换来计算表示视频图像的当前时间帧的第一位图，通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的N×N块的像素位置，并且将二进制值中的第二二进制值分配给被认为具有小于预定变化量的N×N块的像素位置来确定相应N×N块中的变化程度；通过对表示视频图像的过去时间帧的多个第一位图执行或(OR)运算来计算表示视频图像的当前时间帧的第三位图；通过执行表示视频图像的当前时间帧的第三位图的膨胀处理来计算表示视频图像的当前时间帧的第四位图；并且基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。

与常规面部检测处理相比，到达帧的计算成本极低，因为仅使用了表示视频图像的位图。

该方法可以进一步包括附加步骤：通过执行表示视频图像的当前时间帧的第一位图的侵蚀处理来计算表示视频图像的当前时间帧的第二位图，并且通过对表示视频图像的过去时间帧的多个第一位图执行或运算来计算第三位图的步骤通过对表示视频图像的过去时间帧的多个第二位图执行或运算来执行。

侵蚀处理可以包括在第一位图与以下第一内核之间执行卷积：

0，1，0，

1，1，1，

0，1，0。

计算第一位图的步骤可以进一步包括：计算视频图像中的N×N维块中的每一个的DCT系数；将N×N块的DCT系数中的每一个DCT系数与预定第一阈值进行比较；如果N×N块的所有或基本上所有DCT系数低于预定第一阈值，则相应N×N块的像素位置被分配给二进制值中的第二二进制值“0”；如果N×N块的所有或基本上所有DCT系数不低于预定第一阈值，则相应N×N块的像素位置被分配给二进制值中的第一二进制值“1”。

膨胀处理可以包括在第三位图与以下第二内核之间执行卷积：

1，1，1，1，1，1，1，

1，1，1，1，1，1，1。

在一实施例中，N＝8。

在一个实施例中，表示过去时间帧的第一位图的数量可以是30。

创建识别变化和移动的区域的一个或多个帧的步骤可以包括提取每个所检测到的BLOB的相应左下像素位置和右上像素位置。

在第二方面，本发明提供一种图像处理装置，用于对被划分为N×N块像素位置的视频图像中的变化和移动进行分帧，该图像处理装置包括：至少一个处理器、适于接收视频图像的输入/输出电路、至少一个存储器，该存储器包括指令，当由至少一个处理器执行时，该指令使图像处理装置：通过对像素位置的每个N×N块进行DCT变换来计算表示视频图像的当前时间帧的第一位图，通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的N×N块的像素位置，并且将二进制值中的第二二进制值分配给被认为具有小于预定变化量的N×N块的像素位置来确定相应N×N块中的变化程度；通过对表示视频图像的过去时间帧的多个第一位图执行或运算来计算表示视频图像的当前时间帧的第三位图；通过执行表示视频图像的当前时间帧的第三位图的膨胀处理来计算表示视频图像的当前时间帧的第四位图；并且基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。

与执行常规面部检测处理的图像处理装置相比，到达帧的计算成本极低，因为仅使用了表示视频图像的位图。

当由至少一个处理器执行时，该指令可以进一步使图像处理装置执行以下附加步骤：通过执行表示视频图像的当前时间帧的第一位图的侵蚀处理来计算表示视频图像的当前时间帧的第二位图，并且通过对表示视频图像的过去时间帧的多个第一位图执行或运算来计算第三位图的步骤通过对表示视频图像的过去时间帧的多个第二位图执行或运算来执行。

0，1，0，

1，1，1，

0，1，0。

计算第一位图可以进一步包括：计算视频图像中的N×N维块中的每一个的DCT系数，将N×N块的DCT系数中的每一个DCT系数与预定第一阈值进行比较；如果N×N块的所有或基本上所有DCT系数低于预定第一阈值，则相应N×N块的像素位置被分配给二进制值中的第二二进制值“0”；如果N×N块的所有或基本上所有DCT系数不低于预定第一阈值，则相应N×N块的像素位置被分配给二进制值中的第一二进制值“1”。

1，1，1，1，1，1，1，

1，1，1，1，1，1，1。

在一实施例中，N＝8。

创建识别变化和移动的区域的一个或多个帧可以包括提取每个所检测到的BLOB的相应左下像素位置和右上像素位置。

在第三方面，本发明提供一种包括非暂时性计算机可读存储介质的计算机程序产品，该非暂时性计算机可读存储介质包括指令，当在图像处理装置中的处理器上执行时，该指令使得图像处理装置能够执行第一方面的方法的步骤。

附图说明

图1是处理视频图像的方法步骤的示意图。

图2是处理视频图像的一个方法步骤的示意图。

图3是处理视频图像的一个方法步骤的示意图。

图4是处理视频图像的一个方法步骤的示意图。

图5是处理视频图像的一个方法步骤的示意图。

图6是图像处理装置的示意图。

具体实施方式

根据本文公开的本发明的实施例，消除或至少减轻了根据现有技术的解决方案的上述缺点。

根据本发明的一些方面，提供一种识别视频流中的视图内可能经受面部检测或面部检测更新的受关注区域的逐步方法。它基于识别图像中的实质性移动和变化。

第一步利用常规视频压缩中的现有技术来识别可以在编码和解码处理中“跳过”的块，因为基本上不存在变化。

如已经指示的，要编码的视频内容的一个特性是描述每个序列的位要求强烈变化。对于若干应用，对于所属领域技术人员公知的是，图片的相当一部分的内容逐帧不变。

H.264/H.265和VP9拓宽了该定义，使得具有恒定运动的图片部分也可以在不使用附加信息的情况下被编码。逐帧变化很小或没有变化的区域需要最小数量的位来表示。包括在逐帧变化很小或没有变化的区域中的块被定义为“跳过”或处于“跳过模式”，反映相对于对应的先前块没有变化或仅可预测运动发生。除了块将被解码为“跳过”的指示之外，不需要数据用于表示这些块。该指示对于若干宏块可能是共同的。

本发明通过计算图片中的N×N维块中的每一个的DCT(离散余弦变换)系数并且将N×N块的DCT系数中的每一个DCT系数与预定第一阈值进行比较来利用这一点。如果N×N块的所有DCT系数低于预定第一阈值，则相应N×N块被分配“0”。如果N×N块的所有DCT系数不低于预定第一阈值，则相应N×N块被分配“1”。分配可以是其他方式，但是结果在任一情况下都是图片的二进制表示，示出存在变化的地方，并且因此在图片中可能存在或仅存在移动的地方。

由早期跳过DCT变换产生的该二进制表示倾向于为位噪声，并且包括可能不期望的高频分量。根据本发明的各方面，这是通过使用卷积矩阵来调整的。在图像处理中，内核、卷积矩阵或掩模是用于模糊、锐化、压花、边缘检测等的小矩阵。可以通过在内核与图像或类似图像的内容之间进行卷积来减小噪声和可能的高频分量。卷积是将图像的每个元素添加到由内核加权的其局部邻居(local neighbors)的处理。这与数学卷积的形式相关。尽管类似地用“*”表示，但是正在执行的矩阵运算-卷积-不是传统的矩阵乘法。

在根据本发明的各方面的第二步骤中，由早期跳过DCT表示产生的二进制表示与被调整以侵蚀内容的内核进行卷积，以便去除二进制早期跳过表示的一些噪声和可能不期望的空间高频分量。侵蚀内核将通过实际计算由内核覆盖的区域上的局部最小值来实现这一点。作为示例，如果早期跳过DCT表示中的零是黑色的，并且非零是白色的，则侵蚀内核将导致白色区域变薄且变小，并且黑色区域变大。

到目前为止，已经在单个视频帧级别上讨论了本发明，其中，变化是相对于先前帧或参考帧的。然而，受关注图片中的移动应反映某一段时间内的变化，而不仅是变化的快照，以减少时间维度中闪烁的高频分量。因此，在第三步骤中，侵蚀操作的结果在时间上组合一定数量的帧。帧的数量应足够大以减小高频，但是同时足够小以避免不期望的历史变化的“故事”。被侵蚀的帧的数量可以例如进行或运算以在预定时间窗口中创建期望的变化组合。

在上面讨论的操作之后得到的位图仍然可以以碎片的方式表示移动对象，即，通过由不连续的狭窄路径分隔的若干相邻区域。相反，所需要的结果将是尽可能连贯地表示的移动对象，以便能够围绕经受例如面部检测的候选区域创建最佳可能的匹配帧。

在本发明的某些方面，执行膨胀步骤。与上面讨论的去除对象边界上的像素的侵蚀相反，位图的膨胀将像素添加到图像中对象的边界。具体地，位图与被调整以膨胀内容的内核进行卷积，以便拼接表示一个移动对象的可能分离的片段。通过该处理添加的像素的数量取决于所选择的内核的大小和形状，但是为了实现期望的结果，发明人已经意识到膨胀内核相对于侵蚀内核应当较大。

为了实际识别位图中得到的移动对象，执行所谓的BLOB(二进制大对象)检测步骤。在图像处理中，BLOB检测是指旨在检测图像中与图像周围区域相比在亮度或颜色等属性上不同的点和/或区域的模块。

在已经检测到BLOB之后，由每个所检测到的BLOB的相应最小和最大水平像素位置和垂直像素位置来限定所假设的移动对象的帧。

现在转到根据本发明的各方面的示例，图1是视频图像的快照，其中，两个帧指示用于面部检测的受关注区域。使用上面讨论的用于变化识别和移动检测的方法来找到帧。可以看出，帧包围了图像中的两个面部。面部检测处理被排除在除了帧内之外的所有其他区域，导致处理能力和延迟的显著降低。在如上所述对受关注区域进行分帧之后，由于有限的搜索区域，常规的面部检测处理将或多或少地立即实现面部命中。另一方面，导致找到受关注的分帧区域的计算需要很少的处理，因为它仅处理图像的位图表示。

图2至图5是表示在图1的图片中检测移动的不同步骤的位图的图示。

在图2中，视频图像已经经受了上面讨论的早期跳过DCT变换。具有低于(或可能等于)预定第一阈值的DCT系数的块中的像素是黑色的，并且具有高于(或可能等于)预定第一阈值的DCT系数的块中的像素是白色的。可以看出，所得到的第一位图是图像中两个移动肖像的轮廓。

图3中示出了第二位图，其示出了根据第二步骤的以上讨论，第一位图经受侵蚀的结果。具体地，第一位图已经与以下第一内核进行卷积：

可以看出，所得到的第二位图是第一位图的精简版本，仅维持第一位图的空间低频内容。

图4示出了根据上面讨论的第三步骤的由表示对应的三十个最新视频帧的三十个最新第二位图的或处理得到的第三位图。所得到的第三位图表示以30fps(帧/秒)在1秒时间窗口上的组合变化。

图5示出了如上所讨论的第三位图的膨胀步骤的结果。具体地，第三位图已经与以下第二个内核进行卷积：

可以看出，可能构成一个移动对象的分离对象已经被拼接在一起。

最后，执行根据上面讨论的BLOB检测步骤的BLOB，提取每个所检测到的BLOB的相应左下LB像素位置和右上RT像素位置，从而得到图1所示的帧。

与常规的面部检测处理相比，到达帧的计算成本极低，因为仅使用了表示视频图像的位图。由于不太可能发生帧外部的区域中的移动或变化，因此由于清醒和活着的人的面部永远不会完全静止的事实，也不太可能有存在于帧外部的面部。因此，要经受高成本面部检测算法的区域被限制在帧内，从而导致处理器和时间使用方面的巨大增益，这在实时视频通信中尤其重要。

通过存储已经检测到面部的先前区域，可以更多地限制受关注的区域。然后，这些区域中的新面部检测在已经被检测之后的至少一定时间内将是多余的。

此外，本发明还可以用于检测和分帧手势，诸如手部移动。然后，所检测到的手势可以用作活动的指示，其再次可以改变视频图像在复合视频图片中的位置作为语音激活的替代方案。

现在转到图6，示意性示出了图像处理装置600。图像处理装置600包括输入/输出电路606、至少一个处理器602和存储器604。存储器604包含可由处理器602执行的指令，使图像处理装置600：

-通过对像素位置的每个N×N块进行DCT变换来计算表示视频图像的当前时间帧的第一位图，通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的N×N块的像素位置，并且将二进制值中的第二二进制值分配给被认为具有小于预定变化量的N×N块的像素位置来确定相应N×N块中的变化程度；

-通过在表示视频图像的过去时间帧的多个第一位图之间执行或运算来计算表示当前视频图像的第三位图；

-通过执行表示当前视频时间帧的第三位图的膨胀处理来计算表示当前视频时间帧的第四位图；并且

-基于检测第四位图中的BLOB(二进制大对象)创建识别视频图像中的变化和移动的区域的一个或多个帧。

可由处理器602执行的指令可以是计算机程序641形式的软件。计算机程序641可以包含在载体642中或由载体642包含，该载体642可以将计算机程序641提供给存储器604和处理器602。载体642可以是任何合适的形式，包括电信号、光信号、无线电信号或计算机可读存储介质。

在前面的描述中，已经参考说明性实施例描述了根据本发明的方法和成像处理装置的各个方面。出于说明的目的，阐述了具体的数字、***和配置以便提供对***及其工作的透彻理解。然而，该描述不旨在以限制性意义来解释。对于所公开的主题所属领域的技术人员来说显而易见的说明性实施例的各种修改和变化以及方法和图像处理装置的其他实施例被认为落入本发明的范围内。

Claims

1.一种对被划分为N×N块的像素位置的视频图像中的所述N×N块的所述像素位置的变化和移动进行分帧的方法，所述方法包括：

通过对所述像素位置的每个N×N块进行离散余弦变换DCT变换来计算表示所述视频图像的当前时间帧的第一位图，所述DCT变换通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的所述N×N块的所述像素位置，并且将所述二进制值中的第二二进制值分配给被认为具有小于预定变化量的所述N×N块的所述像素位置来确定相应N×N块中的变化程度；

通过执行表示所述视频图像的所述当前时间帧的所述第一位图的侵蚀处理来计算表示所述视频图像的所述当前时间帧的第二位图，

通过对表示所述视频图像的过去时间帧的多个第二位图执行或运算来计算表示所述视频图像的所述当前时间帧的第三位图，其中，表示所述过去时间帧的第一位图的数量是30，所述过去时间帧是所述当前时间帧对应的30个最新视频帧；

通过执行表示所述视频图像的所述当前时间帧的所述第三位图的膨胀处理来计算表示所述视频图像的所述当前时间帧的第四位图；以及

基于检测所述第四位图中的二进制大对象BLOB创建识别所述视频图像中的所述N×N块的所述像素位置的变化和移动的区域的一个或多个帧，

其中，BLOB检测用于检测所述视频图像中与所述视频图像周围区域相比在亮度或颜色属性上不同的点和/或区域，

并且其中，创建识别所述视频图像中的所述N×N块的所述像素位置的变化和移动的区域的一个或多个帧的步骤包括提取每个所检测到的BLOB的相应左下(LB)像素位置和右上(RT)像素位置。

2.根据权利要求1所述的方法，其中，所述侵蚀处理包括在所述第一位图与以下第一内核之间执行卷积：

0，1，0，

1，1，1，

0，1，0。

3.根据权利要求1所述的方法，其中，计算所述第一位图的步骤进一步包括：

计算所述视频图像中的N×N维块中的每一个的DCT系数；

将所述N×N块的所述DCT系数中的每一个DCT系数与预定第一阈值进行比较；

如果所述N×N块的所有DCT系数低于所述预定第一阈值，则所述相应N×N块的所述像素位置被分配给所述二进制值中的所述第二二进制值“0”；

如果所述N×N块的所有DCT系数不低于所述预定第一阈值，则所述相应N×N块的所述像素位置被分配给所述二进制值中的所述第一二进制值“1”。

4.根据权利要求1所述的方法，其中，所述膨胀处理包括在所述第三位图与以下第二内核之间执行卷积：

1，1，1，1，1，1，1，

1，1，1，1，1，1，1。

5.根据权利要求1所述的方法，其中，N＝8。

6.一种图像处理装置，用于对被划分为N×N块的像素位置的视频图像中的所述N×N块的所述像素位置的变化和移动进行分帧，所述图像处理装置包括：

至少一个处理器；

输入/输出电路，适于接收所述视频图像；

至少一个存储器；

所述存储器包括指令，当由所述至少一个处理器执行时，所述指令使所述图像处理装置：

通过对所述像素位置的每个N×N进行DCT变换来计算表示所述视频图像的当前时间帧的第一位图，所述DCT变换通过将二进制值中的第一二进制值分配给被认为具有大于预定变化量的所述N×N块的所述像素位置，并且将所述二进制值中的第二二进制值分配给被认为具有小于预定变化量的所述N×N块的所述像素位置来确定相应N×N块中的变化程度；

7.根据权利要求6所述的图像处理装置，其中，所述侵蚀处理包括在所述第一位图与以下第一内核之间执行卷积：

0，1，0，

1，1，1，

0，1，0。

8.根据权利要求6所述的图像处理装置，其中，计算所述第一位图的步骤进一步包括：

计算所述视频图像中的N×N维块中的每一个的DCT系数；

9.根据权利要求6所述的图像处理装置，其中，所述膨胀处理包括在所述第三位图与以下第二内核之间执行卷积：

1，1，1，1，1，1，1，

1，1，1，1，1，1，1。

10.根据权利要求6所述的图像处理装置，其中，N＝8。

11.一种包括非暂时性计算机可读存储介质的计算机程序产品，所述非暂时性计算机可读存储介质包括指令，当在图像处理装置中的处理器上执行时，所述指令使得所述图像处理装置能够执行根据权利要求1至5中任一项所述的方法的步骤。