CN114913196A

CN114913196A - 一种基于注意力机制稠密光流计算方法

Info

Publication number: CN114913196A
Application number: CN202111623934.7A
Authority: CN
Inventors: 张继东; 吕超; 曹靖城; 涂娟娟
Original assignee: Tianyi Digital Life Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-08-16
Also published as: WO2023123873A1

Abstract

本发明涉及一种基于注意力机制稠密光流计算方法。本发明提出一种基于Unet和Transformer的稠密光流计算方法，该方法在Unet结构中引入Transformer模块处理特征序列，有效利用了Transformer的多头自注意力机在序列到序列预测方面的全局自注意力优势。本发明中，先通过下采样模块将相邻两帧在通道上拼接后输入到卷积网络进行下采样；再使用特征处理模块将来自下采样网络输出的特征图编码输入序列进行全局上下文特征处理；最后通过上采样模块将特征处理后的特征图上采样重建成与输入图片尺寸相同大小的光流图。

Description

一种基于注意力机制稠密光流计算方法

技术领域

本发明涉及图像处理领域，主要涉及稠密光流计算领域。

背景技术

当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像一种光的“流”，故称之为光流(optical flow)。具体而言，光流是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。传统计算光流的方法主要有基于梯度、基于频率、基于相位和基于匹配的方法。

稠密光流是一种针对图像或指定的某一片区域进行逐点匹配的图像配准方法，它计算图像上所有的点的偏移量，从而形成一个稠密的光流场。通过这个稠密的光流场，可以进行像素级别的图像配准。Horn-Schunck算法以及基于区域匹配的大多数光流法都属于稠密光流的范畴。在使用深度学习的光流计算方法中，FlowNet在实际应用中最为广泛。

专利“金字塔遮挡检测块匹配的鲁棒插值光流计算方法”(CN112509014A)公开了一种金字塔遮挡检测块匹配的鲁棒插值光流计算方法，首先进行金字塔遮挡检测块匹配得到稀疏的鲁棒运动场，对连续两帧图像通过下采样因子构成k层图像金字塔，在每一层金字塔进行块匹配，获取带有初始遮挡的匹配结果；通过基于变形误差的遮挡检测算法，得到遮挡检测信息；由匹配得到准确的稀疏匹配结果，需要经过鲁棒插值算法获取稠密光流；由鲁棒插值算法得到稠密光流后，经过全局能量泛函变分优化稠密光流：经过全局能量泛函变分优化得到最终光流。

专利“一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法”(CN112465872A)公开了一种基于可学习遮挡掩模和二次变形优化的图像序列光流估计方法，首先输入图像序列中任意连续两帧图像，对其进行特征金字塔下采样分层，获得多分辨率两帧特征；在每层金字塔中计算第一帧特征和第二帧特征的相关度，利用相关度构建基于遮挡掩模模块；然后利用得到的遮挡掩模去除变形特征边缘伪影来优化图像运动边缘模糊的光流；并且使用遮挡约束后的光流构建二次变形优化模块，二次变形在亚像素级进一步优化图像运动边缘光流估计；在金字塔各层中对变形特征进行相同的遮挡掩模以及二次变形求取残差流来细化光流，在到达金字塔底层时，输出最终优化的光流估计。

上述两个专利都有效地提高了光流估计的计算精度，但在稠密光流的精确度上还是不能满足视频编码和HDR合成等任务对光流的要求。因此，需要一种改进的技术来提升稠密光流计算的准确度。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

相比现有的稠密光流方法，本发明在光流预测计算任务中引入多头自注意力机，利用Transformer在序列到序列预测方面的全局自注意力优势，提高光流计算任务的效果。此外，本发明能够提高关键位置稠密光流图的准确度，同时通过减少Unet的上采样和下采样的网络深度，提高了稠密光流计算的时效性。

根据本发明的一个实施例，公开了一种用于稠密光流计算的方法，包括：将相邻帧在通道上进行拼接，以生成拼接后的向量图；将拼接后的向量图输入下采样网络进行特征提取，以生成特征向量；将生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列；将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络，以生成隐藏特征序列；将生成的隐藏特征序列进行重组，以生成重组后的特征向量；以及将重组后的特征向量输入上采样网络进行处理，以生成稠密光流图。

根据本发明的另一个实施例，公开了一种用于稠密光流计算的***，包括下采样模块，特征处理模块和上采样模块。下采样模块被配置为：将相邻帧在通道上进行拼接，以生成拼接后的向量图；将拼接后的向量图输入下采样网络进行特征提取，以生成特征向量。特征处理模块被配置为：将所述下采样模块生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列；将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络，以生成隐藏特征序列。上采样模块被配置为：将所述特征处理模块生成的隐藏特征序列进行重组，以生成重组后的特征向量；以及将重组后的特征向量输入上采样网络进行处理，以生成稠密光流图。

根据本发明的另一个实施例，公开了一种用于稠密光流计算的计算设备，包括：处理器；存储器，所述存储器存储有指令，所述指令在被所述处理器执行时能执行如上所述的方法。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例用于稠密光流计算的***100的框图；

图2示出了根据本发明的一个实施例的图1中的各模块101-103的详细示图200；

图3示出了根据本发明的一个实施例的用于稠密光流计算的方法300的流程图；以及

图4出了根据本发明的一个实施例的示例性计算设备的框图400。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

以下为在本发明中使用的术语的解释，其包括本领域的技术人员所熟知的一般含义：

Unet：是一种分割模型，具体而言，其是一个包含4层降采样、4层升采样和类似跳跃连接结构的全卷积网络，其特点是卷积层在降采样和升采样部分完全对称，且降采样端的特征图可以跳过深层采样，被拼接至对应的升采样端。

Transformer:Transformer是一种自然语言处理(NLP)模型，其采用注意力机制来实现机器翻译任务。

在计算机视觉中，光流扮演着重要角色，在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。光流计算可以广泛应用于各种场景，例如，云存视频压缩任务中视频编解码的运动检测、高空抛物、摔倒检测等运动识别和视频理解任务等。为了获得更准确地运动估计，稠密光流计算是视频编解码技术中的关键模块。传统的稠密光流计算方法计算量较大，时效性较差。现有基于深度学习方法的光流计算方法在时效性上有所提高，但稠密光流图的准确度较低，会对视频编解码的质量造成负面影响。

本发明提出一种基于Unet和Transformer的稠密光流计算方法，该方法在Unet结构中引入Transformer模块，利用Transformer在序列到序列预测方面的全局自注意力优势，提高关键位置的稠密光流的准确度，同时也能减少Unet的上采样和下采样的网络深度，提高稠密光流计算的时效性。

图1示出了根据本发明的一个实施例用于稠密光流计算的***100的框图。如图1中示出的，该***100按模块进行划分，各模块之间通过本领域已知的方式进行通信和数据交换。在本发明中，各模块可通过软件或硬件或其组合的方式来实现。如图1所示，***100可包括下采样模块101、特征处理模块102和上采样模块103。

根据本发明的一个实施例，下采样模块101被配置为将相邻两帧在通道(例如，色彩通道)上拼接后形成输入图片，以输入到卷积网络进行下采样，从而得到特征图。特征处理模块102被配置为将下采样模块101输出的特征图编码输入序列进行全局上下文特征处理。上采样模块103被配置为一个级联上采样器，将特征处理后的特征图上采样以重建成与输入图片尺寸相同大小的光流图。

图2示出了根据本发明的一个实施例的图1中的各模块101-103的详细示图200。

如图2中所示出的，下采样模块101接收相邻两帧201，首先将该两帧201进行拼接，得到一个h×w×6的向量图，随后输入到由7个卷积块组成的下采样网络，每个卷积块由一个卷积层和一个ReLU激活函数组成，其中5个卷积层的步长为2。

最终，下采样模块101输出一个大小为

的特征图，以供特征处理模块102进行处理。

如图2中所示，特征处理模块102包括使用一个可训练的线性映射E将下采样模块101输出的特征图序列映射到潜层的高维嵌入空间中，计算方法如公式(1)所示：

随后将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络中。Transformer层的具体结构如图3所示。具体而言，Transformer层由多头自注意力机(Multihead Self-Attention，MSA)和多层感知机(Multi-Layer Perceptron，MLP)组成，第i层的输出如公式(2)(3)所示：

z′_i＝MSA(LN(z_i-1))+z_i-1, (2)

z_i＝MLP(LN(z'_i))+z'_i, (3)

其中LN(·)表示层级归一化运算。特征处理模块102最终输出隐藏特征序列z_I。

如图2中示出的，上采样模块103是一个级联上采样网络，它包括多个上采样步骤来解码输出最终的光流图片202。首先，上采样模块103将特征处理模块102最终输出的隐藏特征序列z_I重组为

大小的特征向量，随后输入由7个反卷积块组成的上采样网络，每个反卷积块由一个反卷积层和一个ReLU激活函数组成，其中5个反卷积层的步长为2。最终得到一个大小为h×w×3的光流图输出。此外，本发明加入了三个与下采样特征向量之间的跳接层实现在不同分辨率级别的特征聚合(203，204，205)，从而优化光流的细节。

图3示出了根据本发明的一个实施例的用于稠密光流计算的方法300的流程图。

在步骤301，将相邻帧在通道上进行拼接，以生成拼接后的向量图。根据本发明的一个实施例，该通道为色彩通道，例如RGB通道。根据本发明的一个实施例，该向量图大小为h×w×6。

在步骤302，将拼接后的向量图输入下采样网络进行特征提取，以生成特征向量。根据本发明的一个实施例，下采样网络由7个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活函数组成，其中5个卷积层的步长为2。根据本发明的一个实施例，该特征向量大小为

在步骤303，将步骤302生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列。根据本发明的一个实施例，可使用一个可训练的线性映射E将步骤302得到的特征向量映射到潜层的高维嵌入空间中。

在步骤304，将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络，以生成隐藏特征序列。根据本发明的一个实施例，Transformer层由MSA和MLP组成，以进行全局上下文特征处理。

在步骤305，将步骤304生成的隐藏特征序列进行重组，以生成重组后的特征向量。根据本发明的一个实施例，隐藏特征序列z_I被重组为

大小的特征向量。

在步骤306，将重组后的特征向量输入上采样网络进行处理，以生成稠密光流图。该稠密光流图可以体现步骤301获取的相邻两帧中物体运动的光流。根据本发明的一个实施例，上采样网络由7个反卷积块组成，每个反卷积块由一个反卷积层和一个ReLU激活函数组成，其中5个反卷积层的步长为2。根据本发明的一个实施例，稠密光流图的大小为h×w×3。根据本发明的一个实施例，上采样网络为级联上采样网络，实现在不同分辨率级别的特征聚合，从而优化稠密光流的细节。

综上，本发明和现有技术相比，主要优势在于：(1)在光流预测计算任务中引入多头自注意力机，利用Transformer在序列到序列预测方面的全局自注意力优势，本发明能够提高关键位置的稠密光流的准确度；(2)得益于多头自注意力机在特征层进行预测计算的优秀性能，也能减少Unet的上采样和下采样的网络深度，本发明能够提高稠密光流计算的时效性。

图4出了根据本发明的一个实施例的示例性计算设备的框图400，该计算设备是可应用于本发明的各方面的硬件设备的一个示例。计算设备400可以是可被配置成用于实现处理和/或计算的任何机器，可以是但并不局限于工作站、服务器、桌面型计算机、膝上型计算机、平板计算机、个人数字处理、智能手机、车载计算机或者它们的任何组合。计算设备400可包括可经由一个或多个接口和总线402连接或通信的组件。例如，计算设备400可包括总线402、一个或多个处理器404、一个或多个输入设备406以及一个或多个输出设备408。该一个或多个处理器404可以是任何类型的处理器并且可包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如，专门的处理芯片)。输入设备406可以是任何类型的能够向计算设备输入信息的设备并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备408可以是任何类型的能够呈现信息的设备并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备400也可以包括非瞬态存储设备410或者与所述非瞬态存储设备相连接，所述非瞬态存储设备可以是非瞬态的并且能够实现数据存储的任何存储设备，并且所述非瞬态存储设备可以包括但不限于磁盘驱动器、光存储设备、固态存储器、软盘、软磁盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何存储芯片或盒式磁带、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。非瞬态存储设备410可从接口分离。非瞬态存储设备410可具有用于实施上述方法和步骤的数据/指令/代码。计算设备400也可包括通信设备412。通信设备412可以是任何类型的能够实现与内部装置通信和/或与网络通信的设备或***并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙设备、IEEE1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似设备。

总线402可以包括但不限于工业标准结构(ISA)总线、微通道结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外部设备互连(PCI)总线。

计算设备400还可包括工作存储器414，该工作存储器414可以是任何类型的能够存储有利于处理器404的工作的指令和/或数据的工作存储器并且可以包括但不限于随机存取存储器和/或只读存储设备。

软件组件可位于工作存储器414中，这些软件组件包括但不限于操作***416、一个或多个应用程序418、驱动程序和/或其它数据和代码。用于实现本发明上述方法和步骤的指令可包含在所述一个或多个应用程序418中，并且可通过处理器404读取和执行所述一个或多个应用程序418的指令来实现本发明的上述方法300。

也应该认识到可根据具体需求而做出变化。例如，也可使用定制硬件、和/或特定组件可在硬件、软件、固件、中间件、微代码、硬件描述语音或其任何组合中实现。此外，可采用与其它计算设备、例如网络输入/输出设备等的连接。例如，可通过具有汇编语言或硬件编程语言(例如，VERILOG、VHDL、C++)的编程硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)利用根据本发明的逻辑和算法来实现所公开的方法和设备的部分或全部。

尽管目前为止已经参考附图描述了本发明的各方面，但是上述方法和设备仅是示例，并且本发明的范围不限于这些方面，而是仅由所附权利要求及其等同物来限定。各种组件可被省略或者也可被等同组件替代。另外，也可以在与本发明中描述的顺序不同的顺序实现所述步骤。此外，可以按各种方式组合各种组件。也重要的是，随着技术的发展，所描述的组件中的许多组件可被之后出现的等同组件所替代。

Claims

1.一种用于稠密光流计算的方法，包括：

将相邻帧在通道上进行拼接，以生成拼接后的向量图；

将拼接后的向量图输入下采样网络进行特征提取，以生成特征向量；

将生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列；

将高维嵌入表示序列输入由I个Transformer层组成的特征处理网络，以生成隐藏特征序列；

将生成的隐藏特征序列进行重组，以生成重组后的特征向量；以及

将重组后的特征向量输入上采样网络进行处理，以生成稠密光流图。

2.如权利要求1所述的方法，其特征在于，所述下采样网络由7个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活函数组成，其中5个卷积层的步长为2。

3.如权利要求1所述的方法，其特征在于，所述Transformer层由多头自注意力机和多层感知机组成。

4.如权利要求1所述的方法，其特征在于，所述上采样网络为级联上采样网络，并且由7个反卷积块组成，每个反卷积块由一个反卷积层和一个ReLU激活函数组成，其中5个反卷积层的步长为2。

5.如权利要求1所述的方法，其特征在于，将生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列进一步包括：使用一个可训练的线性映射E将所述特征向量映射到潜层的高维嵌入空间中。

6.一种用于稠密光流计算的***，包括：

下采样模块，所述下采样模块被配置为：

将相邻帧在通道上进行拼接，以生成拼接后的向量图；

特征处理模块，所述特征处理模块被配置为：

将所述下采样模块生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列；

上采样模块，所述上采样模块被配置为：

将所述特征处理模块生成的隐藏特征序列进行重组，以生成重组后的特征向量；以及

7.如权利要求6所述的***，其特征在于，所述下采样网络由7个卷积块组成，每个卷积块由一个卷积层和一个ReLU激活函数组成，其中5个卷积层的步长为2；

其中所述上采样网络为级联上采样网络，并且由7个反卷积块组成，每个反卷积块由一个反卷积层和一个ReLU激活函数组成，其中5个反卷积层的步长为2。

8.如权利要求6所述的***，其特征在于，所述Transformer层由多头自注意力机和多层感知机组成。

9.如权利要求6所述的***，其特征在于，将生成的特征向量映射到潜层的高维嵌入空间，以生成一个高维嵌入表示序列进一步包括：使用一个可训练的线性映射E将所述特征向量映射到潜层的高维嵌入空间中。

10.一种用于稠密光流计算的计算设备，包括：

处理器；

存储器，所述存储器存储有指令，所述指令在被所述处理器执行时能执行如权利要求1-5任一所述的方法。