CN112307939A

CN112307939A - 一种利用位置掩码注意力机制的视频帧增强方法

Info

Publication number: CN112307939A
Application number: CN202011172682.6A
Authority: CN
Inventors: 马汝辉; 王超逸; 宋涛; 华扬; 管海兵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-02
Anticipated expiration: 2040-10-28
Also published as: CN112307939B

Abstract

一种利用位置掩码注意力机制的视频帧增强方法，输入相邻两个视频帧的特征图，通过位置信息对齐同一像素在不同帧上的位置，从而利用之前帧的信息增强当前帧的信息量，包括位置距离掩码生成和位置注意力信息融合两部分；位置距离掩码生成根据输入特征图的大小，利用相邻两帧像素点的距离生成一个和特征图大小匹配的掩码；位置注意力信息融合利用生成的位置距离掩码，指导原始的注意力机制赋予对齐的像素点更大的权重，从而生成一个增强的特征图来取代当前帧原始的特征图用于后续处理。本发明基于注意力机制，不需要额外的训练参数，可以达到比原始的注意力机制更快的收敛速度和更好的预测结果，可以广泛利用于各种视频任务中。

Description

一种利用位置掩码注意力机制的视频帧增强方法

技术领域

本发明设计计算机视觉方向的视频处理领域，特别涉及一种利用包含位置信息的注意力机制对各种视频任务中当前帧进行增强的方法。

背景技术

注意力机制是深度学习领域的热点研究问题之一。注意力机制及其变体在各个领域引起了广泛的关注并取得了长足的进步。除了自然语言处理(NLP)以外，许多利用注意力的方法在计算机视觉(CV)领域也取得了巨大成就，例如物体检测(object detection)和实例分割(instance segmentation)。

在视频领域中，注意力机制通常被用来做帧的信息加强。输入两帧经过特征提取器(feature extractor)处理的特征图，使用三个不同的核大小为一乘一的卷积，将目标帧的特征图转化为查询(query)，参考帧的特征图转化为键(key)和值(value)，使用注意力机制得到一个和原特征图大小相同的新特征图，用来代替目标帧的特征图用作后续处理。注意力机制可以在训练时学习输入的两帧之间不同像素位置的相似度，并将相似的区域赋予更大的权值。因此注意力机制是解决各种视频任务中出现的遮挡、运动模糊等问题的通用方法。

原始的注意力机制是位置不敏感的(position-insensitive)，它的输出不会随着输入序列的重排而收敛到不同的结果，而对于一些位置敏感的任务来说，其包含了一些位置敏感的先验知识，如视频帧加强，它默认相邻两帧之间上一帧像素对齐的位置大概率出现在当前帧像素附近，所以在原始的注意力机制中编码位置信息可以更好的对这些任务建模。

现有的在注意力机制中编码位置信息的方法都采用位置嵌入(positionembedding)。位置嵌入定义了一组独立的可训练参数，以应用于相对位置向量，并将结果作用于softmax操作中查询(query)与键(key)乘积得到的相似矩阵上。显然，位置嵌入方法在训练过程中需要额外的参数，这会导致额外的内存成本，缓慢的收敛速度和高训练方差。此外，位置嵌入方法的输入大小必须固定，以事先确保嵌入参数数量不变。换句话说，输入大小出现细微差异会导致此方法无法使用，限制模型的可迁移性。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是结合原始的注意力机制加强视频帧的方法，设计一种不限制输入大小，且可以在注意力机制中编码位置信息的通用的视频帧增强模块。该模块输入相邻两帧视频的特征图，使用输出结果代替原始特征图，是一种即插即用，对各种视频任务通用的模块。期间还需克服2个技术难点：

(1)如何使模型更加关注于视频中重要程度相对较高的区域；视频中帧与帧重要性不同，视频中存在部分区域的重要性高于其他区域，若可以使模型更关注于此类区域便能提升性能。

(2)如何设计一个不需要额外训练的可编码位置信息的表示；原有的位置嵌入方法因采用固定参数训练位置信息，不仅有输入大小固定的限制，还需要额外的内存存储参数，造成收敛速度变慢，训练结果方差变大等问题。

本发明采用了位置距离掩码的生成和注意力信息融合，位置距离掩码生成通过利用曼哈顿距离对当前帧特征图中的每个像素生成对于上一帧特征图中的每个像素的像素距离矩阵，再将这些像素距离矩阵组合成位置距离掩码；位置注意力信息融合利用生成的位置距离掩码，通过和一个可学习的尺度因子，与相邻两帧特征图嵌入的乘积做点乘，将位置信息编码在注意力机制中，使生成的增强的特征图赋予相邻位置更高的权重，从而对原始的注意力机制进行优化。

方法包括以下步骤：

步骤1、输入视频帧，并通过预训练卷积神经网络提取特征图。

步骤2、使用特征图增强模块得到增强的特征图。

步骤3、使用增强的特征图进行后续处理和预测。

步骤4、输出预测结果。

在使用特征图增强模块之前，须对其进行训练，训练步骤包括：

步骤2.1、初始化迭代计数；

步骤2.2、若迭代次数在N次以内，则继续，否则结束训练；

步骤2.3、输入视频相邻的两帧；

步骤2.4、使用特征提取器提取特征图；

步骤2.5、对两个特征图分别嵌入到q，k，v；

步骤2.6、使用多头注意力机制处理；

步骤2.7、计算位置距离掩码；

步骤2.8、得到增加的特征图，代替原特征图，即步骤2.4得到的特征图，进行后续处理，转至步骤2.2。

进一步地，步骤2.4中，利用预训练好的卷积神经网络提取视频帧特征。

优选地，步骤2.4中，提取的视频帧特征为一个比原图更小通道更多的特征图。

优选地，步骤2.4中，特征提取器通常采用ResNet进行下采样得到特征图。

优选地，步骤2.4中，则每帧的特征图通道数为1024。

进一步地，步骤2.5中，q，k，v分别是指查询(query)，键(key)和值(value)。将当前帧的特征图使用一个卷积核大小为1乘1的卷积进行通道压缩作为查询(query)，对前一帧的特征图使用两个不同的卷积核大小为1乘1的卷积进行通道压缩，分别得到键(key)和值(value)。

进一步地，步骤2.6中，使用多头注意力机制(multi-head attention)将查询、键和值从大小为(batch,channel,height,width)的张量重塑(reshape)成大小为(batch,group,height*width,sub_channel)的张量作为新的查询、键和值。

进一步地，步骤2.7中，使用矩阵乘法将新的查询和键的转置相乘得到关系矩阵，并使用激活函数作用于关系矩阵中。

输入原特征图，即步骤2.4得到的特征图，的高(height)与宽(width)，使用曼哈顿距离计算每个像素位置与其他位置的距离，每个位置都能生成一个大小为height*width的矩阵，一共得到height*width个矩阵。将这些矩阵重塑并拼接到一起得到一个大小为(height*width,height*width)的位置掩码矩阵，广播乘一个可训练的标量scale，并使用激活函数。

优选地，步骤2.7中，使用tanh作为激活函数作用于关系矩阵中，使用sigmoid作为激活函数作用于位置掩码矩阵。

进一步地，步骤2.8中，将通过激活函数的关系矩阵和位置掩码矩阵进行元素级的相乘，得到权重矩阵。对权重矩阵沿最后一维做softmax，将得到的结果与在步骤2.6得到的新的值(value)相乘，并重塑到和原来特征图同样的大小，得到增强后的特征图，用以替代当前帧完成后续的处理和训练。

与现有技术相比，本发明的有益效果如下：

(1)本发明基于视频帧对齐中的先验知识，使用一种启发式的方法，生成和输入大小匹配的位置距离掩码，更好的建模视频中的位置关系，在各种需要视频帧增强的任务中取得了更优的性能。

(2)本发明基于视频帧对齐中的先验知识，使用一种启发式的方法，生成和输入大小匹配的位置距离掩码，解决了之前位置嵌入方法对输入大小不变的要求限制，方便模型使用不同输入大小进行训练和迁移。

(3)本发明基于视频帧对齐中的先验知识，使用一种启发式的方法，生成和输入大小匹配的位置距离掩码，不需要额外的参数进行训练，减少了模型训练对内存的限制，试模型可以更快的收敛到最优结果。

附图说明

图1是本申请的实施例的功能模块图；

图2是本申请的实施例的训练流程示意图；

图3是本申请的实施例的运行流程示意图。

具体实施方式

以下参考说明书附图介绍本申请的优选实施例，使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现，本申请的保护范围并非仅限于文中提到的实施例。

以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明，以充分地了解本发明的目的、特征和效果，但本发明的保护不仅限于此。

本发明的一个实施例

如图1所示，本实施例提供两个模块来实施本发明的方法，一个模块是特征特征提取器，另一个模块是视频帧增强模块。

特征提取器包括预训练好的卷积神经网络，其功能为：接受输入的视频帧，提取并输出特征图。

视频帧增强模块，其功能为：通过注意力信息增强以及位置距离掩码，输出增强的特征图。

如图3所示，本发明所述的利用位置掩码注意力机制的视频帧增强方法包括以下步骤：

步骤2、使用特征图增强模块得到增强的特征图。

步骤3、使用增强的特征图进行后续处理和预测。

步骤4、输出预测结果。

在使用特征图增强模块之前，须对其进行训练，如图2所示，训练步骤包括：

步骤2.1、初始化迭代计数；

步骤2.2、若迭代次数在N次以内，则继续，否则结束训练；

步骤2.3、输入视频相邻的两帧；

步骤2.4、使用特征提取器提取特征图；

步骤2.5、对两个特征图分别嵌入到q，k，v；

步骤2.6、使用多头注意力机制处理；

步骤2.7、计算位置距离掩码；

步骤2.4中，利用预训练好的卷积神经网络提取视频帧特征，通常提取的视频帧特征为一个比原图更小通道更多的特征图，特征提取器通常采用ResNet进行下采样得到特征图，则每帧的特征图通道数为1024。

步骤2.5中，q，k，v分别是指查询(query)，键(key)和值(value)。将当前帧的特征图使用一个卷积核大小为1乘1的卷积进行通道压缩作为查询(query)，对前一帧的特征图使用两个不同的卷积核大小为1乘1的卷积进行通道压缩，分别得到键(key)和值(value)。

步骤2.6中，使用多头注意力机制(multi-head attention)将查询、键和值从大小为(batch,channel,height,width)的张量重塑(reshape)成大小为(batch,group,height*width,sub_channel)的张量作为新的查询、键和值。

步骤2.7中，使用矩阵乘法将新的查询和键的转置相乘得到关系矩阵，并使用tanh作为激活函数作用于关系矩阵中。

输入原特征图，即步骤2.4得到的特征图，的高(height)与宽(width)，使用曼哈顿距离计算每个像素位置与其他位置的距离，每个位置都能生成一个大小为height*width的矩阵，一共得到height*width个矩阵。将这些矩阵重塑并拼接到一起得到一个大小为(height*width,height*width)的位置掩码矩阵，广播乘一个可训练的标量scale，并使用sigmoid作为激活函数。

需注意的是上述过程中，掩码矩阵是根据输入特征图的大小计算出来的，需要训练的位置信息参数仅为一个标量。

步骤2.8中，将通过激活函数的关系矩阵和位置掩码矩阵进行元素级的相乘，得到权重矩阵。对权重矩阵沿最后一维做softmax，将得到的结果与在步骤2.6得到的新的值(value)相乘，并重塑到和原来特征图同样的大小，得到增强后的特征图，用以替代当前帧完成后续的处理和训练。

训练模型算法的主程序伪代码如下：

本方法利用了视频特征增强中的先验信息，以启发式的方法避免了大量训练的参数，使得模型得以更快的收敛，且效果明显优于传统的注意力机制。

以上详细描述了本申请的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种利用位置掩码注意力机制的视频帧增强方法，其特征在于，包括以下步骤：

步骤1、输入视频帧，并通过预训练卷积神经网络提取特征图；

步骤2、使用特征图增强模块得到增强的特征图；

步骤3、使用所述增强的特征图进行后续处理和预测；

步骤4、输出预测结果；

对所述特征图增强模块进行训练的步骤包括：

步骤2.1、初始化迭代计数；

步骤2.2、若迭代次数在N次以内，则继续，否则结束训练；

步骤2.3、输入视频相邻的两帧；

步骤2.4、使用特征提取器提取特征图；

步骤2.5、对两个特征图分别嵌入到查询、键和值；

步骤2.6、使用多头注意力机制处理；

步骤2.7、计算位置距离掩码；

步骤2.8、得到增强的特征图，代替原特征图进行后续处理，转至步骤2.2。

2.如权利要求1所述的视频帧增强方法，其特征在于，所述步骤2.4中，所述特征提取器包括预训练好的卷积神经网络，利用所述预训练好的卷积神经网络提取视频帧特征。

3.如权利要求2所述的视频帧增强方法，其特征在于，所述步骤2.4中，提取的视频帧特征为一个比原图更小、通道更多的特征图。

4.如权利要求2所述的视频帧增强方法，其特征在于，所述步骤2.4中，所述特征提取器采用ResNet进行下采样得到特征图。

5.如权利要求2所述的视频帧增强方法，其特征在于，所述步骤2.4中，则每帧的特征图通道数为1024。

6.如权利要求1所述的视频帧增强方法，其特征在于，所述步骤2.5中，将当前帧的特征图使用一个卷积核大小为1乘1的卷积进行通道压缩作为所述查询，对前一帧的特征图使用两个不同的、卷积核大小为1乘1的卷积进行通道压缩，分别得到所述键和值。

7.如权利要求6所述的视频帧增强方法，其特征在于，所述步骤2.6中，使用多头注意力机制将所述步骤2.5得到的查询、键和值从大小为(batch,channel,height,width)的张量重塑成大小为(batch,group,height*width,sub_channel)的张量作为新的查询、键和值。

8.如权利要求7所述的视频帧增强方法，其特征在于，所述步骤2.7中，使用矩阵乘法将所述步骤2.6得到的新的查询和键的转置相乘得到关系矩阵，并使用激活函数作用于所述关系矩阵中；

输入所述原特征图的高height与宽width，使用曼哈顿距离计算每个像素位置与其它位置的距离，每个位置都能生成一个大小为height*width的矩阵，一共得到height*width个矩阵；将这些矩阵重塑并拼接到一起得到一个大小为(height*width,height*width)的位置掩码矩阵，广播乘一个可训练的标量scale，并使用激活函数。

9.如权利要求8所述的视频帧增强方法，其特征在于，所述步骤2.7中，使用tanh作为激活函数作用于述关系矩阵中，使用sigmoid作为激活函数作用于所述位置掩码矩阵。

10.如权利要求9所述的视频帧增强方法，其特征在于，所述步骤2.8中，将通过激活函数的所述关系矩阵和所述位置掩码矩阵进行元素级的相乘，得到权重矩阵；对所述权重矩阵沿最后一维做softmax，将得到的结果与在所述步骤2.6得到的新的值相乘，并重塑到和所述原特征图同样的大小，得到所述增强的特征图，用以替代当前帧完成后续的处理和训练。