CN113297964A

CN113297964A - 基于深度迁移学习的视频目标识别模型及方法

Info

Publication number: CN113297964A
Application number: CN202110568237.XA
Authority: CN
Inventors: 于来行; 张冬艳; 于馨悦
Original assignee: Zhoukou Normal University
Current assignee: Zhoukou Normal University
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-24
Anticipated expiration: 2041-05-25
Also published as: CN113297964B

Abstract

本发明提供一种基于深度迁移学习的视频目标识别模型及方法。该模型采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数；所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型；所述注意力迁移模型包括通道注意力模块和空间注意力模块；所述通道注意力模块，用于将每个二维的特征通道变成一个实数，生成表示通道之间的依赖关系的中间映射图；所述空间注意力模块，用于在通道维度的张量空间内压缩生成特征矩阵，然后通过softmax激活函数得到二维空间注意力图。

Description

基于深度迁移学习的视频目标识别模型及方法

技术领域

本发明涉及视频目标识别技术领域，尤其涉及一种基于深度迁移学习的视频目标识别模型及方法。

背景技术

视频目标检测和识别的研究技术可以分为三个主要方向。第一是基于运动的视频目标检测和识别，该方法首先根据视频的历史信息区分图像的前景和背景，再通过形态学方法确定连通域得到目标位置，主要有背景差分法，帧间差分法和光流法等。第二是基于机器学习和传统图像处理的视频目标检测和识别，该方法主要步骤是图像预处理、特征提取、模式分类和目标检测；在提取特征的基础上利用支持向量机SVM分类器或者AdaBoost分类器等方法实现分类和识别。其中代表性的特征提取方法有Haar-like小波特征、尺度不变特征转换(Scale-invariant feature transform，SIFT)、HOG方向梯度直方图等。第三是基于深度学习的视频目标检测和识别，该方法可以从大量迭代学习中得到更高级的语义特征，具有更强的特征表达能力。

在实际应用中，基于深度学习的目标检测和识别方法主要有两类，一类是基于候选区域策略的Two-stage目标检测方法，该类方法利用深度卷积在候选区域提取特征的训练过程和测试过程都需要较多的时间，虽然提高了目标检测精度，但降低了速度。另一类方法是基于回归的目标检测，主要是把分类和检测放在One-stage的CNNs网络中加快了运算速度，该类方法没有设置候选区域的过程，提高了速度，但是忽略了许多小目标和密集目标，并且这类方法产生了大量的默认边界框，其中大部分边框内都不包含目标物体。

随着研究的不断深入，发现深度学习模型的训练和更新依赖大量的标注数据，需要耗费大量的人力和物力。另一个问题是深度卷积神经网络随着网络层次变得越来越深，其训练难度和能耗不断增加反而导致其性能下降；同时深度网络的参数众多，随着网络宽度不断增加，一定程度上又增加了参数，训练难度更大，降低了模型对其他数据集的泛化能力。为了减少深度网络的参数，引入注意力机制提取显著性信息，利用参数共享等方法将注意力信息迁移到新的卷积层或池化层中，不断优化深度网络模型的性能，ECCV2018上发表的CBAM模型(Convolutional Block Attention Module)，AAAI2019上发表的TADA(Transferable Attention for Domain Adaptation)等方法将注意力迁移机制引入到深度网络模型中，减少了训练参数，提高了网络的性能。但是这些方法仅对特定图像数据集进行了训练，而在视频目标检测和追踪等领域中基于注意力迁移机制的深度卷积神经网络还较少，有待进一步深入研究。

发明内容

针对现有的基于深度学习的目标检测和识别方法所存在的权重参数较多、训练难度大或者不适用于视频目标检测和追踪的问题，本发明提供一种基于深度迁移学习的视频目标识别模型及方法。

一方面，本发明提供一种基于深度迁移学习的视频目标识别模型，采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数；

所述视频目标识别模型的网络结构为：将根据获取的交通视频帧所生成的视频图像作为第一层卷积输入，根据初始权重参数对输入的视频图像逐层卷积，输出层为视频帧的特征表示层，将特征表示层输出的特征作为SVM分类器的输入特征，通过SVM分类器完成视频目标的分类识别任务；其中，所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型；所述注意力迁移模型包括通道注意力模块和空间注意力模块；

所述通道注意力模块，用于将每个二维的特征通道变成一个实数，生成表示通道之间的依赖关系的中间映射图；

所述空间注意力模块，用于在通道维度的张量空间内压缩生成特征矩阵，然后通过softmax激活函数得到二维空间注意力图。

进一步地，所述通道注意力模块采用的注意力函数为：

其中，C_i为i通道的上一卷积层输出结果，

为经过通道注意力模块转换后的卷积输出结果，σ表示在C_i上的标准差，μ表示在C_i上的均值，ζ表示利用高斯函数获取的注意力权重值。

进一步地，所述空间注意力模块，用于在通道维度的张量空间内使用3种池化方式压缩生成3种特征矩阵，然后通过设定的融合规则生成统一的池化层，再通过softmax激活函数得到二维空间注意力图；其中，3种所述池化方式包括最大值池化方式、局部显著性值池化方式和迁移注意力值池化方式。

进一步地，所述迁移注意力值池化方式所对应的池化层函数为：

其中，W_i为上一层或者前几层显著性权重矩阵的叠加输出，σ_w表示在W_i上的标准差，μ_w表示在W_i上的均值，ζ_w表示利用高斯函数获取的池化权重值，W_i ^ζ表示迁移注意力和显著性后的池化层权重矩阵。

进一步地，所述设定的融合规则具体为：

P＝λ₁P_m+λ₂P_t+λ₃P_l

s.t.λ₁+λ₂+λ₃＝1

其中，P_m为最大值池化方式所对应的池化层函数，P_l为局部显著性值池化方式所对应的池化层函数，P为统一的池化层函数，λ₁、λ₂、λ₃均表示特征加权融合归一化约束参数。

另一方面，本发明提供一种基于深度迁移学习的视频目标识别方法，采用权利要求上述的视频目标识别模型，所述方法包括：

步骤1：对交通视频源进行预处理，得到多个视频序列；

步骤2：将多个视频序列依次输入所述视频目标识别模型；步骤3：利用初始权重参数对输入的视频序列进行卷积操作，并加入注意力迁移模型生成新的卷积参数权重，通过注意力迁移模型将其应用在后续输入的视频序列卷积和池化层的运算过程，将前期的学习经验迁移到当前视频目标识别的过程，生成融合目标特征表示；

步骤4：将最后一层输出结果作为SVM分类器的输入特征，实现视频目标的分类识别任务。

本发明的有益效果：

(1)本发明可以自适应地冻结DCNN模型中的部分卷积层，将其应用到视频目标识别网络模型的训练过程中，简化了该视频目标识别网络模型的训练过程，减少了权重参数量和训练数据量。

(2)本发明在convLSTM网络中引入注意力迁移模型，将注意力作用于深度网络的特定卷积层，将有标注数据集上训练得到的注意力信息迁移到当前卷积网络，交叉选择较强表达能力的特征表示，从而解决了传统的深度学习模型的训练和更新必须依赖大量的标注数据的问题；在深度卷积层中不断执行剪枝操作，丢弃冗余通道，减少参数量，并且在强化有用信息的同时抑制了无用信息，从而减少了深度学习训练模型参数调整的规模，降低了训练难度，提高了算法的泛化能力。根据视频目标在连续帧之间具有位移和形变等特点，还加入了帧间注意力迁移模型，进一步减少视频目标网络模型对有标注训练数据集和网络权重参数的依赖，有利于提高视频目标识别的速度和精度。

附图说明

图1为本发明实施例提供的基于深度迁移学习的视频目标识别模型的原理框图之一；

图2为本发明实施例提供的本发明实施例提供的基于深度迁移学习的视频目标识别模型的原理框图之二；

图3为本发明实施例提供的通道注意力模块的原理框图；

图4为本发明实施例提供的空间注意力模块的原理框图；

图5为本发明实施例提供的基于深度迁移学习的视频目标识别方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种基于深度迁移学习的视频目标识别模型，采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数；

所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型；所述注意力迁移模型包括通道注意力模块和空间注意力模块；

具体地，如图1所示，采用基于AlexNet网络的DCNN模型(Deep ConvolutionalNeural Networks)，在ImageNet数据集上进行训练获得一组处理图像非常有效的权重参数，然后迁移学习的方法冻结该模型卷积层并将该组有效的权重参数应用在视频目标识别模型中，完成视频目标定位、特征表示和分类识别等任务。其中，所述视频目标识别模型的网络结构为：将根据获取的交通视频帧所生成的视频图像作为第一层卷积输入，根据初始权重参数对输入的视频图像逐层卷积，输出层为视频帧的特征表示层，将特征表示层输出的特征作为SVM分类器的输入特征，通过SVM分类器完成视频目标的分类识别任务。

本发明实施例中，注意力迁移模型由通道注意力模块和空间注意力模块两部分组成。其中，通道注意力模块负责选择较为重要的通道信息，将每个二维的特征通道变成一个实数，生成中间映射图表示通道之间的依赖关系，某种程度上具有全局感受野，可以压缩输入空间的维度。

作为一种可实施方式，如图3所示，所述通道注意力模块采用的注意力函数为：

其中，C_i为i通道的上一卷积层输出结果，

空间注意力模块负责生成二维空间注意力图，具体为：在通道维度的张量空间内使用3种池化方式压缩生成3种特征矩阵，然后通过设定的融合规则生成统一的池化层，再通过softmax激活函数得到二维空间注意力图。其中，3种所述池化方式包括最大值池化方式、局部显著性值池化方式和迁移注意力值池化方式。

作为一种可实施方式，所述迁移注意力值池化方式所对应的池化层函数为：

所述设定的融合规则具体为：

P＝λ₁P_m+λ₂P_t+λ₃P_l

s.t.λ₁+λ₂+λ₃＝1

具体地，如图4所示，最大值池化P_m运用常规最大值池化操作，保留上层输出的局部最大值，保留其最有影响的元素输出生成注意力图1；局部显著性池化P_l根据上层通道注意力模型生成的输出结果与本层权重矩阵进行卷积操作生成注意力图2；迁移注意力池化层P_t，其中W_i为上一层或者前几层显著性权重矩阵的叠加输出，通过注意力模型生成新的注意力映射矩阵，然后和上层输出结果进行卷积操作生成注意力图3。

最后将目标显著性分布特征转换为注意力矩阵，进行一定的仿射变换后与原有权重参数求内积，然后将结果嵌入到每个通道的卷积层中，完成通道维度上的重标定。

本发明实施例中，注意力迁移模型生成的注意力图在深度卷积网络中可以实现剪枝操作，丢弃冗余参数，也可以说是在强化有用信息的同时抑制了无用信息。通过注意力迁移机制可以把这种优势迁移到新的无标注数据集的训练之中，快速获取目标位置和特征表示。

本发明利用矩阵离散度模拟注意力机制，获取多卷积层的显著特征点。多维特征之间的离散度表示了它们的一种内在逻辑关系，用于约束每种目标函数的边界范围、增强显著信号强度并降低噪声的干扰，进而评价每个维度特征的重要性。

对应地，如图5所示，本发明实施例还提供一种基于深度迁移学习的视频目标识别方法，该方法包括以下步骤：

步骤1：对交通视频源进行预处理，得到多个视频序列；

步骤2：将多个视频序列依次输入所述视频目标识别模型；

步骤3：利用初始权重参数对输入的视频序列进行卷积操作，并加入注意力迁移模型生成新的卷积参数权重，通过注意力迁移模型将其应用在后续输入的视频序列卷积和池化层的运算过程，将前期的学习经验迁移到当前视频目标识别的过程，生成融合目标特征表示；

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于深度迁移学习的视频目标识别模型，其特征在于，

采用基于AlexNet网络的DCNN模型在ImageNet数据集上训练得到的权重参数作为所述视频目标识别模型的初始权重参数；

所述视频目标识别模型的网络结构为：将根据获取的交通视频帧所生成的视频图像作为第一层卷积输入，根据初始权重参数对输入的视频图像逐层卷积，输出层为视频帧的特征表示层，将特征表示层输出的特征作为SVM分类器的输入特征，通过SVM分类器完成视频目标的分类识别任务；其中，所述视频目标识别模型的convLSTM网络中引入有注意力迁移模型；

所述注意力迁移模型包括通道注意力模块和空间注意力模块；

2.根据权利要求1所述的视频目标识别模型，其特征在于，所述通道注意力模块采用的注意力函数为：

其中，C_i为i通道的上一卷积层输出结果，

3.根据权利要求1所述的视频目标识别模型，其特征在于，所述空间注意力模块，用于在通道维度的张量空间内使用3种池化方式压缩生成3种特征矩阵，然后通过设定的融合规则生成统一的池化层，再通过softmax激活函数得到二维空间注意力图；其中，3种所述池化方式包括最大值池化方式、局部显著性值池化方式和迁移注意力值池化方式。

4.根据权利要求3所述的视频目标识别模型，其特征在于，所述迁移注意力值池化方式所对应的池化层函数为：

5.根据权利要求4所述的视频目标识别模型，其特征在于，所述设定的融合规则具体为：

P＝λ₁P_m+λ₂P_t+λ₃P_l

s.t.λ₁+λ₂+λ₃＝1

6.基于深度迁移学习的视频目标识别方法，其特征在于，采用权利要求1至5任一所述的视频目标识别模型，所述方法包括：

步骤1：对交通视频源进行预处理，得到多个视频序列；

步骤2：将多个视频序列依次输入所述视频目标识别模型；