CN113591825A

CN113591825A - 基于超分辨网络的目标搜索重建方法、装置及存储介质

Info

Publication number: CN113591825A
Application number: CN202111168764.8A
Authority: CN
Inventors: 李庆鹏; 李亚萍; 李智勇; 方乐缘; 王子安
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-10-08
Filing date: 2021-10-08
Publication date: 2021-11-02

Abstract

本发明公开了一种基于超分辨网络的目标搜索重建方法、装置及存储介质，该方法创新地将图像超分辨率重建技术融入目标搜索的框架中。本方法包括以下步骤:将待搜索的视频帧输入到目标搜索网络中进行特征的提取与聚合；利用提取到的特征图进行目标的框定及分类；计算待搜索目标与框定目标特征的相似度进行目标重识别；利用回归坐标将重识别的结果裁剪拷贝，并输入图像超分辨率模块，得到超分辨率的目标图像。本发明以内嵌局部超分辨网络的方式实现了目标搜索任务与目标超分辨率任务，能获得更加丰富的边缘信息和更好的视觉效果，提高监控视频管理者、刑侦人员等在海量监控视频中检索目标对象的效率。

Description

基于超分辨网络的目标搜索重建方法、装置及存储介质

技术领域

本发明涉及基于深度学习的端到端无锚图像目标搜索技术领域，具体涉及一种基于超分辨网络的目标搜索重建方法、装置及存储介质。

背景技术

近年来，随着物联网、视频监控、人脸识别等技术的蓬勃发展，以及监控摄像头的普遍使用和人们对于公共安全日益关心，监控视频信息数量成***式增长，目标搜索近年来吸引了很多研究工作者的关注。

而当前查询监控视频的方法往往采用人工方式浏览海量视频，从而找到目标信息，这无疑是一种成本高、效率低的方式。如何利用深度学习的研究成果从海量的监控视频中有效提取目标信息，从而减轻监控视频管理者的工作负担、减少人力输出、提高信息获取效率，更有效地搜寻目标，将是一项非常有前景、有意义的应用问题。

交通监控视频有以下特点：监控视频数据量大、目标成像模糊、相似目标数据多等。若应用传统的目标搜索方法，搜索到的结果依然难以分辨，相关的工作人员如监控视频管理者、刑侦人员等在查找目标时，需要在许多模糊的搜索结果中人力筛选目标。在一些特殊环境如雨天、雾天等气候条件下，通过人眼分辨目标十分困难。若要提高监控视频的成像质量，需要优化硬件设施，成本昂贵，代价高。

而图像质量的好坏影响着获取到信息的准确性，同时也会影响获取信息量的高低，因此图像清晰度的高低直接影响到所获取的图像信息质量。与提高图像分辨率的硬件方法相比，图像超分辨率算法成本低、较易实现。图像超分辨率（Image Super Resolution）是指由一幅低分辨率图像或图像序列恢复出高分辨率图像。图像超分辨率技术分为超分辨率复原和超分辨率重建。

生成对抗网络(Generative Adversarial Network, GAN)可以用来解决超分辨率问题。训练网络时用均方差作为损失函数，虽然能够获得很高的峰值信噪比，但是恢复出来的图像通常会丢失高频细节，使人不能有好的视觉感受。SRGAN利用感知损失(perceptualloss)和对抗损失(adversarial loss)来提升恢复出的图片的真实感。感知损失是利用卷积神经网络提取出的特征，通过比较生成图片经过卷积神经网络后的特征和目标图片经过卷积神经网络后的特征的差别，使生成图片和目标图片在语义和风格上更相似。

目标搜索任务的目的是同时从输入图像中定位和识别查询目标，这可以看作是目标检测和目标重识别(ReID)的统一任务。该任务包括了计算机视觉中的两个基本任务，即目标检测和目标重识别。

目标检测（object detection）模型分为无锚（anchor-free）和有锚（anchor-based）两种。有锚方法就是先生成感兴趣区域，生成大量的锚框，然后进行目标框定，也称为两阶段的检测器，与之相比，无锚框架则是一阶段的检测器，它的优势在于结构更加简单，速度也更快。

目标重识别（ReID）是指对于一个特定的目标（可能是行人、车辆、人脸或者其他特定物体），在候选图像集中检索到它。或称图像中目标的实例级检索。行人重识别在视频监控领域有非常重要的应用。

行人搜索是目标搜索领域应用较为广泛的一个领域。现有的大多数工作都采用了像Faster-RCNN这样的两级探测器，它精度较高但计算开销也很高。也有一些anchor-free的框架应用在行人搜索任务上，比如AlignPS，是第一个针对这个任务的无锚网络框架。

但是直接利用目标搜索框架搜索到的目标会有许多细节模糊、背景不清晰的情况，这将增大相关人员的判断难度。

发明内容

本发明的目的在于提供一种基于超分辨网络的目标搜索重建方法、装置及存储介质，其可以解决背景技术中涉及的技术问题。

本发明的技术方案为：

一种基于超分辨网络的目标搜索重建方法，该方法包括如下步骤：

步骤一、将监控视频帧以下采样因子r=4的高斯滤波进行降采样，得到目标图像，并对目标图像中的行人目标进行标注，得到图像标签，图像标签为每张目标图像中行人的ID和位置坐标；

步骤二、将待搜索的视频帧和标注好的目标图像输入目标搜索网络，通过特征提取与聚合模块，得到原始图像的特征图；

步骤三、将所述特征图输入到搜索模型中，通过无锚检测网络检测出目标的位置及分类；

步骤四、将检测到的目标与模板目标图像进行相似度计算，得到三元组重识别损失，并在原始的在线实例匹配损失中添加一个焦点损失；

步骤五、将回归损失、分类损失联合，目标重识别损失单独计算，得到最终的损失函数，进行目标搜索部分网络的训练；

步骤六、在训练好的网络中输入目标图片及待搜索图片，特征聚合模块输出的特征图上每个位置与具有分类和中心得分的边界框以及重识别特征张量相关联，完成行人搜索过程，得到目标搜索的结果；

步骤七、将目标搜索的结果进行裁剪与拷贝，并使用下采样因子r=4进行下采样，获得低分辨率图像LR；

步骤八、利用获得的低分辨率图像LR与原始的高清晰目标图像进行图像超分辨率网络的训练；

步骤九、将测试图片输入训练好的图像超分辨率网络，输出超分辨率后的高清图片SR。

作为本发明的一种优选改进，在步骤二中，所述目标搜索网络基于FCOS算法。

作为本发明的一种优选改进，在步骤三中，所述无锚检测网络利用FCOS的检测头进行检测。

作为本发明的一种优选改进，在步骤三中，所述检测头由两个分支组成，该两个分支包含4个3×3卷积层，一个分支回归目标偏移和中心度得分，一个分支进行前景/背景的分类。

作为本发明的一种优选改进，在步骤四中，相似度计算时，在阈值范围内，取相似度最高的目标作为重识别结果。

作为本发明的一种优选改进，在步骤五中，在训练过程中，图像的长边随即调整至667到2000，并使用零填充来适应不同分辨率的图像。

作为本发明的一种优选改进，测试图像调整为1500×900的固定大小。

作为本发明的一种优选改进，在步骤八中，所述图像超分辨率网络模型包括生成网络和判别网络，低分辨率图像LR作为所述生成网络的输入，测试图片输入所述判别网络。

本发明还提供了一种基于超分辨网络的目标搜索重建装置，包括：

至少一处理器；

至少一存储器，用于存储至少一程序；

当所述至少一程序被所述至少一处理器执行，使得所述至少一处理器实现所述基于超分辨网络的目标搜索重建方法。

本发明还提供了一种存储介质，存储有处理器可执行的指令，处理器执行所述处理器可执行的指令时执行所述基于超分辨网络的目标搜索重建方法。

本发明的有益效果如下：

1、本发明采用无锚框架构建目标搜索模型，在保证精度的前提下，大幅提升模型搜索的速度，并且有效降低了工作成本；

2、本发明相较于目标检测方法而言，仅需改变目标库内行人目标图像即可实现待搜索目标的随时删减添加，避免了目标检测方法改变能力差、目标更新困难的缺陷，相比之下，本发明延展性更好，搜索速度更快，应用场景更广泛；

3、本发明相较于提高摄像头等硬件素质的方法，超分辨率重建的效果有限，但是极大减轻了前期的硬件部署成本，仅需在目标搜索模型中嵌入超分辨率重建模块即可输出更加高清的目标图像，并且可以移植到任何监控视频场景下，超分辨率重建模块可以随时修改以适应特定的场景，模型泛化能力强。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为现有的基于GAN的图像超分辨率网络模型图；

图2为本发明一种基于超分辨网络的目标搜索重建方法示意图；

图3为一种基于超分辨网络的目标搜索重建方法的结果图对比。

具体实施方式

下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，图1为现有的基于GAN的图像超分辨率网络模型图，其中(a)为生成器网络模型，(b)为鉴别器网络模型，模型结构中k表示卷积核大小、n表示通道数，s表示步长，比如k3n64s1表示该卷积的卷积核大小为3、通道数为64、步长为1；图中PReLU表示带参数的修正线性单元，Leaky ReLU表示泄露修正线性单元，Sigmoid为一种S型激活函数。而本发明涉及的超分辨网络除了进行目标的框定、分类，在目标检测的基础上增加了重识别一步，可以在视频监控中搜索特定的人或物。

再结合图2所示，本发明提供一种基于超分辨网络的目标搜索重建方法，该方法包括如下步骤：

具体的，所述目标搜索网络基于FCOS算法，FCOS算法是一个基于全卷积神经网络FCN的无锚的一阶段目标检测算法。该目标搜索网络同时在目标图像中定位多个人，并学习他们的重识别特征，并设计一个AFA模块来聚合主干网络中多层次特征图的特征。具体来说，利用来自ResNet-50主干网络的{C3、C4、C5}特征图，继而输出{P5、P4、P3}，步长分别为32、16和8。

对于检测和重识别子任务，只从最大的输出特征图{P3}学习特征，不再像原始特征金字塔网络（FPN）那样生成{P6，P7}。

具体的，所述无锚检测网络利用FCOS的检测头进行检测，检测头由两个分支组成，这两个分支包含4个3×3卷积层，同时，一个分支回归目标偏移和中心度得分，另一个分支进行前景/背景的分类，最后，AFA的输出特征图上的每个位置都将与一个具有分类和中心度分数的边界框以及一个重识别特征关联起来。

具体的，OIM将所有标记目标的特征存储在查找表(LUT)中，V∈R^D×L={v₁，...，v_L}，包含L个D维的特征向量。同时，生成一个包含Q个未标记目标特征的循环队列U∈R^D×Q={u₁，...，u_Q}，保持记录Q个未标记目标的特征。在每次迭代中，给定一个带有标签i的输入特征x，OIM分别用V^Tx和Q^Tx计算x和LUT和循环队列中所有特征之间的相似性。目标x的身份属于i的概率计算如下：

其中p_i表示目标x的身份为i的概率，其中，τ=0.1是一个控制概率分布平缓度的超参数。

其中三元组重识别损失可用以下公示表示：

其中L_tri表示三元组损失，L_OIM表示在线实例匹配损失，M表示最大边缘距离，D_pos和D_neg分别表示正对和负对之间的欧几里德距离，L_TOIM表示三元组辅助的在线实例匹配损失。

具体的，使用在ImageNet上预训练的ResNet-50网络作为主干，其中ImageNet是一个包含1400多万幅图片，涵盖2万多个类别的数据集。将batch size设置为4，并采用权重衰减为0.0005的随机梯度下降优化器。初始学习率设置为0.001，epoch数设置为24，在第16和22个epoch将学习率减少10倍。

采用多尺度的训练策略，在训练过程中，图像的长边随即调整至667到2000，使用零填充来适应不同分辨率的图像。继而训练目标搜索网络。为了方便测试，将测试图像调整为1500×900的固定大小。

具体的，在单帧超分辨率（SISR）中，其目的是从一个低分辨率的输入图像I^LR中估计一个高分辨率、超分辨率的图像I^SR。这里的I^LR是它的低分辨率版本，I^HR是它的高分辨率版本。在训练中，对I^HR应用高斯滤波器，然后以下采样因子r进行下采样操作，得到I^LR。

步骤八、利用获得的低分辨率图像LR与原始的高清晰目标图进行图像超分辨率网络的训练；

具体的，本发明的最终目标是训练一个生成函数G，用来评估一个给定的低分辨率图像LR与高分辨率图像HR是否是对应的。训练一个生成器网络G_θG作为由θ_G作为参数的前馈神经网络。θ_G={W1：L；b1：L}表示L层深度网络的权重和偏差，是通过优化一个特定的SR损失函数l^SR得到的。I^SR表示高分辨率图像，I^LR表示低分辨率图像，E表示分布函数的期望值，p_train代表真实样本的分布，pG表示低维的噪声分布。进一步定义一个鉴别器网络D_θD，鉴别网络与生成网络的交替优化可以用以下公式表示：

深度生成网络含有16个相同的残差块。具体就是使用两个卷积层，其包含3×3卷积和64个紧跟归一化层的特征图，使用 Parametric ReLU作为激活函数。

将LR输入图像的范围扩展到[0,1]，并将HR图像扩展到[−1,1]。然后根据范围为[-1,1]的图像计算MSE损失。

训练鉴别器网络D_θD，将其与G_θG交替优化，以解决对抗的最小-最大问题，区分真实的HR图像和生成的SR样本。使用Leaky ReLU激活函数（α=0.2）。它包含8个卷积层，其中3×3卷积核增加，从VGG网络的64个内核增加到512个。N表示训练图像个数，生成器损失

可用以下公式表示：

分层卷积法用于在每次特征数翻倍时降低图像分辨率。在得到的512个特征图之后连接两个稠密层和一个sigmoid激活函数，以获得样本分类的概率。

使用训练过的基于MSE的SRResNet网络参数来初始化生成器。MSE是指最小均方误差，常用于超分辨生成网络的损失函数。SRResNet网络的学习率为10⁻⁴，迭代次数为10⁶。

步骤九、将测试图片输入训练好的图像超分辨率网络，输出超分辨率后的高清图片SR，可以参阅图3所示，（a）为测试图片，（b）为输入训练好的图像超分辨率网络后所输出的高清图片SR。

至少一处理器；

至少一存储器，用于存储至少一程序；

本发明的有益效果如下：

在一些可选择的实施例中，在本发明的步骤所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本发明所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本发明中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

本发明实施例还提供了一种存储介质，存储有处理器可执行的指令，处理器执行所述处理器可执行的指令时执行所述基于超分辨网络的目标搜索重建方法。

同样可见，上述方法实施例中的内容均适用于本存储介质实施例中，实现的功能和有益效果与方法实施例相同。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例中的步骤表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

在本说明书的描述中，参考术语“一个实施例”、“本实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于超分辨网络的目标搜索重建方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于超分辨网络的目标搜索重建方法，其特征在于，在步骤二中，所述目标搜索网络基于FCOS算法。

3.根据权利要求1或2所述的基于超分辨网络的目标搜索重建方法，其特征在于，在步骤三中，所述无锚检测网络利用FCOS的检测头进行检测。

4.根据权利要求3所述的基于超分辨网络的目标搜索重建方法，其特征在于，在步骤三中，所述检测头由两个分支组成，该两个分支包含4个3×3卷积层，一个分支回归目标偏移和中心度得分，一个分支进行前景/背景的分类。

5.根据权利要求1所述的基于超分辨网络的目标搜索重建方法，其特征在于，在步骤四中，相似度计算时，在阈值范围内，取相似度最高的目标作为重识别结果。

6.根据权利要求1所述的基于超分辨网络的目标搜索重建方法，其特征在于，在步骤五中，在训练过程中，图像的长边随即调整至667到2000，并使用零填充来适应不同分辨率的图像。

7.根据权利要求6所述的基于超分辨网络的目标搜索重建方法，其特征在于，测试图像调整为1500×900的固定大小。

8.根据权利要求1所述的基于超分辨网络的目标搜索重建方法，其特征在于，在步骤八中，所述图像超分辨率网络模型包括生成网络和判别网络，低分辨率图像LR作为所述生成网络的输入，测试图片输入所述判别网络。

9.一种基于超分辨网络的目标搜索重建装置，其特征在于，包括：

至少一处理器；

至少一存储器，用于存储至少一程序；

当所述至少一程序被所述至少一处理器执行，使得所述至少一处理器实现如权利要求1-8任一项所述基于超分辨网络的目标搜索重建方法。

10.一种存储介质，存储有处理器可执行的指令，其特征在于：处理器执行所述处理器可执行的指令时执行如权利要求1-8任一项所述基于超分辨网络的目标搜索重建方法。