CN118097566B

CN118097566B - 基于深度学习的场景变动检测方法、装置、介质及设备

Info

Publication number: CN118097566B
Application number: CN202410487285.XA
Authority: CN
Inventors: 杨国锴; 卓涛; 程志勇; 高赞
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2024-04-23
Filing date: 2024-04-23
Publication date: 2024-06-28
Anticipated expiration: 2044-04-23
Also published as: CN118097566A

Abstract

本发明涉及图像识别技术领域，具体涉及一种基于深度学习的场景变动检测方法、装置、介质及设备。本发明方法包括以下步骤：获取待检测的图像；将待检测的图像对输入到基于单应性对齐模块，获取两幅图像各自场景对齐后的图像；提取与对齐的图像相关的图像合并输入到初步变动检测网络中得到变动信息，将变动信息输入各自的定位网络输出两幅图像的变动区域的边界框。本发明通过单应性对齐两张图像，弥补了无法快速获取两张图像中变动的特征，通过交叉注意力机制结构捕获两张图像的对应关系，弥补了未对齐图像中的信息的流失。网络采用的是孪生神经网络架构，同时对两幅图像进行操作，通过特征融合模块，更好地完成变动区域的识别。

Description

基于深度学习的场景变动检测方法、装置、介质及设备

技术领域

本发明涉及图像识别技术领域，具体涉及一种基于深度学习的场景变动检测方法、装置、介质及设备。

背景技术

随着计算机视觉技术的快速发展，探索场景变化在图像处理和计算机图形学领域中扮演着重要的角色。场景变化旨在开发算法和技术来检测、分析和理解不同场景中的变化，从动态场景中提取有用信息的需求。这个课题涉及到对图像序列或视频中的变化进行建模、检测和描述，以便提供对场景演变的理解和分析。随着数字摄像设备的普及和计算能力的提升，获取和处理图像序列和视频数据变得更加容易，因此，对于场景中的变化进行准确的理解和分析变得越来越重要。然而，对于场景中变化的理解仍存在一定的知识缺口。场景中的变化可能涉及目标的出现、消失、移动、形状变化等，以及场景的光照、背景等的变化。比如，在给定一对图像的前提下，确定它们之间的变化部位。首要解决的困难便是免受无关的“噪声”或“干扰”变量的影响。例如，在固定摄像机的监控应用中，“干扰”参数可能是场景的光照变化、不断变化的天气条件（如雨、雾）等，这些因素都阻止了普通方法的应用。此外，两个图像可能完全来自不同的拍摄视角，除了光度变化之外，它们之间可能还存在几何变化。在这种情况下，检测图像对的变化效果并不理想。可见，目前对于这些变化的理解和分析仍然不够深入。因此，如何能在不受外界场景环境影响并且无视几何变化的前提下，提供可以正确地可靠地检测图像对变化是一个具有挑战性的问题。

发明内容

本发明针对现有技术的不足，研制一种基于深度学习的场景变动检测方法、装置、介质及设备。

本发明解决技术问题的技术方案为：一方面，本发明提供了一种基于深度学习的场景变动检测方法，包括如下步骤：

a）预处理两幅原始图像，得到预处理后的尺寸为的两幅图像和，L和R为两幅图像，表示矩阵元素的数据类型为实数，为图像的高，为图像的宽, 3为图像的通道数，表示图像L是由一个形状大小为3×h×w的实数矩阵构成，同理；

b）构造基于单应性对齐模块，将预处理后的两幅图像L和R输入到该模块中，分别得到两幅图像所对应的对齐图像L’和R’，L’是图像L基于图像R坐标系下的对齐，R是图像R基于图像L坐标系下的对齐，从而，图像L’与图像R之间的空间位置一致，图像R’与图像L之间的空间位置一致；

c）构建由特征提取模块和变动提取模块构成的初步变动检测网络，根据图像的空间位置一致性，将对齐后的两幅图像L’和R’与对应的预处理后的图像R和L分别进行通道合并，在通道合并过程中，将L与R’在通道维度上进行合并，得到一个6通道的图像LR'，其大小为，其中h和w分别表示图像的高度和宽度，表示图像LR’是由一个形状大小为6×h×w的实数矩阵构成。同样地，将R与L’在通道维度上进行合并，得到一个6通道的图像RL'，其大小也为。将合并后的图像 LR’与RL’分别输入到各自对应的初步变动检测网路中，得到图像L和R各自所对应的变动信息D_L和D_R, LR’是预处理后的图像L和对齐图像R’合并后的图像, RL’ 是预处理后的图像R和对齐图像L’合并后的图像，D_L为图像L的变动信息，D_R为图像R的变动信息；

d）构造由特征融合模块及边框检测模块构成的定位网络，将初步变动检测网络得到的变动信息D_L和D_R输入到各自对应的定位网络中，然后两个定位网络输出两幅图像L和R各自的变动区域的边界框;

e）训练定位网络。

上述的基于深度学习的场景变动检测方法基础上，步骤b)包括如下步骤：

b-1)基于单应性对齐模块由图像特征点匹配和图像对齐构成，图像特征点匹配由特征点检测、特征点描述和特征点匹配构成，图像对齐由计算单应性变换矩阵和配准图像构成；

b-2)将预处理后的图像L和R输入到对齐模块的特征点匹配中，获取图像对各自的特征点，并将两幅图像中的特征点进行匹配,输出得到两幅图像匹配成功的特征点KP _L，KP _R，KP _L为图像L中具有明显局部结构的点，KP _R为图像R中具有明显局部结构的点；

b-3)将匹配好的特征点KP _L，KP _R输入到计算单应性变换矩阵的方法中计算得到变换矩阵H _L-R和H _{R -L}，H _L-R为图像L向图像对齐的变换矩阵，H _{R -L}为图像R向图像L对齐的变换矩阵，然后将计算的变换矩阵应用到对应图像中实现图像对齐，输出得到对齐图像和，L’为在图像R场景下图像L对齐后的图像，R’为在图像L场景下图像R对齐后的图像。

上述的基于深度学习的场景变动检测方法基础上，步骤c)包括如下步骤：

c-1)初步变动检测网络由图像通道连接、U-Net编码器、变动信息的提取模块构成，其中变动信息的提取模块由减操作和交叉注意力机制构成的；

c-2)将对齐后的图像、和所对应的图像、进行通道合并，得到图像对和,将合并后的两组图像对分别输入到U-Net编码器中，分别输出得到两组的五个不同尺度的中间特征图和,;

c-3)将生成的两组特征图的通道对半划分，即将分成和，表示的是图像对应的特征图，表示的是图像对应的特征图;分成和，表示图像R对应的特征图，表示图像对应的特征图;

c-4)利用变动提取模块对、、和进行处理，获得图像L和R各自对应的变动信息和，在第一层级的中间特征图中，以获取图像L在第一层级的变动信息为例，对和进行减操作，将减完后得到的特征图与进行融合，从而得到图像L在第一层级中间特征图中的变动信息，为图像L在第一层级中间特征图中变动信息，为图像L在第一层级的中间特征图，为图像在第一层级的中间特征图，为融合机制。同理，得到，为图像R在第一层级中间特征图中变动信息，为图像R在第一层级的中间特征图，为图像在第一层级的中间特征图；在两组中间特征图的第二到第五层级中，，以获取图像L在第二到第五层级的变动信息为例，先对和进行减操作得到,再对和进行交叉注意力处理得到，将与相加得到的结果与进行融合得到图像在该层特征图的变动信息，,,，为图像L在第二到第五层级中间特征图中变动信息，为图像L在第二到第五层级的中间特征图，为图像在第二到第五层级的中间特征图，为融合机制，为交叉注意力机制；同理，得到图像R在第二到第五层级的变动信息，将代表图像L的变动信息统称为，代表图像R的变动信息统称为，。

上述的基于深度学习的场景变动检测方法基础上，步骤d）包括如下步骤：

d-1）用U-Net解码器对初步变动检测网络生成的特征变动信息和进行上采样和解码，最终以原始图像分辨率分别生成特征映射和;

d-2）将特征映射和输入到预测目标边界框的组件中，输出两幅图像中所改变的区域并在区域周围产生边界框。

上述的基于深度学习的场景变动检测方法基础上，步骤e)包括如下步骤：

e-1）将预处理后的图像对按照20：1：2的比例划分为训练集、验证集和测试集；

e-2）利用关键点loss和offsetloss来训练网络，使用Adam来优化总体目标，学习率为0.00001，权重衰减为0.0005，使用batchsize为16的DDP训练策略，训练时进行200轮迭代，每间隔1轮使用验证集进行一次验证。

另一方面，本发明的实施例提供了一种基于深度学习的场景变动检测装置，包括：

基于单应性对齐模块，将预处理后的两幅图像L和R处理得到两幅图像所对应的对齐图像L’和R’；初步变动检测网络模块，包括特征提取模块和变换提取模块，将两幅图像输入特征提取模块得到预处理后的图像和对齐图像合并后的图像特征融合模块；定位网络模块，特征融合模块及边框检测模块，得到两幅图像L和R各自的变动区域的边界框。

还有一方面，本发明的实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行所述的场景变动检测方法中的步骤。

最后一方面，本发明的实施例提供了一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述场景变动检测方法中的步骤。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案具有如下优点或有益效果：

采用单应性图像配准结构和交叉注意力机制结构结合组成的网络。通过单应性对齐两张图像，使两张图像对齐在同一个坐标系下，弥补了无法快速获取两张图像中变动的特征，通过交叉注意力机制结构捕获两张图像的对应关系，弥补了未对齐图像中的信息的流失。网络采用的是孪生神经网络架构，以此可以同时对两幅图像进行操作，通过特征融合模块加强了变动特征融合，更好地完成变动区域的识别。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明的方法流程图。

图2为本发明的场景变动检测的网络结构图。

图3为本发明的第一层中间特征图变换提取操作图。

图4为本发明的第二到第五层中间特征图变换提取操作图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

一种基于深度学习的场景变动检测方法，包括如下步骤：

a)预处理两幅原始图像，得到预处理后的尺寸为的两幅图像和，L和R为两幅图像，表示矩阵元素的数据类型为实数，为图像的高，为图像的宽, 3为图像的通道数，表示图像L是由一个形状大小为3×h×w的实数矩阵构成，同理；

b)构造基于单应性对齐模块，将预处理后的两幅图像L和R输入到该模块中，分别得到两幅图像所对应的对齐图像L’和R’，L’是图像L基于图像R坐标系下的对齐，R是图像R基于图像L坐标系下的对齐，从而，图像L’与图像R之间的空间位置一致，图像R’与图像L之间的空间位置一致；

c)构建由特征提取模块和变动提取模块构成的初步变动检测网络，将根据图像的空间位置一致性，将对齐后的两幅图像L’和R’与对应的预处理后的图像R和L分别进行通道合并，在通道合并过程中，将L与R’在通道维度上进行合并，得到一个6通道的图像LR'，其大小为，其中h和w分别表示图像的高度和宽度，表示图像LR’是由一个形状大小为6×h×w的实数矩阵构成。同样地，将R与L’在通道维度上进行合并，得到一个6通道的图像RL'，其大小也为。将合并后的图像 LR’与RL’分别输入到各自对应的初步变动检测网路中，得到图像L和R各自所对应的变动信息D_L和D_R, LR’是预处理后的图像L和对齐图像R’合并后的图像, RL’ 是预处理后的图像R和对齐图像L’合并后的图像，D_L为图像L的变动信息，D_R为图像R的变动信息；

d)构造由特征融合模块及边框检测模块构成的定位网络，将初步变动检测网络得到的变动信息D_L和D_R输入到各自对应的定位网络中，然后两个定位网络输出两幅图像L和R各自的变动区域的边界框boundingbox, bounding box定位了每个图像之间的变动区域;

e)训练定位网络。

本实施例中,步骤b)包括如下步骤：

本实施例中,步骤c)包括如下步骤：

c-1)初步变动检测网络由图像通道连接、U-Net编码器、变动信息的提取模块构成，其中变动信息的提取模块由减操作和交叉注意力机制构成的。

c-4)利用变动提取模块对、、和进行处理，获得图像L和R各自对应的变动信息和，在第一层级的中间特征图中，以获取图像L在第一层级的变动信息为例，对和进行减操作，将减完后得到的特征图与进行融合，从而得到图像L在第一层级中间特征图中的变动信息，为图像L在第一层级中间特征图中变动信息，为图像L在第一层级的中间特征图，为图像在第一层级的中间特征图，为融合机制。同理，得到，为图像R在第一层级中间特征图中变动信息，为图像R在第一层级的中间特征图，为图像在第一层级的中间特征图；在两组中间特征图的第二到第五层级中，，以获取图像L在第二到第五层级的变动信息为例，先对和进行减操作得到,再对和进行交叉注意力处理得到，将与相加得到的结果与进行融合得到图像在该层特征图的变动信息，,,，为图像L在第二到第五层级中间特征图中变动信息，为图像L在第二到第五层级的中间特征图，为图像在第二到第五层级的中间特征图，为融合机制，为交叉注意力机制；同理，得到图像R在第二到第五层级的变动信息；同理，得到图像R在第二到第五层级的变动信息，将代表图像L的变动信息统称为，代表图像R的变动信息统称为，。

本实施例中,步骤d）包括如下步骤：

本实施例中,步骤e)包括如下步骤：

为了验证本发明的有效性，在COCO-Inpainted数据集、Synthtext-Change数据集、VIRAT-STD数据集、Kubric-Change数据集上进行评测，COCO-Inpainted数据集是我们从COCO测试子集中整理了一个基于变动的测试集。本实施例中根据变动物体的大小将该测试集分为三个类别，分别为small小、medium中、large大，all代表把三个类别的测试集整合在一起，我们为小型物体整理了1655对图像对，为中型物体整理了1747对图像对，为大型物体整理了1006对图像对，共计4408对图像对用于COCO-Inpainted测试集。Synthtext-Change数据集通过合成技术将随机文本添加到“背景”图像中，并以与其几何形状一致的方式生成5000对图像。为了检测室外场景的变化，从STD数据集中随机选择1000对图像，由于STD没有提供用于变动的基本GroundTruth，因此使用自动化工具来获得基本GroundTruth，由于摄像机是静态的，图像之间有一个相同的几何变换，但光度条件可能会因一天中的时间、天气条件等而改变。Kubric-Change数据集是1605个变动的逼真图像对，场景由一组随机选择的3D物体组成，这些物***于一个随机纹理的地平面上。对于给定的场景，迭代地从中移除物体并捕获“之前”和“之后”的图像对。

为了进行定量评估，我们根据先前相关方法基于预测边界框和地真边界框计算平均精度AP作为评估指标。

经典图像变动检测算法与本发明的性能比较如下表所示，实验设置200个epoch,采用优化方法Adam，默认学习率是0.00001，权重衰减为0.0005 ；为了增强模型对数据的拟合能力，我们采取了随机仿射变换，对比度增强，光照增强和饱和度增强。

表1 目前最优的变动检测模型与本发明在不同数据集上性能的比较

。

CYWS模型是当前研究领域最优的变动检测模型，从表1能发现我们的模型效果相比CYWS模型在COCO-Inpainted和VIRAT-STD数据集中都获得了优异的性能，在其他数据集中的性能表现处于平稳状态。

实施例2

本发明的实施例提供了一种基于深度学习的场景变动检测装置，包括：基于单应性对齐模块，将预处理后的两幅图像L和R处理得到两幅图像所对应的对齐图像L’和R’；初步变动检测网络模块，包括特征提取模块和变动提取模块，将两幅图像输入特征提取模块得到预处理后的图像和对齐图像合并后的图像特征融合模块；定位网络模块，特征融合模块及边框检测模块，得到两幅图像L和R各自的变动区域的边界框。

实施例3

本发明的实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行所述的场景变动检测方法中的步骤。其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。

实施例4

本发明的实施例提供了一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述场景变动检测方法中的步骤。本申请实施例计算机设备可以为终端或者服务器,该终端可以为智能手机、平板电脑、笔记本电脑﹑触控屏幕,游戏机、个人计算机(PC，PersonalComputer)、个人数字助理(Personal Digital Assistant,PDA)等终端设备。

上述虽然结合附图对发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于深度学习的场景变动检测方法，其特征在于，包括如下步骤：

a)预处理两幅原始图像，得到预处理后的尺寸为的两幅图像和，L和R为两幅图像，表示矩阵元素的数据类型为实数，为图像的高，为图像的宽, 3为图像的通道数，表示图像L是由一个形状大小为3×h×w的实数矩阵构成，表示图像R是由一个形状大小为3×h×w的实数矩阵构成；

c)构建由特征提取模块和变动提取模块构成的初步变动检测网络，将对齐后的两幅图像L’和R’与对应的预处理后的图像R和L分别进行通道合并，在通道合并过程中，将L与R’在通道维度上进行合并，得到一个6通道的图像LR'，其大小为，其中h和w分别表示图像的高度和宽度，表示图像LR’是由一个形状大小为6×h×w的实数矩阵构成，将R与L’在通道维度上进行合并，得到一个6通道的图像RL'，其大小为,将合并后的图像 LR’与RL’分别输入到各自对应的初步变动检测网路中，得到图像L和R各自所对应的变动信息D_L和D_R, LR’是预处理后的图像L和对齐图像R’合并后的图像, RL’是预处理后的图像R和对齐图像L’合并后的图像，D_L为图像L的变动信息，D_R为图像R的变动信息；

c)包括如下步骤：

c-3)将生成的两组特征图的通道对半划分，即将分成和，表示的是图像对应的特征图，表示的是图像对应的特征图;分成和，表示图像R对应的特征图，表示图像对应的特征图；

c-4)利用变动提取模块对、、和进行处理，获得图像L和R各自对应的变动信息和；

在第一层级的中间特征图中，获取图像L在第一层级的变动信息，对和进行减操作，将减完后得到的特征图与进行融合，

从而得到图像L在第一层级中间特征图中的变动信息，为图像L在第一层级中间特征图中变动信息，为图像L在第一层级的中间特征图，为图像在第一层级的中间特征图，为融合机制；

采用与获取图像L在第一层级的变动信息一样的步骤得到，为图像R在第一层级中间特征图中变动信息，为图像R在第一层级的中间特征图，为图像在第一层级的中间特征图；

在中间特征图的第二到第五层级中,，以获取图像L和R在第二到第五层级的变动信息；

先对和进行减操作得到,再对和进行交叉注意力处理得到，将与相加得到的结果与进行融合得到图像在该层特征图的变动信息，,,，为图像L在第二到第五层级中间特征图中变动信息，为图像L在第二到第五层级的中间特征图，为图像在第二到第五层级的中间特征图，为融合机制，为交叉注意力机制；

采用与图像L在第二到第五层级的变动信息一样的步骤得到图像R在第二到第五层级的变动信息，将代表图像L的变动信息统称为，代表图像R的变动信息统称为，；

d)构造由特征融合模块及边框检测模块构成的定位网络，将初步变动检测网络得到的变动信息D_L和D_R输入到各自对应的定位网络中，然后两个定位网络输出两幅图像L和R各自的变动区域的边界框;

e)训练定位网络。

2.根据权利要求1所述的基于深度学习的场景变动检测方法，其特征在于，步骤b)包括如下步骤：

3.根据权利要求1所述的基于深度学习的场景变动检测方法，特征在于，步骤d）包括如下步骤：

4.根据权利要求1所述的基于深度学习的场景变动检测方法，其特征在于，步骤e)包括如下步骤：

5.一种基于深度学习的场景变动检测装置，其特征在于，执行如权利要求1-4中任一项所述的场景变动检测方法中的步骤，包括：

基于单应性对齐模块，将预处理后的两幅图像L和R处理得到两幅图像所对应的对齐图像L’和R’；

初步变动检测网络模块，包括特征提取模块和变动提取模块，将两幅图像输入特征提取模块得到预处理后的图像和对齐图像合并后的图像特征融合模块；

定位网络模块，特征融合模块及边框检测模块，得到两幅图像L和R各自的变动区域的边界框。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至4任一项所述的场景变动检测方法中的步骤。

7.一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述场景变动检测方法中的步骤。