CN116740419A

CN116740419A - 一种基于图调控网络的目标检测方法

Info

Publication number: CN116740419A
Application number: CN202310575884.2A
Authority: CN
Inventors: 邸江磊; 秦智坚; 江文隽; 吴计; 王萍; 任振波; 秦玉文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-09-12

Abstract

本发明属于目标检测领域，公开了一种基于图调控网络的目标检测方法。该方法首先获取一段时间内的多光谱图像，并通过两种路径处理：一种将多光谱图像输入到编码器解码器的网络结构提取像素特征，另一种路径将多光谱图像进行将其进行降维与特征提取，然后通过图嵌入的方式提取出多光谱图像三个维度的图结构并进行融合，获得多源特征的异质图。将获取的异质图，利用时空图卷积提取图数据的时空特征，然后通过门控机制获取的像素特征和空间特征聚合，输出特征的权重。由权重获取到最终融合空间特征和像素特征的特征图。最后，将生成的特征图放入目标检测模型，对目标的类别和位置进行检测。该方法输入多帧图像获取的时空特征，提升了算法的精度。

Description

一种基于图调控网络的目标检测方法

技术领域

本发明涉及图像处理技术领域，具体的涉及一种基于图调控网络的目标检测方法。

背景技术

目标检测是计算机视觉领域的一项重要任务，其目标是在图像或视频中准确地检测出感兴趣的物体，并标注它们的位置。多光谱图像是一种包含多个波段信息的图像。它不仅包含了目标的空间信息，还包含了光谱信息，从而克服了单一模态图像信息受限的问题。对于探测目标来说，易受到光照、阴影以及云雾等影响，利用多光谱图像的多模态信息进行目标识别，可在一定程度上消除背景影响，能够更加精确地获取目标区域和位置信息。因此，将其应用于目标检测任务可以提高检测的准确性和可靠性。

早期的多光谱目标识别主要依赖人工选择特定波段来实现。例如，通过选择特定的波段，可以将目标从复杂的野外背景中分离出来，或者利用偏振多光谱图像融合来实现对伪装目标的检测。然而，近年来，传统的人工特征选择和融合方法逐渐被卷积神经网络所取代。研究人员验证了在CNN不同阶段进行特征融合对多光谱图像目标检测性能的影响。同时，利用CNN与支持矢量回归，可以实现可见光和远红外光谱图像的联合特征提取。

然而，CNN作为基础网络模型，主要处理空间网络数据并建立像素之间的空间局部邻域关系，容易忽略数据本身的视觉信息以及不规则表示之间的隐式关系。CNN中的下采样过程会降低特征图像的空间分辨率，导致小目标信息的丢失，使得检测网络难以从有限和扭曲的结构信息中进行表征学习。同时，在中运动的目标，由于目标本身、成像***、目标周围场景以及天空背景等，会导图像抖动、位置偏移、运动模糊、遮挡等问题，此时基于单帧图像输入的检测模型无法很好地适用于运动检测任务，会产生严重的误检和漏检情况。为此，提出一个能够解决上述问题的方案是非常有必要的。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于图调控网络的目标检测方法。该方法将多光谱图像通过两种路径处理，一种通过卷积操作获取图像的像素特征，另一种将多光谱图像通过图嵌入的方向获取图结构特征，并合并成多源异质图，通过不同层次的时空图卷积最终获取时空特征。将两种路径获取的多光谱图像特征利用门控机制进行融合，再放入目标检测模型之中。该方法充分获取时间维度和空间维度的特征，提升了对于高动态弱小目标的识别精度。

本发明解决上述技术问题的技术方案是：

一种基于图重构网络的目标检测方法，包括以下步骤：

(S1)、采集连续时间段内的多光谱图像；

(S2)、首先获取的多光谱图像通过编码器解码器的网络结构进行特征提取，获取像素特征；

(S3)、另将获取的多光谱图像进行降维和特征提取处理，通过图嵌入的方式分别提取出多光谱图像的物理特征图、空间特征图、光谱特征图；

(S4)、将获取到的三个维度的图结构，进行融合，获得多源特征的异质图；(S5)、将获取的异质图利用时空图卷积进行特征提取获得图数据的时空特征；

(S6)、将获取的像素特征和时空特征聚合，通过门控机制将输出特征的权重,由权重获取到最终融合空间特征和像素特征的特征图；

(S7)、将生成的特征图放入目标检测模型，实现对目标的类别和位置的检测。

优选的，在步骤(S1)中，所述的多光谱图像由可以同时采集3个及以上光谱带的多光谱相机拍摄的。

优选的，在步骤(S2)中，所述网络类似unet结构，编码器结构是六个block组成，每个block由三个3×3的卷积层和一个池化层组成。同时，解码器也是是六个block组成，每个block由三个3×3的反卷积层加一个上采样层这两个部分组成，最终提取到多光谱图像的像素特征。

优选的，在步骤(S3)中，所述的特征提取与降维的方法是：将数据信息利用空谱嵌入完成不同像素光谱特征相似性的权重分配，通过流形学习对局部邻域空间和光谱信息进行相似性分类与特征降维。

优选的，在步骤(S3)中，所述的图嵌入方法是：利用降维后的光谱数据，结合红外光谱特征提取光谱数据的物理特征图；可以利用线性迭代聚类的方法确定超像素邻居节点信息，依据超像素的空间连通性关系构建节点之间的边连接关系，提取空间特征图；结合目标的光谱特征相似性，从不同的光谱波段维度抽样重组得到目标光谱特征分布，利用图神经网络有效表示驻留在平滑流形上的光谱数据。

优选的，在步骤(S4)中，所述的获取的异质图是通过链接边与节点将三个不同节点类型的特征图进行连接，采用基于自注意力的图池化方法，获得融合多源特征的异质图，其中链接的网络模型为图自编码器，该自编码器包括但不限于图卷积自编码器、变分图卷积自编码器、对抗正则化图自编码器，该图池化方法包括但不限于DiffPool，SAGPool，ASAP。

优选的，在步骤(S5)中，所述的时空图卷积在时间维度与空间维度采用不同的方法分别做特征提取。其中提取时间维度的网络包括但不限于RNN、GRU、LSTM、TCN、Transformer，用来提取空间维度的特征网络包括但不限于GCN、GAT、GCN结合GAT。通过时空图卷积获得时空特征。

优选的，在步骤(S6)中，所述融合特征图的获取是先聚合两个特征图，这里采用两个相互连接的全连接网络。下一步再将聚合后的特征经过一个激活函数，将函数限制到[0,1]之间，该数值代表着有多少信息可以通过该门控，其中0代表不允许任何信息通过，1代表允许所有信息通过。由门控值能够获取输出特征的权重，从而将该权重与像素特征相乘获取最终融合时空特征和像素特征的特征图。

优选的，在步骤(S7)中，所述的目标检测模型包括但不限于faster-RCNN,YOLOX,YOLOV8。

与现有技术相比，本发明有以下有益效果：

1.通过对多光谱图像进行降维和特征提取，并将其转换为图结构进行嵌入，我们能够获得包含空间特征、物理特征和光谱特征的多维特征信息。将这些图结构合并后，我们可以得到一个多源信息的异质图，能够更好地利用这些多源异质信息获取丰富的特征信息。

2.由于传统的卷积神经网络无法提取帧与帧之间的时间维度特征信息，主要关注空间特征。我们提出的网络通过门控机制融合时空特征和像素特征，能够对数据中的时空关系进行建模，提取时间维度的特征。通过这些特征，我们能够更准确地确定帧间变化的运动目标以及全局背景信息的关联特征提取。

3.该网络能够处理时序数据，利用连续帧图像中的时间维度信息。通过引入时间维度的处理，网络可以更好地利用运动信息，提高目标检测的准确性。通过对多帧图像进行建模，捕捉目标的运动轨迹和形态，进一步提升目标检测性能。该网络在时空图上进行消息传递和图卷积操作，捕捉目标与周围上下文的关系。这种上下文建模能够提供更丰富的语义信息，帮助算法更好地理解和推理目标的位置和特征。

附图说明

图1为本发明的一种基于图调控网络的目标检测方法的流程框图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

参见图1，本发明的一种基于图调控网络的目标检测方法包括以下步骤：

(S1)、采集连续时间段内的多光谱图像；

参见图1，在步骤(S1)中，所述的获取的多光谱数据是由四个波段的多光谱图像组成，采取了1000张连续时间段的多光谱图像。

参见图1，在步骤(S2)中，将多光谱图像放入编码器解码器的cnn网络之中，将图像通过6个卷积模块的编码器和6个卷积模块的解码器，提取到多光谱图像的像素特征。

参见图1，在步骤(S3)中，所述的降维与特征提取方法：先利用增广向量融合光谱和空间信息：

x＝(u,v,b₁,b₂,...,b_B)＝(x¹,x²,...,x^B+2)^T (1)

其中h(u,v)为图上某一像素，(b₁,b₂,b₃,b_B)为波段阵列。

本实施例中，获取了4个波段的图像，故B＝4。

将增广向量作为训练数据，归一化后对任一x_i在监督模式下进行同类别分类，并通过k最近邻算法构建像素局部邻域，通过流形学习对局部邻域空间和光谱信息进行相似性分类与特征降维，结合空间谱多项式局部域或邻域嵌入，完成对局部邻域中不同像素光谱特征相似性的权重分配，最后结合分元矩阵乘法建立多光谱数据间低维度非线性显式映射。

具体的实施例中，增广向量中标记的元素个数为6。

参见图1，在步骤(S3)中，所述的三个特征图：物理特征图包括等效温度、等效面积物理特征，通过随机游走图嵌入方法表示为图；所述的空间特征图，先通过SLIC算法对多光谱图像进行超像素分割，通过计算像素点之间的空间距离和光谱距离，并平衡权重，迭代的更新超像素聚类中心和范围边界，得到一个由超像素构成的多光谱图像数据，依据超像素的空间连通性关系构建节点之间的边连接关系；所述的光谱特征图，由通过半监督邻接矩阵的方法进行构建。基于有限数量的标签数据和大量未标记数据所提供的信息构建而成，使用基于变分推Dirichlet过程混合模型构建伪标签，基于数据样本中的内在聚类算法实现空间光谱邻接矩阵构建。

参见图1，在步骤(S4)中得到的三个特征图的节点与边进行分析，采用基于图自编码器的网络结构，将三个不同类型节点和边的特征图进行连接。

具体的，分析给定的每个图，通过余弦相似度分析不同图之间的节点特征向量，保留三个图中相似度高的节点。对于处理后的三个图，使用图卷积网络对其进行计算，得到每个节点的节点表征z。接着利用下面公式：

其中就是链接节点(i，j)之间的预测概率，其中σ为Sigmoid激活函数。这里，设定大于0.8概率进行链接，小于0.2的概率不连接，获得链接三个图后的新图。

参见图1，在步骤(S4)中,利用SAGpool的方法去对新图的节点进行提取与聚合信息。

具体的，将提取的新图先通过一次图神经的卷积操作，GCN对每个节点v∈V进行特征表示的学习，即将每个节点的邻居节点特征进行聚合，得到节点v的特征表示；对于每个节点v，用自注意力机制来为每个节点计算一个注意力得分z；接着利用topk选取最重要的节点，通过池化比例k来决定保留的节点数，这里我们设定k为0.5。

通过这样获得基于注意力的掩码图，将该掩码图与原输入的融合的异质信息的图结构进行对应节点的相乘，获得最终的输出图，即融合多源特征的异质图。

参见图1，在步骤(S5)中，所述的提取时间维度的网络为TCmodule。该时间模块由两个扩张起始层组成。

具体的,将整个时间卷积模块输出涞源划分为两部分,模块的输入分别通过由一组一维卷积滤波器组成的扩张起始层进行过滤,不同之处在于扩张起始层后接的激活函数不同。输出的一部分来源在经过扩张起始层后通过tanh激活函数处理,其作用是过滤输入的过滤器,而另一分支输入经Sigmoid激活函数的处理,用于控制过滤器可以通往下一模块的信息量。扩张起始层采用一个由1×2、1×3、1×6和1×7的滤波器大小来组成的结构，这样上述的时间周期就能由这些滤波器大小的组合来覆盖。

在本实例中，我们一次输入10个融合异质特征的图，即从原10帧的多光谱图像提取出前后时间特征关系。

参见图1，在步骤(S5)中，所述的提取取空间维度的特征网络为GCN结合GAT。

具体的，在经过时间模块的网络后经过GCN层提取空间特征，接着通过GAT图注意力层进行节点间的信息传递，捕捉节点之间的依赖关系。将通过一次TCmodule和GCN以及GAT后的特征再次通过同样的处理，并将每一次处理后生成的特征往后进行特征提取。

在本实例中，我们提取四个层次深度的特征，并用concat函数将获取的特征进行拼接，得到多尺度的时空特征。

参见图1，在步骤(S6)中，所述的门控机制是,这里先融合时空特征f^R和像素特征

这里的g()我们采用两个相互连接的全连接网络，双曲正切线函数作为激活函数。下一步，我们将的到的融合特征f作为门控机制，即将聚合后的特征经过sigmoid激活函数，将函数限制到[0,1]之间，该数值代表着有多少信息可以通过该门控，其中0代表不允许任何信息通过，1代表允许所有信息通过。在该网络中，门控机制控制着各个像素的重要性，其中0代表当前像素对图像识别判断完全无用，1代表当前像素对图像识别判断极为重要。因此，最后的输出函数可表示为：

⊙代表对应元素相乘，从而使得门控值能够控制输出特征的权重。最后得到的特征向量f_output就是结合了时空信息以及像素信息的特征图。

参见图1，在步骤(S7)中，将获取的特征图送入yolov8目标检测头之中，输出目标的位置和类别，完成检测。

以上所述仅是本发明的优选较佳的实施方式，本发明的保护范围并不仅局限于上述实施例的限制，凡属于本发明的精神实质和原理下的技术方案均属于本发明的保护范围。应当指出，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图调控网络的目标检测方法，其特征在于，包括以下步骤：

(S1)、采集连续时间段内的多光谱图像；

(S4)、将获取到的三个维度的图结构，进行融合，获得多源特征的异质图；

(S5)、将获取的异质图利用时空图卷积进行特征提取获得图数据的时空特征；

2.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S1)中，所述的多光谱图像由可以同时采集3个及以上光谱带的多光谱相机拍摄的。

3.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S2)中，所述的网络类似unet结构，编码器结构是六个block组成，每个block由三个3×3的卷积层和一个池化层组成，同时解码器也是是六个block组成，每个block由三个3×3的反卷积层加一个上采样层这两个部分组成，最终提取到多光谱图像的像素特征。

4.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S3)中，所述的特征提取与降维的方法是：将数据信息利用空谱嵌入完成不同像素光谱特征相似性的权重分配，通过流形学习对局部邻域空间和光谱信息进行相似性分类与特征降维。

5.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S3)中，所述的图嵌入方法是：利用降维后的光谱数据，结合红外光谱特征提取光谱数据的物理特征图；可以利用线性迭代聚类的方法确定超像素邻居节点信息，依据超像素的空间连通性关系构建节点之间的边连接关系，提取空间特征图；结合目标的光谱特征相似性，从不同的光谱波段维度抽样重组得到目标光谱特征分布，利用图神经有效表示驻留在平滑流形上的光谱数据。

6.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S4)中，所述的获取的异质图是通过链接边与节点将三个不同节点类型的特征图进行连接，采用基于自注意力的图池化方法，获得融合多源特征的异质图，其中链接的网络模型为图自编码器，该自编码器包括但不限于图卷积自编码器、变分图卷积自编码器、对抗正则化图自编码器，该图池化方法包括但不限于DiffPool，SAGPool，ASAP。

7.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S5)中，所述的时空图卷积在时间维度与空间维度采用不同的方法分别做特征提取，其中提取时间维度的网络包括但不限于RNN、GRU、LSTM、TCN、Transformer，用来提取空间维度的特征网络包括但不限于GCN、GAT、GCN结合GAT，通过时空图卷积获得时空特征。

8.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S6)中，所述的融合特征图的获取是先聚合两个特征图，这里采用两个相互连接的全连接网络；下一步再将聚合后的特征经过一个激活函数，将函数限制到[0,1]之间，该数值代表着有多少信息可以通过该门控，其中0代表不允许任何信息通过，1代表允许所有信息通过，由门控值能够获取输出特征的权重，从而将该权重与像素特征相乘获取最终融合时空特征和像素特征的特征图。

9.根据权利要求1所描述的一种基于图调控网络的目标检测方法，其特征在于，在步骤(S7)中，所述的目标检测网络包括但不限于faster-RCNN,YOLOX,YOLOV8。