CN115019132A - 一种用于复杂背景船舶的多目标识别方法 - Google Patents

一种用于复杂背景船舶的多目标识别方法 Download PDF

Info

Publication number
CN115019132A
CN115019132A CN202210671911.1A CN202210671911A CN115019132A CN 115019132 A CN115019132 A CN 115019132A CN 202210671911 A CN202210671911 A CN 202210671911A CN 115019132 A CN115019132 A CN 115019132A
Authority
CN
China
Prior art keywords
feature
characteristic
level
attention
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210671911.1A
Other languages
English (en)
Inventor
孟浩
凌越
田洋
袁宁泽
高放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202210671911.1A priority Critical patent/CN115019132A/zh
Publication of CN115019132A publication Critical patent/CN115019132A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于深度学习及目标识别技术领域,具体涉及一种用于复杂背景船舶的多目标识别方法。本发明利用环形注意力引导的CNN输出高级特征,以增加对复杂背景图像上目标所在区域的空间信息的获取,特别是具有不同尺度大小的复杂空间位置的船舶目标;通过低级特征通过层间相关反卷积对目标区域中局部特征的关键像素值进行加权,得到复杂背景下详细特征分布的图像;通过循环注意力引导低层特征和高层特征进行联合学习,增强了高层目标区域表达局部细节特征的能力。本发明能够在真实海况、复杂多场景海况、目标类别样本量不均衡的情况下实现船舶多目标识别,在船舶工业与海事管理等领域有较好的使用前景。

Description

一种用于复杂背景船舶的多目标识别方法
技术领域
本发明属于深度学习及目标识别技术领域,具体涉及一种用于复杂背景船舶的多目标识别方法。
背景技术
随着深度学习网络的成功发展,越来越多的研究人员将深度学习技术应用到海上和港口安防领域中,作为船舶监视的重要任务之一,具有重要的实用价值。现有的船舶分类方法多为二分类,只能对一张图像中目标进行二分类判别。而在自然场景实际应用时,往往获取的一张图像中会出现多个不同类型船只,现有的二分类船舶识别方法将会漏掉大部分船舶目标,同时降低了船舶识别的准确度。与二分类识别方法不同,多目标识别需要在给定图像中预测一组已有的目标感兴趣区域或属性。这些目标或属性通常具有复杂的空间位置、不同的尺度大小、与背景的相似颜色和遮挡等变化,这些变化条件使得识别成为一项具有实际应用价值和挑战性的任务。现有的处理多标签识别任务的深度学习方法大致分为三个方向:空间信息定位目标区域、视觉注意力机制和标签的依赖性。深度学习网络提出之前,处理多标签识别任务的最原始方法是将多标签任务视为多个单标签二分类任务单独训练。但这种方法忽略了标签和特征之间的空间相关性。随着深度学习的发展,越来越多人员提出了充分利用空间信息定位目标区域的研究方法。然而空间信息定位目标区域的方法虽然对模型的性能起到正相关作用,但引入了注释的人工成本,带来了巨大的计算量。人工注释的高昂成本使得越来越多的研究致力于直接关注并定位图像目标区域,但是视觉注意力旨在提取更多目标区域,对于复杂背景的图像容易提取与目标相似的背景信息作为高级特征输出。在标签的依赖性方面,最近很多研究工作通过图神经网络探索标签的语义信息,对标签建模可以帮助捕获与标签共存的图像特征,通过对标签的依赖和提取,提高多目标识别模型的性能。但目标具有复杂的空间位置时,模型将出现部分目标区域定位错误,降低了模型的性能。
发明内容
本发明的目的在于提供一种低层次和高层次特征联合学习,用于复杂背景船舶的多目标识别方法。
一种用于复杂背景船舶的多目标识别方法,包括以下步骤:
步骤1:获取待识别的具有复杂背景的船舶图像数据集,将其输入至添加有循环注意力模块的特征提取网络中进行特征提取;
步骤2:采用联合的高层次反卷积特征模型,融合层内自相关特征信息和层间互相关特征信息;
将具有复杂背景的船舶图像输入至添加有循环注意力模块的特征提取网络后,特征提取网络的上采样输出为M,下采样输出为H,H,M∈RW×H×C,W,H,C分别代表特征图的宽度、高度和通道数;HHT表示用于增强各目标区域空间信息的层内自相关,HHTMT表示给局部特征的关键像素值加权,计算它们的总和来构造多层次特征关联:
Figure BDA0003693544710000021
其中,
Figure BDA0003693544710000022
表示层内特征自相关和层间特征互相关捕获的局部细节特征的关键像素权重;
将关键细节特征的像素信息
Figure BDA0003693544710000023
与上采样的输出M相乘得到
Figure BDA0003693544710000024
使得关键细节特征信息
Figure BDA0003693544710000025
叠加在上采样的低层次输出M中:
Figure BDA0003693544710000026
其中,
Figure BDA0003693544710000027
表示包含目标区域精细局部特征的低级特征;
步骤3:搭建并训练次层次特征和高层次特征联合学习模型;
步骤3.1:将反卷积后的低层次特征输出X作为次层次特征和高层次特征联合学习模型的输入,X∈RW×H×C
步骤3.2:将X的张量重塑为特征矩阵,该特征矩阵由n=W*H,C组成;
样本协方差矩阵计算为:
Figure BDA0003693544710000028
Figure BDA0003693544710000029
其中,I和1分别为n×n单位矩阵和全1矩阵;∑是一个具有唯一平方根的对称正半定协方差矩阵,∑=Udiag(λi)UT,U是正交矩阵,diag(λi)是对角矩阵,λi为特征值;
步骤3.3:计算∑的矩阵平方根Y,给定输入Y0=∑,Z0=I,耦合迭代过程如下:
Figure BDA00036935447100000210
Figure BDA00036935447100000211
其中,k=1,....K,代表计算出矩阵唯一平方根的迭代次数,Yk和Zk分别逐渐向Y和Y-1收敛;
步骤3.4:通过迹或者Frobenius范数,在后补偿中乘以协方差矩阵的平方根的迹或者使用Frobenius范数来抵消预归一化后数据幅度变化大造成的不利影响,具体计算如下:
Figure BDA00036935447100000212
Figure BDA00036935447100000213
其中,λi是∑的特征值;YN是关联的高层次反卷积特征至低层次256通道输出
Figure BDA00036935447100000214
的特征图;
步骤3.5:多层次特征关联输出
Figure BDA0003693544710000031
经过协方差池化和后补偿后输出
Figure BDA0003693544710000032
Figure BDA0003693544710000033
然后经过两个1×1卷积层,输出特征为k,k∈R59×1×1;将k反向更新到ResNet50的高层次特征P中,P∈R59×8×8,整个过程计算如下:
V=Pdiag(k)+P
其中,diag(k)是维度为8×8,对角线值为k的矩阵;
步骤3.6:采用复合损失函数,包含二元交叉熵损失函数和多标签分类损失函数,其中二元交叉熵损失函数用于测量模型的最终预测图像和对应的真实图像,多标签分类损失函数用测量从上采样中恢复的图像和相应的下采样真实图像;
对于给定一个训练的数据集
Figure BDA0003693544710000034
Ii代表第i张图像,
Figure BDA0003693544710000035
代表第i张图片上相应的真实标签,复合损失函数为二元交叉熵损失函数和多标签分类损失函数的加权和:
Figure BDA0003693544710000036
其中
Figure BDA0003693544710000037
Figure BDA0003693544710000038
分别代表二元交叉熵损失函数和多标签分类损失函数,α是平衡这两项损失函数的权重参数,
Figure BDA0003693544710000039
Figure BDA00036935447100000310
的计算公式为:
Figure BDA00036935447100000311
Figure BDA00036935447100000312
其中,
Figure BDA00036935447100000313
代表第i个图像中的第j个类别预测的分数;
Figure BDA00036935447100000314
代表上采样恢复的第i个图像中第j个类别的分数;
步骤4:将待识别的具有复杂背景的船舶图像经过步骤1、步骤2提取得到的反卷积后的低层次特征输入至训练好的次层次特征和高层次特征联合学习模型中,完成复杂背景船舶的多目标识别。
进一步地,所述步骤1中添加有循环注意力模块的特征提取网络ResNet50有四个阶段,每个阶段都有一个特征提取模块包含一系列卷积层、ReLu和批标准化,特征提取从一个7×7卷积层和一个最大池化层将输入的具有复杂背景的船舶图像转换为256个特征图,然后从这些特征图按照ResNet50的四个阶段来获取不同层次的特征;
所述循环注意力模块通过三个卷积核为1×1的滤波器生成三个特征图Q、K、W,将Q和K进行矩阵相乘的混合运算生成特征的注意力图E,E经过softmax生成一个特征向量R;将特征向量R与特征图W相乘后进行混合运算,生成特征的注意力图T;在获得的注意力图T上,与特征图W进行矩阵相乘的混合运算,循环更新特征图W上的关键特征像素值,生成特征注意力图O,最后将生成的特征注意力图O叠加到给定输入特征图X上,得到相比于给定输入X包含更多的关键特征像素信息特征注意力图S;
所述循环注意力模块引导特征提取网络ResNet50的四个阶段进行学习,特征提取网络ResNet50的每个阶段的输出特征图作为循环注意力模块的给定输入特征图X,在给定输入特征图X上***循环注意力模块后输出一级注意力特征图H;将一级注意力特征图H作为给定输入X,***循环注意力模块输出二级注意力特征图H,并将二级注意力特征图H叠加到CNN的每个阶段输出的特征图X上。
本发明的有益效果在于:
本发明利用环形注意力引导的CNN输出高级特征,以增加对复杂背景图像上目标所在区域的空间信息的获取,特别是具有不同尺度大小的复杂空间位置的船舶目标;通过低级特征通过层间相关反卷积对目标区域中局部特征的关键像素值进行加权,可以得到复杂背景下详细特征分布的图像;通过循环注意力引导低层特征和高层特征进行联合学习,增强了高层目标区域表达局部细节特征的能力;通过使用训练优化方法对网络进行训练,加快网络训练速度,避免网络出现过拟合现象。本发明能够在真实海况、复杂多场景海况、目标类别样本量不均衡的情况下实现船舶多目标识别,在船舶工业与海事管理等领域有较好的使用前景。
附图说明
图1为本发明的整体网络结构图。
图2为环形注意力模型(CAG)的详细结构图。
图3为关联的高层次反卷积特征(AHDF)的详细结构图。
图4为高层次特征更新的详细概述图。
图5为CIB-ships数据集的一些样本图。
图6为Seaships数据集的一些样本图。
图7为CIB-ships测试数据集上一些目标区域和特征提取结果的示例图。
具体实施方式
下面结合附图对本发明做进一步描述。
本发明涉及一种深度学习及目标识别技术,特别涉及一种低层次和高层次特征联合学习,用于复杂背景船舶的多目标识别方法,该方法属于深度学习与计算机视觉领域的方法。
如图1所示,为本发明的网络结构图。本发明提出的多目标船舶识别模型LHJL的架构包括CAG、AHDF和高级特征对角加权k。AHDF融合了层内自相关特征信息和层间互相关特征信息,旨在提取和锁定目标区域内更详细的特征。CAG引导CNN获取更多的上下文信息,更加关注目标区域,减少背景干扰。最后,对角加权k联合学习高层特征和低层特征来预测目标类别。
一种低层次和高层次特征联合学习用于复杂背景船舶的多目标识别方法,包括以下步骤:
S1:采用ResNet50网络进行特征提取,并在网络各层中添加循环注意力机制(CAG):
为了在没有偏移的情况下获得复杂背景中多个目标的每个目标区域的空间信息,我们提出了一种轻量级循环注意模块,逐步引导主干网络的四个级别(256、512、1024、2048)收集空间信息并产生高级特征。
所述的步骤S1包括以下子步骤
S11:特征提取网络ResNet50有四个阶段,每个阶段都有一个特征提取模块包含一系列卷积层、ReLu和BatchNormalization。特征提取从一个7×7卷积层和一个最大池化层将给定的复杂背景船舶图像转换为256个特征图。然后从这些特征图按照ResNet50的四个阶段来获取不同层次的特征;
S12:采用一个轻量级的循环注意力模块,通过三个卷积核为1×1的滤波器生成三个特征图Q、K、W,将Q和K进行矩阵相乘的混合运算生成特征的注意力图E,E经过softmax生成一个特征向量R;
S13:将生成的特征向量R与特征图W相乘后进行混合运算,生成特征的注意力图T,在获得的注意力图T上,与特征图W进行矩阵相乘的混合运算,循环更新特征图W上的关键特征像素值,生成特征注意力图O,最后将生成的特征注意力图O叠加到给定输入特征图X上,得到相比于给定输入X包含更多的关键特征像素信息特征注意力图S;
S14:采用循环注意力模块(CAG)引导CNN的四个阶段进行学习,CNN每个阶段的输出特征图作为循环注意力模块的给定输入特征图X,在给定输入特征图X上***循环注意力模块后输出一级注意力特征图H;
S15:将一级注意力特征图H作为给定输入X,***循环注意力模块输出二级注意力特征图H,并将二级注意力特征图H叠加到CNN的每个阶段输出的特征图X上。
S2:采用联合的高层次反卷积特征(AHDF),融合层内自相关特征信息和层间互相关特征信息;
层间关联的高层次反卷积特征通过四层(256,512,1024,2048)层内自相关和四层(2048,1024,512,256)层间互相关,探索每个目标区域的局部精细特征,旨在提取和锁定目标区域更详细的特征,如图2所示;
所述的步骤S2包括以下子步骤:
S21:复杂背景的船舶图像作为特征提取网络ResNet50的给定输入,分别使用H和M代表ResNet50网络的下采样输出和上采样的输出,其中H,M∈RW×H×C,W,H,C分别代表特征图的宽度、高度和通道数;
S22:Hm代表特征提取下采样四个层次的输出,其中m=1,2,3,4分别代表ResNet50的256,512,1024,2048四个层次。Mn代表上采样四个层次的输出,其中n=1,2,3,4分别代表上采样的2048,1024,512,256四个层次;
S23:HHT表示用于增强各目标区域空间信息的层内自相关,HHTMT表示给局部特征的关键像素值加权,计算它们的总和来构造多层次特征关联:
Figure BDA0003693544710000061
Figure BDA0003693544710000062
表示层内特征自相关和层间特征互相关捕获的局部细节特征的关键像素权重;
S24:将关键细节特征的像素信息
Figure BDA0003693544710000063
与上采样的输出M相乘得到
Figure BDA0003693544710000064
使得关键细节特征信息
Figure BDA0003693544710000065
叠加在上采样的低层次输出M中:
Figure BDA0003693544710000066
Figure BDA0003693544710000067
表示包含目标区域精细局部特征的低级特征。
S3:搭建次层次特征和高层次特征联合学习(LHJL)模型,预测目标类别;
在协方差池化和后补偿之后,低层特征产生目标区域的关键细节特征权重k。主对角线权重k与循环注意力产生的高层特征相乘再相加,将增强局部细节特征的表达能力,提升复杂背景下船舶多目标识别的准确率。
所述步骤S3包括以下子步骤:
S31:输入X表示为反卷积后的低层次特征输出,其中X∈RW×H×C,W,H,C分别代表特征图的宽度,高度和通道数。将输入X的张量重塑为特征矩阵,该特征矩阵由n=W*H,C组成;
S32:样本协方差矩阵可以计算为:
Figure BDA00036935447100000611
Figure BDA0003693544710000068
其中I和1分别为n×n单位矩阵和全1矩阵。∑是一个具有唯一平方根的对称正半定协方差矩阵,它可以由奇异值分解和特征值分解计算如下:∑=Udiag(λi)UT,其中U是正交矩阵,diag(λi)是对角矩阵,λi为特征值;
S33:采用了牛顿迭代计算矩阵平方根的方法计算∑的矩阵平方根Y,给定输入Y0=∑,Z0=I,耦合迭代过程如下:
Figure BDA0003693544710000069
Figure BDA00036935447100000610
其中k=1,....K,代表计算出矩阵唯一平方根的迭代次数,Yk和Zk分别逐渐向Y和Y-1收敛;
S34:通过迹或者Frobenius范数,在后补偿中乘以协方差矩阵的平方根的迹或者使用Frobenius范数来抵消预归一化后数据幅度变化大造成的不利影响,具体计算如下:
Figure BDA0003693544710000071
Figure BDA0003693544710000072
其中λi是∑的特征值。YN是关联的高层次反卷积特征(AHDF)至低层次256通道输出
Figure BDA0003693544710000073
的特征图;
S35:多层次特征关联输出
Figure BDA0003693544710000074
经过协方差池化和后补偿后输出
Figure BDA0003693544710000075
Figure BDA0003693544710000076
然后经过两个1×1卷积层,输出特征为k,k∈R59×1×1
S36:将k反向更新到ResNet50的高层次特征P中,P∈R59×8×8,整个过程计算如下:
V=Pdiag(k)+P
其中diag(k)是维度为8×8,对角线值为k的矩阵。
S4:在搭建的LHJL网络中采用复合损失函数;
为了训练LHJL网络,采用复合损失函数,其中包含二元交叉熵损失函数(BCEloss)和多标签分类损失函数(MLSMloss),其中BCEloss用于测量模型的最终预测图像和对应的真实图像,MLSMloss测量从上采样中恢复的图像和相应的下采样真实图像;
所述步骤S4包括以下子步骤:
S41:给定一个训练的数据集
Figure BDA0003693544710000077
其中Ii代表第i张图像,
Figure BDA0003693544710000078
代表第i张图片上相应的真实标签;
S42:采用复合损失函数,整体损失函数为二元交叉熵损失函数(BCEloss)和多标签分类损失函数(MLSMloss)的加权和:
Figure BDA0003693544710000079
其中
Figure BDA00036935447100000710
Figure BDA00036935447100000711
分别代表BCEloss和MLSMloss,α是平衡这两项损失函数的权重参数,
Figure BDA00036935447100000712
Figure BDA00036935447100000713
的计算公式为:
Figure BDA00036935447100000714
Figure BDA00036935447100000715
其中
Figure BDA00036935447100000716
代表第i个图像中的第j个类别预测的分数,
Figure BDA00036935447100000717
代表上采样恢复的第i个图像中第j个类别的分数。
S5:使用创建的CIB-ships数据集和公共的Seaships数据集对LHJL网络进行训练;
训练使用两个数据集,CIB-ships数据集和Seaships数据集。CIB-ships数据集是由我们收集到的图片建立的,包含59种类型的船只,超过1万张图片,其中训练集、验证集和测试集的比例为5:1:4,该数据集的实例图如图5所示;Seaships数据集由6种类型的船舶,公开可用的7000多张图片组成,其中训练集、验证集和测试集的比例为4:1:5,该数据集的示例图如图5所示;
所述步骤S5包括以下子步骤:
S51:使用0.9的动量和权重衰减为0.0001的随机梯度下降(SGD)优化器;
S52:所有层的初始学习率设置为0.001,对于1×1卷积学习率设置为0.01;
S53:在第30个和第50个epoch的动态衰减因子为10,网络总共训练了50个epoch;
S54:在网络训练期间,输入图像调整为固定的大小(即256×256),将设为0.2。
本发明可应用于船舶数量统计、船型分类及精细识别领域。本发明利用环形注意力引导的CNN输出高级特征,以增加对复杂背景图像上目标所在区域的空间信息的获取,特别是具有不同尺度大小的复杂空间位置的船舶目标;通过低级特征通过层间相关反卷积对目标区域中局部特征的关键像素值进行加权,可以得到复杂背景下详细特征分布的图像;通过循环注意力引导低层特征和高层特征进行联合学习,增强了高层目标区域表达局部细节特征的能力;使用训练优化方法对网络进行训练,加快网络训练速度,避免网络出现过拟合现象。本发明能够在真实海况、复杂多场景海况、目标类别样本量不均衡的情况下实现船舶多目标识别,在船舶工业与海事管理等领域有较好的使用前景。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种用于复杂背景船舶的多目标识别方法,其特征在于,包括以下步骤:
步骤1:获取待识别的具有复杂背景的船舶图像数据集,将其输入至添加有循环注意力模块的特征提取网络中进行特征提取;
步骤2:采用联合的高层次反卷积特征模型,融合层内自相关特征信息和层间互相关特征信息;
将具有复杂背景的船舶图像输入至添加有循环注意力模块的特征提取网络后,特征提取网络的上采样输出为M,下采样输出为H,H,M∈RW×H×C,W,H,C分别代表特征图的宽度、高度和通道数;HHT表示用于增强各目标区域空间信息的层内自相关,HHTMT表示给局部特征的关键像素值加权,计算它们的总和来构造多层次特征关联:
Figure FDA0003693544700000011
其中,
Figure FDA0003693544700000012
表示层内特征自相关和层间特征互相关捕获的局部细节特征的关键像素权重;
将关键细节特征的像素信息
Figure FDA0003693544700000013
与上采样的输出M相乘得到
Figure FDA0003693544700000014
使得关键细节特征信息
Figure FDA0003693544700000015
叠加在上采样的低层次输出M中:
Figure FDA0003693544700000016
其中,
Figure FDA0003693544700000017
表示包含目标区域精细局部特征的低级特征;
步骤3:搭建并训练次层次特征和高层次特征联合学习模型;
步骤3.1:将反卷积后的低层次特征输出X作为次层次特征和高层次特征联合学习模型的输入,X∈RW×H×C
步骤3.2:将X的张量重塑为特征矩阵,该特征矩阵由n=W*H,C组成;
样本协方差矩阵计算为:
Figure FDA0003693544700000018
Figure FDA0003693544700000019
其中,I和1分别为n×n单位矩阵和全1矩阵;∑是一个具有唯一平方根的对称正半定协方差矩阵,∑=Udiag(λi)UT,U是正交矩阵,diag(λi)是对角矩阵,λi为特征值;
步骤3.3:计算∑的矩阵平方根Y,给定输入Y0=∑,Z0=I,耦合迭代过程如下:
Figure FDA00036935447000000110
Figure FDA00036935447000000111
其中,k=1,…K,代表计算出矩阵唯一平方根的迭代次数,Yk和Zk分别逐渐向Y和Y-1收敛;
步骤3.4:通过迹或者Frobenius范数,在后补偿中乘以协方差矩阵的平方根的迹或者使用Frobenius范数来抵消预归一化后数据幅度变化大造成的不利影响,具体计算如下:
Figure FDA0003693544700000021
Figure FDA0003693544700000022
其中,λi是∑的特征值;YN是关联的高层次反卷积特征至低层次256通道输出
Figure FDA0003693544700000023
的特征图;
步骤3.5:多层次特征关联输出
Figure FDA0003693544700000024
经过协方差池化和后补偿后输出
Figure FDA0003693544700000025
Figure FDA0003693544700000026
然后经过两个1×1卷积层,输出特征为k,k∈R59×1×1;将k反向更新到ResNet50的高层次特征P中,P∈R59×8×8,整个过程计算如下:
V=Pdiag(k)+P
其中,diag(k)是维度为8×8,对角线值为k的矩阵;
步骤3.6:采用复合损失函数,包含二元交叉熵损失函数和多标签分类损失函数,其中二元交叉熵损失函数用于测量模型的最终预测图像和对应的真实图像,多标签分类损失函数用测量从上采样中恢复的图像和相应的下采样真实图像;
对于给定一个训练的数据集
Figure FDA0003693544700000027
Ii代表第i张图像,
Figure FDA0003693544700000028
代表第i张图片上相应的真实标签,复合损失函数为二元交叉熵损失函数和多标签分类损失函数的加权和:
Figure FDA0003693544700000029
其中
Figure FDA00036935447000000210
Figure FDA00036935447000000211
分别代表二元交叉熵损失函数和多标签分类损失函数,α是平衡这两项损失函数的权重参数,
Figure FDA00036935447000000212
Figure FDA00036935447000000213
的计算公式为:
Figure FDA00036935447000000214
Figure FDA00036935447000000215
其中,
Figure FDA00036935447000000216
代表第i个图像中的第j个类别预测的分数;
Figure FDA00036935447000000217
代表上采样恢复的第i个图像中第j个类别的分数;
步骤4:将待识别的具有复杂背景的船舶图像经过步骤1、步骤2提取得到的反卷积后的低层次特征输入至训练好的次层次特征和高层次特征联合学习模型中,完成复杂背景船舶的多目标识别。
2.根据权利要求1所述的一种用于复杂背景船舶的多目标识别方法,其特征在于:所述步骤1中添加有循环注意力模块的特征提取网络ResNet50有四个阶段,每个阶段都有一个特征提取模块包含一系列卷积层、ReLu和批标准化,特征提取从一个7×7卷积层和一个最大池化层将输入的具有复杂背景的船舶图像转换为256个特征图,然后从这些特征图按照ResNet50的四个阶段来获取不同层次的特征;
所述循环注意力模块通过三个卷积核为1×1的滤波器生成三个特征图Q、K、W,将Q和K进行矩阵相乘的混合运算生成特征的注意力图E,E经过softmax生成一个特征向量R;将特征向量R与特征图W相乘后进行混合运算,生成特征的注意力图T;在获得的注意力图T上,与特征图W进行矩阵相乘的混合运算,循环更新特征图W上的关键特征像素值,生成特征注意力图O,最后将生成的特征注意力图O叠加到给定输入特征图X上,得到相比于给定输入X包含更多的关键特征像素信息特征注意力图S;
所述循环注意力模块引导特征提取网络ResNet50的四个阶段进行学习,特征提取网络ResNet50的每个阶段的输出特征图作为循环注意力模块的给定输入特征图X,在给定输入特征图X上***循环注意力模块后输出一级注意力特征图H;将一级注意力特征图H作为给定输入X,***循环注意力模块输出二级注意力特征图H,并将二级注意力特征图H叠加到CNN的每个阶段输出的特征图X上。
CN202210671911.1A 2022-06-14 2022-06-14 一种用于复杂背景船舶的多目标识别方法 Pending CN115019132A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210671911.1A CN115019132A (zh) 2022-06-14 2022-06-14 一种用于复杂背景船舶的多目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210671911.1A CN115019132A (zh) 2022-06-14 2022-06-14 一种用于复杂背景船舶的多目标识别方法

Publications (1)

Publication Number Publication Date
CN115019132A true CN115019132A (zh) 2022-09-06

Family

ID=83074668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210671911.1A Pending CN115019132A (zh) 2022-06-14 2022-06-14 一种用于复杂背景船舶的多目标识别方法

Country Status (1)

Country Link
CN (1) CN115019132A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058507A (zh) * 2023-08-17 2023-11-14 浙江航天润博测控技术有限公司 基于傅里叶卷积可见光和红外图像多尺度特征融合方法
CN117437463A (zh) * 2023-10-19 2024-01-23 上海策溯科技有限公司 基于图像处理的医学影像数据处理方法及处理平台

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117058507A (zh) * 2023-08-17 2023-11-14 浙江航天润博测控技术有限公司 基于傅里叶卷积可见光和红外图像多尺度特征融合方法
CN117058507B (zh) * 2023-08-17 2024-03-19 浙江航天润博测控技术有限公司 基于傅里叶卷积可见光和红外图像多尺度特征融合方法
CN117437463A (zh) * 2023-10-19 2024-01-23 上海策溯科技有限公司 基于图像处理的医学影像数据处理方法及处理平台
CN117437463B (zh) * 2023-10-19 2024-05-24 上海策溯科技有限公司 基于图像处理的医学影像数据处理方法及处理平台

Similar Documents

Publication Publication Date Title
Tong et al. Channel-attention-based DenseNet network for remote sensing image scene classification
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN108537742B (zh) 一种基于生成对抗网络的遥感图像全色锐化方法
Lu et al. 3-D channel and spatial attention based multiscale spatial–spectral residual network for hyperspectral image classification
US6724931B1 (en) Compilable plain english-like language for extracting objects from an image using a primitive image map
CN115019132A (zh) 一种用于复杂背景船舶的多目标识别方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN109165563A (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
Nguyen et al. Satellite image classification using convolutional learning
CN108734199A (zh) 基于分段深度特征及低秩表示的高光谱图像鲁棒分类方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN115222998B (zh) 一种图像分类方法
CN115146057B (zh) 基于交互注意力的供应链生态区图文融合情感识别方法
CN115761757A (zh) 基于解耦特征引导的多模态文本页面分类方法
Liu et al. A novel attention-based deep learning method for post-disaster building damage classification
CN112257741A (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
CN114511710A (zh) 一种基于卷积神经网络的图像目标检测方法
CN115512096A (zh) 基于CNN与Transformer的低分辨率图像分类方法及***
US7020326B1 (en) System for guiding users to formulate and use object extraction rules
CN114627424A (zh) 一种基于视角转化的步态识别方法和***
CN114863209A (zh) 类别比例引导的无监督领域适应建模方法、***、设备及介质
Li et al. HTDFormer: Hyperspectral target detection based on transformer with distributed learning
CN110298331B (zh) 一种人证比对方法
CN116168418A (zh) 一种图像的多模态目标感知与重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination