CN116994135A - 一种基于视觉与雷达融合的船舶目标检测方法 - Google Patents

一种基于视觉与雷达融合的船舶目标检测方法 Download PDF

Info

Publication number
CN116994135A
CN116994135A CN202310937180.5A CN202310937180A CN116994135A CN 116994135 A CN116994135 A CN 116994135A CN 202310937180 A CN202310937180 A CN 202310937180A CN 116994135 A CN116994135 A CN 116994135A
Authority
CN
China
Prior art keywords
ship
radar
image
feature
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310937180.5A
Other languages
English (en)
Inventor
徐帆
商智高
詹杰
蔡日钊
易宸宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202310937180.5A priority Critical patent/CN116994135A/zh
Publication of CN116994135A publication Critical patent/CN116994135A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/02Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00
    • G01S7/41Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
    • G01S7/417Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S13/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section involving the use of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于视觉与雷达融合的船舶目标检测方法,包括:获取待处理的视觉图像和对应的雷达数据,将船舶的经纬度坐标转换到图像的像素点坐标上,使用选择性雷达掩码生成雷达掩码图;构建双流特征提取网络,对视觉图像提取出三种不同尺寸的特征图,对雷达掩码图得到三种与特征图相应尺寸的掩码图;构建双模态特征融合模块以融合相同尺寸的特征图和掩码图,构建颈部网络以增强特征信息;构建预测网络实现目标检测分类和位置回归。本发明根据船舶的特征和船舶尺寸生成不同类型的雷达掩码图像,可以提高对大中型船舶的检测精度,通过交叉融合的方式可以有效利用雷达信息使得检测精度得到显著提高。

Description

一种基于视觉与雷达融合的船舶目标检测方法
技术领域
本发明属于船舶目标检测技术领域,具体涉及一种基于视觉与雷达融合的船舶目标检测方法。
背景技术
船舶检测在海洋检测、港口管理、航行安全等领域具有重要的应用价值。在港口管理领域,船舶检测能监督和协助管理海上交通和运输;在海洋监测方面,船舶检测对渔业倾倒污染物和非法走私具有很强的监督作用;在航行安全方面,船舶检测可以判断判断是否存在登陆、停滞等异常航行行为,从而保证海岸和海上安全。因此研究船舶检测技术,实现智能化船舶自动检测对保障船舶运输交通快速发展有着重大意义。
根据图像生成源的不同,基于图像的船舶目标检测方法大致可分为以下四类:基于合成孔径雷达(SAR)图像的船舶检测、基于光学遥感图像的船舶检测、基于红外图像的船舶检测和基于视觉图像的船舶检测。SAR图像和遥感图像的采集和预处理往往需要时间,无法实现对航行船舶的实时检测。视觉图像和红外图像基于监控视频设备可以实时获取图像,能够实现对船舶的实时检测。红外图像有着不受光照条件和天气条件影响的优点,但是相较于视觉图像分辨率低,比较适合于船舶夜间检测。视觉图像不仅能够从视频设备中提取进行实时检测,还包含丰富的语义信息的优点,能够更准确地识别船舶类型。然而,由于视觉图像所处的海上环境复杂且海上特殊的光照条件。从监控视频中准确检测舰船目标面临着诸多挑战,如水面上的光反射,水面上的强光反射会导致高照度和过度曝光图像;周围场景干扰,在一些情况下,建筑物和岸边植被增加了目标与背景分离的复杂性;检测范围短,有些船舶尺寸较小,当目标距离相机较远时,视觉图像中目标的占用像素数会大大减少。
与基于单一视觉的目标检测相比,雷达对复杂的海上条件更为鲁棒,并提供了远距离观察的可能性。但是,基于雷达的目标检测也有很大的局限性,其中最主要的原因就是雷达只能提供位置信息而不能提供语义信息,即不能进行多类型的目标检测。由此,通过单个传感器实现目标检测的性能存在瓶颈,而将语义信息丰富的视觉图像与包含位置信息的雷达进行特征级融合来解决小目标检测和鲁棒性差问题可以得到更好的检测效果。
多模态数据的融合策略包括数据级融合、特征级融合和决策级融合等方法。其中数据级融合又称像素级融合,属于底层级别融合,它多个传感器观测的原始数据直接融合,然后再提取特征向量进行识别。该方法虽然不会造成数据丢失,但融合后的张量数据量较大,卷积处理耗费时间长,难以满足实时性要求,会降低融合性能。决策级融合属于高层次融合,采用两个独立的卷积神经网络处理视觉图像和深度图像得到检测结果,最终决策取决于一个联合的决策结果,但受到两个网络检测结果可能互斥的影响,易导致其最终的检测性能不佳。相比之下,特征层融合从多传感器采集的源数据中提取特征并将其融合成单一特征向量,并通过卷积处理检测识别。提取后的特征图比未经处理原始图像数据量小故处理耗时短,且可以根据实际提取需要的特征信息进行互补融合,提高融合带来的高检测精确度。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于视觉与雷达融合的船舶目标检测方法,采用特征层融合方法,可有效减少数据计算量、提高算法实时性,同时融合加强了多模态数据的关联性,提高了所包含信息的丰富性以及检测的准确率。
为实现上述技术目的,本发明采取的技术方案为:
一种基于视觉与雷达融合的船舶目标检测方法,包括:
S1、获取待处理的视觉图像和对应的雷达数据,其中雷达数据包括船舶的经纬度坐标和尺寸信息;
S2、将船舶的经纬度坐标转换到图像的像素点坐标上,然后根据船舶的尺寸信息,使用选择性雷达掩码生成雷达掩码图;
S3、构建包括第一分支网络和第二分支网络的双流特征提取网络,视觉图像通过第一分支网络提取出三种不同尺寸的特征图,雷达掩码图通过第二分支网络降采样,得到三种与特征图相应尺寸的掩码图;
S4、构建双模态特征融合模块,对相同尺寸的特征图和掩码图进行融合,构建颈部网络对融合后数据的特征信息进行增强;
S5、构建预测网络并输入颈部网络的输出数据,实现目标检测分类和位置回归。
为优化上述技术方案,采取的具体措施还包括:
上述的S2中将船舶经纬度坐标转换到图像的像素点坐标的公式为:
其中(x0,y0)为船舶的经纬度坐标,(x1,y1)为目标点经纬度坐标,(xw,yw,zw)为目标点地球三维坐标,h0为相机高度,h1为目标点高度,R为地球半径;
其中(Xc,Yc,Zc)为以相机为坐标原点的地球三维坐标,T为平移矩阵,Rx,Ry和Rz分别三维旋转矩阵:
其中θ,ρ和β分别为相机绕X轴,Y轴和Z轴的旋转角度;
其中(x,y)是图像坐标系下的坐标,即图像的像素点坐标,f是相机焦距,dx,dy为相机感光元件上像元大小,u0和v0代表相对于像素坐标原点的中心像素坐标。
上述的S2使用选择性雷达掩码生成雷达掩码图的过程为:
采用K-means(K=3)进行船舶框聚类,公式如下:
其中shipbox表示由船舶尺寸大小合成的船舶框,cluster表示每个迭代过程中产生的聚类中心框;
经过聚类后将船舶框划分为L、M、S三种类型,并对每种类型船舶框设计相应的掩码图过程具体包括:
首先构建背景像素为δ(0<δ<255),大小为W×H的空图像;
然后根据不同类型在空图像的对应船舶框内处理,其中对于L型船舶,按1:2:1的比例划分为三部分,像素值为α:β:α(0<β<α≤255,α≠δ,β≠δ);对于M型船舶,按1:1:1的比例划分为三部分,像素值为α:β:α;对于S型船舶,将其视为一个整体,像素值全为α;
最后将分类处理后的图像与视觉图像进行融合得到雷达掩码图。
上述的将分类处理后的图像与视觉图像进行融合得到雷达掩码图的具体公式为:
其中α和β是在0和255之间的像素值,且α大于β;
Rect为矩形函数,用于对船舶框部分绘制掩码图;
x和y表示船舶框的左上角坐标值,w和h表示船舶框的宽度和长度。
上述的S3构建的双流特征提取网络,将单输入的特征提取网络改为视觉图像和雷达掩码图的双输入网络,包括第一分支网络和第二分支网络;
第一分支网络为视觉图像特征提取网络,使用CSPDarknet53,图像经过网络进行特征提取时被32倍下采样,并输出最后三层的特征图进行后续操作;
第二分支网络为雷达掩码图的提取网络,使用五个池化层对掩码图降采样,使得输出的掩码图尺寸与视觉图像支路输出的特征图一致。
上述的第一分支网络在输入图像分辨率为W×H×3的情况下,输出三种不同大小的图像特征,输出的特征图尺度为
所述第二分支网络输出的掩码图尺寸分别为
上述的S4中构建三个双模态特征融合模块,分别融合S3得到的三种不同尺寸中相同尺寸大小的视觉特征图和掩码图;双模态特征融合模块的融合过程为:
(1)先将视觉特征图提取空间信息与雷达掩码图融合来增强真实目标数据并削弱杂波数据,其融合操作如下所示:
其中,视觉图像特征图雷达掩码图/>f7×7代表卷积核为7的卷积操作,σ代表sigmoid激活函数,AvgPool代表平均池化,MaxPool代表最大值池化;
(2)将雷达掩码图处理为空间注意力的形式作为位置信息引导视觉图像特征图,具体如下所示:
其中,f1×1代表卷积核大小为1的卷积操作,BN代表批标准化。
上述的S4构建的颈部网络采用FPN+PANet的联合结构,FPN自顶而下传递高层语义特征信息,PANet自下而上传递低层定位特征信息。
上述的S5构建的预测网络采用YOLO系列的头部结构,同时预测待检测目标的类别和位置;输出通道数为3(K+5),3表示每个预测位置有3个不同大小尺寸的预测框,K为预测类别数,5表示预测框的4个坐标和1个置信度。
本发明具有以下有益效果:
本发明采用卷积神经网络实现,并在此基础上加入本发明提出的选择性雷达掩码生成算法和双模态特征融合模块,具体包括:使用相机和雷达收集船舶的视觉图像和雷达数据,通过雷达数据解析,将船舶经纬度坐标转换成像素坐标;使用选择性雷达掩码生成算法生成雷达掩码图;构建双流特征提取网络,分别得到三种不同尺寸的特征图和掩码图;构建双模态特征融合模块,对相同尺寸的特征图和掩码图进行融合;构建颈部网络用于增强融合数据的特征信息;构建预测网络实现目标检测分类和位置回归。本发明所提出的视觉雷达融合网络,综合了传统图像目标检测和雷达信息的优点,使检测结果更加准确。本发明根据船舶的特征和船舶尺寸生成不同类型的雷达掩码图像,可以提高对大中型船舶的检测精度。本发明针对视觉与雷达信息的融合方法进行了研究,提出了一种新的视觉雷达融合模块,通过交叉融合的方式可以有效利用雷达信息使得检测精度得到显著提高。
附图说明
图1为本发明实施例的总体流程图;
图2为本发明实施例的三种类型船舶的雷达掩码图像;
图3为本发明实施例的双模态特征融合模块;
图4为本发明实施例的总体网络结构;
图5为本发明实施例的检测结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
实施例:
如图1-5所示,本发明实施例的一种基于视觉与雷达融合的船舶目标检测方法,包括:
S1、使用相机和雷达收集待处理的彩色相机图像数据和对应的雷达数据,其中雷达数据主要包括船舶的经纬度坐标和长宽信息。自制数据集包含9513张彩色图像、相对应的标签和相对应的雷达数据,并按照8:2的比例随机划分数据集为训练集和测试集。
S2、将船舶的经纬度坐标转换到图像的像素点坐标上,然后根据船舶的尺寸信息,使用选择性雷达掩码生成雷达掩码图;
该步骤通过雷达数据解析,将船舶经纬度坐标转换成像素坐标,然后使用选择性雷达掩码生成算法生成雷达掩码图,具体如下。
(1)将船舶经纬度点转换到图像的像素点坐标上,主要变换过程包括:首先根据公式1将船舶的经纬度坐标变换到以相机为坐标原点的地球三维坐标;根据公式2和公式3将地球三维坐标变换到当前相机姿态下的三维坐标;根据公式4将当前相机姿态下的船舶三维坐标转换为图像像素点坐标。
其中(x0,y0)为船舶的经纬度坐标,(x1,y1)为目标点经纬度坐标,(xw,yw,zw)为目标点地球三维坐标,h0为相机高度,h1为目标点高度,R为地球半径。
其中(Xc,Yc,Zc)为以相机为坐标原点的地球三维坐标,T为平移矩阵,Rx,Ry和Rz分别三维旋转矩阵,如下所示。
其中θ,ρ和β分别为相机绕X轴,Y轴和Z轴的旋转角度。
其中(x,y)是图像坐标系下的坐标,f是相机焦距,dx,dy为相机感光元件上像元大小。u0和v0代表相对于像素坐标原点的中心像素坐标。
(2)使用本发明提出的选择性雷达掩码生成算法根据雷达收集船舶的距离和尺寸信息,对雷达掩码图进行分类,并在RGB图像上绘制出来。
该步骤中选择性雷达掩码生成算法会根据雷达收集船舶的位置和尺寸信息在视觉图像上绘制掩码图,掩码图的种类会根据船舶的尺寸大小进行设计。
对船舶大小分类的依据来源于训练集上收集的雷达船舶长度信息,对所有船舶长度进行K-means聚类,距离采用IOU方法来替代欧氏距离,如公式5。
其中shipbox表示由船舶尺寸大小合成的船舶框,cluster表示每个迭代过程中产生的聚类中心框。
具体寻找3个船舶尺寸边界的方法为:
在所有的船舶框中随机挑选3个作为簇的中心;计算每个船舶框距离每个簇中心的距离;计算每个船舶框距离最近的簇中心,并分配它到最近的簇;根据每个簇中的船舶框重新计算簇中心;重复前两步骤直到每个簇中元素不再发生变化。本文根据自制船舶数据集将船舶框划分为L、M、S这3个主要类型。
因为聚类的结果对船舶的长度更加敏感,所以掩码图的划分边界使用聚类结果中的长度,即为65和223,当船舶框的长度小于65时记为S型船舶,当船舶框的长度大于65并小于223时记为M型船舶,当船舶框的长度大于223时记为L型船舶。
经过聚类后将船舶框划分为L、M、S三种类型,并对每种类型船舶框设计相应的掩码图,主要过程具体包括:
首先构建背景像素为δ(0<δ<255),大小为W×H的空图像,如构建背景像素为128,大小为640x640的空图像;
然后根据不同类型在空图像的对应船舶框内处理,其中对于L型船舶,按1:2:1的比例划分为三部分,像素值为α:β∶α(0<β<α≤255,α≠δ,β≠δ);对于M型船舶,按1:1:1的比例划分为三部分,像素值为α∶β∶α;对于S型船舶,将其视为一个整体,像素值全为α。如根据不同船舶类型在空图像的对应目标框区域内处理,对于L型船舶,按1:2:1的比例划分为三部分,像素值为255:192:255;对于M型船舶,按1:1:1的比例划分为三部分,像素值为255:192:255;对于S型船舶,将其视为一个整体,像素值全为255;
最后将分类处理后的图像与视觉图像进行融合(相乘操作)即可得到雷达掩码图,具体融合公式为:
其中α和β是在0和255之间的像素值,且α大于β;
Rect为矩形函数,用于对船舶框部分绘制掩码图;
x和y表示船舶框的左上角坐标值,w和h表示船舶框的宽度和长度。
S3、构建包括第一分支网络和第二分支网络的双流特征提取网络,视觉图像通过第一分支网络提取出三种不同尺寸的特征图,雷达掩码图通过第二分支网络降采样,得到三种与特征图相应尺寸的掩码图;
该步骤构建的双流特征提取网络,将单输入的特征提取网络改为视觉图像和雷达掩码图的双输入网络,包括第一分支网络和第二分支网络。
第一分支网络为视觉图像特征提取网络(RGB图像支路的特征提取网络),与YOLOv5中使用的CSPDarknet53一致,图像经过该网络进行特征提取时被32倍下采样,并输出最后的三层特征图进行后续操作。在输入图像分辨率为W×H×3的情况下,输出三种不同大小的图像特征,输出的特征图尺度为如在输入图像分辨率为640×640的情况下,输出的特征图尺度为256×80×80、512×40×40、1024×20×20。
第二分支网络为雷达掩码图的提取网络(雷达掩码图像支路的提取网络),雷达掩码图像不包含复杂的语义信息,仅包含目标的位置信息,所以雷达掩码图像支路的提取网络主要使用五个池化层对掩码图降采样,使得输出的掩码图尺寸与RGB图像支路输出的特征图一致,便于后续的融合操作,即输出的掩码图尺寸分别为如提取的特征图尺度为3×80×80、3×40×40、3×20×20。
进一步,对RGB图像的特征提取网络,其中包括卷积层、残差模块、C3模块和SPPF模块。卷积层包含卷积操作,批量归一化和SiLU函数激活;残差模块将输入通过1x1卷积层降一半通道数,然后通过3x3卷积层升到原来的通道数,最后与输入进行相加操作;C3模块将输入分成两个分支,第一个分支经过1x1卷积层降一半通道数后进入N个残差模块,另一个分支经过1x1卷积层降一半通道数后与第一个分支的结果进行拼接,最后再进入1x1卷积层;SPPF模块将输入先通过一个1x1卷积层降一般通道数,然后分为两个分支,第一个分支通过三个级联的5x5最大池化,第二个分支经过1x1卷积层降一半通道数,最后将四个输出进行拼接并进入1x1卷积层。具体网络结构:第一层是卷积层,卷积核大小为6x6,步长为2,填充为2,通道数为64,输出尺寸为320x320x64;第二层是一个卷积层,卷积核大小为3,步长为2,通道数为128,输出尺寸为160x160x128;第三层是C3模块,有3个残差模块组成,输出尺寸为160x160x128;第四层是一个卷积层,卷积核大小为3,步长为2,通道数为256,输出尺寸为80x80x256;第五层是C3模块,有6个残差模块组成,输出尺寸为80x80x256;第六层是一个卷积层,卷积核大小为3,步长为2,通道数为512,输出尺寸为40x40x512;第七层是C3模块,有9个残差模块组成,输出尺寸为40x40x512;第八层是一个卷积层,卷积核大小为3,步长为2,通道数为1024,输出尺寸为20x20x1024;第九层是C3模块,有3个残差模块组成,输出尺寸为20x20x1024;第十层是一个SPPF模块,输出尺寸为20x20x1024。
其中,对于雷达掩码图像的池化层网络一共有五个最大池化层。若输入为640x640x3的雷达掩码图像,则输出尺寸分别为320x320x3,160x160x3,80x80x3,40x40x3,20x20x3。
S4、构建双模态特征融合模块,对相同尺寸的特征图和掩码图进行融合,借助雷达提供的位置信息来提高目标检测精度;构建颈部网络来增强融合后的数据的特征信息从而提高小目标检测精度;具体如下:
(1)构建三个双模态特征融合模块,分别处理三种不同尺寸的RGB特征图:80x80x256、40x40x512、20x20x1024,以及三种相对应尺寸的雷达掩码图像:80x80x3、40x40x3、20x20x3。
双模态特征融合模块的融合过程为:
1)该模块需要先将视觉特征图提取空间信息与雷达掩码图融合来增强真实目标数据并削弱杂波数据,其融合操作如下所示:
其中,视觉图像特征图雷达掩码图/>f7×7代表卷积核为7的卷积操作,σ代表sigmoid激活函数,AvgPool代表平均池化,MaxPool代表最大值池化;
2)将雷达掩码图处理为空间注意力的形式作为位置信息引导视觉图像特征图,此操作能够引导模型聚焦于可能出现船舶的位置,具体操作如下所示:
其中,f1×1代表卷积核大小为1的卷积操作,BN代表批标准化。
具体融合过程为:将输入的RGB特征图(尺寸为W1×H1×C1),分别经过最大池化和平均池化,得到两个尺寸均为W1×H1×1的特征图;再进行拼接,输出为W1×H1×2;然后进行7x7的卷积操作,步长为1,填充为3,通道数为1,输出尺寸为W1×H1×1;最后通过Sigmoid函数激活,与输入的雷达掩码图作相乘融合操作。之后将融合过RGB图像特征的雷达掩码图像作为输入,尺寸为W2×H2×3;首先通过1x1的卷积操作,步长为1,无填充,通道数为1,输出尺寸为W2×H2×1;然后通过批量归一化和Sigmoid激活函数;输出的雷达掩码图与原始输入的RGB特征图进行相乘,得到的结果再一次与原RGB特征图再相加,最后通过ReLu函数激活。通过融合,输出产生80x80x256、40x40x512、20x20x1024三种融合数据。
(2)采用的颈部网络与Yolov5的一致,都采用FPN+PANet的联合结构,输入源为上一步融合后的三种不同尺寸的数据。,FPN自顶而下传递高层语义特征信息,PANet自下而上传递低层定位特征信息。该网络通过对三种不同尺寸的融合数据进行处理来增强对小目标的检测精度。该结构主要包括卷积层、上采样层(采用最近邻插值方法)、拼接操作和无shortcut操作的C3模块。为了更好地描述这个网络结构,本实施例将这个网络拆分成四个模块,前两个模块为FPN结构,用于上采样融合,并包含两个输出特征图,分别定义为第一输出和第二输出。后两个模块为PANet结构,用于下采样融合,其中的拼接操作需要用到前两个模块的两个输出特征图。具体过程为:首先将输入源20x20x1024输入进网络,通过第一个模块的第一个卷积层(通道数512,核大小为1,步长为1)输出为20x20x512(第一模块的第一输出),然后经过上采样层输出为40x40x512,之后与输入源40x40x512拼接输出为40x40x1024,最后通过含有3个残差模块的C3模块输出为40x40x512(第一模块的第二输出);接下来的第二模块将上一个模块的第二输出作为输入,首先通过卷积层(通道数256,核大小为1,步长为1)输出为40x40x256(第二模块的第一输出),然后经过上采样层输出为80x80x256,之后与输入源80x80x256拼接输出为80x80x512,最后通过含有3个残差模块的C3模块输出为80x80x256(第二模块的第二输出);接下来的第三个模块将上一个模块的第二输出作为输入,首先通过卷积层(通道数256,核大小3,步长为2)输出为40x40x256,然后与第二模块的第一输出40x40x256进行拼接输出为40x40x512,最后通过含有3个残差模块的C3模块输出为40x40x512;接下来的第四个模块将上一个模块的输出作为输入,首先通过卷积层(通道数512,核大小为3,步长为2)输出为20x20x512,然后然后与第一模块的第一输出20x20x512进行拼接输出为20x20x1024,最后通过含有3个残差模块的C3模块输出为20x20x1024。
S5、构建预测网络并输入颈部网络的输出数据,实现目标检测分类和位置回归。
预测网络采用Yolov5的头部结构,同时预测待检测目标的类别和位置。输入为上一步中第二个模块的第二输出80x80x256、第三个模块的输出40x40x512和第四个模块的输出20x20x1024,输出通道数为3(K+5),3表示每个预测位置有3个不同大小尺寸的预测框,K为预测类别数,5表示预测框的4个坐标和1个置信度。将训练集中的RGB图像和对应的深度图像输入到构建好的网络模型中进行训练和验证,在模型收敛后用测试集进行测试并与其他算法对比,对比算法包括:
Faster-RCNN,可参考Ren S,He K,Girshick R,et al.Faster r-cnn:Towardsreal-time object detection with region proposal networks[J].Advances inneural information processing systems,2015,28.
Yolov3,可参考Redmon J,Farhadi A.Yolov3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.
Yolov4,可参考Bochkovskiy A,Wang C Y,Liao H Y M.Yolov4:Optimal speedand accuracy of object detection[J].arXiv preprint arXiv:2004.10934,2020.
Yolov5,可参考Glenn Jocher,Alex Stoken,Jirka Borovec,NanoCode012,AyushChaurasia,TaoXie,Liu Changyu,Abhiram V,Laughing,tkianai,yxNONG,Adam Hogan,lorenzomammana,AlexWang1900,Jan Hajek,Laurentiu Diaconu,Marc,Yonghye Kwon,oleg,wanghaoyang0106,Yann Defretin,Aditya Lohia,ml5ah,Ben Milanko,BenjaminFineran,Daniel Khromov,Ding Yiwei,Doug,Durgesh,andFranciscoIngham.ultralytics/yolov5:v5.0-YOLOv5-P6 1280models,AWS,Supervise.lyand YouTube integrations,Apr.2021.
最终检测结果如表1所示:
表1本发明与其他目标检测网络在自制船舶数数据集上的检测结果
表1给出了本发明与其他目标检测网络在自制船舶数据集上的检测结果,可以看出本发明在每一类型船舶的AP都具有最高的检测精度,总体指标mAP达到83.31%,优于其他目标检测算法。而且对于难以检测的小型船大飞提升幅度很高,提升精度超过了10%。对于大型的挖沙船提升精度也接近10%,对其他船型的检测精度也都有提升,足以证明本发明的优越性。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (9)

1.一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,包括:
S1、获取待处理的视觉图像和对应的雷达数据,其中雷达数据包括船舶的经纬度坐标和尺寸信息;
S2、将船舶的经纬度坐标转换到图像的像素点坐标上,然后根据船舶的尺寸信息,使用选择性雷达掩码生成雷达掩码图;
S3、构建包括第一分支网络和第二分支网络的双流特征提取网络,视觉图像通过第一分支网络提取出三种不同尺寸的特征图,雷达掩码图通过第二分支网络降采样,得到三种与特征图相应尺寸的掩码图;
S4、构建双模态特征融合模块,对相同尺寸的特征图和掩码图进行融合,构建颈部网络对融合后数据的特征信息进行增强;
S5、构建预测网络并输入颈部网络的输出数据,实现目标检测分类和位置回归。
2.根据权利要求1所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述S2中将船舶经纬度坐标转换到图像的像素点坐标的公式为:
其中(x0,y0)为船舶的经纬度坐标,(x1,y1)为目标点经纬度坐标,(xw,yw,zw)为目标点地球三维坐标,h0为相机高度,h1为目标点高度,R为地球半径;
其中(Xc,Yc,Zc)为以相机为坐标原点的地球三维坐标,T为平移矩阵,Rx,Ry和Rz分别三维旋转矩阵:
其中θ,ρ和β分别为相机绕X轴,Y轴和Z轴的旋转角度;
其中(x,y)是图像坐标系下的坐标,即图像的像素点坐标,f是相机焦距,dx,dy为相机感光元件上像元大小,u0和v0代表相对于像素坐标原点的中心像素坐标。
3.根据权利要求1所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述S2使用选择性雷达掩码生成雷达掩码图的过程为:
采用K-means(K=3)进行船舶框聚类,公式如下:
其中shipbox表示由船舶尺寸大小合成的船舶框,cluster表示每个迭代过程中产生的聚类中心框;
经过聚类后将船舶框划分为L、M、S三种类型,并对每种类型船舶框设计相应的掩码图过程具体包括:
首先构建背景像素为δ(0<δ<255),大小为W×H的空图像;
然后根据不同类型在空图像的对应船舶框内处理,其中对于L型船舶,按1:2:1的比例划分为三部分,像素值为α:β:α(0<β<α≤255,α≠δ,β≠δ);对于M型船舶,按1:1:1的比例划分为三部分,像素值为α:β:α;对于S型船舶,将其视为一个整体,像素值全为α;
最后将分类处理后的图像与视觉图像进行融合得到雷达掩码图。
4.根据权利要求3所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述将分类处理后的图像与视觉图像进行融合得到雷达掩码图的具体公式为:
其中α和β是在0和255之间的像素值,且α大于β;
Rect为矩形函数,用于对船舶框部分绘制掩码图;
x和y表示船舶框的左上角坐标值,w和h表示船舶框的宽度和长度。
5.根据权利要求1所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述S3构建的双流特征提取网络,将单输入的特征提取网络改为视觉图像和雷达掩码图的双输入网络,包括第一分支网络和第二分支网络;
第一分支网络为视觉图像特征提取网络,使用CSPDarknet53,图像经过网络进行特征提取时被32倍下采样,并输出最后三层的特征图进行后续操作;
第二分支网络为雷达掩码图的提取网络,使用五个池化层对掩码图降采样,使得输出的掩码图尺寸与视觉图像支路输出的特征图一致。
6.根据权利要求5所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述第一分支网络在输入图像分辨率为W×H×3的情况下,输出三种不同大小的图像特征,输出的特征图尺度为
所述第二分支网络输出的掩码图尺寸分别为
7.根据权利要求1所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述S4中构建三个双模态特征融合模块,分别融合S3得到的三种不同尺寸中相同尺寸大小的视觉特征图和掩码图;双模态特征融合模块的融合过程为:
(1)先将视觉特征图提取空间信息与雷达掩码图融合来增强真实目标数据并削弱杂波数据,其融合操作如下所示:
其中,视觉图像特征图雷达掩码图/>f7×7代表卷积核为7的卷积操作,σ代表sigmoid激活函数,AvgPool代表平均池化,MaxPool代表最大值池化;
(2)将雷达掩码图处理为空间注意力的形式作为位置信息引导视觉图像特征图,具体如下所示:
Mr(FRGB,FRadar)=σ(BN[f1×1(Ms(FRGB,FRadar))])
其中,f1×1代表卷积核大小为1的卷积操作,BN代表批标准化。
8.根据权利要求1所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述S4构建的颈部网络采用FPN+PANet的联合结构,FPN自顶而下传递高层语义特征信息,PANet自下而上传递低层定位特征信息。
9.根据权利要求1所述的一种基于视觉与雷达融合的船舶目标检测方法,其特征在于,所述S5构建的预测网络采用YOLO系列的头部结构,同时预测待检测目标的类别和位置;输出通道数为3(K+5),3表示每个预测位置有3个不同大小尺寸的预测框,K为预测类别数,5表示预测框的4个坐标和1个置信度。
CN202310937180.5A 2023-07-28 2023-07-28 一种基于视觉与雷达融合的船舶目标检测方法 Pending CN116994135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310937180.5A CN116994135A (zh) 2023-07-28 2023-07-28 一种基于视觉与雷达融合的船舶目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310937180.5A CN116994135A (zh) 2023-07-28 2023-07-28 一种基于视觉与雷达融合的船舶目标检测方法

Publications (1)

Publication Number Publication Date
CN116994135A true CN116994135A (zh) 2023-11-03

Family

ID=88533259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310937180.5A Pending CN116994135A (zh) 2023-07-28 2023-07-28 一种基于视觉与雷达融合的船舶目标检测方法

Country Status (1)

Country Link
CN (1) CN116994135A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237777A (zh) * 2023-11-13 2023-12-15 四川观想科技股份有限公司 一种基于多模态融合的船舶目标识别方法
CN117456290A (zh) * 2023-12-26 2024-01-26 苏州镁伽科技有限公司 缺陷分类方法和装置、电子设备以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237777A (zh) * 2023-11-13 2023-12-15 四川观想科技股份有限公司 一种基于多模态融合的船舶目标识别方法
CN117237777B (zh) * 2023-11-13 2024-02-27 四川观想科技股份有限公司 一种基于多模态融合的船舶目标识别方法
CN117456290A (zh) * 2023-12-26 2024-01-26 苏州镁伽科技有限公司 缺陷分类方法和装置、电子设备以及存储介质
CN117456290B (zh) * 2023-12-26 2024-04-16 苏州镁伽科技有限公司 缺陷分类方法和装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
Sun et al. Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning
CN114708585B (zh) 一种基于注意力机制的毫米波雷达与视觉融合的三维目标检测方法
CN116994135A (zh) 一种基于视觉与雷达融合的船舶目标检测方法
CN114359851A (zh) 无人驾驶目标检测方法、装置、设备及介质
CN111986240A (zh) 基于可见光和热成像数据融合的落水人员检测方法及***
CN109145747A (zh) 一种水面全景图像语义分割方法
Zheng et al. A lightweight ship target detection model based on improved YOLOv5s algorithm
CN113095152B (zh) 一种基于回归的车道线检测方法及***
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
Farag A lightweight vehicle detection and tracking technique for advanced driving assistance systems
CN113920097A (zh) 一种基于多源图像的电力设备状态检测方法及***
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与***
CN115937552A (zh) 一种基于融合手工特征与深度特征的图像匹配方法
Algamdi et al. Instant Counting & Vehicle Detection during Hajj Using Drones
Dong et al. Visual Detection Algorithm for Enhanced Environmental Perception of Unmanned Surface Vehicles in Complex Marine Environments
CN113537397B (zh) 基于多尺度特征融合的目标检测与图像清晰联合学习方法
Zheng et al. A study on small-scale ship detection based on attention mechanism
CN115546594A (zh) 一种基于激光雷达和相机数据融合的实时目标检测方法
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN115035429A (zh) 一种基于复合主干网络和多预测头的航拍目标检测方法
CN114926456A (zh) 一种半自动标注和改进深度学习的铁轨异物检测方法
Dong et al. Accurate and real-time visual detection algorithm for environmental perception of USVS under all-weather conditions
Xie et al. Research on building extraction method based on surveillance images
Rocha et al. Beyond Land: A Review of Benchmarking Datasets, Algorithms, and Metrics for Visual-Based Ship Tracking
Liang et al. Automatic Pavement Crack Detection in Multisource Fusion Images Using Similarity and Difference Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination