CN113673584A - 一种图像检测方法及相关装置 - Google Patents
一种图像检测方法及相关装置 Download PDFInfo
- Publication number
- CN113673584A CN113673584A CN202110875131.4A CN202110875131A CN113673584A CN 113673584 A CN113673584 A CN 113673584A CN 202110875131 A CN202110875131 A CN 202110875131A CN 113673584 A CN113673584 A CN 113673584A
- Authority
- CN
- China
- Prior art keywords
- image
- modal
- network
- fusion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 124
- 230000004927 fusion Effects 0.000 claims abstract description 105
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000010287 polarization Effects 0.000 claims description 43
- 239000011159 matrix material Substances 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 23
- 230000009467 reduction Effects 0.000 claims description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 30
- 238000013527 convolutional neural network Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229910000838 Al alloy Inorganic materials 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像检测方法及其相关装置,其中,图像检测方法包括:获取到包括待检测目标的多模态图像;利用多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征;基于融合特征对待检测目标进行识别。通过上述方法,提高复杂环境下对低辨识目标的检测和识别性能。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种图像检测方法及相关装置。
背景技术
随着机器学习技术的快速发展以及计算能力的极速提高,基于深度学习的计算机视觉算法广泛地运用到视频监控、智能驾驶等任务中,极大地提高了摄像头对环境的感知能力。
然而在真实场景中,各种各样的视频的采集设备会面临各种复杂环境,尤其是下雨、下雪天、夜晚、雾霾等环境,RGB图像上的目标可辩识度低,特征不明显,各种传感器也会受到很大的影响,此时由具有特定特征的图像数据训练得到的深度学习模型将不能很好地识别出低辨识目标,摄像头将严重“失明”,将带来极大的安全隐患。
研究表明,多模态图像数据的融合有助于提高在某些复杂应用场景下目标检测等视觉算法的性能,在很多情况下其他模态的传感器信息对传统的单目RGB相机具有很好的信息补种作用。
发明内容
本申请主要解决的技术问题是提供一种图像检测方法及相关装置,以提高复杂环境下对低辨识目标的检测和识别性能。
为了解决上述技术问题,本申请提供一种图像检测方法,包括:获取到包括待检测目标的多模态图像;利用多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征;基于融合特征对待检测目标进行识别。
其中,利用多模态目标检测网络的特征提取网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征的步骤,包括:利用多模态目标检测网络对多模态图像分别进行特征提取;将提取的多模态图像的特征进行融合,得到融合特征。
其中,将提取的多模态图像的特征进行融合,得到融合特征的步骤,包括:利用多模态目标检测网络的矩阵串接函数对多模态图像的特征进行特征融合,并进行降维处理,得到融合特征。
其中,利用多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征的步骤,包括:利用多模态目标检测网络的第一子卷积网络、第二子卷积网络、第三子卷积网络、第四子卷积网络以及第五卷积网络依次对多模态图像的特征进行特征提取,得到多模态图像的特征图;利用多模态目标检测网络的矩阵串接函数对特征图进行特征融合,得到融合图;利用多模态目标检测网络的卷积核对融合图进行降维特征提取,得到融合特征。
其中,将提取的多模态图像的特征进行融合,得到融合特征的步骤,包括:将提取的多模态图像的特征进行融合,得到多模态图像的融合图;对融合图进行高层语义特征提取,得到融合特征。
其中,将提取的多模态图像的特征进行融合,得到多模态图像的融合图的步骤,包括:利用多模态目标检测网络的第一子卷积网络对多模态图像进行特征提取,得到多模态图像的特征图;利用多模态目标检测网络的矩阵串接函数对特征图进行特征融合,得到融合图;利用多模态目标检测网络卷积核对融合图进行降维特征提取,得到降维后的融合图;对融合图进行高层语义特征提取,得到融合特征的步骤,包括:利用多模态目标检测网络的第二子卷积网络、第三子卷积网络、第四子卷积网络以及第五子卷积网络依次对降维后的融合图进行特征提取,得到融合特征。
其中,利用多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征的步骤,包括:在特征提取网络之前利用多模态目标检测网络的矩阵串接函数对多模态图像的特征进行融合;利用卷积核对融合后的多模态图像进行降维,得到堆叠特征图;利用特征提取网络对堆叠特征图进行高层语义特征提取,得到融合特征。
其中,获取到包括待检测目标的多模态图像的步骤,包括:对获得的初始图像进行配准,得到同一时间具有相同视角和重叠区域的多模态图像。
其中,基于融合特征对待检测目标进行识别的步骤,包括:利用多模态目标检测网络的区域生成网络、感兴趣区域池化网络以及全连接层网络对融合特征进行分类和边界框回归处理,得到待检测目标。
其中,多模态目标检测网络还包括Faster R-CNN目标检测算法。
其中,多模态图像包括彩色图像、红外图像以及偏振图像;彩色图像由彩色相机获取,红外图像由红外相机获取,偏振图像由偏振相机获取;其中,彩色相机、红外相机与偏振相机由固定装置固定在同一垂直平面内,以使彩色相机、红外相机以及偏振相机的拍摄轴线在同一垂直平面内。
其中,利用多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征的步骤之前,还包括:获取多模态图像数据集、初始模型以及目标图像;利用初始模型分别对多模态图像数据集中的待检测目标进行识别,得到待检测目标图像;利用目标图像和待检测目标图像对初始模型进行训练,并将训练完成后的模型确定为多模态目标检测网络。
其中,利用多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征的步骤,包括:利用多模态目标检测网络的矩阵串接函数对多模态图像的通道进行矩阵串接。
本申请还提供一种终端,用于识别多模态图像中的待检测目标,该终端包括相互耦接的处理器和存储器,存储器用于存储程序指令,处理器用于执行存储器存储的程序指令以实现上述任一项实施方式的图像检测方法。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,用于实现上述任一实施方式的图像检测方法。
本申请的有益效果是:通过多模态图像检测装置获取包括待检测目标的多模态图像,通过多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征,并基于融合特征对待检测目标进行识别,从而提高了复杂环境下相机对低辨识目标的检测和识别性能。
附图说明
图1是本申请图像检测方法一实施方式的流程示意图;
图2为本申请三模态传感器图像采集装置一实施方式的结构示意图;
图3为本申请三模态特征提取网络一实施方式的结构示意图;
图4为本申请多模态图像检测方法的第一实施方式的流程示意图;
图5为本申请三模态目标检测网络第一实施方式的结构示意图;
图6为本申请多模态图像检测方法的第一实施方式的流程示意图;
图7为本申请三模态目标检测网络第二实施方式的结构示意图;
图8为本申请多模态图像检测方法的第三实施方式的流程示意图;
图9为本申请三模态目标检测网络第三实施方式的结构示意图;
图10为本申请中终端一实施方式的结构示意图;
图11为本申请计算机可读存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种图像检测方法,以获取图像中的待检测目标,具体请参阅图1,图1为本申请图像检测方法一实施方式的流程示意图。如图1所示,图像检测方法包括:
步骤S11:获取到包括待检测目标的多模态图像;
其中,多模态图像包括通过不同成像方式生成的图像。在本实施例中,多模态图像包括彩色图像、红外图像、偏振图像,在其他实施例中还可以包括其它模态的图像。其中,彩色图像、红外图像以及偏振图像均包括待检测目标。
其中,获取到多模态图像的步骤还包括:对获得的初始图像进行配准处理,以得到相同视角和重叠区域的多模态图像。
其中,多模态图像中的彩色图像由彩色相机获取,红外图像由红外相机获取,偏振图像由偏振相机获取。
在本实施例中,为了获得成对的彩色图像、红外图像以及偏振图像,还提供一种三模态传感器图像采集装置,请进一步参阅图2,图2为本申请三模态传感器图像采集装置一实施方式的结构示意图。如图2所示,该采集装置使用自制的铝合金架固定装置4将RGB相机1、红外相机2和偏振相机3搭载在一起,以三台设备的拍摄轴线定位,保证其拍摄轴线在同一垂直平面内。其中固定装置4可以如图2所示,也可以是其它形状,在此不作限定。在本实施例中,还包括对彩色图像、红外图像和偏振图像进行配准操作,使该三模态传感器图像采集装置可以实时获取同一时间具有相同视角和重叠区域的三模态图像。
步骤S12:利用多模态目标检测网络对多模态图像进行特征提取以及特征融合,得到待检测目标的融合特征。
具体地,基于Faster R-CNN目标检测算法,设计多个通道的深度卷积特征提取神经网络融合多模态图像的特征,具体地,选取VGG-16作为骨干特征提取网络。在本实施例中,多模态目标检测网络包括Faster R-CNN目标检测算法,Faster R-CNN目标检测算法包括VGG-16特征提取网络以及矩阵串接函数。具体地,利用VGG-16对多模态图像进行特征提取,利用矩阵串接函数对多模态图像进行特征融合。
其中,特征提取网络VGG-16包括第一子卷积网络1、第二子卷积网络2、第三子卷积网络3、第四子卷积网络4以及第五子卷积网络5,具体请参阅图3,图3为本申请特征提取网络一实施方式的结构示意图。如图3所示,第二子卷积网络21连接第一子卷积网络,用于提取第一子卷积网络1输出的图像的特征;第三子卷积网络3连接第二子卷积网络2,用于提取第二子卷积网络2输出的图像的特征;第四子卷积网络4连接第三子卷积网络3,用于提取第三子卷积网络3输出的图像的特征;第五子卷积网络5连接第四子卷积网络4,用于提取第四子卷积网络4输出的图像的特征。其中,每个子卷积网路还包括串接层A、卷积层B、池化层C。具体地,经过第一子卷积网络处理后的图像为64维度的图像,经过第二子卷积网路处理后的图像为128维度的图像,经过第三子卷积网络处理后的图像为256维度的图像,经过第四子卷积网络处理后的图像为512维度的图像,其中,由于数据集中存在很多远距离拍摄分辨率较低的目标,像素信息较少,为了提高此类目标的检测,去除了特征提取网络的最后一个池化层,提升高层特征的分辨率,保留更多图片的细节,防止下采样过度造成小目标特征丢失。因此,经过第五子卷积网路处理后的图像的维度不变,还为512维度的图像。
在本实施例中,特征提取网络VGG-16还包括彩色、红外、偏振等三个子网络,每个彩色子网络、红外子网络以及偏振子网络均包括第一子卷积网络1、第二子卷积网络2、第三子卷积网络3、第四子卷积网络4以及第五子卷积网络5,在其它实施例中,可根据多模态图像的个数设计多个模态的子网络,在此不作限定。具体地,将配准好的彩色图像、偏振图像以及红外图像输入到多模态目标检测网络中提取不同模态图像的特征。具体请进一步参阅图3,图3为本申请三模态特征提取网络一实施方式的结构示意图。如图3所示:三模态目标检测网络包括三个子网络(彩色子网络、红外子网络以及偏振子网络),每个子网络包括五个子卷积网路conv1-conv5,在本实施例中,分别将步骤S11获得的彩色图像、偏振图像、红外图像输入至特征提取网络VGG-16中进行特征提取,具体地,图像经过第一子卷积网络进行压缩处理后,得到64层像素(维度)的图像,再经过第二子卷积网络处理得到128层像素(维度)的图像,再经过第三子卷积网络处理得到256层像素(维度)的图像,经过第四子卷积网络处理得到512层像素(维度)的图像,经过第五子卷积网络将图像进行特征提取处理得到512层像素(维度)的图像的特征。
其中,矩阵串接函数的公式如下:F=f(M1,M2,M3),其中,M1为彩色图像或者彩色图像特征矩阵,维度为(b,c,h,w);M2为红外图像或者红外图像特征矩阵,维度为(b,c,h,w);M3为偏振图像或者偏振图像特征矩阵,维度为(b,c,h,w)。其中,b为每次送入三模态目标检测网络训练的多模态图像对的对数,c为图像或者图像特征矩阵的通道数,h,w分别为图像或者图像特征矩阵的高度和宽度。经过矩阵串接函数得到F矩阵的维度为(b,3c,h,w)。在本实施例中,通过矩阵串接函数将三模态图像或者特征矩阵在通道数这个维度上进行了矩阵的串接,得到通道数为原来3倍的图像特征矩阵。然后,利用1×1的卷积核对该图像特征矩阵进行降维处理,得到堆叠特征图。
在本实施例中,通过在整个多模态目标检测算法的不同阶段通过矩阵串接函数和1×1的卷积核将彩色、偏振、红外模态的特征进行融合和通道数的降维处理,得到融合后的多模态特征图;然后将融合后的多模态特征图继续通过多模态目标检测算法的卷积神经网络进行高层语义特征的提取。
本申请根据融合的不同阶段具体对以下三种卷积操作进行具体描述。
在第一实施方式中,利用矩阵串接函数在多模态目标检测网络的第四个卷积块或者第五个卷积块之后对多模态图像进行特征融合,下面对在多模态目标检测网络的第五个卷积块之后对多模态图像进行特征融合的技术方案进行具体阐述。具体地,请参阅图4,图4为本申请多模态图像检测方法的第一实施方式的流程示意图。如图4所示,包括:
步骤S41:利用多模态目标检测网络的特征提取网络对多模态图像分别进行特征提取。
具体地,选取VGG-16作为骨干特征提取网络。利用VGG-16的三个子网络分别对多模态图像进行四次卷积处理,得到512维度的多模态图像(包括512维度的彩色图像、512维度红外图像和512维度偏振图像),然后进行特征融合。
步骤S42:将提取的多模态图像的特征进行融合,得到融合特征。
具体地,利用多模态目标检测网络的矩阵串接函数对多模态图像的特征进行特征融合,并进行降维处理,得到融合特征。
利用矩阵串接函数将512维度的多模态图像在通道数这个维度上进行堆叠得到1536维度的堆叠特征图。然后通过1×1的卷积核对1536维度的堆叠特征图进行降维处理得到512维度的融合特征。
在本实施例中,采用在VGG-16的后期对不同模态的特征图进行特征级的融合,能够有效地降低前期对不同模态图像进行像素级配准所带来的对齐误差产生的不利影响。
为了更清晰地说明上述技术方案,请进一步参阅图5,图5为本申请三模态目标检测网络第一实施方式的结构示意图。如图5所示:
具体地,分别将经过配准后的偏振图像、红外图像和彩色图像输入至偏振子网络、红外子网络和彩色子网络中,如图中虚线框所示,虚线框内为三个通道的VGG-16特征提取网络,通过三个通道的VGG-16特征提取网络分别提取偏振图像特征、红外图像特征和彩色图像特征。具体地,经过五次子卷积网络处理后得到512层像素的偏振图像特征图、红外图像特征图和彩色图像特征图。然后,利用矩阵串接函数将原来的512层像素的偏振图像特征图、红外图像特征图和彩色图像特征图在通道数上进行堆叠得到1536层像素的堆叠特征图。之后,再通过1×1的卷积核将融合的1536维度的堆叠特征图降低到512维的堆叠特征图。最后,再通过去除了池化层的第五层卷积层进行特征提取处理,得到512维度的融合特征。
之后,沿用Faster R-CNN网络中各个部分的损失函数,将融合后的融合特征的参数继续经过Faster R-CNN网络中的RPN层(区域生成网络)、ROI池化层(感兴趣区域池化网络)以及全连接层进行模型训练,将三个模态的信息逐层传递进行最后的分类和边界框回归处理,得到目标图像。
在第二实施方式中,利用矩阵串接函数在多模态目标检测网络的前期对多模态图像进行特征融合。下面对在多模态目标检测网络的第一个卷积块之后对多模态图像进行特征融合的技术方案进行具体阐述。具体地,请参阅图6,图6为本申请多模态图像检测方法的第二实施方式的流程示意图。如图6所示,包括:
步骤S61:利用多模态目标检测网络的特征提取网络对多模态图像分别进行特征提取。
具体地,基于Faster R-CNN目标检测算法,设计三个通道的深度卷积特征提取神经网络融合红外图像、偏振图像和彩色图像的特征,选取VGG-16作为骨干特征提取网络。其中,VGG-16包括五个子卷积网络。在本实施例中,通过第一个子卷积网络分别对多模态图像进行特征提取,得到的64维度的彩色图像特征图、红外图像特征图以及偏振图像特征图。
步骤S62:将提取的多模态图像的特征进行融合,得到多模态图像的融合图。
具体地,利用多模态目标检测网络的矩阵串接函数对多模态图像的特征进行特征融合,并进行降维处理,得到64维度的融合图。
具体地,利用矩阵串接函数将上述步骤S61得到的64维度的彩色图像特征图、红外图像特征图以及偏振图像特征图在通道数这个维度上进行串接,得到192维度的融合图,再通过1×1的卷积核将融合的192维度的堆叠特征图降低到64维度的融合图。
步骤S63:对堆叠特征图进行高层语义特征提取,得到融合特征。
具体地,利用特征提取网络VGG-16的第二、第三、第四以及第五子卷积网络依次对64维度的堆叠特征图进行高层语义特征提取,得到512维度的融合特征。
其中,请进一步参阅图7,图7为本申请三模态目标检测网络第二实施方式的结构示意图。如图7所示,将偏振图像、红外图像以及彩色图像分别输入至偏振子网络、红外子网络以及彩色子网络的第一子卷积网络进行处理得到64维度的图像。然后,利用矩阵串接函数将64维度的偏振图像特征图、红外图像特征图和彩色图像特征图在通道数上进行堆叠得到192维度的融合图。再通过1×1的卷积核将融合的192维度的融合图降低到64维的第一多模态特征图。之后,再将64维度的第一多模态特征图经过第二子卷积网络进行特征提取得到128维度的特征图,经过第三子卷积网络处理得到256维度的特征图,经过第四子卷积网络以及第五子卷积网络处理得到512维度的融合特征。最后,沿用Faster R-CNN网络中各个部分的损失函数,将融合后的融合特征的参数继续经过Faster R-CNN网络中的RPN层、ROI池化层以及全连接层进行模型训练,将三个模态的信息逐层传递进行最后的分类和边界框回归处理,得到目标图像。
在本实施例中,充分考虑到算法的实时性和工程落地的可行性,通过在特征提取网络VGG-16的不同子卷积网络将不同模态的图像进行特征融合,保证三模态目标检测算法检测性能的同时,极大地减少了模型的计算量。
在第三实施方式中,利用矩阵串接函数在多模态目标检测网络的第一子卷积网络之前对多模态图像进行特征融合,具体地,请参阅图8,图8为本申请多模态图像检测方法的第三实施方式的流程示意图。如图8所示,包括:
步骤S81:利用多模态目标检测网络的矩阵串接函数对多模态图像的特征进行融合。
具体地,将配准后的大小相同的三模态图像对(彩色、红外、偏振图像)在最后一个通道上通过矩阵串接函数f进行串接,将三个三通道(R、G、B)的图像变为9通道的串接图。其中,初始的多模态图像为32维度的3通道图像。
步骤S82:利用卷积核对融合后的多模态图像进行降维,得到堆叠特征图。
通过1×1的卷积核将串接图进行融合并将9通道降低到原来的3通道的堆叠特征图。然后将融合后的堆叠特征图送到VGG-16特征提取网络进行高层语义特征的提取。
步骤S83:对堆叠特征图进行高层语义特征提取,得到融合特征。
利用特征提取网络VGG-16的五子卷积网络依次对第二多模态特征图进行高层语义特征提取,得到512维度的融合特征。
请进一步参阅图9,图9为本申请三模态目标检测网络第三实施方式的结构示意图。如图9所示,利用矩阵串接函数将原来3维度的偏振图像特征图、红外图像特征图和彩色图像特征图在通道数上进行堆叠得到9维度的堆叠特征图。再通过1×1的子卷积网络将融合的9维度的堆叠特征图降低到3维度的第二多模态特征图。然后,将第二多模态特征图经过VGG-16的第一子卷积网络进行处理得到64维度的图像。然后,之后,再将64维度的第一多模态特征图经过第二子卷积网络进行特征提取得到128维度的特征图,经过第三子卷积网络处理得到256维度的特征图,经过第四子卷积网络以及第五子卷积网络处理得到512维度的融合特征。最后,沿用Faster R-CNN网络中各个部分的损失函数,将融合后的融合特征的参数继续经过Faster R-CNN网络中的RPN层、ROI池化层以及全连接层进行模型训练,将三个模态的信息逐层传递进行最后的分类和边界框回归处理,得到目标图像。
在本实施例中,同样,充分考虑到算法的实时性和工程落地的可行性,通过在特征提取网络VGG-16的之前就将不同的图像进行特征融合,保证三模态目标检测算法检测性能的同时,进一步地减少了模型的计算量。
步骤S13:基于融合特征对待检测目标进行识别。
具体地,利用Faster R-CNN网络中的RPN层(区域生成网络)、ROI(感兴趣区域)池化层以及全连接层进行模型训练,将三个模态的信息逐层传递进行最后的分类和边界框回归处理,得到目标图像,从而识别出待检测目标。
在本实施例的有益效果是:首先搭建三模态传感器图像采集装置,获得成对的彩色图像、红外图像、偏振图像数据,同时对采集到的彩色图像、红外图像和偏振图像进行同步后的配准操作,使得三模态图像采集***可以实时获取同一时间具有相同视角和重叠区域的目标图像对。然后设计三模态目标检测算法,实现不同模态图像特征的融合,将融合后的特征图继续经过Faster R-CNN后面的区域生成网络(RPN)层以及感兴趣区域(ROI)池化层,最终到达全连接层,将三个模态的信息逐层传递进行最后的分类和边界框回归,从而从图像中清晰地识别出待检测目标。同时,充分利用红外图像和偏振图像的不同特性(红外相机采用热成像原理,根据环境的温度差异来成像,不受光照条件影响以及带有偏振镜头的RGB偏振相机可以滤除由于偏振光在影像上形成的亮斑、耀斑,改善这类亮斑处的影像清晰度),从而在很多复杂环境下,红外相机和偏振相机对单目RGB相机具有很好的信息补种作用,通过多通道的深度卷积神经网络分别提取不同模态特征并进行特征的融合,能够有效提高复杂环境下对低辨识目标的检测和识别性能,解决复杂环境下对低辨识目标的漏检和误检问题,使得目标检测网络具有更好的鲁棒性。
需要说明的是,在本实施例中以三模态图像的目标检测方法为例进行说明,但不限于只对三种图像进行目标检测的方法。在本实施例中,还可以根据实际情况增加多模态图像的目标检测方法,具体地,当多模态图像为四种模态图像时,设计四模态图像采集装置,以及设计四通道的特征提取网络VGG-16(包括四个子网络)对多模态图像进行特征提取,以及Faster R-CNN网络后续的RPN层、ROI池化层以及全连接层的模型训练。
本申请还提供一种终端,请参阅图10,图10为本申请中终端一实施方式的结构示意图。
终端100包括相互耦接的处理器101和存储器102,处理器101用于执行存储器102存储的程序指令以实现上述任一方法实施例中的图像检测方法。该终端除包括上述处理器和存储器之外,还可根据需求包括触摸屏、打印组件、通信电路等,在此不做限定。
具体而言,处理器101用于控制其自身以及存储器102以实现上述任一图像检测方法实施例中的步骤。处理器101还可以称为CPU(Central Processing Unit,中央处理单元)。处理器101可能是一种集成电路芯片,具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器101可以由多个集成电路芯片共同实现。
本申请还提供一种计算机可读存储介质,请参阅图11,图11为本申请计算机可读存储介质一实施方式的结构示意图。
计算机可读存储介质110包括其上存储的计算机程序1101,计算机程序1101被上述处理器执行时实现上述任一方法实施例中的图像检测方法对应执行的步骤。
具体地,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质110中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质110中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (15)
1.一种图像检测方法,其特征在于,所述图像检测方法包括:
获取到包括待检测目标的多模态图像;
利用多模态目标检测网络对所述多模态图像进行特征提取以及特征融合,得到所述待检测目标的融合特征;
基于所述融合特征对所述待检测目标进行识别。
2.根据权利要求1所述的图像检测方法,其特征在于,所述利用多模态目标检测网络对所述多模态图像进行特征提取以及特征融合,得到所述待检测目标的融合特征的步骤,包括:
利用所述多模态目标检测网络的特征提取网络对所述多模态图像分别进行特征提取;
将提取的所述多模态图像的特征进行融合,得到所述融合特征。
3.根据权利要求2所述的图像检测方法,其特征在于,所述将提取的所述多模态图像的特征进行融合,得到所述融合特征的步骤,包括:
利用所述多模态目标检测网络的矩阵串接函数对所述多模态图像的特征进行特征融合,并进行降维处理,得到所述融合特征。
4.根据权利要求3所述的图像检测方法,其特征在于,所述利用多模态目标检测网络对所述多模态图像进行特征提取以及特征融合,得到所述待检测目标的融合特征的步骤,包括:
利用所述多模态目标检测网络的第一子卷积网络、第二子卷积网络、第三子卷积网络、第四子卷积网络以及第五卷积网络依次对所述多模态图像的特征进行特征提取,得到所述多模态图像的特征图;
利用所述多模态目标检测网络的矩阵串接函数对所述特征图进行特征融合,得到融合图;
利用所述多模态目标检测网络的卷积核对所述融合图进行降维特征提取,得到所述融合特征。
5.根据权利要求2所述的图像检测方法,其特征在于,所述将提取的所述多模态图像的特征进行融合,得到所述融合特征的步骤,包括:
将提取的所述多模态图像的特征进行融合,得到所述多模态图像的融合图;
对所述融合图进行高层语义特征提取,得到所述融合特征。
6.根据权利要求5所述的图像检测方法,其特征在于,所述将提取的所述多模态图像的特征进行融合,得到所述多模态图像的融合图的步骤,包括:
利用多模态目标检测网络的第一子卷积网络对所述多模态图像进行特征提取,得到所述多模态图像的特征图;
利用所述多模态目标检测网络的矩阵串接函数对所述特征图进行特征融合,得到所述融合图;
利用所述多模态目标检测网络卷积核对所述融合图进行降维特征提取,得到降维后的融合图;
所述对所述融合图进行高层语义特征提取,得到所述融合特征的步骤,包括:
利用多模态目标检测网络的所述第二子卷积网络、所述第三子卷积网络、所述第四子卷积网络以及所述第五子卷积网络依次对所述降维后的融合图进行特征提取,得到所述融合特征。
7.根据权利要求1所述的图像检测方法,其特征在于,所述利用多模态目标检测网络对所述多模态图像进行特征提取以及特征融合,得到所述待检测目标的融合特征的步骤,包括:
在所述特征提取网络之前利用所述多模态目标检测网络的矩阵串接函数对所述多模态图像的特征进行融合;
利用卷积核对融合后的所述多模态图像进行降维,得到堆叠特征图;
利用所述特征提取网络对所述堆叠特征图进行高层语义特征提取,得到所述融合特征。
8.根据权利要求1所述的图像检测方法,其特征在于,所述获取到包括待检测目标的多模态图像的步骤,包括:
对获得的初始图像进行配准,得到同一时间具有相同视角和重叠区域的所述多模态图像。
9.根据权利要求1所述的图像检测方法,其特征在于,所述基于所述融合特征对所述待检测目标进行识别的步骤,包括:
利用所述多模态目标检测网络的区域生成网络、感兴趣区域池化网络以及全连接层网络对所述融合特征进行分类和边界框回归处理,得到所述待检测目标。
10.根据权利要求1所述的图像检测方法,其特征在于,所述多模态目标检测网络还包括Faster R-CNN目标检测算法。
11.根据权利要求1所述的图像检测方法,其特征在于,所述多模态图像包括彩色图像、红外图像以及偏振图像;
所述彩色图像由彩色相机获取,所述红外图像由红外相机获取,所述偏振图像由偏振相机获取;
其中,所述彩色相机、所述红外相机与所述偏振相机由固定装置固定在同一垂直平面内,以使所述彩色相机、所述红外相机以及所述偏振相机的拍摄轴线在同一垂直平面内。
12.根据权利要求1所述的图像检测方法,其特征在于,所述利用多模态目标检测网络对所述多模态图像进行特征提取以及特征融合,得到所述待检测目标的融合特征的步骤之前,还包括:
获取多模态图像数据集、初始模型以及目标图像;
利用所述初始模型分别对所述多模态图像数据集中的待检测目标进行识别,得到待检测目标图像;
利用所述目标图像和所述待检测目标图像对所述初始模型进行训练,并将训练完成后的模型确定为所述多模态目标检测网络。
13.根据权利要求1所述的图像检测方法,其特征在于,所述利用多模态目标检测网络对所述多模态图像进行特征提取以及特征融合,得到所述待检测目标的融合特征的步骤,包括:
利用所述多模态目标检测网络的矩阵串接函数对所述多模态图像的通道进行矩阵串接。
14.一种终端,其特征在于,所述终端包括相互耦接的处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行存储器存储的程序指令以实现上述权利要求1~13任一项所述的图像检测方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,用于实现权利要求1~13任一项所述的图像检测方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875131.4A CN113673584A (zh) | 2021-07-30 | 2021-07-30 | 一种图像检测方法及相关装置 |
EP21951663.0A EP4330933A1 (en) | 2021-07-30 | 2021-12-06 | Systems and methods for object detection |
PCT/CN2021/135789 WO2023005091A1 (en) | 2021-07-30 | 2021-12-06 | Systems and methods for object detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875131.4A CN113673584A (zh) | 2021-07-30 | 2021-07-30 | 一种图像检测方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673584A true CN113673584A (zh) | 2021-11-19 |
Family
ID=78540910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875131.4A Pending CN113673584A (zh) | 2021-07-30 | 2021-07-30 | 一种图像检测方法及相关装置 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4330933A1 (zh) |
CN (1) | CN113673584A (zh) |
WO (1) | WO2023005091A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023005091A1 (en) * | 2021-07-30 | 2023-02-02 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for object detection |
CN116630680A (zh) * | 2023-04-06 | 2023-08-22 | 南方医科大学南方医院 | 一种x线摄影联合超声的双模态影像分类方法及*** |
CN117132519A (zh) * | 2023-10-23 | 2023-11-28 | 江苏华鲲振宇智能科技有限责任公司 | 基于vpx总线多传感器图像融合处理模块 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115578370B (zh) * | 2022-10-28 | 2023-05-09 | 深圳市铱硙医疗科技有限公司 | 一种基于脑影像的代谢区域异常检测方法及装置 |
CN116432435B (zh) * | 2023-03-29 | 2024-02-09 | 浙江大学 | 一种基于显微视觉的微力估计方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382683A (zh) * | 2020-03-02 | 2020-07-07 | 东南大学 | 一种基于彩色相机与红外热成像仪特征融合的目标检测方法 |
CN111738314A (zh) * | 2020-06-09 | 2020-10-02 | 南通大学 | 基于浅层融合的多模态图像能见度检测模型的深度学习方法 |
CN112862860A (zh) * | 2021-02-07 | 2021-05-28 | 天津大学 | 一种用于多模态目标跟踪的对象感知图像融合方法 |
CN112949507A (zh) * | 2021-03-08 | 2021-06-11 | 平安科技(深圳)有限公司 | 人脸检测方法、装置、计算机设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633282B2 (en) * | 2015-07-30 | 2017-04-25 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
CN111242959B (zh) * | 2020-01-15 | 2023-06-16 | 中国科学院苏州生物医学工程技术研究所 | 基于卷积神经网络的多模态医学图像的目标区域提取方法 |
CN113673584A (zh) * | 2021-07-30 | 2021-11-19 | 浙江大华技术股份有限公司 | 一种图像检测方法及相关装置 |
-
2021
- 2021-07-30 CN CN202110875131.4A patent/CN113673584A/zh active Pending
- 2021-12-06 EP EP21951663.0A patent/EP4330933A1/en active Pending
- 2021-12-06 WO PCT/CN2021/135789 patent/WO2023005091A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382683A (zh) * | 2020-03-02 | 2020-07-07 | 东南大学 | 一种基于彩色相机与红外热成像仪特征融合的目标检测方法 |
CN111738314A (zh) * | 2020-06-09 | 2020-10-02 | 南通大学 | 基于浅层融合的多模态图像能见度检测模型的深度学习方法 |
CN112862860A (zh) * | 2021-02-07 | 2021-05-28 | 天津大学 | 一种用于多模态目标跟踪的对象感知图像融合方法 |
CN112949507A (zh) * | 2021-03-08 | 2021-06-11 | 平安科技(深圳)有限公司 | 人脸检测方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王凯;潘炼;: "基于改进Faster R-CNN图像小目标检测", 电视技术, no. 20, 25 October 2019 (2019-10-25) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023005091A1 (en) * | 2021-07-30 | 2023-02-02 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for object detection |
CN116630680A (zh) * | 2023-04-06 | 2023-08-22 | 南方医科大学南方医院 | 一种x线摄影联合超声的双模态影像分类方法及*** |
CN116630680B (zh) * | 2023-04-06 | 2024-02-06 | 南方医科大学南方医院 | 一种x线摄影联合超声的双模态影像分类方法及*** |
CN117132519A (zh) * | 2023-10-23 | 2023-11-28 | 江苏华鲲振宇智能科技有限责任公司 | 基于vpx总线多传感器图像融合处理模块 |
CN117132519B (zh) * | 2023-10-23 | 2024-03-12 | 江苏华鲲振宇智能科技有限责任公司 | 基于vpx总线多传感器图像融合处理模块 |
Also Published As
Publication number | Publication date |
---|---|
EP4330933A1 (en) | 2024-03-06 |
WO2023005091A1 (en) | 2023-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113673584A (zh) | 一种图像检测方法及相关装置 | |
CN106446873B (zh) | 人脸检测方法及装置 | |
US10872262B2 (en) | Information processing apparatus and information processing method for detecting position of object | |
EP3499414B1 (en) | Lightweight 3d vision camera with intelligent segmentation engine for machine vision and auto identification | |
US10013765B2 (en) | Method and system for image registrations | |
WO2020206850A1 (zh) | 基于高维图像的图像标注方法和装置 | |
CN116018616A (zh) | 保持帧中的目标对象的固定大小 | |
WO2018145470A1 (zh) | 一种图像检测方法和装置 | |
CN111462128B (zh) | 一种基于多模态光谱图像的像素级图像分割***及方法 | |
CN111222395A (zh) | 目标检测方法、装置与电子设备 | |
US10922531B2 (en) | Face recognition method | |
TWI726278B (zh) | 行車偵測方法、車輛及行車處理裝置 | |
WO2022082999A1 (zh) | 一种物体识别方法、装置、终端设备及存储介质 | |
CN111837158A (zh) | 图像处理方法、装置、拍摄装置和可移动平台 | |
CN111539311B (zh) | 基于ir和rgb双摄的活体判别方法、装置及*** | |
CN113052066B (zh) | 三维目标检测中基于多视图和图像分割的多模态融合方法 | |
CN112613568B (zh) | 基于可见光及红外多光谱图像序列的目标识别方法和装置 | |
WO2024077781A1 (zh) | 基于卷积神经网络模型的图像识别方法、装置及终端设备 | |
Damavandi et al. | Speed limit traffic sign detection and recognition | |
CN111325107A (zh) | 检测模型训练方法、装置、电子设备和可读存储介质 | |
CN115661522A (zh) | 一种基于视觉语义矢量的车辆导引方法、***、设备和介质 | |
CN111753766A (zh) | 一种图像处理方法、装置、设备及介质 | |
Li et al. | [Retracted] Image Processing and Recognition Algorithm Design in Intelligent Imaging Device System | |
CN112950641B (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
CN111898671B (zh) | 激光成像仪和彩色相机编码融合目标识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |