CN114429524B - 单目视觉下的三维目标检测模型的构建方法及检测方法 - Google Patents

单目视觉下的三维目标检测模型的构建方法及检测方法 Download PDF

Info

Publication number
CN114429524B
CN114429524B CN202210357382.8A CN202210357382A CN114429524B CN 114429524 B CN114429524 B CN 114429524B CN 202210357382 A CN202210357382 A CN 202210357382A CN 114429524 B CN114429524 B CN 114429524B
Authority
CN
China
Prior art keywords
module
detection model
target detection
feature extraction
dimensional target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210357382.8A
Other languages
English (en)
Other versions
CN114429524A (zh
Inventor
陈振武
周勇
张枭勇
许建荣
张炳振
***
刘怡初
赵竟雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Shenzhen Urban Transport Planning Center Co Ltd
Original Assignee
Sun Yat Sen University
Shenzhen Urban Transport Planning Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, Shenzhen Urban Transport Planning Center Co Ltd filed Critical Sun Yat Sen University
Priority to CN202210357382.8A priority Critical patent/CN114429524B/zh
Publication of CN114429524A publication Critical patent/CN114429524A/zh
Application granted granted Critical
Publication of CN114429524B publication Critical patent/CN114429524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种单目视觉下的三维目标检测模型的构建方法及检测方法,所述方法包括:获取带标注的训练图像集;将训练图像集作为训练数据,训练获得基于CenterNet网络的三维目标检测模型,其中,三维目标检测模型的特征提取网络包括多个特征提取模块,至少一个特征提取模块包括池化模块、注意模块以及第一融合模块,池化模块包括并列的全局最大池化层、全局平均池化层和随机池化层,注意模块包括分别与全局最大池化层、全局平均池化层和随机池化层的输出侧连接的三个子注意模块,子注意模块包括激活函数层及批处理归一化层,第一融合模块将三个子注意模块的输出融合。本发明可以简化三维目标检测网络结构,降低三维目标检测模型的训练成本。

Description

单目视觉下的三维目标检测模型的构建方法及检测方法
技术领域
本发明涉及深度学习和图像处理技术领域,具体涉及一种单目视觉下的三维目标检测模型的构建方法及检测方法。
背景技术
随着城市化进程的快速发展,城市人口越来越多,城市交通需求量随之增长,城市道路中的各种车辆急剧增加。为了更好地管理城市交通车辆,大场景视频监控***变得必不可少。智能视频监控***需要准确地从监控视频中完成行人、车辆等三维目标的检测,从而有效分析道路各种车辆行人运行情况。
现有单目图像的目标检测技术中,常用的策略大多数基于多阶段目标检测方法。首先训练2D目标检测器,根据标注数据中的标注文件裁剪原始图像获得目标图像,缩放后输入3D目标检测器,预测目标的3D尺寸信息、偏转角度信息和置信度,训练3D目标检测器;通过训练完成的2D目标检测器检和3D目标检测器,预测2D框内目标的3D尺寸信息和偏转角度信息。该方法通过深度学习和几何学的方法,利用单目RGB图像训练3D目标检测器,能够检测给定类别目标的3D信息和偏转角度,进而依赖几何学原理,构建物体的3D框。这种多阶段目标检测方法基于学习到的大量2D建议,附加了一个额外的网络分支来学习3D信息或生成伪点云并将其输入点云检测网络,然而,这种多阶段目标检测策略导致了目标检测中网络结构复杂以及成本较大的问题。
发明内容
本发明解决的问题是现有的三维目标检测方法采用多阶段目标检测策略后导致网络结构复杂和成本较大。
本发明提出一种单目视觉下的三维目标检测模型的构建方法,包括:
获取带标注的训练图像集;
将所述训练图像集作为训练数据,训练获得基于CenterNet网络的三维目标检测模型,其中,所述三维目标检测模型的特征提取网络包括多个特征提取模块,至少一个所述特征提取模块包括池化模块、注意模块以及第一融合模块,所述池化模块包括并列的全局最大池化层、全局平均池化层和随机池化层,所述注意模块包括分别与所述全局最大池化层、所述全局平均池化层和所述随机池化层的输出侧连接的三个子注意模块,所述子注意模块包括激活函数层及批处理归一化层,所述第一融合模块将三个所述子注意模块的输出融合。
可选地,所述特征提取网络还包括多个连续的反卷积模块,多个所述反卷积模块设置在所述特征提取模块的输出侧。
可选地,所述三维目标检测模型还包括设置在所述反卷积模块的输出侧的采样输出模块,所述采样输出模块包括热力图输出分支、目标三维中心输出分支、三维尺寸输出分支和方位角输出分支。
可选地,所述三维目标检测模型还包括设置在所述采样输出模块的输出侧的参数回归模块,所述参数回归模块用于合并所述采样输出模块包括的四个输出分支。
可选地,所述三维目标检测模型的特征提取网络为残差网络,所述特征提取模块还包括设置于所述第一融合模块输出侧的激活函数模块和第二融合模块,所述第一融合模块输出的特征经所述激活函数模块处理后,与输入所述特征提取模块的初始特征在所述第二融合模块融合,融合获得的特征图作为所述特征提取模块的输出特征图。
可选地,所述三维目标检测模型采用尺度不变IOU损失函数进行训练,损失函数表达式如下:
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE006
指损失函数,
Figure DEST_PATH_IMAGE008
指热力图损失,
Figure DEST_PATH_IMAGE010
指交并比损失,
Figure DEST_PATH_IMAGE012
指交并比损失权重,
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
相交的部分,
Figure DEST_PATH_IMAGE020
Figure 246695DEST_PATH_IMAGE016
Figure 338279DEST_PATH_IMAGE018
相并的部分。
可选地,所述训练图像集包括随机水平翻转处理后的图像。
可选地,所述特征提取网络包括五层特征提取模块,所述池化模块、所述注意模块以及所述第一融合模块设置于第四层特征提取模块。
本发明还提出一种单目视觉下的三维目标检测方法,包括:
获取待检测图像;
将所述待检测图像输入至上所述的单目视觉下的三维目标检测模型的构建方法所构建的三维目标检测模型,获得所述三维目标检测模型输出的三维目标。
可选地,所述待检测图像为监控视频图像。
本发明采用基于CenterNet算法框架的三维目标检测模型,预测目标的三维尺寸和偏转角度等信息,可实现不依赖多阶段网络的先验2D框和点云数据就可以预测目标的3D尺寸和偏转角度,计算出目标的3D坐标在图像中的投影,进而构建目标的3D框,进而实现在单目监控图像上通过深度学习的方法预测目标3D尺寸信息和偏转角度,而且,采用CenterNet的端到端结构,可有效提升算法精度,缩短模型训练时间,降低训练成本。此外,本发明通过在骨干网络中加入注意力机制,可对通道的重要性进行区分,并给予更为重要的通道特征更高的权重,使网络更关注特征较大、对正确输出贡献更大的通道,抑制那些对正确输出没有帮助的通道,从而在轻量化网络结构的同时,提高网络的检测性能。
附图说明
图1为本发明实施例单目视觉下的三维目标检测模型的构建方法流程一示意图;
图2为本发明实施例单目视觉下的三维目标检测模型的构建方法中三维目标检测模型整体结构的示意图;
图3为本发明实施例单目视觉下的三维目标检测模型的构建方法中三维目标检测模型注意力机制的结构示意图;
图4为本发明实施例单目视觉下的三维目标检测模型的构建方法三维目标检测模型中采样输出模块结构的示意图;
图5为本发明实施例单目视觉下的三维目标检测模型的构建方法三维目标检测模型注意力机制中池化和降维操作示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
如图1,在本发明一实施例中,所述单目视觉下的三维目标检测模型的构建方法包括:
获取带标注的训练图像集;将所述训练图像集作为训练数据,训练获得基于CenterNet网络的三维目标检测模型。其中,所述三维目标检测模型的特征提取网络包括多个特征提取模块,至少一个所述特征提取模块包括池化模块、注意模块以及第一融合模块,所述池化模块包括并列的全局最大池化层、全局平均池化层和随机池化层,所述注意模块包括分别与所述全局最大池化层、所述全局平均池化层和所述随机池化层的输出侧连接的三个子注意模块,所述子注意模块包括激活函数层及批处理归一化层,所述第一融合模块将三个所述子注意模块的输出融合。
其中,本发明实施例提出的三维目标检测模型以CenterNet算法为框架,CenterNet网络是一种端到端的并且不使用锚机制(anchor-free)目标检测器,比多阶段类检测器有更快的检测速度、更简单的网络结构和更低的训练成本。本发明实施例中三维目标检测模型的骨干网络可采用Resnet18作为特征提取网络。
如图2,在基于CenterNet网络的三维目标检测模型的骨干网络中加入池化模块、注意模块以及第一融合模块,其中,池化模块的全局最大池化层使用输入特征图的最大值作为特征,全局平均池化层使用输入特征图的平均值作为特征,随机池化层根据输入特征图中元素的概率值大小随机选择特征,该三个池化层提取特征时的侧重点不同,在后续第一融合模块将该三个池化层提取的特征进行融合,可得到更丰富的特征信息。注意模块的设置是为了获得不同通道之间的权重,以对网络卷积后的通道进行对比,通过比较不同通道的权重,以识别特征更为重要的通道,权重越大,相应通道的特征越重要,对正确输出贡献越大,权重越小,相应通道的特征重要性越低,对正确输出的贡献越小,通过设置这样的通道间注意机制,使网络关注对正确输出贡献更大的通道特征,抑制那些对正确输出没有帮助的通道特征。最大权重设置为1,最小权重设置为0,注意模块包含三个子注意模块,每个子注意模块均包括激活函数层及批处理归一化层。注意模块中可采用Sigmoid函数作为激活函数,Sigmoid激活函数是一个饱和非线性激活函数,对于任意大或者任意小的特征,激活函数可以映射到0-1这个范围;如图5,因特征图经池化处理后维度会提升,而注意模块中的批处理归一化层通过对经池化处理、激活函数处理后的特征图进行降维处理,使该特征提取模块输出的特征图维度等于输入该特征提取模块时的特征图维度,可以解决训练过程中中间层数据分布不断变化,导致后续层输入特征变化,学习困难的问题。
骨干网络中特征提取网络中有包含池化模块、注意模块以及第一融合模块的特征提取层,也有不包含池化模块、注意模块以及第一融合模块的特征提取层。例如,如图2,示出的是在第四特征提取层设置池化模块、注意模块以及第一融合模块,其他特征提取层不设置该三个模块。对于不包含池化模块、注意模块以及第一融合模块的特征提取层,可设置为残差块。
本发明采用基于CenterNet算法框架的三维目标检测模型,预测目标的三维尺寸和偏转角度等信息,可实现不依赖多阶段网络的先验2D框和点云数据就可以预测目标的3D尺寸和偏转角度,计算出目标的3D坐标在图像中的投影,进而构建目标的3D框,进而实现在单目监控图像上通过深度学习的方法预测目标3D尺寸信息和偏转角度,而且,采用CenterNet的端到端结构,可有效提升算法精度,缩短模型训练时间,降低训练成本。此外,本发明通过在骨干网络中加入注意力机制,可对通道的重要性进行区分,并给予更为重要的通道特征更高的权重,使网络更关注特征较大、对正确输出贡献更大的通道,抑制那些对正确输出没有帮助的通道,从而在轻量化网络结构的同时,提高网络的检测性能。
进一步地,训练图像集所带标注包括:目标类别、三维尺寸信息和偏转角度信息。其中,三维尺寸信息指长宽高信息,偏转角度信息指航向角。
可选地,所述训练图像集包括随机水平翻转处理后的图像。
训练数据集采用KITTI数据集,对KITTI数据集图像进行随机水平翻转,将随机水平翻转后的图像也作为训练图像,一方面,可使训练获得的三维目标检测模型能实时准确检测左行和右行车辆,提高模型检测的泛化性,使检测结果更加全面,另一方面,可使训练获得的三维目标检测模型对更复杂的环境检测结果更加可靠和鲁棒。
可选地,所述特征提取网络还包括多个连续的反卷积模块,多个所述反卷积模块设置在所述特征提取模块的输出侧。具体地,多个反卷积模块设置在所有特征提取模块的输出侧,例如,特征提取网络总共有五个特征提取模块,五个特征提取模块相邻连接,多个反卷积模块设置在第五个特征提取模块之后。
反卷积模块用于对特征提取模块输出的特征图进行上采样处理。如图4给出的示例中,特征提取网络包括三个连续的反卷积层,其中第一反卷积层,用于对特征提取模块输出的32倍下采样特征图进行处理,输出16倍下采样特征图,第二反卷积层,用于对16倍下采样特征图进行处理,输出8倍下采样特征图,第三反卷积层,用于对8倍下采样特征图进行处理,输出4倍下采样特征图。
可选地,如图2,所述三维目标检测模型还包括设置在所述反卷积模块的输出侧的采样输出模块,所述采样输出模块包括热力图输出分支、目标三维中心输出分支、三维尺寸输出分支和方位角输出分支。
其中,热力图用于预测目标关键点,热力图表示各像素位置检测到目标关键点的概率。
以一示例说明上述输出分支的尺寸信息,将预处理后的目标图像缩放输入三维目标检测模型的特征提取网络(ResNet18),图片经过ResNet18提取特征得到特征1-尺寸为1x2048x16x16,feature1经过反卷积模块Deconv,三次上采样得到特征2-尺寸为1x64x128x128,将特征2分别送入各个输出分支进行预测,预测热力图尺寸为1x80x128x128(表示80个类别),预测长宽尺寸为1x2x128x128(2表示长和宽),预测中心点偏移量尺寸为1x2x128x128(2表示x, y) ,预测方位角输出1x1x128x128。
通过设置并列的多个输出分支,分别输出热力图、目标三维中心、三维尺寸及方位角等三维信息,供后续模块整合生成三维目标检测结果。
可选地,如图4,所述三维目标检测模型还包括设置在所述采样输出模块的输出侧的参数回归模块,所述参数回归模块用于合并所述采样输出模块包括的四个输出分支,生成检测结果。具体可采用加权的方式合并采样输出模块的四个输出分支,实现候选关键点在不同分辨率特征图上的特征读取、对齐与融合,其中,四个输出分支的加权权重通过训练获得。
可选地,如图4,参数回归模块还包括1x1卷积层。合并采样输出模块的四个输出分支输出各自的特征后进行融合,具体可通过特征向量拼接的方式融合获得融合特征。在获得融合特征后,将融合特征输入到1x1卷积层,通过1x1卷积层从融合特征中得到3D回归框编码向量
Figure DEST_PATH_IMAGE022
(K表示检测目标数量,R表示回归参数数量)。其中,在1x1卷积层,基于融合特征通过回归计算得到3D回归框编码向量,每一个检测目标的回归参数可表示为一个8维向量
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
其中:
Figure DEST_PATH_IMAGE028
表示深度值z的残差;
Figure DEST_PATH_IMAGE030
表示关键点下采样量化过程的偏差;
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE036
表示目标大小维度的残差;
Figure DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE040
表示方位角的正余弦值。
3D回归框编码向量的解码过程:
尺寸/大小:
Figure DEST_PATH_IMAGE042
位置:
Figure DEST_PATH_IMAGE044
方位角:
Figure DEST_PATH_IMAGE046
其中,
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
Figure DEST_PATH_IMAGE052
分别为目标长宽高的均值,由数据集标注统计而来,
Figure DEST_PATH_IMAGE054
为常数,为自然对数底数;
Figure DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE058
分别为目标深度值均值和方差,由数据集标注而来,
Figure DEST_PATH_IMAGE060
为目标深度;
K为相机内参,
Figure DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE064
为关键点的像素坐标。
可见,解码获得的3D回归框编码向量包含长
Figure DEST_PATH_IMAGE066
、宽
Figure DEST_PATH_IMAGE068
、高
Figure DEST_PATH_IMAGE070
、位置坐标
Figure DEST_PATH_IMAGE072
、位置坐标
Figure DEST_PATH_IMAGE074
、位置坐标
Figure DEST_PATH_IMAGE076
以及方位角
Figure DEST_PATH_IMAGE078
,在获得3D回归框编码向量后,将其输出至后处理模块,再由后处理模块基于3D回归框编码向量进行可视化处理后,以可视化形式输出最终的三维目标检测结果。
可选地,所述三维目标检测模型的特征提取网络为残差网络,如图2,所述特征提取模块还包括设置于所述第一融合模块输出侧的激活函数模块和第二融合模块,所述第一融合模块输出的特征经所述激活函数模块处理后,与输入所述特征提取模块的初始特征在所述第二融合模块融合,融合获得的特征图作为所述特征提取模块的输出特征图。
其中,三维目标检测模型的提取网络主要用残差网络,具体可采用Resnet18。
例如,如图2,在Conv4设置有池化模块、注意模块以及第一融合模块,则将Conv4的第一融合模块输出的特征经所述激活函数模块处理后,与输入Conv4的初始特征在第二融合模块融合,得到的特征图作为Conv4的输出特征图。
为便于描述,将第一融合模块输出的特征经所述激活函数模块处理得到的特征称为初级融合特征,具体地,对于第二融合模块,如图3,将初始特征与初级融合特征串联拼接后,输出到Softmax,由Softmax回归映射后,得到概率分布结果,再将得到的概率分布结果分别与初始特征和初级融合特征相乘后融合,通过将经注意力机制处理后的初级融合特征与初始特征融合,在保留通道间注意力机制的作用的同时,保留初始输入的原始特征,兼顾高级特征和相对低级的特征,融合得到的特征图蕴含更丰富的信息,使网络的目标检测效果更佳。
可选地,所述三维目标检测模型采用尺度不变IOU损失函数进行训练,损失函数表达式如下:
Figure 375112DEST_PATH_IMAGE002
Figure 727596DEST_PATH_IMAGE004
其中,
Figure 76669DEST_PATH_IMAGE006
指损失函数,
Figure 514603DEST_PATH_IMAGE008
指热力图损失,
Figure 935220DEST_PATH_IMAGE010
指交并比损失,
Figure 611052DEST_PATH_IMAGE012
指交并比损失权重,
Figure 724502DEST_PATH_IMAGE014
Figure 649733DEST_PATH_IMAGE016
Figure 405199DEST_PATH_IMAGE018
相交的部分,
Figure 466696DEST_PATH_IMAGE020
Figure 751047DEST_PATH_IMAGE016
Figure 304519DEST_PATH_IMAGE018
相并的部分。
交并比损失权重可按照经验设定,可选地,
Figure DEST_PATH_IMAGE080
本发明实施例采用IOU损失函数,其弥补了L1损失函数尺度不变性的不足,并将其与最终评估标准IOU相结合,解决了损失函数与最终评估标准不一致的问题。
可选地,所述特征提取网络包括五层特征提取模块,所述池化模块、所述注意模块以及所述第一融合模块设置于第四层特征提取模块。
特征提取网络的前几层通常提取的是低阶的空间特征,后几层提取的是高阶的语义特征,因而将池化模块、注意模块以及第一融合模块等设置于深层的特征提取模块中,更有利于提升特征提取效果。
本发明实施例还提出一种单目视觉下的三维目标检测方法,包括:
获取待检测图像;将所述待检测图像输入至如上所述的单目视觉下的三维目标检测模型的构建方法所构建的三维目标检测模型,获得所述三维目标检测模型输出的三维目标。
其中三维目标检测模型的相关内容已在上文详述,此处不赘述。
待检测图像为单目图像,即单个摄像头拍摄的图像。可选地,所述待检测图像为监控视频图像。进而实现在监控***中的单目视觉下的三维目标检测。
本发明采用基于CenterNet算法框架的三维目标检测模型,预测目标的三维尺寸和偏转角度等信息,可实现不依赖多阶段网络的先验2D框和点云数据就可以预测目标的3D尺寸和偏转角度,计算出目标的3D坐标在图像中的投影,进而构建目标的3D框,进而实现在单目监控图像上通过深度学习的方法预测目标3D尺寸信息和偏转角度,而且,采用CenterNet的端到端结构,可有效提升算法精度,缩短模型训练时间,降低训练成本。此外,本发明通过在骨干网络中加入注意力机制,可对通道的重要性进行区分,并给予更为重要的通道特征更高的权重,使网络更关注特征较大、对正确输出贡献更大的通道,抑制那些对正确输出没有帮助的通道,从而在轻量化网络结构的同时,提高网络的检测性能。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (9)

1.一种单目视觉下的三维目标检测模型的构建方法,其特征在于,包括:
获取带标注的训练图像集;
将所述训练图像集作为训练数据,训练获得基于CenterNet网络的三维目标检测模型,其中,所述三维目标检测模型的特征提取网络包括多个特征提取模块,至少一个所述特征提取模块包括池化模块、注意模块以及第一融合模块,所述池化模块包括并列的全局最大池化层、全局平均池化层和随机池化层,所述注意模块包括分别与所述全局最大池化层、所述全局平均池化层和所述随机池化层的输出侧连接的三个子注意模块,所述子注意模块包括激活函数层及批处理归一化层,所述第一融合模块将三个所述子注意模块的输出融合;
所述三维目标检测模型的特征提取网络为残差网络,所述特征提取模块还包括设置于所述第一融合模块输出侧的激活函数模块和第二融合模块,所述第一融合模块输出的特征经所述激活函数模块处理后,与输入所述特征提取模块的初始特征在所述第二融合模块融合,融合获得的特征图作为所述特征提取模块的输出特征图。
2.如权利要求1所述的单目视觉下的三维目标检测模型的构建方法,其特征在于,所述特征提取网络还包括多个连续的反卷积模块,多个所述反卷积模块设置在所述特征提取模块的输出侧。
3.如权利要求2所述的单目视觉下的三维目标检测模型的构建方法,其特征在于,所述三维目标检测模型还包括设置在所述反卷积模块的输出侧的采样输出模块,所述采样输出模块包括热力图输出分支、目标三维中心输出分支、三维尺寸输出分支和方位角输出分支。
4.如权利要求3所述的单目视觉下的三维目标检测模型的构建方法,其特征在于,所述三维目标检测模型还包括设置在所述采样输出模块的输出侧的参数回归模块,所述参数回归模块用于合并所述采样输出模块包括的四个输出分支。
5.如权利要求1所述的单目视觉下的三维目标检测模型的构建方法,其特征在于,所述三维目标检测模型采用尺度不变IOU损失函数进行训练,损失函数表达式如下:
Ldet=Lk+γLIOU
Figure FDA0003682761450000021
其中,Ldet指损失函数,Lk指热力图损失,LIOU指交并比损失,γ指交并比损失权重,Intersrction(box1,box2)指box1与box2相交的部分,Union(box1,box2)指box1与box2相并的部分。
6.如权利要求1所述的单目视觉下的三维目标检测模型的构建方法,其特征在于,所述训练图像集包括随机水平翻转处理后的图像。
7.如权利要求1所述的单目视觉下的三维目标检测模型的构建方法,其特征在于,所述特征提取网络包括五层特征提取模块,所述池化模块、所述注意模块以及所述第一融合模块设置于第四层特征提取模块。
8.一种单目视觉下的三维目标检测方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像输入至如权利要求1至7任一项所述的单目视觉下的三维目标检测模型的构建方法所构建的三维目标检测模型,获得所述三维目标检测模型输出的三维目标。
9.如权利要求8所述的单目视觉下的三维目标检测方法,其特征在于,所述待检测图像为监控视频图像。
CN202210357382.8A 2022-04-07 2022-04-07 单目视觉下的三维目标检测模型的构建方法及检测方法 Active CN114429524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210357382.8A CN114429524B (zh) 2022-04-07 2022-04-07 单目视觉下的三维目标检测模型的构建方法及检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210357382.8A CN114429524B (zh) 2022-04-07 2022-04-07 单目视觉下的三维目标检测模型的构建方法及检测方法

Publications (2)

Publication Number Publication Date
CN114429524A CN114429524A (zh) 2022-05-03
CN114429524B true CN114429524B (zh) 2022-09-23

Family

ID=81314246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210357382.8A Active CN114429524B (zh) 2022-04-07 2022-04-07 单目视觉下的三维目标检测模型的构建方法及检测方法

Country Status (1)

Country Link
CN (1) CN114429524B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN114120019A (zh) * 2021-11-08 2022-03-01 贵州大学 一种轻量化的目标检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273872B (zh) * 2017-07-13 2020-05-05 北京大学深圳研究生院 用于图像或视频中行人重识别的深度判别网络模型方法
CN113159198A (zh) * 2021-04-27 2021-07-23 上海芯物科技有限公司 一种目标检测方法、装置、设备及存储介质
CN113239784B (zh) * 2021-05-11 2022-09-30 广西科学院 一种基于空间序列特征学习的行人重识别***及方法
CN113449671A (zh) * 2021-07-08 2021-09-28 北京科技大学 一种多尺度多特征融合的行人重识别方法及装置
CN113762204B (zh) * 2021-09-17 2023-05-12 中国人民解放军国防科技大学 多方向遥感目标检测方法、装置及计算机设备
CN113627401A (zh) * 2021-10-12 2021-11-09 四川大学 融合双注意力机制的特征金字塔网络的肌电手势识别方法
CN114092519A (zh) * 2021-11-23 2022-02-25 江西理工大学 一种使用卷积神经网络和双向匹配算法的视频多目标跟踪方法
CN114155481A (zh) * 2021-11-30 2022-03-08 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种基于语义分割的非结构化田间道路场景识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN114120019A (zh) * 2021-11-08 2022-03-01 贵州大学 一种轻量化的目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Stochastic Region Pooling: Make Attention More Expressive;Mingnan Luo等;《ARXIV》;20190422;第4321-4324页 *
基于多层特征融合的单目深度估计模型;叶绿等;《浙江科技学院学报》;20200731(第04期);第258-262页 *

Also Published As

Publication number Publication date
CN114429524A (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN111126202B (zh) 基于空洞特征金字塔网络的光学遥感图像目标检测方法
CN112396607B (zh) 一种可变形卷积融合增强的街景图像语义分割方法
CN111612008B (zh) 基于卷积网络的图像分割方法
CN108846328B (zh) 基于几何正则化约束的车道检测方法
CN107609602A (zh) 一种基于卷积神经网络的驾驶场景分类方法
CN111612807A (zh) 一种基于尺度和边缘信息的小目标图像分割方法
CN111738111A (zh) 基于多分支级联空洞空间金字塔的高分辨遥感图像的道路提取方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN113128348A (zh) 一种融合语义信息的激光雷达目标检测方法及***
Zhou et al. Embedded control gate fusion and attention residual learning for RGB–thermal urban scene parsing
CN114359130A (zh) 一种基于无人机影像的道路裂缝检测方法
CN115035361A (zh) 基于注意力机制和特征交叉融合的目标检测方法及***
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN113379771A (zh) 带有边缘约束的层次化人体解析语义分割方法
CN113743417A (zh) 语义分割方法和语义分割装置
CN115527096A (zh) 一种基于改进YOLOv5的小目标检测方法
CN114092824A (zh) 结合密集注意力和并行上采样的遥感图像道路分割方法
CN113850324A (zh) 一种基于Yolov4的多光谱目标检测方法
CN116310916A (zh) 一种高分辨率遥感城市图像语义分割方法及***
Mukhopadhyay et al. A hybrid lane detection model for wild road conditions
TW202215007A (zh) 預測道路屬性之方法、資料處理系統及電腦可執行代碼
CN114429524B (zh) 单目视觉下的三维目标检测模型的构建方法及检测方法
Li et al. A new algorithm of vehicle license plate location based on convolutional neural network
CN116311218A (zh) 基于自注意力特征融合的带噪植株点云语义分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant