CN118154854A - 多视角特征聚合的目标检测方法 - Google Patents

多视角特征聚合的目标检测方法 Download PDF

Info

Publication number
CN118154854A
CN118154854A CN202410565082.8A CN202410565082A CN118154854A CN 118154854 A CN118154854 A CN 118154854A CN 202410565082 A CN202410565082 A CN 202410565082A CN 118154854 A CN118154854 A CN 118154854A
Authority
CN
China
Prior art keywords
view
visual
features
cross
target detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410565082.8A
Other languages
English (en)
Other versions
CN118154854B (zh
Inventor
宋彦
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202410565082.8A priority Critical patent/CN118154854B/zh
Priority claimed from CN202410565082.8A external-priority patent/CN118154854B/zh
Publication of CN118154854A publication Critical patent/CN118154854A/zh
Application granted granted Critical
Publication of CN118154854B publication Critical patent/CN118154854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了多视角特征聚合的目标检测方法,涉及图像识别技术领域,通过目标检测模型从自然图像中识别出目标区域对应的位置和类别信息;目标检测模型的训练过程如下:构建训练集;对训练集中的图像进行多视角提取,生成多视角特征,将多视角特征串联得到多视角特征向量,所述多视角特征包括全局视觉特征、局部视觉特征、跨模态视觉特征;将多视角特征向量、全局视觉特征、局部视觉特征以及跨模态视觉特征输入到跨视角注意力特征聚合模块中,得到聚合后特征;将聚合后特征输入到目标检测模块中,生成目标区域的预测坐标值和预测类别标签;构建总损失函数,更新目标检测模型中的模型参数;该目标检测方法有效提升了对目标区域的检测准确率。

Description

多视角特征聚合的目标检测方法
技术领域
本发明涉及图像识别技术领域,尤其涉及多视角特征聚合的目标检测方法。
背景技术
目标检测是计算机视觉和数字图像处理的一个热门方向,广泛应用于机器人导航、智能视频监控、工业检测、航空航天等诸多领域,通过计算机视觉减少对人力资本的消耗,具有重要的现实意义。是图像处理和计算机视觉学科的重要分支,也是智能监控***的核心部分,同时目标检测也是泛身份识别领域的一个基础性的算法,对后续的人脸识别、步态识别、人群计数、实例分割等任务起着至关重要的作用。
目前主流的目标检测算法主要是基于深度学习模型,现有的目标检测方法在对图像进行目标检测时,算法需要根据每一帧图像中对目标的检测结果,匹配已有的目标轨迹;对于新出现的目标,需要生成新的目标;对于已经离开摄像机视野的目标,需要终止轨迹的跟踪;但是现有普遍使用预训练好的视觉骨干网络对输入的自然图像进行预处理,并根据提取得到的视觉特征进行目标检测,这样的做法仅能从单视角对输入图像中包含的语义信息进行表征,难以涵盖图像中的所有语义信息,进而导致目标检测的精度和准确率有限。
发明内容
基于背景技术存在的技术问题,本发明提出了多视角特征聚合的目标检测方法,有效提升了目标区域的检测准确率。
本发明提出的多视角特征聚合的目标检测方法,通过目标检测模型从自然图像中识别出目标区域对应的位置和类别信息;
所述目标检测模型的训练过程如下:
S1:构建训练集,将所述训练集中的图像输入到目标检测模型中;
S2:对图像进行多视角提取,生成多视角特征,将多视角特征串联得到多视角特征向量/>,所述多视角特征包括全局视觉特征/>、局部视觉特征/>、跨模态视觉特征/>
S3:将多视角特征向量、全局视觉特征/>、局部视觉特征/>以及跨模态视觉特征/>输入到跨视角注意力特征聚合模块中,基于跨视角注意力特征聚合模块的自注意力机制聚合得到聚合后特征,其中跨视角注意力特征聚合模块是一个基于自注意力机制的模块,包括三层网络进行特征聚合,其中每一层网络输入查询、键和值三个元素,具体为:
S31:将全局视觉特征和多视角特征向量/>输入到跨视角注意力特征聚合模块的第一层网络,将全局视觉特征/>作为输入的查询,将多视角特征向量/>作为输入的键和值,得到聚合后特征/>
S32:将局部视觉特征和聚合后特征/>输入到跨视角注意力特征聚合模块的第二层网络,将局部视觉特征/>作为输入的查询,将聚合后特征/>作为输入的键和值,得到聚合后特征/>
S33:将跨模态视觉特征和聚合后特征/>输入到跨视角注意力特征聚合模块的第三层网络,将跨模态视觉特征/>作为输入的查询,将聚合后特征/>作为输入的键和值,得到聚合后特征/>
S4:将聚合后特征输入到目标检测模块中,生成目标区域的预测坐标值和预测类别标签;
S5:基于所生成的目标区域的预测坐标值和预测类别标签,构建总损失函数,通过反向传播算法,更新目标检测模型中的模型参数。
进一步地,在步骤S2中,具体为:
将图像输入到预训练过后的图像分类网络中,得到全局视角下的视觉特征,记为全局视觉特征/>
将图像输入到预训练过后的目标检测网络中,取出目标检测网络中线性预测层的输入特征作为局部视角下的视觉特征,记为局部视觉特征/>
将图像输入到预训练过后的图像描述生成网络中,得到图像/>对应的文本描述/>,将文本描述/>输入文本编码器,得到跨模态视角下的视觉表征,记为跨模态视觉特征/>
将全局视觉特征、局部视觉特征/>以及跨模态视觉特征/>串联得到多视角特征向量/>
进一步地,在步骤S4和S5中,具体为:
将聚合后特征输入到目标检测模块,得到隐空间表征/>
使用目标检测模块中线性预测层对隐空间表征进行预测得到目标区域的预测坐标值/>和预测类别标签/>
通过对比损失函数比对目标区域的预测坐标值与真实坐标值/>,计算损失函数
通过对比损失函数比对目标区域的预测类别标签与实际标注类别标签/>,计算损失函数/>
将损失函数和损失函数/>线性加权,计算总损失函数/>,通过反向传播算法,更新目标检测模型中的模型参数。
本发明提供的多视角特征聚合的目标检测方法的优点在于:本发明结构中提供的多视角特征聚合的目标检测方法,设置目标检测模型对图像进行多视角提取,相比于传统方法使用单一视角的视觉特征对自然图像进行表征的做法,多视角特征提取方法能够为目标检测过程提供更多的语义信息,从而更好涵盖图像中所有的语义信息,提升目标检测网络类别预测的准确率。另外,考虑多视角不同特征之间存在的结构性差异,通过跨视角注意力特征聚合模块能够有效地将不同视角中的异构信息整合到目标检测的过程中,从而有效提升目标区域的检测准确率。
附图说明
图1为本发明目标检测模型的结构流程示意图;
图2为目标检测模型的训练流程图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1和2所示,本发明提出的多视角特征聚合的目标检测方法,通过目标检测模型从自然图像中识别出目标区域对应的位置和类别信息,例如自然图像可以为通过相机拍摄的周围环境图像或者其他需要进行目标检测的图像;
该目标检测模型采用采用多视角方法对自然图像进行特征提取,通过从全局特征、局部特征、跨模态特征等多个方面对自然图像进行表征,能为目标检测过程提供充足且有效的语义信息,从而保证目标检测过程分类的准确率;另外目标检测模型采用基于跨视角注意力机制的方式,将多视角特征聚合于目标检测过程,能够有效消除不同视角之间特征存在的异构问题,从而更有效地增强模型的目标检测过程,提升目标检测结果的准确率,例如给定多摄像机公共监控的一片区域,能够对公共区域内的目标进行联合检测与跟踪,方法简便,跟踪效果好,有很高的应用价值。
在本实施例中,目标检测模型包括多视角特征提取模块、跨视角注意力特征聚合模块、目标检测模块,目标检测模型的训练过程如下:
S1:构建训练集,将所述训练集中的图像输入到目标检测模型中;
当用于对给定多摄像机公共监控的一片区域中的某个目标进行检测,图像为包括该目标的不同视角下的图像,各个视角下的图像/>构成训练集;例如当对该区域中的行人进行检测时,获取该区域中行人在不同位置、不同视角的图像以构建用于行人跟踪检测的训练集。
S2:通过多视角特征提取模块对图像进行多视角提取,生成多视角特征,将多视角特征串联得到多视角特征向量/>,所述多视角特征包括全局视觉特征/>、局部视觉特征、跨模态视觉特征/>
多视角特征提取模块对图像的提取过程具体如下:
将图像输入到预训练过后的图像分类网络中,得到全局视角下的视觉特征,记为全局视觉特征/>
将图像输入到预训练过后的视觉检测网络中,取出视觉检测网络中线性预测层的输入特征作为局部视角下的视觉特征,记为局部视觉特征/>
将图像输入到预训练过后的图像描述生成网络中,得到图像/>对应的文本描述/>,将文本描述/>输入文本编码器,得到跨模态视角下的视觉表征,记为跨模态视觉特征/>
将全局视觉特征、局部视觉特征/>以及跨模态视觉特征/>串联得到多视角特征向量/>
以上图像分类网络的作用是用于提取图像的视觉信息,得到全局视觉特征,视觉检测网络可以采用现有的YOLO模型进行实现;图像描述生成网络的作用是提取图像/>中的文本信息,得到文本描述/>;文本编码器的作用是将文本描述/>进行编码,得到对应的视觉特征;图像分类网络、视觉检测网络以及图像描述生成网络均采用现有的网络结构,同时其预训练过程也均为现有的预训练过程,本实施例是直接将图像输入到现有的已经预训练后的各个网络中,以得到对应的视觉特征。
S3:将多视角特征向量、全局视觉特征/>、局部视觉特征/>以及跨模态视觉特征/>输入到跨视角注意力特征聚合模块中,基于跨视角注意力特征聚合模块的自注意力机制聚合得到聚合后特征,其中跨视角注意力特征聚合模块是一个基于自注意力机制的模块,包括三层网络进行特征聚合,其中每一层网络输入查询(Query)、键(Key)和值(Value)三个元素,具体为:
S31:将全局视觉特征和多视角特征向量/>输入到跨视角注意力特征聚合模块的第一层网络,将全局视觉特征/>作为输入的查询,将多视角特征向量/>作为输入的键和值,得到聚合后特征/>
S32:将局部视觉特征和聚合后特征/>输入到跨视角注意力特征聚合模块的第二层网络,将局部视觉特征/>作为输入的查询,将聚合后特征/>作为输入的键和值,得到聚合后特征/>
S33:将跨模态视觉特征和聚合后特征/>输入到跨视角注意力特征聚合模块的第三层网络,将跨模态视觉特征/>作为输入的查询,将聚合后特征/>作为输入的键和值,得到聚合后特征/>,将聚合后特征/>输入到目标检测模块;
以上聚合后特征均采用同一公式计算,只是公式中的部分参数指代的物理意义不一致,聚合后特征/>计算如下:
其中,表示聚合后特征,/>表示激活函数,/>表示全局视觉特征/>的转置,/>表示多视角特征向量,/>是键向量的维度,用于缩放分子点积的大小,以避免在计算/>的时候由于值过大而导致梯度消失的问题。
同理,聚合后特征和/>计算如下:
其中,为局部视觉特征/>的转置,/>为跨模态视觉特征/>的转置。
S4:将聚合后特征输入到目标检测模块中,生成目标区域的预测坐标值和预测类别标签;
S5:基于所生成的目标区域的预测坐标值和预测类别标签,构建总损失函数,通过反向传播算法,更新目标检测模型中的模型参数。
在步骤S4和S5中,具体为:
S41:将聚合后特征输入到目标检测模块,得到隐空间表征/>
该目标检测模块可以采用现有的目标检测网络,例如YOLO模型,即使用现有目标检测网络处理聚合后特征得到隐空间表征/>。可以理解为,本实施例为在现有的目标检测网络的基础上,对输入到目标检测网络中的数据进行多视角提取聚合,从而提高目标检测网络的预测准确性。
S42:使用目标检测模块中线性预测层对隐空间表征进行预测得到目标区域的预测坐标值/>和预测类别标签/>
S43:通过对比损失函数比对目标区域的预测坐标值与人工标注的真实坐标值,计算损失函数/>
其中,表示目标区域的数量,/>表示对比损失函数,/>表示第/>个目标区域。
S44:通过对比损失函数比对目标区域的预测类别标签与人工标注的实际标注类别标签/>,计算损失函数/>
其中,表示目标区域的类别标签数量,/>表示对比损失函数,/>表示目标区域的第/>个类别标签数量。
S45:将损失函数和损失函数/>线性加权,计算总损失函数/>,通过反向传播算法,更新目标检测模型中的模型参数。
通过步骤S1至S5,设置目标检测模型对图像进行多视角提取,相比于传统方法使用单一视角的视觉特征对自然图像进行表征的做法,多视角特征提取方法能够为目标检测过程提供更多的语义信息,从而更好涵盖图像中所有的语义信息,提升目标检测网络类别预测的准确率。另外,考虑多视角不同特征之间存在的结构性差异,通过跨视角注意力特征聚合模块能够有效地将不同视角中的异构信息整合到目标检测的过程中,从而有效提升目标区域的检测准确率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.多视角特征聚合的目标检测方法,其特征在于,通过目标检测模型从自然图像中识别出目标区域对应的位置和类别信息;
所述目标检测模型的训练过程如下:
S1:构建训练集,将所述训练集中的图像输入到目标检测模型中;
S2:对图像进行多视角提取,生成多视角特征,将多视角特征串联得到多视角特征向量,所述多视角特征包括全局视觉特征/>、局部视觉特征/>、跨模态视觉特征/>
S3:将多视角特征向量、全局视觉特征/>、局部视觉特征/>以及跨模态视觉特征/>输入到跨视角注意力特征聚合模块中,基于跨视角注意力特征聚合模块的自注意力机制聚合得到聚合后特征,其中跨视角注意力特征聚合模块是一个基于自注意力机制的模块,包括三层网络进行特征聚合,其中每一层网络输入查询、键和值三个元素,具体为:
S31:将全局视觉特征和多视角特征向量/>输入到跨视角注意力特征聚合模块的第一层网络,将全局视觉特征/>作为输入的查询,将多视角特征向量/>作为输入的键和值,得到聚合后特征/>
S32:将局部视觉特征和聚合后特征/>输入到跨视角注意力特征聚合模块的第二层网络,将局部视觉特征/>作为输入的查询,将聚合后特征/>作为输入的键和值,得到聚合后特征/>
S33:将跨模态视觉特征和聚合后特征/>输入到跨视角注意力特征聚合模块的第三层网络,将跨模态视觉特征/>作为输入的查询,将聚合后特征/>作为输入的键和值,得到聚合后特征/>
S4:将聚合后特征输入到目标检测模块中,生成目标区域的预测坐标值和预测类别标签;
S5:基于所生成的目标区域的预测坐标值和预测类别标签,构建总损失函数,通过反向传播算法,更新目标检测模型中的模型参数。
2.根据权利要求1所述的多视角特征聚合的目标检测方法,其特征在于,在步骤S2中,具体为:
将图像输入到预训练过后的图像分类网络中,得到全局视角下的视觉特征,记为全局视觉特征 />
将图像输入到预训练过后的视觉检测网络中,取出视觉检测网络中线性预测层的输入特征作为局部视角下的视觉特征,记为局部视觉特征/>
将图像输入到预训练过后的图像描述生成网络中,得到图像/>对应的文本描述/>,将文本描述/>输入文本编码器,得到跨模态视角下的视觉表征,记为跨模态视觉特征/>
将全局视觉特征、局部视觉特征/>以及跨模态视觉特征/>串联得到多视角特征向量/>
3.根据权利要求1所述的多视角特征聚合的目标检测方法,其特征在于,在步骤S4和S5中,具体为:
将聚合后特征输入到目标检测模块,得到隐空间表征/>
使用目标检测模块中线性预测层对隐空间表征进行预测得到目标区域的预测坐标值和预测类别标签/>
通过对比损失函数比对目标区域的预测坐标值与人工标注的真实坐标值/>,计算损失函数/>
通过对比损失函数比对目标区域的预测类别标签与人工标注的实际标注类别标签/>,计算损失函数/>
将损失函数和损失函数/>线性加权,计算总损失函数/>,通过反向传播算法,更新目标检测模型中的模型参数。
CN202410565082.8A 2024-05-09 多视角特征聚合的目标检测方法 Active CN118154854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410565082.8A CN118154854B (zh) 2024-05-09 多视角特征聚合的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410565082.8A CN118154854B (zh) 2024-05-09 多视角特征聚合的目标检测方法

Publications (2)

Publication Number Publication Date
CN118154854A true CN118154854A (zh) 2024-06-07
CN118154854B CN118154854B (zh) 2024-07-30

Family

ID=

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023280065A1 (zh) * 2021-07-09 2023-01-12 南京邮电大学 一种面向跨模态通信***的图像重建方法及装置
CN116363459A (zh) * 2023-03-27 2023-06-30 北京百度网讯科技有限公司 目标检测方法、模型训练方法、装置、电子设备及介质
CN116775922A (zh) * 2023-05-16 2023-09-19 中国航空综合技术研究所 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN116778341A (zh) * 2023-07-21 2023-09-19 电子科技大学 一种雷达图像多视角特征提取与鉴别方法
WO2023221566A1 (zh) * 2022-05-18 2023-11-23 北京地平线机器人技术研发有限公司 一种基于多视角融合的3d目标检测方法及装置
WO2023231233A1 (zh) * 2022-05-31 2023-12-07 浪潮电子信息产业股份有限公司 一种跨模态目标重识别方法、装置、设备及介质
CN117765524A (zh) * 2023-12-20 2024-03-26 中国科学技术大学 一种基于多视图的三维目标检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023280065A1 (zh) * 2021-07-09 2023-01-12 南京邮电大学 一种面向跨模态通信***的图像重建方法及装置
WO2023221566A1 (zh) * 2022-05-18 2023-11-23 北京地平线机器人技术研发有限公司 一种基于多视角融合的3d目标检测方法及装置
WO2023231233A1 (zh) * 2022-05-31 2023-12-07 浪潮电子信息产业股份有限公司 一种跨模态目标重识别方法、装置、设备及介质
CN116363459A (zh) * 2023-03-27 2023-06-30 北京百度网讯科技有限公司 目标检测方法、模型训练方法、装置、电子设备及介质
CN116775922A (zh) * 2023-05-16 2023-09-19 中国航空综合技术研究所 基于语言与视觉细节特征融合的遥感图像跨模态检索方法
CN116778341A (zh) * 2023-07-21 2023-09-19 电子科技大学 一种雷达图像多视角特征提取与鉴别方法
CN117765524A (zh) * 2023-12-20 2024-03-26 中国科学技术大学 一种基于多视图的三维目标检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FENG ZHOU, ET AL.: "3D Dynamic Multi-target Detection Algorithm Based on Cross-view Feature Fusion", IEEE TRANSACTIONS ON ARTIFICIAL INTELLIGENCE, 13 December 2323 (2323-12-13), pages 1 - 14 *
朱可卿;田杰;黄海宁;: "多视角声图中水下小目标分类的深度神经网络方法研究", 仪器仪表学报, no. 01, 15 January 2020 (2020-01-15), pages 209 - 217 *

Similar Documents

Publication Publication Date Title
CN109858390B (zh) 基于端到端时空图学习神经网络的人体骨架行为识别方法
Wu et al. Deep learning-based methods for person re-identification: A comprehensive review
Zhou et al. CCAFNet: Crossflow and cross-scale adaptive fusion network for detecting salient objects in RGB-D images
Wang et al. A self-training approach for point-supervised object detection and counting in crowds
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
Zhao et al. Multilevel triplet deep learning model for person re-identification
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
Ma et al. Spatiotemporal dilated convolution with uncertain matching for video-based crowd estimation
Liu et al. Crowd counting via cross-stage refinement networks
Wang et al. Split and connect: A universal tracklet booster for multi-object tracking
Zhang et al. Spatial-aware object-level saliency prediction by learning graphlet hierarchies
CN112926396A (zh) 一种基于双流卷积注意力的动作识别方法
Yu et al. A content-adaptively sparse reconstruction method for abnormal events detection with low-rank property
Zhou et al. DEFNet: Dual-branch enhanced feature fusion network for RGB-T crowd counting
Zheng et al. Aware progressive clustering for unsupervised vehicle re-identification
CN113963032A (zh) 一种融合目标重识别的孪生网络结构目标跟踪方法
Zhu et al. A dual self-attention mechanism for vehicle re-identification
Wu et al. Context-aware deep spatiotemporal network for hand pose estimation from depth images
Xia et al. Face occlusion detection using deep convolutional neural networks
Yang et al. Sampling agnostic feature representation for long-term person re-identification
Liu et al. AnchorPoint: Query design for transformer-based 3D object detection and tracking
Lin et al. Multi-motion segmentation via co-attention-induced heterogeneous model fitting
Luo et al. Exploring point-bev fusion for 3d point cloud object tracking with transformer
Qiu et al. MFIALane: Multiscale feature information aggregator network for lane detection
Li et al. Real-time monocular joint perception network for autonomous driving

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant