CN118172546A - 模型生成方法、检测方法、装置、电子设备、介质和产品 - Google Patents
模型生成方法、检测方法、装置、电子设备、介质和产品 Download PDFInfo
- Publication number
- CN118172546A CN118172546A CN202410579543.7A CN202410579543A CN118172546A CN 118172546 A CN118172546 A CN 118172546A CN 202410579543 A CN202410579543 A CN 202410579543A CN 118172546 A CN118172546 A CN 118172546A
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- picture
- detected
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 74
- 238000005457 optimization Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 128
- 238000000605 extraction Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本申请公开了一种模型生成方法、检测方法、装置、电子设备、介质和产品,所述模型生成方法包括:获取样本数据,样本数据包括样本图片、第一描述信息和标签信息;基于初始模型对样本图片进行特征提取,得到图片特征,以及,基于初始模型对第一描述信息进行特征提取,得到文本特征;基于初始模型对图片特征和文本特征进行特征融合,得到目标特征;基于初始模型利用目标特征对样本图片中的待检测目标的位置进行预测,得到预测结果;基于预测结果和标签信息对初始模型进行参数优化,得到目标模型。基于本申请技术方案生成的模型进行目标检测的范围不会受限于预设的类别范围,从而有利于实现对任意目标的检测。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种模型生成方法、检测方法、装置、电子设备、介质和产品。
背景技术
目标检测是当前计算机领域下的一个核心技术,在视频监控、自动驾驶、场景理解等方面具有极高的研究和应用价值,所谓目标检测就是检测给定图像中是否存在目标,以及,确定这些目标对象的语义类型和目标位置等信息。然而,传统目标检测方法通常只能对预先定义好的类别范围内对目标进行检测,而针对预设定义好的类别范围之外的目标则无法检测,从而导致目标检测范围受限的问题。
发明内容
本申请实施例的目的是提供一种模型生成方法、检测方法、装置、电子设备、介质和产品,能够解决相关技术中的目标检测模型在进行目标检测的过程中的目标检测范围受限的问题。
第一方面,本申请实施例提供了一种模型生成方法,所述方法包括:
获取样本数据,其中,所述样本数据包括样本图片、第一描述信息和标签信息,所述第一描述信息为对所述样本图片中的待检测目标的描述信息,所述标签信息用于指示所述待检测目标在所述样本图片中的位置;
基于初始模型对所述样本图片进行特征提取,得到图片特征,以及,基于所述初始模型对所述第一描述信息进行特征提取,得到文本特征;
基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果;
基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型。
第二方面,本申请实施例提供了一种目标检测方法,所述方法包括:
获取待检测数据,其中,所述待检测数据包括待检测图片和第二描述信息,其中,所述第二描述信息为对所述待检测图片中的待检测目标的描述信息;
基于目标模型对所述待检测图片进行特征提取,得到图片特征,以及,基于所述目标模型对所述第二描述信息进行特征提取,得到文本特征;
基于所述目标模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
基于所述目标模型利用所述目标特征对所述待检测图片中的所述待检测目标的位置进行预测,得到预测结果。
第三方面,本申请实施例提供了一种模型生成装置,所述装置包括:
第一获取模块,用于获取样本数据,其中,所述样本数据包括样本图片、第一描述信息和标签信息,所述第一描述信息为对所述样本图片中的待检测目标的描述信息,所述标签信息用于指示所述待检测目标在所述样本图片中的位置;
第一特征提取模块,用于基于初始模型对所述样本图片进行特征提取,得到图片特征,以及,基于所述初始模型对所述第一描述信息进行特征提取,得到文本特征;
第一特征融合模块,用于基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
第一预测模块,用于基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果;
优化模块,用于基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型。
第四方面,本申请实施例提供了一种目标检测装置,所述装置包括:
第二获取模块,用于获取待检测数据,其中,所述待检测数据包括待检测图片和第二描述信息,其中,所述第二描述信息为对所述待检测图片中的待检测目标的描述信息;
第二特征提取模块,用于基于目标模型对所述待检测图片进行特征提取,得到图片特征,以及,基于所述目标模型对所述第二描述信息进行特征提取,得到文本特征;
第二特征融合模块,用于基于所述目标模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
第二预测模块,用于基于所述目标模型利用所述目标特征对所述待检测图片中的所述待检测目标的位置进行预测,得到预测结果。
第五方面,本申请实施例还提供了一种电子设备,所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。
第六方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第二方面所述的方法的步骤。
第七方面,本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如第一方面或第二方面所述的方法的步骤。
在本申请实施例中,所生成的目标模型可以根据用户输入的描述信息对所接收到的图片中的待检测目标进行识别,由于用户可以通过描述信息自定义描述所需检测的目标,因此,所述目标模型进行目标检测的范围不会受限于预设的类别范围,从而有利于实现对任意目标的检测。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的模型生成方法的流程示意图之一;
图2为本申请实施例提供的模型生成方法的流程示意图之二;
图3为本申请实施例提供的目标检测方法的流程示意图;
图4为本申请实施例提供的模型生成装置的结构示意图;
图5为本申请实施例提供的目标检测装置的结构示意图;
图6为本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象 可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的方法进行详细地说明。
如图1所示,为本申请实施例提供的一种模型生成方法的流程示意图,所述模型生成方法包括以下步骤:
步骤101、获取样本数据,其中,所述样本数据包括样本图片、第一描述信息和标签信息,所述第一描述信息为对所述样本图片中的待检测目标的描述信息,所述标签信息用于指示所述待检测目标在所述样本图片中的位置;
步骤102、基于初始模型对所述样本图片进行特征提取,得到图片特征,以及,基于所述初始模型对所述第一描述信息进行特征提取,得到文本特征;
步骤103、基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
步骤104、基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果;
步骤105、基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型。
上述样本图片可以是各种场景中获取的图片,例如,可以是监控场景中的监控图片,或者,车载摄像头在车辆行驶过程中拍摄的车外实时图片等。
上述第一描述信息可以是用户自行定义的需要检测的目标的文字描述信息,例如,当所述样本图片为工地监控拍摄的图片时,所述第一描述信息可以是:检测佩戴安全帽的人,此时,所述待检测目标为所述样本图片中的“佩戴安全帽的人”。或者,所述第一描述信息还可以是:检测未佩戴安全帽的人,此时,所述待检测目标为所述样本图片中的“未佩戴安全帽的人”。又例如,当所述样本图片为车载摄像头在车辆行驶过程中拍摄的车外实时图片时,所述第一描述信息可以是:检测车辆,此时,所述待检测目标为所述样本图片中的车辆。
上述标签信息可以包括所述第一描述信息所描述的待检测目标在所述样本图片中的位置信息,例如,当所述样本图片为工地监控拍摄的图片时,所述第一描述信息为:检测佩戴安全帽的人时,所述标签信息可以包括所述样本图片中佩戴安全帽的人的位置,所述标签信息的形式可以为:(x,y,w,h),其中,x,y是目标的中心点坐标,w,h是目标所对应的目标框的长和宽。
请参见图2,在本申请一些实施例中,所述初始模型可以包括视觉特征提取(backbone)模块、编码器(encode)模块和解码器(decode)模块,其中,所述backbone模块用于执行上述步骤102和步骤103。所述encode模块用于执行上述步骤104。所述decode模块用于执行上述步骤105。
上述编码器可以由视觉编码器与文本编码器组成。所述视觉编码器用于对所述样本图片进行特征提取,得到图片特征,其中,为了兼顾不同大小的目标检测,视觉编码器可以采用ResNet主干提取多尺度特征。所述文本编码器用于对所述第一描述信息进行特征提取,得到文本特征,其中,所述文本编码器采用Bert进行文本特征提取,文本包括单词、句子等,引入attention mask标记检测主体,当第一描述信息中出现多个检测主体时进行目标区分。具体地,文本编码器通过可以通过attention mask对第一描述信息中的待检测目标进行标记,即所述文本特征中可以包括所述待检测目标的标记信息,以便于后续模型对待检测目标的位置进行检测。例如,当所述第一描述信息为“检测桌子上的笔”时,该第一描述信息中包括如下两个检测主体:“桌子”和“笔”,此时,可以通过attention mask标记检测主体为“笔”,也即上述待检测目标为“笔”。
上述对所述图片特征和所述文本特征进行特征融合可以是采用各种特征融合方式进行融合,例如,可以采用交叉注意力机制“cross attention”将图片特征与文本特征进行融合。
上述预测结果可以包括所述待检测目标在所述样本图片中的预测位置,如此,根据所述预测位置和所述标签信息所指示的真实位置可以确定初始模型的损失,并基于初始模型的损失,对初始模型进行参数优化,得到目标模型。
可以理解的是,上述实施例仅以一个样本数据对初始模型的训练过程为例,对初始模型的训练过程进行解释说明,事实上,可以生成大量不同的样本数据,并使用各个样本数据按照上述实施例中的方法对初始模型进行迭代训练,直至模型收敛,得到目标模型,其中,可以通过一个测试集确定模型是否收敛,例如,当训练得到的模型对测试集中的测试数据进行目标检测的准确性高于目标阈值时,确定模型收敛,所述目标阈值可以是一个相对较高的值,例如,可以是95%、98%等。
该实施方式中,所生成的目标模型可以根据用户输入的描述信息对所接收到的图片中的待检测目标进行识别,由于用户可以通过描述信息自定义描述所需检测的目标,因此,所述目标模型进行目标检测的范围不会受限于预设的类别范围,从而有利于实现对任意目标的检测。
可选地,所述图片特征包括M个不同尺度的第一特征向量,所述M个不同尺度的第一特征向量为:基于所述样本图片对应的M个不同尺度的特征图生成的特征向量,所述M个不同尺度的第一特征向量与所述M个不同尺度的特征图一一对应,所述文本特征包括第二特征向量,所述M为大于1的整数;
所述基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征,包括:
基于交叉注意力机制将所述第二特征向量分别与每个第一特征向量进行特征融合,得到M个第三特征向量;
对所述M个第三特征向量进行特征融合,得到所述目标特征。
上述M个不同尺度的第一特征向量可以是视觉编码器采用ResNet主干提取多尺度特征。具体地,可以将样本图像缩放至不同分辨率,并用对不同分辨率的图像来进行特征提取,得到不同尺度的图片特征。
上述基于交叉注意力机制将所述第二特征向量分别与每个第一特征向量进行特征融合,得到M个第三特征向量具体是指:将第二特征向量单独与每个第一特征向量进行特征融合,得到一个对应的第三特征向量,所述M个第三特征向量与所述M个第一特征向量一一对应。为了便于理解,下文以所述第二特征向量与第t个第一特征向量进行特征融合的过程为例,对上述基于交叉注意力机制将所述第二特征向量分别与每个第一特征向量进行特征融合的过程作进一步的解释说明:
将第t个第一特征向量投影到query矩阵,得到:/>,其中,所述第t个第一特征向量可以是所述M个不同尺度的第一特征向量中的任意一个第一特征向量;
将第二特征向量投影到key矩阵,得到:/>;同时,将第二特征向量投影到value矩阵,得到:/>,其中/>是通过学习得到的线性投影变换矩阵,cross attention的主要计算方式如下:
。
M中元素被定义为像素特征向量的attention权重,M即为图片特征与文本特征的跨注意力表示,其中d是key和query的投影维度。特征融合的主要方式为将文本序列与图像序列缩放至相同维度,采用cross attention在不同尺度的图片特征上通过计算Q、K、V的关联度来为图片特征序列中的每个元素分配权重,cross attention主要用于捕捉文本序列与视觉序列中不同位置的关联性,建立文本与视觉特征之间的依赖关系,实现特征的增强,输出多模态特征,如此,可以得到不同尺度的多模态特征,所述不同尺度的多模态特征即上述M个第三特征向量。
该实施方式中,为了让文字信息更好地指导目标检测,通过对不同尺度的图片特征进行特征增强,即采用cross attention利用文本特征对不同尺度的图片特征进行跨模态特征融合,从而有利于提高特征融合的效果。
可选地,所述对所述M个第三特征向量进行特征融合,得到所述目标特征,包括:
按照预设顺序,对所述M个第三特征向量进行M-1次迭代融合,得到所述目标特征,其中,所述预设顺序为将所述M个第三特征向量按照所对应的特征图的尺度,由高至低进行排序的顺序;所述M-1次迭代融合中的第i次融合包括:
对第i个待融合向量进行下采样,得到第i个采样向量,其中,在所述i等于1的情况下,所述第i个待融合向量为所述预设顺序中的第1个第三特征向量;在所述i大于1的情况下,所述第i个待融合向量为第i-1个融合向量;所述第i个采样向量的特征维度与所述预设顺序中的第i+1个第三特征向量的特征维度相同,所述i为小于所述M的正整数;
对所述第i个采样向量和所述第i+1个第三特征向量进行特征融合,得到第i个融合向量,所述目标特征为第M-1个融合向量。
上述特征图的尺度即特征图的尺寸,所述特征图的尺寸即对样本图片进行缩放之后的图像尺寸,例如,请参见图2,视觉编码器(vision encode)对样本图片进行特征提取之后,可以得到三个不同尺寸的特征图,由左至右,特征图的尺寸逐渐降低。为了便于理解,下文以图2所示的实施例为例,对上述图片特征和文本特征进行特征融合的过程进行解释说明,其中,在图2中,所述N的取值为3,图2中,从左至右三个特征图分别记为:第1个特征图、第2个特征图和第3个特征图,且所述第1个特征图尺度高于第2个特征图的尺度,所述第2个特征图尺度高于第3个特征图的尺度。图片特征和文本特征进行特征融合的过程为:
基于cross attention,将文本编码器对第一描述信息进行特征提取得到的第二特征向量与第1个特征图对应的第一特征向量进行特征融合,得到第1个第三特征向量;基于cross attention,将第二特征向量与第2个特征图对应的第一特征向量进行特征融合,得到第2个第三特征向量;基于cross attention,将第二特征向量与第3个特征图对应的第一特征向量进行特征融合,得到第3个第三特征向量;
对第1个第三特征向量进行下采样,得到第1个采样向量,其中,所述第1个采样向量的特征维度与所述第2个第三特征向量的特征维度相同;然后,将第1个采样向量与第2个第三特征向量进行融合,例如,可以将第1个采样向量与第2个第三特征向量进行相加,得到第1个融合向量;
然后,对第1个融合向量进行下采样,得到第2个采样向量,其中,所述第2个采样向量的特征维度与所述第3个第三特征向量的特征维度相同;然后,将第2个采样向量与第3个第三特征向量进行融合,例如,可以将第2个采样向量与第3个第三特征向量进行相加,得到第2个融合向量;并将第2个融合向量作为上述目标向量。
该实施方式中,在得到不同尺度的多模态特征之后,通过从高维度至低维度的下采样进行特征融合,即对各个尺度目标的注意力结果进行融合,避免浅层特征信息的对视,通过融合高低层特征提升目标检测的效果,融合得到的目标特征包含大量的局部信息,最后通过前馈神经网络输出编码器部分的结果,从而提高了特征融合的效果。
可选地,所述预测结果包括所述待检测目标在所述样本图片中的预测位置,所述基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型,包括:
基于所述预测位置和所述标签信息确定第一损失,以及,基于所述预测位置所对应的图像特征与所述文本特征确定第二损失,其中,所述预测位置所对应的图像特征为:对所述样本图片中的所述预测位置进行特征提取得到的特征;
基于所述第一损失和所述第二损失对所述初始模型进行参数优化,得到目标模型。
其中,上述第一损失可以作为目标的定位损失,上述第二损失可以作为分类损失。在计算所述第二损失的过程中,可以通过backnone得到文本特征,然后,计算文本特征与区域框特征的相似度,得到匹配分数,其中,所述匹配分数用于表征所述第二损失,所述区域框特征即对所述样本图片中的所述预测位置进行特征提取得到的特征。
上述对初始模型进行参数优化,具体可以是对上述实施例中的M、、/>或/>进行优化。
该实施方式中,通过基于第一损失和第二损失对初始模型进行参数优化,如此,有利于提高训练得到的目标模型对目标的位置和类别识别的准确性。
可选地,所述基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果,包括:
基于所述初始模型利用所述目标特征和目标查询向量,对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果,其中,所述目标查询向量的维度数大于预设阈值,所述预设阈值为样本图片中包括的待检测目标的最大数量。
上述目标查询向量可以表示为object queries,其中,所述object queries可以为初始化后的查询向量,即所述object queries中所有值均为0。
具体地,可以将encode输出的目标特征和所述object queries输入解码器(transform decoder),最后将transform decoder的输出送入前馈神经网络进行物体类别和边界框的预测,decode部分输出长度N,每一个输出包含一个可能目标的类别、中心点绝对坐标信息,如果样本图片中的目标数量小于N,则将object queries多余的位置置空,完全去除了以往检测算法对 nms、 anchor generator 等依赖于人工先验的后处理步骤。其中,所述N为object queries的维度数。
该实施方式中,通过基于所述初始模型利用所述目标特征和目标查询向量,对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果,如此,由于无需依赖于人工先验的后处理步骤得到检测结果,从而有利于简化目标检测的过程。
综上所述,本申请实施例提供的方法至少具备如下有益效果:
将文本信息引入目标检测中,建立视觉与文本的联系,利用image-text对模型进行训练,从而使得训练得到的目标模型可以根据文字prompt识别任意类别的目标。
image和text特征之间引入了更深层次的融合,在编码部分采用了多尺度的深度跨模态融合,增强模型获得跨模态的能力,提升各种尺寸目标的检测能力。
请参见图3,图3为本申请实施例提供的一种目标检测方法,所述方法包括以下步骤:
步骤301、获取待检测数据,其中,所述待检测数据包括待检测图片和第二描述信息,其中,所述第二描述信息为对所述待检测图片中的待检测目标的描述信息;
步骤302、基于目标模型对所述待检测图片进行特征提取,得到图片特征,以及,基于所述目标模型对所述第二描述信息进行特征提取,得到文本特征;
步骤303、基于所述目标模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
步骤304、基于所述目标模型利用所述目标特征对所述待检测图片中的所述待检测目标的位置进行预测,得到预测结果。
可以理解的是,所述目标模型为基于上述实施例中的模型生成方法训练得到的模型。
其中,所述待检测图片可以是包括各种类型的待检测目标的图片。所述第二描述信息可以是用户自行定义的需要检测的目标的文字描述信息,且所述待检测图片中包括所述第二描述信息所描述的待检测目标。
上述步骤302与上述实施例中的步骤102的实现过程类似,为避免重复,在此不再予以赘述。上述步骤303与上述实施例中的步骤103的实现过程类似,为避免重复,在此不再予以赘述。上述步骤304与上述实施例中的步骤104的实现过程类似,为避免重复,在此不再予以赘述。
该实施方式为与上述模型生成方法相对应的目标检测方法流程,其具体实现过程与上述实施例类似,且具有相同的有益效果,为避免重复,在此不再予以赘述。
请参见图4,图4为本申请实施例提供的一种模型生成装置400的结构示意图,所述装置包括:
第一获取模块401,用于获取样本数据,其中,所述样本数据包括样本图片、第一描述信息和标签信息,所述第一描述信息为对所述样本图片中的待检测目标的描述信息,所述标签信息用于指示所述待检测目标在所述样本图片中的位置;
第一特征提取模块402,用于基于初始模型对所述样本图片进行特征提取,得到图片特征,以及,基于所述初始模型对所述第一描述信息进行特征提取,得到文本特征;
第一特征融合模块403,用于基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
第一预测模块404,用于基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果;
优化模块405,用于基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型。
可选地,所述图片特征包括M个不同尺度的第一特征向量,所述M个不同尺度的第一特征向量为:基于所述样本图片对应的M个不同尺度的特征图生成的特征向量,所述M个不同尺度的第一特征向量与所述M个不同尺度的特征图一一对应,所述文本特征包括第二特征向量,所述M为大于1的整数;所述第一特征融合模块403,具体用于基于交叉注意力机制将所述第二特征向量分别与每个第一特征向量进行特征融合,得到M个第三特征向量;
所述第一特征融合模块403,还用于对所述M个第三特征向量进行特征融合,得到所述目标特征。
可选地,所述第一特征融合模块403,具体用于按照预设顺序,对所述M个第三特征向量进行M-1次迭代融合,得到所述目标特征,其中,所述预设顺序为将所述M个第三特征向量按照所对应的特征图的尺度,由高至低进行排序的顺序;所述M-1次迭代融合中的第i次融合包括:
对第i个待融合向量进行下采样,得到第i个采样向量,其中,在所述i等于1的情况下,所述第i个待融合向量为所述预设顺序中的第1个第三特征向量;在所述i大于1的情况下,所述第i个待融合向量为第i-1个融合向量;所述第i个采样向量的特征维度与所述预设顺序中的第i+1个第三特征向量的特征维度相同,所述i为小于所述M的正整数;
对所述第i个采样向量和所述第i+1个第三特征向量进行特征融合,得到第i个融合向量,所述目标特征为第M-1个融合向量。
可选地,所述预测结果包括所述待检测目标在所述样本图片中的预测位置,所述优化模块405,包括:
确定子模块,用于基于所述预测位置和所述标签信息确定第一损失,以及,基于所述预测位置所对应的图像特征与所述文本特征确定第二损失,其中,所述预测位置所对应的图像特征为:对所述样本图片中的所述预测位置进行特征提取得到的特征;
优化子模块,用于基于所述第一损失和所述第二损失对所述初始模型进行参数优化,得到目标模型。
可选地,所述第一预测模块404,具体用于基于所述初始模型利用所述目标特征和目标查询向量,对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果,其中,所述目标查询向量的维度数大于预设阈值,所述预设阈值为样本图片中包括的待检测目标的最大数量。
需要说明的是,本申请实施例提供的模型生成装置400能够实现如图1实施例所示的模型生成方法的全部技术过程,并达到相同的技术效果,为避免重复,在此不再赘述。
请参见图5,图5为本申请实施例提供的一种目标检测装置500的结构示意图,所述装置包括:
第二获取模块501,用于获取待检测数据,其中,所述待检测数据包括待检测图片和第二描述信息,其中,所述第二描述信息为对所述待检测图片中的待检测目标的描述信息;
第二特征提取模块502,用于基于目标模型对所述待检测图片进行特征提取,得到图片特征,以及,基于所述目标模型对所述第二描述信息进行特征提取,得到文本特征;
第二特征融合模块503,用于基于所述目标模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
第二预测模块504,用于基于所述目标模型利用所述目标特征对所述待检测图片中的所述待检测目标的位置进行预测,得到预测结果。
需要说明的是,本申请实施例提供的目标检测装置500能够实现如图3实施例所示的目标检测方法的全部技术过程,并达到相同的技术效果,为避免重复,在此不再赘述。
本申请实施例还提供了一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现上述图1所示模型生成方法,或者,实现图3所示目标检测方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图6所示,本申请实施例还提供了一种电子设备,包括总线601、收发机602、天线603、总线接口604、处理器605和存储器606。
在该实施方式中,所述电子设备还包括:存储在存储器606上并可在处理器605上运行的计算机程序。所述计算机程序被处理器605执行时可实现如图1实施例所示的模型生成方法,或者,实现图3所示目标检测方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
在图6中,总线架构(用总线601来代表),总线601可以包括任意数量的互联的总线和桥,总线601将包括由处理器605代表的一个或多个处理器和存储器606代表的存储器的各种电路链接在一起。总线601还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口604在总线601和收发机602之间提供接口。收发机602可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器605处理的数据通过天线603在无线介质上进行传输,进一步,天线603还接收数据并将数据传送给处理器605。
处理器605负责管理总线601和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器606可以被用于存储处理器605在执行操作时所使用的数据。
可选地,处理器605可以是CPU、ASIC、FPGA或CPLD。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图1或图3所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如ROM、RAM、磁碟或者光盘等。
本申请实施例还提供一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现上述图1或图3所示方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (11)
1.一种模型生成方法,其特征在于,所述方法包括:
获取样本数据,其中,所述样本数据包括样本图片、第一描述信息和标签信息,所述第一描述信息为对所述样本图片中的待检测目标的描述信息,所述标签信息用于指示所述待检测目标在所述样本图片中的位置;
基于初始模型对所述样本图片进行特征提取,得到图片特征,以及,基于所述初始模型对所述第一描述信息进行特征提取,得到文本特征;
基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果;
基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型。
2.根据权利要求1所述的方法,其特征在于,所述图片特征包括M个不同尺度的第一特征向量,所述M个不同尺度的第一特征向量为:基于所述样本图片对应的M个不同尺度的特征图生成的特征向量,所述M个不同尺度的第一特征向量与所述M个不同尺度的特征图一一对应,所述文本特征包括第二特征向量,所述M为大于1的整数;
所述基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征,包括:
基于交叉注意力机制将所述第二特征向量分别与每个第一特征向量进行特征融合,得到M个第三特征向量;
对所述M个第三特征向量进行特征融合,得到所述目标特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述M个第三特征向量进行特征融合,得到所述目标特征,包括:
按照预设顺序,对所述M个第三特征向量进行M-1次迭代融合,得到所述目标特征,其中,所述预设顺序为将所述M个第三特征向量按照所对应的特征图的尺度,由高至低进行排序的顺序;所述M-1次迭代融合中的第i次融合包括:
对第i个待融合向量进行下采样,得到第i个采样向量,其中,在所述i等于1的情况下,所述第i个待融合向量为所述预设顺序中的第1个第三特征向量;在所述i大于1的情况下,所述第i个待融合向量为第i-1个融合向量;所述第i个采样向量的特征维度与所述预设顺序中的第i+1个第三特征向量的特征维度相同,所述i为小于所述M的正整数;
对所述第i个采样向量和所述第i+1个第三特征向量进行特征融合,得到第i个融合向量,所述目标特征为第M-1个融合向量。
4.根据权利要求3所述的方法,其特征在于,所述预测结果包括所述待检测目标在所述样本图片中的预测位置,所述基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型,包括:
基于所述预测位置和所述标签信息确定第一损失,以及,基于所述预测位置所对应的图像特征与所述文本特征确定第二损失,其中,所述预测位置所对应的图像特征为:对所述样本图片中的所述预测位置进行特征提取得到的特征;
基于所述第一损失和所述第二损失对所述初始模型进行参数优化,得到目标模型。
5.根据权利要求1所述的方法,其特征在于,所述基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果,包括:
基于所述初始模型利用所述目标特征和目标查询向量,对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果,其中,所述目标查询向量的维度数大于预设阈值,所述预设阈值为样本图片中包括的待检测目标的最大数量。
6.一种目标检测方法,其特征在于,所述方法包括:
获取待检测数据,其中,所述待检测数据包括待检测图片和第二描述信息,其中,所述第二描述信息为对所述待检测图片中的待检测目标的描述信息;
基于目标模型对所述待检测图片进行特征提取,得到图片特征,以及,基于所述目标模型对所述第二描述信息进行特征提取,得到文本特征;
基于所述目标模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
基于所述目标模型利用所述目标特征对所述待检测图片中的所述待检测目标的位置进行预测,得到预测结果。
7.一种模型生成装置,其特征在于,所述装置包括:
第一获取模块,用于获取样本数据,其中,所述样本数据包括样本图片、第一描述信息和标签信息,所述第一描述信息为对所述样本图片中的待检测目标的描述信息,所述标签信息用于指示所述待检测目标在所述样本图片中的位置;
第一特征提取模块,用于基于初始模型对所述样本图片进行特征提取,得到图片特征,以及,基于所述初始模型对所述第一描述信息进行特征提取,得到文本特征;
第一特征融合模块,用于基于所述初始模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
第一预测模块,用于基于所述初始模型利用所述目标特征对所述样本图片中的所述待检测目标的位置进行预测,得到预测结果;
优化模块,用于基于所述预测结果和所述标签信息对所述初始模型进行参数优化,得到目标模型。
8.一种目标检测装置,其特征在于,所述装置包括:
第二获取模块,用于获取待检测数据,其中,所述待检测数据包括待检测图片和第二描述信息,其中,所述第二描述信息为对所述待检测图片中的待检测目标的描述信息;
第二特征提取模块,用于基于目标模型对所述待检测图片进行特征提取,得到图片特征,以及,基于所述目标模型对所述第二描述信息进行特征提取,得到文本特征;
第二特征融合模块,用于基于所述目标模型对所述图片特征和所述文本特征进行特征融合,得到目标特征;
第二预测模块,用于基于所述目标模型利用所述目标特征对所述待检测图片中的所述待检测目标的位置进行预测,得到预测结果。
9.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
11.一种计算机程序产品,其特征在于,包括计算机指令,该计算机指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410579543.7A CN118172546A (zh) | 2024-05-11 | 2024-05-11 | 模型生成方法、检测方法、装置、电子设备、介质和产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410579543.7A CN118172546A (zh) | 2024-05-11 | 2024-05-11 | 模型生成方法、检测方法、装置、电子设备、介质和产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118172546A true CN118172546A (zh) | 2024-06-11 |
Family
ID=91358949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410579543.7A Pending CN118172546A (zh) | 2024-05-11 | 2024-05-11 | 模型生成方法、检测方法、装置、电子设备、介质和产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118172546A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239765A (zh) * | 2022-08-02 | 2022-10-25 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪***及方法 |
CN115797706A (zh) * | 2023-01-30 | 2023-03-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、目标检测模型训练方法及相关装置 |
WO2023134073A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN116993963A (zh) * | 2023-09-21 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN117829243A (zh) * | 2023-11-20 | 2024-04-05 | 科大讯飞华南人工智能研究院(广州)有限公司 | 模型训练方法、目标检测方法、装置、电子设备及介质 |
CN117972118A (zh) * | 2024-02-02 | 2024-05-03 | 深圳须弥云图空间科技有限公司 | 一种目标检索方法、装置、电子设备及存储介质 |
CN117974971A (zh) * | 2023-12-22 | 2024-05-03 | 中电金信软件有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
-
2024
- 2024-05-11 CN CN202410579543.7A patent/CN118172546A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023134073A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的图像描述生成方法、装置、设备及介质 |
CN115239765A (zh) * | 2022-08-02 | 2022-10-25 | 合肥工业大学 | 基于多尺度可形变注意力的红外图像目标跟踪***及方法 |
CN115797706A (zh) * | 2023-01-30 | 2023-03-14 | 粤港澳大湾区数字经济研究院(福田) | 目标检测方法、目标检测模型训练方法及相关装置 |
CN116993963A (zh) * | 2023-09-21 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及存储介质 |
CN117829243A (zh) * | 2023-11-20 | 2024-04-05 | 科大讯飞华南人工智能研究院(广州)有限公司 | 模型训练方法、目标检测方法、装置、电子设备及介质 |
CN117974971A (zh) * | 2023-12-22 | 2024-05-03 | 中电金信软件有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
CN117972118A (zh) * | 2024-02-02 | 2024-05-03 | 深圳须弥云图空间科技有限公司 | 一种目标检索方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102266529B1 (ko) | 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 | |
CN111709409A (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及*** | |
CN107273458B (zh) | 深度模型训练方法及装置、图像检索方法及装置 | |
CN115797706B (zh) | 目标检测方法、目标检测模型训练方法及相关装置 | |
WO2019099205A1 (en) | Generating object embeddings from images | |
CN115526259A (zh) | 一种多模态预训练模型的训练方法和装置 | |
CN111488873A (zh) | 一种基于弱监督学习的字符级场景文字检测方法和装置 | |
CN113591566A (zh) | 图像识别模型的训练方法、装置、电子设备和存储介质 | |
CN117036778A (zh) | 一种基于图文转换模型的安全隐患识别标注方法 | |
CN117370498B (zh) | 一种3d开放词汇检测与密集字幕生成统一的建模方法 | |
CN116563840B (zh) | 基于弱监督跨模态对比学习的场景文本检测与识别方法 | |
CN117314938A (zh) | 一种基于多尺度特征融合译码的图像分割方法及装置 | |
CN116258931B (zh) | 基于ViT和滑窗注意力融合的视觉指代表达理解方法和*** | |
CN111539435A (zh) | 语义分割模型构建方法及图像分割方法、设备、存储介质 | |
CN117011932A (zh) | 一种奔跑行为检测方法、电子设备及存储介质 | |
CN111144361A (zh) | 一种基于二值化cgan网络的公路车道检测方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN114429631B (zh) | 三维对象检测方法、装置、设备以及存储介质 | |
CN118172546A (zh) | 模型生成方法、检测方法、装置、电子设备、介质和产品 | |
CN113052156B (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
CN114821424A (zh) | 视频分析方法、视频分析装置、计算机设备、存储介质 | |
CN115311518A (zh) | 一种获取视觉属性信息的方法、装置、介质及电子设备 | |
CN115512375A (zh) | 文本纠错模型的训练方法、文本识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |