CN116363442A - 目标检测方法及装置、非瞬时性存储介质 - Google Patents

目标检测方法及装置、非瞬时性存储介质 Download PDF

Info

Publication number
CN116363442A
CN116363442A CN202111589779.1A CN202111589779A CN116363442A CN 116363442 A CN116363442 A CN 116363442A CN 202111589779 A CN202111589779 A CN 202111589779A CN 116363442 A CN116363442 A CN 116363442A
Authority
CN
China
Prior art keywords
image
target object
candidate
attribute information
input image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111589779.1A
Other languages
English (en)
Inventor
吴华强
胡晨
何青林
王旭光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202111589779.1A priority Critical patent/CN116363442A/zh
Publication of CN116363442A publication Critical patent/CN116363442A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种目标检测方法、目标检测装置及非瞬时性存储介质。该目标检测方法包括:获取输入图像;基于输入图像,得到分辨率不同的多个层级的初始特征图像;对多个层级的初始特征图像进行尺度缩放处理,以得到分辨率相同的多个中间特征图像;对多个中间特征图像进行联合处理以得到联合特征图像;基于联合特征图像,进行区域提名处理,以确定候选目标对象及候选目标对象的第一候选框;基于联合特征图像和第一候选框,提取候选目标对象的属性信息并确定候选目标对象的第二候选框;以及基于属性信息和第二候选框,对候选目标对象进行过滤处理,以得到最终目标对象及最终目标对象的检测框。

Description

目标检测方法及装置、非瞬时性存储介质
技术领域
本公开的实施例涉及一种目标检测方法、目标检测装置及非瞬时性存储介质。
背景技术
计算机视觉研究的目的是使用计算机来实现人类对客观世界的感知、识别和理解功能。目标检测(Object Detection,也称为“物体检测”)作为计算机视觉领域的核心研究课题之一,在计算机视觉理论研究领域受到了广泛关注,具有广阔的应用前景。目标检测技术融合了目标检测、模式识别、人工智能、计算机视觉等许多领域的前沿技术,在智能化交通***、智能监控***、人机交互、自动驾驶、图像检索、智能机器人等诸多领域得到了广泛的应用。
发明内容
本公开至少一些实施例提供一种目标检测方法,包括:获取输入图像;基于所述输入图像,得到分辨率不同的多个层级的初始特征图像;对所述多个层级的初始特征图像进行尺度缩放处理,以得到分辨率相同的多个中间特征图像;对所述多个中间特征图像进行联合处理以得到联合特征图像;基于所述联合特征图像,进行区域提名处理,以确定候选目标对象及所述候选目标对象的第一候选框;基于所述联合特征图像和所述第一候选框,提取所述候选目标对象的属性信息并确定所述候选目标对象的第二候选框;以及,基于所述属性信息和所述第二候选框,对所述候选目标对象进行过滤处理,以得到最终目标对象及所述最终目标对象的检测框。
例如,在本公开的一些实施例提供的目标检测方法中,获取所述输入图像,包括:获取原始输入图像;以及,对所述原始输入图像进行预处理,以得到所述输入图像,其中,所述预处理包括裁剪处理和分辨率转换处理至少之一。
例如,在本公开的一些实施例提供的目标检测方法中,基于所述输入图像,得到分辨率不同的所述多个层级的初始特征图像,包括:基于所述输入图像,进行连续M次分析处理,以得到分辨率不同的M组初始特征图像;以及,从所述M组初始特征图像中选取N组初始特征图像作为所述多个层级的初始特征图像;其中,M、N均为正整数,且M≥N≥2。
例如,在本公开的一些实施例提供的目标检测方法中,在所述M次分析处理中,每一次分析处理包括卷积处理,且各次分析处理的输出的分辨率依次降低。
例如,在本公开的一些实施例提供的目标检测方法中,对所述多个层级的初始特征图像进行所述尺度缩放处理,以得到分辨率相同的所述多个中间特征图像,包括:响应于任一层级的初始特征图像的分辨率大于预定分辨率,对所述任一层级的初始特征图像进行下采样处理,以得到所述任一层级的初始特征图像对应的中间特征图像;响应于任一层级的初始特征图像的分辨率等于所述预定分辨率,将所述任一层级的初始特征图像作为所述任一层级的初始特征图像对应的中间特征图像;以及,响应于任一层级的初始特征图像的分辨率小于所述预定分辨率,对所述任一层级的初始特征图像进行上采样处理,以得到所述任一层级的初始特征图像对应的中间特征图像。
例如,在本公开的一些实施例提供的目标检测方法中,基于所述联合特征图像,进行所述区域提名处理,以确定所述候选目标对象及所述候选目标对象的第一候选框,包括:基于所述联合特征图像,使用区域提名网络进行所述区域提名处理,以确定所述候选目标对象及所述候选目标对象的第一候选框。
例如,在本公开的一些实施例提供的目标检测方法中,基于所述联合特征图像和所述第一候选框,提取所述候选目标对象的属性信息并确定所述候选目标对象的第二候选框,包括:对所述联合特征图像进行分析处理,以得到第一特征图像;确定在所述第一特征图像上所述第一候选框对应的提名区域为第一感兴趣区域,对所述第一感兴趣区域进行感兴趣区域池化处理,以得到第二特征图像;以及,基于所述第二特征图像,提取所述候选目标对象的属性信息并确定所述候选目标对象的第二候选框。
例如,在本公开的一些实施例提供的目标检测方法中,所述属性信息包括第一属性信息;基于所述属性信息和所述第二候选框,对所述候选目标对象进行所述过滤处理,以得到所述最终目标对象及所述最终目标对象的检测框,包括:确定在所述输入图像上所述第二候选框对应的区域为第二感兴趣区域,并将所述第二感兴趣区域及其邻近区域从所述输入图像中抠出,以得到中间输入图像;根据所述第一属性信息,对所述中间输入图像进行分类处理,确定所述中间输入图像的第二属性信息;响应于所述第一属性信息与所述第二属性信息一致,将所述候选目标对象作为所述最终目标对象,并将所述候选目标对象的所述第二候选框作为所述最终目标对象的检测框;以及,响应于所述第一属性信息与所述第二属性信息不一致,滤除所述候选目标对象及所述候选目标对象的所述第二候选框。
本公开至少一些实施例还提供一种目标检测装置,包括:存储器,用于非瞬时性存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行本公开任一实施例提供的目标检测方法。
本公开至少一些实施例还提供一种非瞬时性存储介质,非瞬时性地存储计算机可读指令,其中,当所述非瞬时性计算机可读指令由计算机执行时,能够执行本公开任一实施例提供的目标检测方法。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开至少一些实施例提供的一种目标检测方法的流程图;
图2为本公开至少一些实施例提供的一种对应于图1中所示的步骤S100的示例性流程图;
图3为本公开至少一些实施例提供的一种原始输入图像及其对应的多个输入图像的示意图;
图4为本公开至少一些实施例提供的一种对应于图1中所示的步骤S200的示例性流程图;
图5为本公开至少一些实施例提供的一种对应于图1中所示的步骤S200、步骤S300和步骤S400的示例性网络架构流程图;
图6为本公开至少一些实施例提供的一种对应于图1中所示的步骤S300的示例性流程图;
图7为本公开至少一些实施例提供的一种对应于图1中所示的步骤S500的示例性网络架构流程图;
图8为本公开至少一些实施例提供的一种对应于图1中所示的步骤S600的示例性流程图;
图9为本公开至少一些实施例提供的一种对应于图1中所示的步骤S600的示例性网络架构流程图;
图10为本公开至少一些实施例提供的一种对应于图1中所示的步骤S700的示例性网络架构流程图;
图11为本公开至少一些实施例提供的一种螺旋式的循环学习率的设置示意图;
图12为本公开至少一些实施例提供的一种目标检测装置的示意性框图;以及
图13为本公开至少一些实施例提供的一种非瞬时性存储介质的示意图。
具体实施方式
为了使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明,可省略已知功能和已知部(元)件的详细说明。当本公开实施例的任一部(元)件在一个以上的附图中出现时,该部(元)件在每个附图中由相同或类似的参考标号表示。
目标检测是指从图像中精确的定位出图像中所含有的物体,并识别出物体的类别的过程。而小目标检测是指定位和识别出图像中只含有数量较少的像素点的物体;例如,在一些示例中,如果图像中物体的尺寸小于例如32*32像素点,可以认为该物体是小目标。上述小目标的定义的示例是示意性的,本公开包括但不限于此。可以理解的是,图像中的除小目标之外的物体(即含有数量较多的像素点的物体)可以认为是大目标,本公开对大目标不做具体划分。需要说明的是,小目标检测在无人机视角下车辆识别、无人驾驶路标识别、安防领域私人携带物品识别等领域有着极高的应用前景。
随着深度学习技术在计算机视觉领域的广泛应用,由于卷积神经网络可以显著提高目标检测的精度,其在目标检测任务中变得越来越流行。例如,常见的目标检测算法/模型包括但不限于R-CNN(Region-based Convolutional Neural Networks)、SPP-net(Spatial Pyramid Pooling-net)、Fast R-CNN、Faster R-CNN、R-FCN(Region-basedFully Convolutional Networks)等基于区域提名(Region Proposal)的卷积神经网络,以及YOLO(You Only Look Once)、SSD(Single Shot MultiBox Detector)等端到端的卷积神经网络。然而,上述两类算法/模型主要是针对大目标进行检测,通常无法高效准确地检测出图像中的小目标。另外,上述两类算法/模型的输出结果通常仅包括目标类别及其检测框,不利于对检测出的目标进行进一步分析。
本公开至少一些实施例提供一种目标检测方法。该目标检测方法包括:获取输入图像;基于输入图像,得到分辨率不同的多个层级的初始特征图像;对多个层级的初始特征图像进行尺度缩放处理,以得到分辨率相同的多个中间特征图像;对多个中间特征图像进行联合处理以得到联合特征图像;基于联合特征图像,进行区域提名处理,以确定候选目标对象及候选目标对象的第一候选框;基于联合特征图像和第一候选框,提取候选目标对象的属性信息并确定候选目标对象的第二候选框;以及基于属性信息和第二候选框,对候选目标对象进行过滤处理,以得到最终目标对象及最终目标对象的检测框。
本公开至少一些实施例还提供一种对应于上述目标检测方法的目标检测装置和非瞬时性存储介质。
本公开的实施例提供的目标检测方法,可以在进行目标检测的同时对检测到的目标对象进行属性信息提取,从而,不仅有利于提高检测精度,还有利于获得更加完善的检测结果以用于进一步分析。另外,该目标检测算法可以有效地检测出输入图像中的小目标对象。
需要说明的是,在本公开中,卷积处理、下采样处理、上采样处理等处理操作可以分别通过卷积层、下采样层和上采样层等这些层执行或实现,相应地,这些层也可以用于指代对应的处理操作,以下不再重复说明。
下面结合附图对本公开的一些实施例及其示例进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1为本公开至少一些实施例提供的一种目标检测方法的流程图。例如,该目标检测方法可以应用于计算设备,该计算设备包括具有计算功能的任何电子设备,例如可以为智能手机、笔记本电脑、平板电脑、台式计算机、服务器等,本公开的实施例对此不作限制。例如,该计算设备具有中央处理单元(Central Processing Unit,CPU)或图形处理单元(Graphics Processing Unit,GPU),该计算设备还包括存储器。该存储器例如为非易失性存储器(例如只读存储器(Read Only Memory,ROM)),其上存储有操作***的代码。例如,存储器上还存储有代码或指令,通过运行这些代码或指令,可以实现本公开实施例提供的目标检测方法。
图2为本公开至少一些实施例提供的一种对应于图1中所示的步骤S100的示例性流程图,图3为本公开至少一些实施例提供的一种原始输入图像及其对应的多个输入图像的示意图,图4为本公开至少一些实施例提供的一种对应于图1中所示的步骤S200的示例性流程图,图5为本公开至少一些实施例提供的一种对应于图1中所示的步骤S200、步骤S300和步骤S400的示例性网络架构流程图,图6为本公开至少一些实施例提供的一种对应于图1中所示的步骤S300的示例性流程图,图7为本公开至少一些实施例提供的一种对应于图1中所示的步骤S500的示例性网络架构流程图,图8为本公开至少一些实施例提供的一种对应于图1中所示的步骤S600的示例性流程图,图9为本公开至少一些实施例提供的一种对应于图1中所示的步骤S600的示例性网络架构流程图,图10为本公开至少一些实施例提供的一种对应于图1中所示的步骤S700的示例性网络架构流程图。以下结合图2至图10对图1所示的目标检测方法进行详细说明,但不应视作对本公开的实施例的限制。
例如,如图1所示,该目标检测方法包括以下步骤S100至步骤S700。
步骤S100:获取输入图像。
例如,输入图像可以包括通过无人机的摄像头、交通摄像头、智能手机的摄像头、平板电脑的摄像头、个人计算机的摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等拍摄采集的照片,其可以包括人物图像、动物图像、风景图像以及各种物体(例如,车辆等)的图像等。例如,输入图像中可以包括待检测的目标对象,例如,待检测的目标对象可以包括但不限于人、动物、建筑、车辆等。例如,输入图像也可以是对上述拍摄采集的照片(即原始输入图像)进行预处理而得到的图像。
以下,结合图2和图3对步骤S100进行详细说明,但不应视作对本公开的实施例的限制。
例如,如图2所示,获取输入图像,即步骤S100,可以包括以下步骤S110和步骤S120。
步骤S110:获取原始输入图像。
例如,原始输入图像可以是上述拍摄采集的照片;需要说明的是,本公开的实施例包括但不限于此。
步骤S120:对原始输入图像进行预处理,以得到输入图像,其中,预处理包括裁剪处理和分辨率转换处理至少之一。
例如,原始输入图像的尺寸(分辨率)一般较大,若直接对原始输入图像进行处理,对计算设备的硬件条件的要求较高。在此情况下,如图3所示,可以对原始输入图像进行裁剪处理,以得到多个输入图像,该多个输入图像可以分别用于目标检测处理,从而,有利于减少目标检测处理过程中占用的计算资源。例如,该多个输入图像之间可以相互交叠,也可以互不交叠,本公开的实施例对此不作限制。例如,该多个输入图像的尺寸大小可以完全相同,也可以部分相同,也可以互不相同,本公开的实施例对此不作限制。例如,这些输入图像的中心在原始输入图像中可以呈均匀分布,也可以呈非均匀分布,本公开的实施例对此不作限制。
例如,输入图像的尺寸大小可以根据实际需要进行设置,本公开的实施例对此不作限制。例如,在一些实施例中,可以按照输入图像的尺寸要求进行上述裁剪处理;例如,在另一些实施例中,在裁剪处理得到的图像与输入图像的尺寸要求不符的情况下,可以对裁剪处理得到的图像进行分辨率转换处理(即缩放处理),以得到输入图像。例如,在再一些实施例中,在原始输入图像的尺寸(分辨率)相对较小的情况下,也可以直接对原始输入图像进行分辨率转换处理(即缩放处理),以得到输入图像。
例如,在一些示例中,缩放处理可以为等比例缩放,也即,图像的宽度和高度按照同一比例系数进行缩放处理;例如,在另一些示例中,缩放处理可以为不等比例缩放,也即,图像的宽度和高度按照不同的比例系数进行缩放处理。需要说明的是,缩放处理的比例系数可以根据实际需要进行设置,本公开的实施例对此不作限制。例如,缩放处理可以采用插值算法等实现,本公开的实施例包括但不限于此。例如,插值算法可以包括但不限于内插值、双线性插值、两次立方插值(Bicubic Interpolation)等算法。
可以理解的是,在一些实施例中,预处理还可以包括对输入图像进行图像去噪处理,以消除输入图像中的无关信息或噪声信息,以便于更好地对输入图像进行目标检测处理。
例如,在一些实施例中,输入图像可以为彩色图像。例如,彩色图像包括但不限于具有三种颜色通道的彩色图像等。例如,该三种颜色通道包括第一颜色通道、第二颜色通道和第三颜色通道。例如,该三种颜色通道分别对应于三原色。例如,在一些示例中,第一颜色通道为红色(R)通道,第二颜色通道为绿色(G)通道,第三颜色通道为蓝色(B)通道,即上述彩色图像可以为RGB格式的彩色图像,需要说明的是,本公开的实施例包括但不限于此。例如,在另一些实施例中,输入图像也可以为灰度图像。
以下,以原始输入图像为无人机视角(即天空视角)下的大尺度航空图像(如图3中的原始输入图像所示)以及待检测的目标对象为车辆为例,对本公开的实施例进行说明,但不应视作对本公开的限制。
步骤S200:基于输入图像,得到分辨率不同的多个层级的初始特征图像。
例如,可以基于输入图像进行连续多次分析处理,以提取分辨率不同(例如,分辨率从高到低排列)的多组初始特征图像,每组初始特征图像对应一个层级;然后,从该多组初始特征图像中选取若干组初始特征图像作为步骤S200中的多个层级的初始特征图像。可以理解的额是,在该连续多次分析处理中,每一次分析处理的输出为一组初始特征图像,第一次分析处理的输入为所述输入图像,除了所述第一次分析处理之外,每一次分析处理的输入为前一次分析处理的输出。
以下,结合图4和图5对步骤S200进行详细说明,但不应视作对本公开的实施例的限制。
例如,如图4所示,基于输入图像,得到分辨率不同的多个层级的初始特征图像,即步骤S200,可以包括以下步骤S210和步骤S220。
步骤S210:基于输入图像,进行连续M次分析处理,以得到分辨率不同的M组初始特征图像;以及
步骤S220:从M组初始特征图像中选取N组初始特征图像作为多个层级的初始特征图像,其中,M、N均为正整数,且M≥N≥2。
例如,在步骤S210中,分析处理通常可以包括卷积处理、激活处理和下采样处理等。例如,分析处理还可以进一步包括标准化(Normalization)处理。需要说明的是,本公开的实施例对此不作限制。例如,各次分析处理的输出的分辨率依次降低。
卷积处理可以通过卷积层实现,卷积层可以对输入图像应用若干个卷积核(也称为滤波器),以提取输入图像的多种类型的特征。每个卷积核可以提取一种类型的特征。卷积核一般以随机小数矩阵的形式初始化,在卷积神经网络的训练过程中卷积核将通过学习以得到合理的权值。对输入图像应用一个卷积核之后得到的结果被称为特征图像,特征图像的数目与卷积核的数目相等。
激活处理可以通过激活层实现,激活层包括激活函数,激活函数用于给卷积神经网络引入非线性因素,以使卷积神经网络可以更好地解决较为复杂的问题。激活函数可以包括线性修正单元(ReLU)函数、S型函数(Sigmoid函数)或双曲正切函数(tanh函数)等。ReLU函数为非饱和非线性函数,Sigmoid函数和tanh函数为饱和非线性函数。例如,激活层可以单独作为卷积神经网络的一层,或者激活层也可以被包含在卷积层中。
下采样处理用于减小特征图像的尺寸(分辨率),从而减少特征图像的数据量,例如可以通过下采样层进行下采样处理,但不限于此。例如,下采样层可以采用最大值池化(max pooling)、平均值池化(average pooling)、跨度卷积(strided convolution)、欠采样(decimation,例如选择固定的像素)、解复用输出(demuxout,将输入图像拆分为多个更小的图像)等下采样方法实现下采样处理。例如,下采样层还可以采用内插值、双线性插值、双立方插值(Bicubic Interpolation)、兰索斯(Lanczos)插值等插值算法进行下采样处理。例如,在利用插值算法进行下采样处理时,可以仅保留***值而去除原始像素值,从而减小特征图像的尺寸。
标准化处理可以通过标准化层实现,用于使特征图像的像素值在预定范围内变化,从而简化特征图像生成过程,改善图像处理的效果。例如,预定范围可以为[-1,1]等。
可以理解的是,步骤S210得到的M组初始特征图像形成一个特征金字塔(FeaturePyramid)。
例如,在步骤S210中,可以将M次分析处理中的每次分析处理的下采样倍率(即每次分析处理中的下采样处理的下采样倍率)设置为2。需要说明的是,本公开的实施例包括但不限于此。
例如,在M=N的情况下,可以省略步骤S220中的选取过程,即经由步骤S210直接得到分辨率从高到低排列的N组初始特征图像。
例如,在M>N的情况下,N组初始特征图像通常可以包括步骤S210得到的M组初始特征图像中的第一组初始特征图像(即尺寸最大或分辨率最高的初始特征图像)和最后一组初始特征图像(即尺寸最小或分辨率最低的初始特征图像)以及从该M组初始特征图像的中间M-2组初始特征图像中选取的N-2组初始特征图像。从而,该多个层级的初始特征图像既可以包括浅层级的特征图像(例如,第一组初始特征图像),又可以包括深层级的特征图像(例如,最后一组初始特征图像),还可以包括中间层级的特征图像(例如,从该M组初始特征图像的中间M-2组初始特征图像中选取的N-2组初始特征图像)。由于浅层级的特征图像的像素信息更适合于精确定位,深层级的特征图像的像素信息更适合准确分类,从而,基于上述浅层级、中间层级和深层级等多个层级的特征图像进行后续处理,可以确保计算过程中包括丰富的特征信息,这对于小目标检测是有益的。
可以理解的是,用于后续处理的N组初始特征图像也形成一个特征金字塔(Feature Pyramid)。
例如,在一个具体示例中,如图5所示,例如,在一个具体示例中,如图2所示,M=5,N=4,每次分析处理的下采样倍率为2。具体地,如图2所示,可以对输入图像连续进行5次分析处理,以得到分辨率从高到低排列的5组初始特征图像F1~F5,其中,对输入图像进行分析处理以得到第1组初始特征图像F1,第1组初始特征图像F1的分辨率为输入图像的分辨率的1/2;对第1组初始特征图像F1进行分析处理以得到第2组初始特征图像F2,第2组初始特征图像F2的分辨率为第1组初始特征图像F1的分辨率的1/2,即输入图像的分辨率的1/4;对第2组初始特征图像F2进行分析处理以得到第3组初始特征图像F3,第3组初始特征图像F3的分辨率为第2组初始特征图像F2的分辨率的1/2,即输入图像的分辨率的1/8;对第3组初始特征图像F3进行分析处理以得到第4组初始特征图像F4,第4组初始特征图像F4的分辨率为第3组初始特征图像F3的分辨率的1/2,即输入图像的分辨率的1/16;对第4组初始特征图像F4进行分析处理以得到第5组初始特征图像F5,第5组初始特征图像F5的分辨率为第4组初始特征图像F4的分辨率的1/2,即输入图像的分辨率的1/32。然后,可以从5组初始特征图像F1~F5中选取4组初始特征图像(即第1组初始特征图像F1、第3组初始特征图像F3、第4组初始特征图像F4和第5组初始特征图像F5)以进行后续处理。
例如,如图2所示,可以使用分析模块A1~A5执行上述5次分析处理。例如,根据实际需要,各分析模块可以包括卷积层、激活层、下采样层和标准化层等。例如,分析模块A1~A5中的卷积层可以采用7*7或5*5或3*3的卷积核,本公开的是实施例包括但不限于此。
应当理解的是,图5所示的具体示例是示意性的,不应视作对本公开的实施例的限制。
步骤S300:对该多个层级的初始特征图像进行尺度缩放处理,以得到分辨率相同的多个中间特征图像。
例如,可以根据各个层级的初始特征图像的分辨率与预定分辨率的大小比较关系,结合下采样或上采样等处理操作对各个层级的初始特征图像进行相应处理,以得到对应的中间特征图像,且各个层级的初始特征图像对应的中间特征图像的分辨率相同。
以下,结合图5和图6对步骤S300进行详细说明,但不应视作对本公开的实施例的限制。
例如,如图6所示,对该多个层级的初始特征图像进行尺度缩放处理,以得到分辨率相同的多个中间特征图像,即步骤S300,可以包括以下步骤S310至步骤S330。
步骤S310:响应于任一层级的初始特征图像的分辨率大于预定分辨率,对该任一层级的初始特征图像进行下采样处理,以得到该任一层级的初始特征图像对应的中间特征图像;
步骤S320:响应于任一层级的初始特征图像的分辨率等于预定分辨率,将该任一层级的初始特征图像作为该任一层级的初始特征图像对应的中间特征图像;以及
步骤S330:响应于任一层级的初始特征图像的分辨率小于预定分辨率,对该任一层级的初始特征图像进行上采样处理,以得到该任一层级的初始特征图像对应的中间特征图像。
下采样处理的具体细节和实现过程可以参考前述相关描述。上采样处理用于增大特征图像的尺寸,从而增加特征图像的数据量,例如可以通过上采样层进行上采样处理,但不限于此。例如,上采样层可以采用跨度转置卷积(strided transposed convolution)、插值算法等上采样方法实现上采样处理。插值算法例如可以包括内插值、双线性插值、两次立方插值(Bicubic Interpolation)、兰索斯(Lanczos)插值等算法。例如,在利用插值算法进行上采样处理时,可以保留原始像素值和***值,从而增大特征图像的尺寸。
例如,预定分辨率可以根据实际需要进行设置,其可以与该多个层级的初始特征图像中的某一层级的初始特征图像的分辨率相同,当然也可以不同。例如,预定分辨率通常设置为某一层级的初始特征图像的分辨率的整数倍,各个层级的初始特征图像要么具有该预定分辨率,要么经过整数倍上采样或整数倍下采样即可具有该预定分辨率。需要说明的是,本公开的实施例对此不作限制。
例如,在图5所示的具体示例中,以预定分辨率与第4组初始特征图像F4的分辨率相同为例,可以使用缩放处理模块T1(例如,包括下采样层)对第1组初始特征图像F1进行下采样处理,以得到中间特征图像P1;可以使用缩放处理模块T2(例如,包括下采样层)对第3组初始特征图像F3进行下采样处理,以得到中间特征图像P2;可以使用缩放处理模块T3(例如,不包括任何层结构)对第4组初始特征图像F4进行空处理,以得到中间特征图像P3,也即,直接将第4组初始特征图像F4作为中间特征图像P3;可以使用缩放处理模块T4(例如,包括上采样层)对第5组初始特征图像F5进行上采样处理,以得到中间特征图像P4。可以理解的是,此处的下采样处理的下采样倍数和上采样处理的上采样倍数均可以根据实际情况进行设置。
步骤S400:对该多个中间特征图像进行联合处理以得到联合特征图像。
例如,联合(concatenate)处理用于将待联合的多个(例如,两个或两个以上)中间特征图像的各通道图像堆叠,从而使得联合得到的图像(即联合特征图像)的通道数为待联合的多个中间特征图像的通道数之和。
例如,在图5所示的具体示例中,联合特征图像的通道数为用于联合的第1组初始特征图像F1、第3组初始特征图像F3、第4组初始特征图像F4和第5组初始特征图像F5的通道数之和。
步骤S500:基于联合特征图像,进行区域提名处理,以确定候选目标对象及候选目标对象的第一候选框。
例如,基于联合特征图像,可以使用区域提名网络(RPN,Region ProposalNetworks)进行区域提名处理,以确定候选目标对象及候选目标对象的第一候选框。例如,区域提名网络的具体细节和实现过程可以参考计算机视觉领域中关于RPN的相关描述。
以下,结合图7对步骤S500进行详细说明,但不应视作对本公开的实施例的限制。
例如,如图7所示,首先生成多种锚框(anchor box),锚框可理解为候选框或候选区域,锚框参数包括锚框面积(scale)以及锚框长宽比(aspects)。一种锚框参数(也即,一组锚框面积和锚框长宽比)可表征一种锚框。例如,3种面积和3种长宽比可以组合形成9种锚框,待处理图像(例如,联合特征图像)中每个位置均可对应设置9种锚框,例如,对于一幅尺寸大小为W*H的特征图像,该特征图像中包括W*H个位置(可以理解为W*H个像素点),则可对应W*H*9个锚框。需要说明的是,在实际应用中,大多数基于区域提名的目标检测方法会采用9种或25种锚框,因此,在步骤S300中也可以采用9种或25种锚框。需要说明的是,本公开的实施例包括但不限于此。
例如,如图7所示,可以使用全连接层L1提取上述锚框对应的联合特征图像的提名区域的特征向量。基于该特征向量,使用分类网络L2(例如,二分类的SoftMax分类器,可以包括全连接层)判断上述锚框对应的提名区域中是前景(foreground)还是背景(background),例如,分类网络L2的输出(分数Score)用于表征提名区域属于前景或背景的概率。若提名区域中是前景,该提名区域为感兴趣区域(ROI,Region Of Interest),其中很可能包括目标对象。同时,基于该特征向量,还可以使用边框回归网络L3(例如,可以包括全连接层)进行边框回归(bbox regression)操作,以确定感兴趣区域的检测框的参数(bb_reg)。例如,检测框的参数可以包括检测框的中心坐标x、y以及检测框的宽w和高h,或者,检测框的参数可以包括检测框的左上角坐标x1、y1以及检测框的宽w和高h;需要说明的是,本公开的实施例包括但不限于此。由此,可以确定候选目标对象及候选目标对象的第一候选框(即上述检测框)。
步骤S600:基于联合特征图像和第一候选框,提取候选目标对象的属性信息并确定候选目标对象的第二候选框。
例如,在步骤S600中,不仅可以提取候选目标对象的属性信息,还可以对第一候选框进行精修以得到更精准的第二候选框。
以下,结合图8和图9对步骤S600进行详细说明,但不应视作对本公开的实施例的限制。
例如,如图8所示,基于联合特征图像和第一候选框,提取候选目标对象的属性信息并确定候选目标对象的第二候选框,即步骤S600,可以包括以下步骤S610至步骤S630。
步骤S610:对联合特征图像进行分析处理,以得到第一特征图像。
例如,在一些示例中,如图9所示,可以使用分析模块A6执行步骤S610中的分析处理。例如,根据实际需要,各分析模块可以包括卷积层、激活层、下采样层和标准化层等。
步骤S620:确定在第一特征图像上第一候选框对应的提名区域为第一感兴趣区域,对第一感兴趣区域进行感兴趣区域池化处理,以得到第二特征图像。
例如,在一些示例中,提名区域的尺寸大小并不是固定的,也即第一感兴趣区域的尺寸大小并不是固定的。在此情况下,如图9所示,可以对第一感兴趣区域进行感兴趣区域池化处理(ROI池化,ROI pooling),以得到具有固定尺寸大小的第二特征图像,从而便于后续处理(例如,将第二特征图像输入后续的全连接层L4)。例如,感兴趣区域池化处理的输出(即第二特征图像)的尺寸大小可以是7*7,本公开实施例包括但不限于此。
步骤S630:基于第二特征图像,提取候选目标对象的属性信息并确定候选目标对象的第二候选框。
例如,在一些示例中,如图9所示,可以使用全连接层L4提取第二特征图像的特征向量。如图9所示,基于该特征向量,可以使用一个或多个属性信息提取网络(例如,图9中示出的两个属性信息提取网络L5和L6)提取候选目标对象的属性信息(例如,属性信息Attr1和Attr2);可以理解的是,属性信息提取网络本质上可以是分类网络(例如,可以包括全连接层)。例如,以候选目标对象为车辆为例,候选目标对象的属性信息可以包括车辆种类、车辆颜色、是否运载货物、是否被遮挡等信息中的一种或多种。同时,如图9所示,基于该特征向量,还可以使用边框回归网络L7(例如,可以包括全连接层)进行边框回归(bboxregression)操作,对第一候选框进行精修以得到第二候选框的参数(bb_reg)。从而,可以得到候选目标对象的结构化属性信息,有利于获得更加完善的检测结果以用于进一步分析。例如,在使用大尺度航空图像辅助智能化交通***的场景中,检测到的车辆的结构化属性信息有助于智能化交通***对特定车辆进行追踪、为特种车辆进行线路规划等。例如,候选目标对象的结构化属性信息还可以用于对候选目标对象进行过滤(参考后续步骤S700的相关描述),以提高检测精度。
步骤S700:基于属性信息和第二候选框,对候选目标对象进行过滤处理,以得到最终目标对象及最终目标对象的检测框。
在实际应用中,步骤S500中确定的候选目标对象及候选目标对象的第一候选框可能存在误报(False Positive),例如,将背景错误地预测成前景。相应地,步骤S600中提取的候选目标对象的属性信息以及确定的候选目标对象的第二候选框可能会受到影响。在此情况下,基于属性信息和第二候选框,可以使用过滤网络(例如,后置过滤器,Post Filter)对候选目标对象进行过滤处理,以得到最终目标对象及最终目标对象的检测框。
以下,结合图10对步骤S700进行详细说明,但不应视作对本公开的实施例的限制。
例如,属性信息可以包括第一属性信息,在此情况下,如图10所示,基于属性信息和第二候选框,对候选目标对象进行过滤处理,以得到最终目标对象及最终目标对象的检测框,即步骤S700,可以包括以下步骤S710至步骤S740。
步骤S710:确定在输入图像上第二候选框对应的区域为第二感兴趣区域,并将第二感兴趣区域及其邻近区域从输入图像中抠出,以得到中间输入图像;
步骤S720:根据第一属性信息,对中间输入图像进行分类处理,确定中间输入图像的第二属性信息;
步骤S730:响应于第一属性信息与第二属性信息一致,将候选目标对象作为最终目标对象,并将候选目标对象的第二候选框作为最终目标对象的检测框;以及
步骤S740:响应于第一属性信息与第二属性信息不一致,滤除候选目标对象及候选目标对象的所述第二候选框。
例如,第二感兴趣区域为矩形区域,中间输入图像相当于将第二感兴趣区域在上下左右四个方向中的至少一个方向上向外扩展若干个像素点而确定的区域图像。例如,上述向外扩展的像素点的数量可以根据实际需要进行设置,例如,该数量可以为5~20,例如,该数量可以为10。需要说明的是,本公开的实施例包括但不限于此。
例如,以第一属性信息为车辆种类为例,可以对中间输入图像进行关于车辆种类的分类处理(也可以理解为车辆种类的属性信息提取处理),以确定第二属性信息。可以理解的是,第一属性信息可以包括一种或多种属性信息,相应地,第二属性信息也可以包括该一种或该多种属性信息。还可以理解的是,在第一属性信息仅包括一种属性信息的情况下,可以使用一个分类网络进行分类处理;在第一属性信息包括多种属性信息的情况下,可以使用多个分类网络分别进行对应的分类处理。
例如,在得到第一属性信息和第二属性信息后,可以比较二者是否一致,并根据比较结果执行步骤S730或步骤S740的操作,以实现步骤S700中的过滤处理,从而有利于提高检测精度。
需要说明的是,在使用本公开的实施例提供的图像处理方法对输入图像进行处理之前,通常需要对步骤S200至步骤S700中涉及的神经网络结构(如卷积层、全连接层等)进行训练,训练过程可以参考常见的训练方法,在此不再赘述。可以理解的是,对于步骤S200至步骤S600中涉及的神经网络结构,可以作为一个整体进行训练;而对于步骤S700中涉及的神经网络结构,可以单独对其进行训练。
本公开至少一些实施例还提供一种学习率(learning rate)设置方法,其可以应用于前述训练过程。图11为本公开至少一些实施例提供的一种螺旋式的循环学习率的设置示意图。例如,如图11所示,预先设置一个迭代基准值V,该迭代基准值V可以表示一定的迭代(iteration)次数或者一定的迭代世代(epoch)等。以下,以迭代基准值V可以表示一定的迭代次数为例,对螺旋式的循环学习率的设置方式进行详细说明,但不应视作对本公开的实施例的限制。
例如,如图11所述,第1训练阶段的总迭代次数为V,在第1训练阶段中,学习率(learning rate)从最大值衰减到最小值,衰减过程满足余弦函数关系;第2训练阶段的总迭代次数为2V,在第2训练阶段中,学习率从最大值衰减到最小值,衰减过程满足余弦函数关系;第3训练阶段的总迭代次数为4V,在第3训练阶段中,学习率从最大值衰减到最小值,衰减过程满足余弦函数关系;……;以此类推,第n训练阶段的总迭代次数为2nV,在第n训练阶段中,学习率从最大值衰减到最小值,衰减过程满足余弦函数关系。
需要说明的是,在训练过程中,手动调整学习率易受初始值的影响,若初始值高于最优值,可能会导致***在目标函数方面发生偏差;若初始值低于最优值,可能会导致学习速度非常缓慢。神经网络的非凸优化,往往容易陷入局部最优值,从而获取全局最优值更难。本公开的实施例提供的上述螺旋式的循环学习率的设置方法,引入一个新的动态学习率来减轻选择学习率的任务,这个动态学习率仅使用一阶信息(每个训练阶段的总迭代次数为),只需要在梯度下降的每次迭代中进行少量的额外计算即可确定其数值。这种方法的好处如下:对超参数不敏感,计算量小容易迭代出更优的值,对不同模型架构都有效果等。
需要说明的是,在本公开的实施例中,上述目标检测方法的流程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行。虽然上文描述的目标检测方法的流程包括特定顺序出现的多个操作,但是应该清楚地了解,多个操作的顺序并不受限制。上文描述的目标检测方法可以执行一次,也可以按照预定条件执行多次。
本公开的实施例提供的目标检测方法,可以在进行目标检测的同时对检测到的目标对象进行属性信息提取,从而,不仅有利于提高检测精度,还有利于获得更加完善的检测结果以用于进一步分析。另外,该目标检测算法可以有效地检测出输入图像中的小目标对象。
本公开至少一些实施例还提供一种目标检测装置。图12为本公开至少一些实施例提供的一种目标检测装置的示意性框图。例如,如图12所示,该目标检测装置100包括存储器110和处理器120。
例如,存储器110用于非瞬时性存储计算机可读指令,处理器120用于运行该计算机可读指令,该计算机可读指令被处理器120运行时执行本公开任一实施例提供的目标检测方法。
例如,存储器110和处理器120之间可以直接或间接地互相通信。例如,在一些示例中,如图12所示,该目标检测装置100还可以包括***总线130,存储器110和处理器120之间可以通过***总线130互相通信,例如,处理器120可以通过***总线130访问存储器110。例如,在另一些示例中,存储器110和处理器120等组件之间可以通过网络连接进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。网络可以包括局域网、互联网、电信网、基于互联网和/或电信网的物联网(Internet of Things)、和/或以上网络的任意组合等。有线网络例如可以采用双绞线、同轴电缆或光纤传输等方式进行通信,无线网络例如可以采用3G/4G/5G移动通信网络、蓝牙、Zigbee或者Wi-Fi等通信方式。本公开对网络的类型和功能在此不作限制。
例如,处理器120可以控制目标检测装置中的其它组件以执行期望的功能。处理器120可以是中央处理单元(CPU)、张量处理器(TPU)或者图形处理器GPU等具有数据处理能力和/或程序执行能力的器件。中央处理器(CPU)可以为X86或ARM架构等。GPU可以单独地直接集成到主板上,或者内置于主板的北桥芯片中。GPU也可以内置于中央处理器(CPU)上。
例如,存储器110可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。
例如,在存储器110上可以存储一个或多个计算机指令,处理器120可以运行所述计算机指令,以实现各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如输入图像、初始特征图像、中间特征图像、联合特征图像、第一候选框、第二候选框、最终目标对象的检测框以及应用程序使用和/或产生的各种数据等。
例如,存储器110存储的一些计算机指令被处理器120执行时可以执行根据上文所述的目标检测方法中的一个或多个步骤。
例如,如图12所示,目标检测装置100还可以包括允许外部设备与目标检测装置100进行通信的输入接口140。例如,输入接口140可被用于从外部计算机设备、从用户等处接收指令或数据(例如,输入图像等)。目标检测装置100还可以包括使目标检测装置100和一个或多个外部设备相互连接的输出接口150。例如,目标检测装置100可以通过输出接口150输出目标检测结果(例如,第第一候选框、第二候选框、最终目标对象的检测框)等。通过输入接口140和输出接口150与目标检测装置100通信的外部设备可被包括在提供任何类型的用户可与之交互的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如,图形用户界面可接受来自用户采用诸如键盘、鼠标、遥控器等之类的输入设备的输入,以及在诸如显示器之类的输出设备上提供输出。此外,自然用户界面可使得用户能够以无需受到诸如键盘、鼠标、遥控器等之类的输入设备强加的约束的方式来与目标检测装置100交互。相反,自然用户界面可依赖于语音识别、触摸和指示笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛跟踪、语音和语义、视觉、触摸、手势、以及机器智能等。
另外,目标检测装置100尽管在图12中被示出为单个***,但可以理解,目标检测装置100也可以是分布式***,还可以布置为云设施(包括公有云或私有云)。因此,例如,若干设备可以通过网络连接进行通信并且可共同执行被描述为由目标检测装置100执行的任务。例如,在一些实施例中,可以通过客户端获取输入图像,并将输入图像上传至服务器;服务器基于接收的输入图像执行目标检测的过程后将例如最终目标对象的检测框返回客户端,以提供给用户。
例如,关于目标检测方法的实现过程的详细说明可以参考上述目标检测方法的实施例中的相关描述,重复之处在此不再赘述。
例如,在一些示例中,该目标检测装置可以包括但不限于智能手机、平板电脑、个人计算机、个人数字助理(Personal Digital Assistant,PDA)、服务器等。
需要说明的是,本公开的实施例提供的目标检测装置是示例性的,而非限制性的,根据实际应用需要,该目标检测装置还可以包括其他常规部件或结构,例如,为实现目标检测装置的必要功能,本领域技术人员可以根据具体应用场景设置其他的常规部件或结构,本公开的实施例对此不作限制。
本公开的实施例提供的目标检测装置的技术效果可以参考上述实施例中关于目标检测方法的相应描述,在此不再赘述。
本公开至少一些实施例还提供一种非瞬时性存储介质。图13为本公开一个实施例提供的一种非瞬时性存储介质的示意图。例如,如图13所示,该非瞬时性存储介质200非瞬时性地存储计算机可读指令201,当非瞬时性的计算机可读指令201由计算机(包括处理器)执行时,能够执行本公开任一实施例提供的目标检测方法。
例如,在非瞬时性存储介质200上可以存储一个或多个计算机指令。非瞬时性存储介质200上存储的一些计算机指令可以是例如用于实现上述目标检测方法中的一个或多个步骤的指令。
例如,非瞬时性存储介质可以包括平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合,也可以为其他适用的存储介质。
本公开的实施例提供的非瞬时性存储介质的技术效果可以参考上述实施例中关于目标检测方法的相应描述,在此不再赘述。
对于本公开,有以下几点需要说明:
(1)本公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种目标检测方法,包括:
获取输入图像;
基于所述输入图像,得到分辨率不同的多个层级的初始特征图像;
对所述多个层级的初始特征图像进行尺度缩放处理,以得到分辨率相同的多个中间特征图像;
对所述多个中间特征图像进行联合处理以得到联合特征图像;
基于所述联合特征图像,进行区域提名处理,以确定候选目标对象及所述候选目标对象的第一候选框;
基于所述联合特征图像和所述第一候选框,提取所述候选目标对象的属性信息并确定所述候选目标对象的第二候选框;以及
基于所述属性信息和所述第二候选框,对所述候选目标对象进行过滤处理,以得到最终目标对象及所述最终目标对象的检测框。
2.根据权利要求1所述的目标检测方法,其中,获取所述输入图像,包括:
获取原始输入图像;以及
对所述原始输入图像进行预处理,以得到所述输入图像,其中,所述预处理包括裁剪处理和分辨率转换处理至少之一。
3.根据权利要求1或2所述的目标检测方法,其中,基于所述输入图像,得到分辨率不同的所述多个层级的初始特征图像,包括:
基于所述输入图像,进行连续M次分析处理,以得到分辨率不同的M组初始特征图像;以及
从所述M组初始特征图像中选取N组初始特征图像作为所述多个层级的初始特征图像;
其中,M、N均为正整数,且M≥N≥2。
4.根据权利要求3所述的目标检测方法,其中,在所述M次分析处理中,每一次分析处理包括卷积处理,且各次分析处理的输出的分辨率依次降低。
5.根据权利要求1或2所述的目标检测方法,其中,对所述多个层级的初始特征图像进行所述尺度缩放处理,以得到分辨率相同的所述多个中间特征图像,包括:
响应于任一层级的初始特征图像的分辨率大于预定分辨率,对所述任一层级的初始特征图像进行下采样处理,以得到所述任一层级的初始特征图像对应的中间特征图像;
响应于任一层级的初始特征图像的分辨率等于所述预定分辨率,将所述任一层级的初始特征图像作为所述任一层级的初始特征图像对应的中间特征图像;以及
响应于任一层级的初始特征图像的分辨率小于所述预定分辨率,对所述任一层级的初始特征图像进行上采样处理,以得到所述任一层级的初始特征图像对应的中间特征图像。
6.根据权利要求1或2所述的目标检测方法,其中,基于所述联合特征图像,进行所述区域提名处理,以确定所述候选目标对象及所述候选目标对象的第一候选框,包括:
基于所述联合特征图像,使用区域提名网络进行所述区域提名处理,以确定所述候选目标对象及所述候选目标对象的第一候选框。
7.根据权利要求1或2所述的目标检测方法,其中,基于所述联合特征图像和所述第一候选框,提取所述候选目标对象的属性信息并确定所述候选目标对象的第二候选框,包括:
对所述联合特征图像进行分析处理,以得到第一特征图像;
确定在所述第一特征图像上所述第一候选框对应的提名区域为第一感兴趣区域,对所述第一感兴趣区域进行感兴趣区域池化处理,以得到第二特征图像;以及
基于所述第二特征图像,提取所述候选目标对象的属性信息并确定所述候选目标对象的第二候选框。
8.根据权利要求1或2所述的目标检测方法,其中,所述属性信息包括第一属性信息;
基于所述属性信息和所述第二候选框,对所述候选目标对象进行所述过滤处理,以得到所述最终目标对象及所述最终目标对象的检测框,包括:
确定在所述输入图像上所述第二候选框对应的区域为第二感兴趣区域,并将所述第二感兴趣区域及其邻近区域从所述输入图像中抠出,以得到中间输入图像;
根据所述第一属性信息,对所述中间输入图像进行分类处理,确定所述中间输入图像的第二属性信息;
响应于所述第一属性信息与所述第二属性信息一致,将所述候选目标对象作为所述最终目标对象,并将所述候选目标对象的所述第二候选框作为所述最终目标对象的检测框;以及
响应于所述第一属性信息与所述第二属性信息不一致,滤除所述候选目标对象及所述候选目标对象的所述第二候选框。
9.一种目标检测装置,包括:
存储器,用于非瞬时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,其中,所述计算机可读指令被所述处理器运行时,执行根据权利要求1-8任一项所述的目标检测方法。
10.一种非瞬时性存储介质,非瞬时性地存储计算机可读指令,其中,当所述非瞬时性计算机可读指令由计算机执行时,能够执行根据权利要求1-8任一项所述的目标检测方法。
CN202111589779.1A 2021-12-23 2021-12-23 目标检测方法及装置、非瞬时性存储介质 Pending CN116363442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111589779.1A CN116363442A (zh) 2021-12-23 2021-12-23 目标检测方法及装置、非瞬时性存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111589779.1A CN116363442A (zh) 2021-12-23 2021-12-23 目标检测方法及装置、非瞬时性存储介质

Publications (1)

Publication Number Publication Date
CN116363442A true CN116363442A (zh) 2023-06-30

Family

ID=86940308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111589779.1A Pending CN116363442A (zh) 2021-12-23 2021-12-23 目标检测方法及装置、非瞬时性存储介质

Country Status (1)

Country Link
CN (1) CN116363442A (zh)

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
US20220084166A1 (en) Image processing method and device, training method of neural network, image processing method based on combined neural network model, constructing method of combined neural network model, neural network processor, and storage medium
CN110298262B (zh) 物体识别方法及装置
CN111126258B (zh) 图像识别方法及相关装置
EP3923233A1 (en) Image denoising method and apparatus
CN109934792B (zh) 电子装置及其控制方法
US20230076266A1 (en) Data processing system, object detection method, and apparatus thereof
WO2022179587A1 (zh) 一种特征提取的方法以及装置
CN111860398A (zh) 遥感图像目标检测方法、***及终端设备
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
US20220406090A1 (en) Face parsing method and related devices
CN113095470A (zh) 神经网络的训练方法、图像处理方法及装置、存储介质
CN112257759A (zh) 一种图像处理的方法以及装置
CN114359289A (zh) 一种图像处理方法及相关装置
CN115861380A (zh) 雾天低照度场景下端到端无人机视觉目标跟踪方法及装置
CN114170231A (zh) 基于卷积神经网络的图像语义分割方法、装置及电子设备
CN116863194A (zh) 一种足溃疡图像分类方法、***、设备及介质
CN113096023A (zh) 神经网络的训练方法、图像处理方法及装置、存储介质
CN115272691A (zh) 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备
CN114708172A (zh) 图像融合方法、计算机程序产品、存储介质及电子设备
CN117746015A (zh) 小目标检测模型训练方法、小目标检测方法及相关设备
CN111476226B (zh) 一种文本定位方法、装置及模型训练方法
WO2020187029A1 (zh) 图像处理方法及装置、神经网络的训练方法、存储介质
CN116798041A (zh) 图像识别方法、装置和电子设备
CN113076966A (zh) 图像处理方法及装置、神经网络的训练方法、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination