CN109948497B - 一种物体检测方法、装置及电子设备 - Google Patents

一种物体检测方法、装置及电子设备 Download PDF

Info

Publication number
CN109948497B
CN109948497B CN201910186133.5A CN201910186133A CN109948497B CN 109948497 B CN109948497 B CN 109948497B CN 201910186133 A CN201910186133 A CN 201910186133A CN 109948497 B CN109948497 B CN 109948497B
Authority
CN
China
Prior art keywords
frame
preselected
detection
visible
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910186133.5A
Other languages
English (en)
Other versions
CN109948497A (zh
Inventor
李作新
俞刚
袁野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kuangshi Technology Co Ltd
Original Assignee
Beijing Kuangshi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kuangshi Technology Co Ltd filed Critical Beijing Kuangshi Technology Co Ltd
Priority to CN201910186133.5A priority Critical patent/CN109948497B/zh
Publication of CN109948497A publication Critical patent/CN109948497A/zh
Priority to PCT/CN2019/126435 priority patent/WO2020181872A1/zh
Application granted granted Critical
Publication of CN109948497B publication Critical patent/CN109948497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种物体检测方法、装置及电子设备,涉及图像识别的技术领域,该方法包括:获取包含一个或多个检测对象待处理图像;对待处理图像进行物体检测,得到至少一个预选框,其中,预选框包括可见框和/或完整框,完整框为对一个检测对象整体的包围框,可见框为每个检测对象在待处理图像中可见区域的包围框;通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;相同预选框组中的预选框属于相同的检测对象;对每个预选框组进行去重处理,得到去重处理之后的预选框组;基于去重处理之后的预选框组确定每个检测对象的目标检测框。本发明能够有效地避免检测对象的漏检。

Description

一种物体检测方法、装置及电子设备
技术领域
本发明涉及图像处理的技术领域,尤其是涉及一种物体检测方法、装置及电子设备。
背景技术
物体检测是计算机视觉中的经典问题之一,其任务是用包围框标记出图像中物体的位置,并给出物体的类别。从传统的人工设计特征加浅层分类器的框架,到基于深度学习的端到端的检测框架,物体检测变得愈加成熟。目前,在出现多物体特别是同类物体密集出现,且产生物体之间出现遮挡的条件下,现有的物体检测算法仅考虑类别层次的物体检测,导致现有技术无法很好在遮挡的情况下进行精确地物体检测。在物体之间互相遮挡的情况下,由于现有技术中的方法经常会产生被遮挡物体与遮挡物体无法进行有效区分的问题,从而导致被遮挡物体漏检。
发明内容
有鉴于此,本发明的目的在于提供一种物体检测方法、装置及电子设备,本发明缓解了现有技术在物体密集遮挡情况下进行物体检测时,同类物体容易出现漏检的技术问题。
第一方面,本发明实施例提供了一种物体检测方法,包括:获取包含一个或多个检测对象待处理图像;对所述待处理图像进行物体检测,得到至少一个预选框,其中,所述预选框包括可见框和/或完整框,所述完整框为对一个检测对象整体的包围框,所述可见框为每个检测对象在所述待处理图像中可见区域的包围框;通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;相同预选框组中的预选框属于相同的检测对象;对每个预选框组进行去重处理,得到去重处理之后的预选框组;基于所述去重处理之后的预选框组确定每个检测对象的目标检测框。
进一步地,通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组包括:通过所述关联性建模模型的实例属性特征投影网络获得所述至少一个预选框中每个预选框的属性特征向量;通过所述关联性建模模型的聚类模块,基于所述每个预选框的属性特征向量确定所述至少一个预选框中每个预选框所属的分组,得到所述至少一个预选框组。
进一步地,所述实例属性特征投影网络通过Lpull损失函数和Lpush损失函数训练获得;其中,通过Lpull损失函数将属于同一个检测对象的预选框的属性特征向量的距离拉近,通过Lpush损失函数将属于不同检测对象的预选框的属性特征向量的距离拉远。
进一步地,通过所述关联性建模模型的聚类模块,基于所述每个预选框的属性特征向量确定所述至少一个预选框中每个预选框所属的分组,得到所述至少一个预选框组包括:计算任意两个所述属性特征向量之间的向量距离值,得到多个向量距离值;将所述多个向量距离值中小于预设阈值的两个预选框添加至相同的分组,未添加至分组中的其他每一个预选框分别单独作为一个分组;通过聚类算法对得到的至少一个分组进行聚类分组,得到所述至少一个预选框组。
进一步地,每个所述预选框组包括可见框组和完整框组;对每个预选框组进行去重处理,得到去重处理之后的预选框包括:对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组;基于所述去重处理之后的预选框组确定每个检测对象的目标检测框包括:基于所述去重处理之后的可见框组和所述完整框组确定每个检测对象的目标检测框。
进一步地,对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组包括:利用非极大值抑制算法对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组。
进一步地,基于所述去重处理之后的可见框组和所述完整框组确定每个检测对象的目标检测框包括:对所述去重处理之后的可见框组中的各个可见框进行局部特征对齐处理;以及对所述完整框组中的各个完整框进行局部特征对齐处理;将特征对齐处理之后的可见框和特征对齐处理之后的完整框输入至目标物检测模型进行检测处理,得到所述特征对齐处理之后的可见框位置坐标和分类概率值,以及得到特征对齐处理之后的完整框的位置坐标和分类概率值;基于目标位置坐标和目标分类概率值确定每个检测对象的目标检测框,其中,所述目标位置坐标包括:所述特征对齐处理之后的可见框位置坐标和/或所述特征对齐处理之后的完整框的位置坐标,所述目标分类概率值包括:所述特征对齐处理之后的可见框的分类概率值和/或所述特征对齐处理之后的完整框的分类概率值。
进一步地,基于目标位置坐标和目标分类概率值确定每个检测对象的目标检测框包括:将所述目标分类概率值作为对应的目标位置坐标的权重;根据所述目标分类概率值对每个检测对象的所述目标位置坐标计算加权平均值,得到所述检测对象的目标检测框;所述目标检测框包括目标可见框和/或目标完整框。
进一步地,对所述待处理图像进行物体检测,得到至少一个预选框包括:将所述待处理图像输入到特征金字塔网络中进行处理,得到特征金字塔;利用区域候选网络RPN模型对所述特征金字塔进行处理,得到所述至少一个预选框,其中,所述至少一个预选框中的每个预选框携带属性标签,所述属性标签用于确定每个预选框所属类型,所述类型包括完整框和可见框。
第二方面,本发明实施例还提供了一种物体检测装置,包括:图像获取单元,用于获取包含一个或多个检测对象待处理图像;预选框获取单元,用于对所述待处理图像进行物体检测,得到至少一个预选框,其中,所述预选框包括可见框和/或完整框,所述完整框为对一个检测对象整体的包围框,所述可见框为每个检测对象在所述待处理图像中可见区域的包围框;分组单元,用于通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;相同预选框组中的预选框属于相同的检测对象;去重单元,用于对每个预选框组进行去重处理,得到去重处理之后的预选框组;确定单元,用于基于所述去重处理之后的预选框组确定每个检测对象的目标检测框。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法的步骤。
第四方面,本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述所述的方法。
在本发明实施例中,首先,获取包含一个或多个检测对象待处理图像;然后,对待处理图像进行物体检测,得到至少一个预选框;接下来,确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组。本发明实施例通过确定每个预选框所属的分组,得到至少一个预选框组,由于相同预选框组中的预选框属于相同的检测对象,从而通过预选框组将属于不同检测对象的预选框区分开,防止在去重过程中将被遮挡对象的预选框作为遮挡对象的冗余预选框被去除,缓解了现有技术在物体密集遮挡情况下进行物体检测时,同类物体容易出现漏检的技术问题,实现了对待处理图像中一个或多个检测对象的检测,并有效地避免检测对象的漏检的目的。
同时,通过关联性建模模型确定至少一个预选框组,关联性建模模型由神经网络实现,将至少一个预选框输入到关联性建模模型后,充分利用预选框内图像的特征信息、预选框的位置信息对预选框进行分组,能够有效区分不同检测对象的预选框,特别是对于密集物体遮挡场景中,遮挡对象和被遮挡对象的完整框重合度较高的情况下,能够对位置邻近、尺寸相似,但属于不同检测对象的预选框进行准确分组。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种电子设备的示意图;
图2是根据本发明实施例的一种物体检测方法的流程图;
图3是根据本发明实施例的一种密集遮挡同类物体的可见框与完整框示意图;
图4是根据本发明实施例的一种预选框与检测对象对应关系示意图;
图5是根据本发明实施例的一种物体检测装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
首先,参照图1来描述用于实现本发明实施例的物体检测方法的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及摄像机110,这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)和ASIC(Application Specific Integrated Circuit)中的至少一种硬件形式来实现,所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述摄像机110用于进行获取待处理图像,其中,摄像机所获取的待处理图像经过所述物体检测方法进行处理之后得到检测对象的目标检测框,例如,摄像机可以拍摄用户期望的图像(例如照片、视频等),然后,将该图像经过所述物体检测方法进行处理之后得到检测对象的目标检测框,摄像机还可以将所拍摄的图像存储在所述存储器104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的物体检测方法的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。
实施例二:
根据本发明实施例,提供了一种物体检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本发明实施例的一种物体检测方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取包含一个或多个检测对象待处理图像。
在本发明实施例中,待处理图像中可以包括多种类别的检测对象,例如,包括人类和非人类,其中,非人类包括动态的物体和静态的物体,动态的物体可以是动物类的物体,静态的物体可以是除了人类和动物之外的其他处于静止状态的物体。
在每个待处理图像中,可以包含多种类别的物体,每种类别的物体可以有一个或多个,例如图像中有2个人和3只狗。待处理图像中的各类物体之间可以相互独立显示,也可能其中一些物体被另外的物体遮挡,而导致不能完全显示出。
需要说明的是,检测对象可以为待处理图像中待执行物体检测步骤的一种或多种类别的物体。用户可以根据实际需要确定检测对象的类别,本实施例不做具体限定。
进一步需要说明的是,在本实施例中,待处理图像可以为通过实施例一中的电子设备的摄像机拍摄得到的图像,还可以为预先存储在电子设备中存储器中的图像,本实施例对此不做具体限定。
步骤S204,对所述待处理图像进行物体检测,得到至少一个预选框,其中,所述预选框包括可见框和/或完整框,所述完整框为对一个检测对象整体的包围框,所述可见框为每个检测对象在所述待处理图像中可见区域的包围框。
在本发明实施例中,在获取到待处理图像之后,可以通过预选框检测网络对待处理图像进行物体检测。对待处理图像进行物体检测的过程为对待处理图像中不被遮挡的检测对象进行物体检测,以输出完整框,该过程还可以为:对待处理图像中被遮挡的对象进行物体检测,同时输出完整框和可见框。
对同一个检测对象可能生成多个可见框或多个完整框,不同的可见框或不同的完整框相对于待处理图像可能有不同比例的放缩。
步骤S206,通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;相同预选框组中的预选框属于相同的检测对象;
在本发明实施例中,经过物体检测后,针对不同检测对象分别生成多个预选框,其中,该预选框中包含可见框和/或完整框。通常,检测结果包含的预选框是冗余的,需要进行去重处理,为了防止在去重过程中将被遮挡对象的预选框作为遮挡对象的冗余预选框被去除,需要确定每个预选框所属的分组,根据一个分组对应得到一个预选框组,可以得到至少一个预选框组,从而通过预选框组将属于不同检测对象的预选框区分开。所述关联性建模模型是一种能够获得输入数据的关联关系的模型,可以由神经网络实现,将至少一个预选框输入到关联性建模模型后,关联性建模模型会依据预选框内图像的特征信息,并结合预选框的位置信息对预选框进行有效分组。
通过上述方式将至少一个预选框进行分组,能够将属于同一个检测对象的预选框组成一个预选框组,由于同一个检测对象的预选框组中可能同时包括可见框和完整框,该检测对象的预选框组中也可同时包括一个可见框组和一个完整框组。
需要说明的是,如图4所示的一种预选框与检测对象对应关系示意图,图中,检测对象包括遮挡对象P和被遮挡对象P遮挡的被遮挡对象Q,预选框包括七号框7至十二号框12。七号框7、八号框8和九号框9均属于图中遮挡对象P,十号框10、十一号框11和十二号框12均属于图中被遮挡对象Q。七号框7、八号框8和九号框9组成一个预选框组,十号框10、十一号框11和十二号框12组成另一个预选框组。
在得到七号框7至十二号框12中每个预选框所属的分组,并得到预选框组后,可以对每个预选框组中的预选框分别进行去重处理,防止在不同对象的预选框重合度较高的情况下,出现不同对象之间框的混淆,防止在去重过程中将被遮挡对象Q的预选框(例如十号框10)作为遮挡对象P的冗余预选框被去除,大大降低了对被遮挡物体漏检的概率。
步骤S208,对每个预选框组进行去重处理,得到去重处理之后的预选框组;
在本发明实施例中,在确定了预选框所属的对象之后,对每个检测对象的预选框组分别进行去重处理,通过分组去重,避免了不同检测对象的预选框相互混淆,具体的,避免了去重过程中将被遮挡对象的预选框作为遮挡对象的冗余预选框去除掉,进而避免出现被遮挡物体的漏检的问题。
步骤S210,基于所述去重处理之后的预选框组确定每个检测对象的目标检测框。
在本发明实施例中,在得到去重处理之后的预选框组之后,可以基于去重处理之后的预选框组确定每个检测对象的目标检测框。如果检测对象在待处理图像中未被遮挡,则该检测对象的目标检测框包括目标完整框;如果检测对象在待处理图像中被遮挡,则该检测对象的目标检测框中包括目标完整框和目标可见框。所述目标完整框可用于获得检测对象的位置信息,以及除被遮挡对象以外的检测对象的图像特征信息;所述目标可见框可用于获得被遮挡对象的图像特征信息,由于本发明实施例能够获得两种类型的目标检测框,进而能够获得更加全面、更加准确的检测对象的信息,以用于后续的识别、验证等图像处理。
在本发明实施例中,可以通过上述实施例一中电子设备中的处理器来执行上述步骤S202至步骤S210。
需要说明的是,能够执行上述步骤S202至步骤S210的处理器均可以应用在本发明实施例中,对此不作具体限定。
在本发明实施例中,首先,获取包含一个或多个检测对象待处理图像;然后,对待处理图像进行物体检测,得到至少一个预选框;接下来,确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组。本发明实施例通过确定每个预选框所属的分组,得到至少一个预选框组,由于相同预选框组中的预选框属于相同的检测对象,从而通过预选框组将属于不同检测对象的预选框区分开,防止在去重过程中将被遮挡对象的预选框作为遮挡对象的冗余预选框被去除,缓解了现有技术在物体密集遮挡情况下进行物体检测时,同类物体容易出现漏检的技术问题,实现了对待处理图像中一个或多个检测对象的检测,并有效地避免检测对象的漏检的目的。
此外,在密集物体遮挡场景下,遮挡对象和被遮挡对象的完整框重合度较高,仅仅通过完整框的位置和尺寸等信息,无法对不同检测对象的完整框进行有效区分,分组效果差,进而无法对完整框进行有效的去重。本发明实施例中,关联性建模模型由神经网络实现,将至少一个预选框输入到关联性建模模型后,有效的利用预选框内图像的特征信息、预选框的位置信息对预选框进行分组,能够有效区分不同检测对象的预选框,特别是对于密集物体遮挡场景中,遮挡对象和被遮挡对象的完整框重合度较高的情况下,能够对位置邻近、尺寸相似,但属于不同检测对象的预选框进行准确分组。
下面将结合具体的实施方式对本发明实施例进行详细的介绍。
通过上述描述可知,在本实施例中,首先获取包含一个或多个检测对象的待处理图像。之后,就可以对待处理图像进行物体检测,得到至少一个预选框。
在一个可选的实施方式中,步骤S204,对待处理图像进行物体检测,得到至少一个预选框包括如下步骤:
步骤S2041,将所述待处理图像输入到特征金字塔网络中进行处理,得到特征金字塔;
步骤S2042,利用区域候选网络RPN(Region Proposal Networks)模型对所述特征金字塔进行处理,得到所述至少一个预选框,其中,所述至少一个预选框中的每个预选框携带属性标签,所述属性标签用于确定每个预选框所属类型,所述类型包括完整框和可见框。
通过上述描述可知,在本发明实施例中,特征金字塔网络用于生成特征金字塔。可以选用如VGG(Visual Geometry Group)16模型,Resnet或FPN(Feature PyramidNetworks)等基础网络模型作为特征金字塔网络。在本实施例中,可以将待处理图像输入到特征金字塔网络中进行处理,得到特征金字塔。
在利用区域候选网络RPN(Region Proposal Networks)模型对特征金字塔进行处理之前,需要通过预设训练集对区域候选网络RPN模型进行训练,本实施例中,可以将基础网络模型(例如,FPN)和RPN模型一起进行训练。其中,预设训练集中包括多个训练样本,每个训练样本包括:训练图像及其对应的图像标签。其中,图像标签用于标记训练图像中预选框的类型,该类型包括完整框或者可见框。本发明,可以使用多个训练样本对RPN模型进行训练,以使RPN模型能够识别并标识图像中的预选框类型。
在利用上述预设训练集对基础网络模型和区域候选网络RPN模型进行训练之后,就可以利用训练之后的区域候选网络RPN模型对特征金字塔进行处理,得到至少一个预选框,以及每个预选框的属性标签,该属性标签用于表征该预选框是可见框,还是完整框。
具体地,该属性标签可以表示为“1”或“2”,例如,“1”表示该预选框为可见框,“2”表示该预选框为完整框。除了“1”和“2”之外,还可以选用其他机器能够识别的数据作为属性标签,本实施例中不做具体限定。
在本实施例中,通过区域候选网络RPN模型对特征金字塔进行处理的方式,能够得到更加准确的预选框检测结果。
在得到更加准确的预选框检测结果之后,就可以确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组。
在一个可选的实施方式中,步骤S206,通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组包括如下步骤:
步骤S11,通过所述关联性建模模型的实例属性特征投影网络获得所述至少一个预选框中每个预选框的属性特征向量;
步骤S12,通过所述关联性建模模型的聚类模块,基于所述每个预选框的属性特征向量确定所述至少一个预选框中每个预选框所属的分组,得到所述至少一个预选框组。
在本发明实施例中,关联性建模模型可以为Associate embedding模型。关联性建模模型中的实例属性特征投影网络可以为embedding encoding(也称,嵌入编码)网络。将至少一个预选框输入到关联性建模模型中的embedding encoding网络,为每个预选框回归相应的属性特征向量,每个预选框对应一个属性特征向量。然后,通过聚类模块依据属性特征向量使同一检测对象的预选框分到同一个分组,不同的分组对应不同的检测对象。
在利用Associate embedding模型确定每个预选框所属的分组之前,还需要对Associate embedding模型中的embedding encoding网络进行训练。以确定embeddingencoding网络输出何种属性特征向量。训练过程中,上述属性特征向量的约束条件为属性特征向量之间的距离,其可以是欧式距离、余弦距离等。可以通过第一个约束条件将属于同一个检测对象的预选框的属性特征向量的距离拉近,进而通过属性特征向量将属于同一个检测对象的预选框添加至同一个分组;通过第二个约束条件将属于不同检测对象的预选框的属性特征向量的距离拉远,进而通过属性特征向量将属于不同检测对象的预选框添加至不同的分组。具体的,第一个约束条件可以为Lpull损失函数,第二个约束条件可以为Lpush损失函数。可以先通过Lpull损失函数对embedding encoding网络进行距离拉近训练,再通过Lpush损失函数对embedding encoding网络进行距离拉远训练;也可以同时利用Lpull损失函数和Lpush损失函数对embedding encoding网络进行训练。
需要说明的是,上述Lpull损失函数形如:
Figure 377957DEST_PATH_IMAGE001
,其中,M为属性特征向量的个数,ek、ej均表示任意的属性特征向量,Cm表示相应检测对象对 应的属性特征向量的个数;上述Lpush损失函数形如:
Figure 373726DEST_PATH_IMAGE002
, 其中,M为属性特征向量的个数,ek、ej均表示任意的属性特征向量,
Figure 684621DEST_PATH_IMAGE003
表示预设的距离值。
embedding encoding网络训练完成,并在通过区域候选网络RPN模型得到预选框之后,使用embedding encoding网络获得各个预选框的属性特征向量,即得到embeddingvalue(嵌入值)。embedding value可以为N维向量,对每个预选框得到一个N维向量,该N维向量可以表示为:
Figure 486355DEST_PATH_IMAGE005
在本发明实施例中,获得属性特征向量目的是区分预选框内不同的物体实例(instance,也即,检测对象),该特征向量需要具有实例级别的区分能力,能区分每一个检测对象,而不仅仅是类别级别的区分能力(区分检测对象的种类),所以对特征提取网络的选取有一定的要求,而实例属性特征投影网络获得的属性特征向量embedding value,具备很好的实例级别的区分能力。
另外,属性特征向量embedding encoding的生成是利用具有分组关系关联性建模模型Associate embedding根据实际预选框的关联关系直接优化得到的,是直接根据预选框分组任务进行优化的,因此可以得到更为直接、良好的性能提升。
进一步,实例属性特征投影网络由神经网络实现,能够与预选框的检测网络(例如特征金字塔网络和区域候选网络RPN)进行融合,二者共享网络的基础特征,减少计算量。并且,在预选框的检测网络训练过程中可以直接与实例属性特征投影网络进行结合,实现二者整体网络的联合训练,无需增加其他外部信息,训练过程比较简单。
进一步地,在得到上述N维向量之后,就可以通过比较两个不同的预选框的N维向量之间欧氏距离的大小,来判断这两个不同的预选框是否属于同一个分组,即确定这两个不同的预选框是否属于同一个检测对象。
可以通过设置预设阈值来判断两个N维向量之间欧式距离的大小。例如,对于预设阈值x,如果两个不同的预选框的N维向量之间欧氏距离小于x,则认为这两个预选框之间的距离较小,认为他们属于同一个分组。
针对其他预选框,均采用上述所描述的方式确定其所属的分组,此处不再一一介绍。
通过上述处理方式,能够准确的确定每个预选框所属的检测对象,从而进一步降低检测对象漏检的概率。
可选地,通过所述关联性建模模型的聚类模块,基于所述每个预选框的属性特征向量确定所述至少一个预选框中每个预选框所属的分组,得到所述至少一个预选框组,可以通过下述实施方式实现:
步骤S1,计算任意两个所述属性特征向量之间的向量距离值,得到多个向量距离值;
步骤S2,将所述多个向量距离值中小于预设阈值的两个预选框添加至相同的分组,未添加至分组中的其他每一个预选框分别单独作为一个分组;
步骤S3,通过聚类算法对得到的至少一个分组进行聚类分组,得到所述至少一个预选框组。
在本发明实施例中,使用上述embedding encoding网络对所有预选框回归得到属性特征向量,分别计算任意两个属性特征向量之间的向量距离值,向量距离值可以通过欧式距离等距离计算方法计算得到。
之后,分别比较得到的所有向量距离值与预设阈值的大小,其中,预设阈值的大小可以根据实际需要或者根据经验确定,本实施例对此不作具体限定。如果向量距离值小于预设阈值,可以确定该向量距离值为目标向量距离值,认为该目标向量距离值对应的两个预选框对应同一个检测对象,因此,将该目标向量距离值所对应的两个预选框添加至同一分组。与其他属性特征向量之间的向量距离值均不小于预设阈值的属性特征向量对应的预选框分别单独作为一个分组。从而,可以得到至少一个分组。
需要说明的是,如果两个不同的目标向量距离值对应的两组预选框中,有相同的预选框,即两个不同的目标向量距离值对应三个不同的预选框,可将该三个不同的预选框添加至同一分组。
在得到至少一个分组之后,通过聚类算法对得到的至少一个分组进行聚类分组。
需要说明的是,聚类算法可以为常用的算法,例如,可以为K均值聚类算法(K-means clustering algorithm,K-means)或均值漂移聚类算法等。
例如,待处理对象中有f1-f8号预选框,及四个检测对象A、B、C和D。对f1-f8号预选框分别使用embedding encoding算法回归出其属性特征向量,即embedding value。分别计算任意两个属性特征向量之间的向量距离值,再从多个向量距离值中筛选出小于预设阈值的目标向量距离值依次为s1-s4,其中,s1为f1、f2号预选框之间的向量距离值,s2为f2、f3号预选框之间的向量距离值,s3为f4、f5号预选框之间的向量距离值,s4为f5、f8号预选框之间的向量距离值。根据上述信息,将目标向量距离值s1对应的f1、f2号预选框添加至同一分组,将目标向量距离值s2对应的f2、f3号预选框添加至同一分组由于f1、f2号预选框已经在同一分组,f2、f3号预选框也在同一分组,因此,f1、f2和f3号预选框在同一分组,同理,f4、f5和f8号预选框在同一分组。由于f6号和f7号预选框的属性特征向量与任意特征向量之间的向量距离值均不小于预设阈值,故将f6号和f7号预选框分别作为一个分组。分组结果中共包括四个分组,其中,一个分组包括f1、f2和f3号预选框;一个分组包括f4、f5和f8号预选框;一个分组包括f6号预选框;一个分组包括f7号预选框。根据得到的4个分组再进行聚类分组,可得到4个预选框组。
又例如,待处理图像中有f1-f4号预选框及A、B和C三个检测对象,对f1-f4号预选框分别使用embedding encoding算法回归出其属性特征向量,即embedding value分别为a1,a2,a3,a4,如果向量a1和向量a4之间的欧式距离小于预设阈值,则认为向量a1和向量a4属于A、B或C中的同一个检测对象;如果向量a1与向量a2、向量a1与向量a3、向量a2与向量a3之间的向量距离值均不小于预设阈值,则认为向量a1,a2和a3三者两两之间均不属于同一个检测对象,若还满足向量a2与向量a4、向量a3与向量a4之间的向量距离值都不小于预设阈值,可确定向量a2属于A、B或C中的某一个检测对象;向量a3属于A、B或C中不同于a2的检测对象,也不同于向量a1和向量a4对应的检测对象的检测对象。即得到的分组结果可能为:a1和向量a4属于A,向量a2属于B,向量a3属于C。
在确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组之后,就可以对每个预选框组进行去重处理,得到去重处理之后的预选框组;并基于去重处理之后的预选框组确定每个检测对象的目标检测框。
通过上述描述可知,每个预选框组可能包括可见框组和完整框组,基于此,步骤S208对每个预选框组进行去重处理,得到去重处理之后的预选框包括:对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组,去重处理之后的可见框组可能包括一个可见框也可能包括一组可见框。
步骤S210基于所述去重处理之后的预选框组确定每个检测对象的目标检测框包括:基于所述去重处理之后的可见框组和所述完整框组确定每个检测对象的目标检测框。
具体地,在本实施例中,首先,获取包含一个或多个检测对象的待处理图像;然后,对待处理图像进行物体检测,得到至少一个预选框;之后,确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;接下来,对至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组;最后,基于去重处理之后的可见框组和完整框组确定每个检测对象的目标检测框。
通过上述描述可知,在本发明实施例中,由于本发明实施例识别的检测对象可能密集存在于待处理图像中,从而导致检测对象的完整框的重合度较高,为了降低去重的复杂度,可以仅对预选框组中的可见框组进行去重处理。之后,就可以根据去重之后的可见框组和未去重的完整框组来确定每个检测对象的目标检测框。
具体地,在本实施例中,可以将去重之后的可见框组和未去重的完整框组输入到R-CNN模型中进行物体检测,进而得到每个检测对象的目标检测框。
需要说明的是,在本发明实施例中,在根据去重之后的可见框组和未去重的完整框组作为R-CNN模型的输入,重新进行物体检测时,对于被遮挡物体,可以仅将可见框组或完整框组作为R-CNN模型的输入,以提高检测的效率,也可以将可见框组和完整框组一同作为R-CNN模型的输入,以提高检测的精度,本实施例对此不做具体限定。
可选地,在本实施例中,步骤对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组包括:利用非极大值抑制算法对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组。
在本发明实施例中,使用非极大值抑制算法(non maximum suppression,nms)从预选框组中去掉多余的预选框,通过设置nms算法中的阈值,对预选框组中的可见框组进行去重处理。在得到各检测对象的预选框组之后,由于完整框组中各个完整框的重合度较高,可不对完整框进行去重处理。因此,使用nms算法仅对可见框组进行去重处理,得到去重处理之后的可见框组。也就是说,在本实施例中,在得到检测对象的预选框组之后,若预选框组中包含可见框组和完整框组,则可以对检测对象的可见框组进行去重处理。
需要说明的是,参见图3所示的一种密集遮挡同类物体的可见框与完整框示意图。图3中,左侧的一号框1和三号框3分别为遮挡对象P和被遮挡对象Q的完整框。通常在密集遮挡人群的人体检测过程中,使用nms算法仅针对同一种类的所有检测对象的预选框进行去重,无法针对实例(不同检测对象)进行良好的区分和认知,一号框1和三号框3之间的交并比一般大于nms中预设的阈值,这就导致两个问题:若阈值过高,则无法有效地对重复预选框进行去重;若阈值过低,则容易把后面被遮挡对象Q的三号框3删掉,造成该被遮挡对象Q的漏检。
右侧的五号框5和六号框6之间也存在同样的问题。而虚线框二号框2为被遮挡对象Q的可见框,可以看到被遮挡对象Q的可见部分的二号框2和遮挡对象P的一号框1的重合度是明显小于三号框3与一号框1的重合度,因此,可以通过二号框2对遮挡对象P和被遮挡对象Q进行区分,将作为可见框的二号框2与作为完整框的三号框3进行绑定,成为一个预选框组,避免去重过程中将三号框3作为遮挡对象P的冗余而去掉。
通过去重处理之后的可见框组和完整框组,能够简化计算过程,提高R-CNN模型的计算速度和计算准确度,从而得到更加准确的目标检测框。
可选地,在本实施例中,步骤基于所述去重处理之后的可见框组和所述完整框组确定每个检测对象的目标检测框包括:
步骤S21,对所述去重处理之后的可见框组中的各个可见框进行局部特征对齐处理;以及对所述完整框组中的各个完整框进行局部特征对齐处理;
步骤S22,将特征对齐处理之后的可见框和特征对齐处理之后的完整框输入至目标物检测模型进行检测处理,得到所述特征对齐处理之后的可见框位置坐标和分类概率值,以及得到特征对齐处理之后的完整框的位置坐标和分类概率值;
步骤S23,基于目标位置坐标和目标分类概率值确定每个检测对象的目标检测框,其中,所述目标位置坐标包括:所述特征对齐处理之后的可见框位置坐标和/或所述特征对齐处理之后的完整框的位置坐标,所述目标分类概率值包括:所述特征对齐处理之后的可见框的分类概率值和/或所述特征对齐处理之后的完整框的分类概率值。
在本发明实施例中,首先,对可见框组中的各个可见框及完整框组中的各个完整框进行局部特征对齐处理。局部特征对齐处理的目的是将可见框组中的各个可见框和完整框组中的各个完整框调整到同样的大小。
可选地,上述目标物检测模型可以选择R-CNN模型。在对去重处理之后的可见框组进行局部特征对齐处理,以及完整框中的完整框进行局部特征对齐处理之后,就可以利用对齐处理之后的可见框和对齐处理之后的完整框确定其所对应的检测对象的目标检测框。
可选地,可以将对齐处理之后的可见框和/或对齐处理之后的完整框作为目标物检测模型(例如R-CNN模型)的输入,通过目标物检测模型的检测处理后,分别得到每个可见框的坐标位置和分类概率值,以及得到每个完整框的坐标位置和分类概率值。
由于已经确定了每个可见框或完整框所属的检测对象,对每个检测对象包括的可见框或完整框,可以根据它们的目标位置坐标和目标分类概率值分别进行融合,融合后的可见框或融合后的完整框即为相应检测对象的目标检测框。对于未被遮挡的检测对象,其目标检测框为它的最终完整框,最终完整框是一个或多个对完整框融合得到的一个检测框;对于被遮挡的检测对象,其目标检测框为它的最终完整框和最终可见框,最终可见框是对一个或多个可见框融合得到的一个检测框。其中,对于被遮挡的检测对象,对其完整框和可见框分别进行融合,得到最终完整框和最终可见框。
需要说明的是,可以仅将特征对齐处理之后的可见框作为目标物检测模型的输入,也可以仅将特征对齐处理之后的完整框作为目标物检测模型的输入,还可以将特征对齐处理之后的可见框和特征对齐处理之后的完整框一起作为目标物检测模型的输入,本实施例对此不作具体限定。
可选地,在本实施例中,步骤S23,基于目标位置坐标和目标分类概率值确定每个检测对象的目标检测框包括如下步骤:
步骤S231,将所述目标分类概率值作为对应的目标位置坐标的权重;
步骤S232,根据所述目标分类概率值对每个检测对象的所述目标位置坐标计算加权平均值,得到所述检测对象的目标检测框;所述目标检测框包括最终可见框和/或最终完整框。
在本发明实施例中,可见框的目标位置坐标表示可见框在待处理图像中对应的位置信息,可见框的目标分类概率值表示对可见框的检测处理结果的评估。完整框的目标位置坐标表示完整框在待处理图像中对应的位置信息,完整框的目标分类概率值表示对完整框的检测处理结果的评估。目标分类概率值越高,表示该可见框或完整框的检测处理结果越好,因此,赋予其更高的权重,可以将目标分类概率值作为权重值,从而对目标位置坐标计算加权平均值,得到对象的目标检测框,通过加权平均值法得到的目标检测框,融合了各个可见框或完整框的综合检测处理评估结果,得到目标检测框的位置也更加贴近检测对象的实际位置情况。
需要说明的是,目标检测框是最终检测对象的精确可见框或精确完整框。其中,精确可见框是可以精确描述被遮挡检测对象的最大可见区域的最小包围框。
可选地,在本实施例中,如果特征金字塔中包括多个特征图;那么对所述去重处理之后的可见框组中的各个可见框进行局部特征对齐处理包括如下步骤:
步骤S31,在所述特征金字塔中选择第一目标特征图;
步骤S32,基于所述去重处理之后的可见框组中的每个可见框对所述特征金字塔中的第一目标特征图进行特征裁剪,得到第一裁剪结果;对所述第一裁剪结果进行局部特征对齐处理。
在本发明实施例中,第一目标特征图是指可见框组中的可见框在特征金字塔中对应的特征图。由于特征金字塔中包含不同尺度的特征图,不同尺度的特征图通过金字塔网络对待处理图像进行不同比例的放缩得到。
在确定可见框对应的第一目标特征图后,可以将该可见框按照第一目标特征图相对于待处理图像放缩的比例进行放缩,并在第一目标特征图中确定放缩后的可见框的位置。进而获取该位置对应的第一目标特征图中的特征及其位置信息,作为第一裁剪结果。对第一裁剪结果进行局部特征对齐处理,并将对齐处理之后的第一裁剪结果输入到目标物检测模型中进行物体检测。
需要说明的是,可以利用Mask RCNN中的ROI Align模块将可见框对应的特征裁剪出来,再利用RCNN模型对第一裁剪结果进行进一步的局部特征对齐处理。
可选地,在本实施例中,如果特征金字塔中包括多个特征图;对所述完整框组中的各个完整框进行局部特征对齐处理包括如下步骤:
步骤S41,在所述特征金字塔中选择第二目标特征图;
步骤S42,基于所述完整框组中的各个完整框对所述特征金字塔中的第二目标特征图进行特征裁剪,得到第二裁剪结果;
步骤S43,对所述第二裁剪结果进行局部特征对齐处理。
在本发明实施例中,第二目标特征图是指完整框组中的完整框在特征金字塔中对应的特征图。由于特征金字塔中包含不同尺度的特征图,不同尺度的特征图通过对待处理图像进行不同比例的放缩得到,在确定完整框对应的第二目标特征图后,将该完整框按照第二目标特征图相对于待处理图像放缩的比例进行放缩,并在第二目标特征图中确定放缩后的完整框的位置,获取该位置对应的第二目标特征图中的特征及其位置信息,作为第二裁剪结果。在将第二裁剪结果输入到目标物检测模型之前,对第二裁剪结果进行局部特征对齐处理。
需要说明的是,可以利用Mask RCNN中的ROI Align模块将可见框对应的特征裁剪出来,再利用RCNN模型对第二裁剪结果进行进一步的局部特征对齐处理。
在本发明实施例中,比起现有的物体检测算法仅考虑类别层次的物体检测,本发明实施例提供的方法可以对检测对象进行良好的区分和认知,在多物体特别是同类物体密集出现,产生遮挡的情况下,在RPN阶段使用可见框和完整框作为回归目标,同时,对于产生的预选框,根据其对应的不同检测对象,进行隐变量(embedding value)区分,从而不仅区分不同类别的物体的预选框,同时也区分不同检测对象的预选框,然后使用R-CNN对去重结果再次进行回归,并将不同检测对象的回归结果进行框的融合,得到最后的检测结果,从而实现对密集遮挡情况下对被遮挡物体的识别,避免了被遮挡物体的漏检。
实施例三:
本发明实施例还提供了一种物体检测装置,该物体检测装置主要用于执行本发明实施例上述内容所提供的物体检测方法,以下对本发明实施例提供的物体检测装置做具体介绍。
图5是根据本发明实施例的一种物体检测装置的示意图,如图5所示,该物体检测装置主要包括图像获取单元10,预选框获取单元,20,分组单元30,去重单元40,确定单元50,其中:
图像获取单元10,用于获取包含一个或多个检测对象待处理图像;
预选框获取单元20,用于对所述待处理图像进行物体检测,得到至少一个预选框,其中,所述预选框包括可见框和/或完整框,所述完整框为对一个检测对象整体的包围框,所述可见框为每个检测对象在所述待处理图像中可见区域的包围框;
分组单元30,用于通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;相同预选框组中的预选框属于相同的检测对象;
去重单元40,用于对每个预选框组进行去重处理,得到去重处理之后的预选框组;
确定单元50,用于基于所述去重处理之后的预选框组确定每个检测对象的目标检测框。
在本发明实施例中,首先获取包含一个或多个检测对象待处理图像,然后,对待处理图像进行物体检测,得到至少一个预选框,接下来,确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组,通过对预选框组进行去重处理,去除冗余的预选框,得到去重之后的预选框组,从而基于去重处理之后的预选框组确定每个检测对象的目标检测框,进而实现了对待处理图像中一个或多个检测对象的检测,有效地避免检测对象的漏检。
可选地,每个所述预选框组包括可见框组和完整框组;去重单元40还用于:对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组;基于所述去重处理之后的预选框组确定每个检测对象的目标检测框包括:基于所述去重处理之后的可见框组和所述完整框组确定每个检测对象的目标检测框。
可选地,预选框获取单元20,还用于:将所述待处理图像输入到特征金字塔网络中进行处理,得到特征金字塔;利用区域候选网络RPN模型对所述特征金字塔进行处理,得到所述至少一个预选框,其中,所述至少一个预选框中的每个预选框携带属性标签,所述属性标签用于确定每个预选框所属类型,所述类型包括完整框和可见框。
可选地,分组单元30通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组包括:通过所述关联性建模模型的实例属性特征投影网络获得所述至少一个预选框中每个预选框的属性特征向量;通过所述关联性建模模型的聚类模块,基于所述每个预选框的属性特征向量确定所述至少一个预选框中每个预选框所属的分组,得到所述至少一个预选框组。
可选的,所述实例属性特征投影网络通过Lpull损失函数和Lpush损失函数训练获得;其中,通过Lpull损失函数将属于同一个检测对象的预选框的属性特征向量的距离拉近,通过Lpush损失函数将属于不同检测对象的预选框的属性特征向量的距离拉远。
可选地,分组单元30通过所述关联性建模模型的聚类模块计算任意两个所述属性特征向量之间的向量距离值,得到多个向量距离值;将所述多个向量距离值中小于预设阈值的两个预选框添加至相同的分组,未添加至分组中的其他每一个预选框分别单独作为一个分组;通过聚类算法对得到的至少一个分组进行聚类分组,得到所述至少一个预选框组。
可选地,去重单元40,还用于:利用非极大值抑制算法对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组。
可选地,确定单元50,还用于:对所述去重处理之后的可见框组中的各个可见框进行局部特征对齐处理;以及对所述完整框组中的各个完整框进行局部特征对齐处理;将特征对齐处理之后的可见框和特征对齐处理之后的完整框输入至目标物检测模型进行检测处理,得到所述特征对齐处理之后的可见框位置坐标和分类概率值,以及得到特征对齐处理之后的完整框的位置坐标和分类概率值;基于目标位置坐标和目标分类概率值确定每个检测对象的目标检测框,其中,所述目标位置坐标包括:所述特征对齐处理之后的可见框位置坐标和/或所述特征对齐处理之后的完整框的位置坐标,所述目标分类概率值包括:所述特征对齐处理之后的可见框的分类概率值和/或所述特征对齐处理之后的完整框的分类概率值。
可选地,确定单元50,还用于:将所述目标分类概率值作为对应的目标位置坐标的权重;根据所述目标分类概率值对每个检测对象的所述目标位置坐标计算加权平均值,得到所述检测对象的目标检测框;所述目标检测框包括最终可见框和/或最终完整框。
可选地,所述特征金字塔中包括多个特征图,确定单元50,还用于:在所述特征金字塔中选择第一目标特征图;基于所述去重处理之后的可见框组中的每个可见框对所述特征金字塔中的第一目标特征图进行特征裁剪,得到第一裁剪结果;对所述第一裁剪结果进行局部特征对齐处理。
可选地,所述特征金字塔中包括多个特征图,确定单元50,还用于:对所述完整框组中的各个完整框进行局部特征对齐处理包括:在所述特征金字塔中选择第二目标特征图;基于所述完整框组中的各个完整框对所述特征金字塔中的第二目标特征图进行特征裁剪,得到第二裁剪结果;对所述第二裁剪结果进行局部特征对齐处理。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的一种物体检测方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种物体检测方法,其特征在于,包括:
获取包含一个或多个检测对象的待处理图像;
对所述待处理图像进行物体检测,得到至少一个预选框,其中,所述预选框包括可见框和/或完整框,所述完整框为对一个检测对象整体的包围框,所述可见框为检测对象在所述待处理图像中可见区域的包围框;
通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;相同预选框组中的预选框属于相同的检测对象;每个所述预选框组包括可见框组和完整框组;所述关联性建模模型由神经网络实现,依据所述至少一个预选框内图像的特征信息和预选框的位置信息确定所述分组;
对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组;
基于所述去重处理之后的目标可见框组和所述目标完整框组确定检测对象的目标检测框。
2.根据权利要求1所述的方法,其特征在于,通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组包括:
通过所述关联性建模模型的实例属性特征投影网络获得所述至少一个预选框中每个预选框的属性特征向量;
通过所述关联性建模模型的聚类模块,基于所述每个预选框的属性特征向量确定所述至少一个预选框中每个预选框所属的分组,得到所述至少一个预选框组。
3.根据权利要求2所述的方法,其特征在于,所述实例属性特征投影网络通过Lpull损失函数和Lpush损失函数训练获得;
其中,通过Lpull损失函数将属于同一个检测对象的预选框的属性特征向量的距离拉近,通过Lpush损失函数将属于不同检测对象的预选框的属性特征向量的距离拉远。
4.根据权利要求2所述的方法,其特征在于,通过所述关联性建模模型的聚类模块,基于所述每个预选框的属性特征向量确定所述至少一个预选框中每个预选框所属的分组,得到所述至少一个预选框组包括:
计算任意两个所述属性特征向量之间的向量距离值,得到多个向量距离值;
将所述多个向量距离值中小于预设阈值的两个预选框添加至相同的分组,未添加至分组中的其他每一个预选框分别单独作为一个分组;
通过聚类算法对得到的至少一个分组进行聚类分组,得到所述至少一个预选框组。
5.根据权利要求1所述的方法,其特征在于,对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组包括:
利用非极大值抑制算法对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组。
6.根据权利要求5所述的方法,其特征在于,基于所述去重处理之后的可见框组和所述完整框组确定每个检测对象的目标检测框包括:
对所述去重处理之后的可见框组中的各个可见框进行局部特征对齐处理;以及对所述完整框组中的各个完整框进行局部特征对齐处理;
将特征对齐处理之后的可见框和特征对齐处理之后的完整框输入至目标物检测模型进行检测处理,得到所述特征对齐处理之后的可见框位置坐标和分类概率值,以及得到特征对齐处理之后的完整框的位置坐标和分类概率值;
基于目标位置坐标和目标分类概率值确定每个检测对象的目标检测框,其中,所述目标位置坐标包括:所述特征对齐处理之后的可见框位置坐标和/或所述特征对齐处理之后的完整框的位置坐标,所述目标分类概率值包括:所述特征对齐处理之后的可见框的分类概率值和/或所述特征对齐处理之后的完整框的分类概率值。
7.根据权利要求6所述的方法,其特征在于,基于目标位置坐标和目标分类概率值确定每个检测对象的目标检测框包括:
将所述目标分类概率值作为对应的目标位置坐标的权重;
根据所述目标分类概率值对每个检测对象的所述目标位置坐标计算加权平均值,得到所述检测对象的目标检测框;所述目标检测框包括目标可见框和/或目标完整框。
8.根据权利要求1所述的方法,其特征在于,对所述待处理图像进行物体检测,得到至少一个预选框包括:
将所述待处理图像输入到特征金字塔网络中进行处理,得到特征金字塔;
利用区域候选网络RPN模型对所述特征金字塔进行处理,得到所述至少一个预选框,其中,所述至少一个预选框中的每个预选框携带属性标签,所述属性标签用于确定每个预选框所属类型,所述类型包括完整框和可见框。
9.一种物体检测装置,其特征在于,包括:
图像获取单元,用于获取包含一个或多个检测对象待处理图像;
预选框获取单元,用于对所述待处理图像进行物体检测,得到至少一个预选框,其中,所述预选框包括可见框和/或完整框,所述完整框为对一个检测对象整体的包围框,所述可见框为每个检测对象在所述待处理图像中可见区域的包围框;
分组单元,用于通过关联性建模模型确定所述至少一个预选框中每个预选框所属的分组,得到至少一个预选框组;相同预选框组中的预选框属于相同的检测对象;每个所述预选框组包括可见框组和完整框组;所述关联性建模模型由神经网络实现,依据所述至少一个预选框内图像的特征信息和预选框的位置信息确定所述分组;
去重单元,用于对所述至少一个预选框组中的可见框组进行去重处理,得到去重处理之后的可见框组;
确定单元,用于基于所述去重处理之后的目标可见框组和所述目标完整框组确定检测对象的目标检测框。
10.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至8中任一项所述的方法的步骤。
11.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1-8中任一所述方法。
CN201910186133.5A 2019-03-12 2019-03-12 一种物体检测方法、装置及电子设备 Active CN109948497B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910186133.5A CN109948497B (zh) 2019-03-12 2019-03-12 一种物体检测方法、装置及电子设备
PCT/CN2019/126435 WO2020181872A1 (zh) 2019-03-12 2019-12-18 一种物体检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910186133.5A CN109948497B (zh) 2019-03-12 2019-03-12 一种物体检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109948497A CN109948497A (zh) 2019-06-28
CN109948497B true CN109948497B (zh) 2022-01-28

Family

ID=67009787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910186133.5A Active CN109948497B (zh) 2019-03-12 2019-03-12 一种物体检测方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN109948497B (zh)
WO (1) WO2020181872A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948497B (zh) * 2019-03-12 2022-01-28 北京旷视科技有限公司 一种物体检测方法、装置及电子设备
CN110532897B (zh) * 2019-08-07 2022-01-04 北京科技大学 零部件图像识别的方法和装置
CN110827261B (zh) * 2019-11-05 2022-12-06 泰康保险集团股份有限公司 图像质量检测方法及装置、存储介质及电子设备
CN111178128B (zh) * 2019-11-22 2024-03-19 北京迈格威科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN111582177A (zh) * 2020-05-09 2020-08-25 北京爱笔科技有限公司 一种图像检测方法和相关装置
CN112348077A (zh) * 2020-11-04 2021-02-09 深圳Tcl新技术有限公司 图像识别方法、装置、设备及计算机可读存储介质
CN112699881A (zh) * 2020-12-31 2021-04-23 北京一起教育科技有限责任公司 一种图像识别方法、装置及电子设备
CN113111732A (zh) * 2021-03-24 2021-07-13 浙江工业大学 一种高速服务区密集行人检测方法
CN113469174A (zh) * 2021-04-12 2021-10-01 北京迈格威科技有限公司 稠密物体检测方法、装置、设备和存储介质
CN113761245B (zh) * 2021-05-11 2023-10-13 腾讯科技(深圳)有限公司 图像识别方法、装置、电子设备及计算机可读存储介质
CN113379683A (zh) * 2021-05-24 2021-09-10 北京迈格威科技有限公司 物体检测方法、装置、设备及介质
CN113743333B (zh) * 2021-09-08 2024-03-01 苏州大学应用技术学院 一种草莓熟度识别方法及装置
CN114299316A (zh) * 2021-12-27 2022-04-08 浙江蓝卓工业互联网信息技术有限公司 一种图像目标区域的去重方法及装置
CN113987667B (zh) * 2021-12-29 2022-05-03 深圳小库科技有限公司 建筑布局等级的确定方法、装置、电子设备和存储介质
CN115731517B (zh) * 2022-11-22 2024-02-20 南京邮电大学 一种基于Crowd-RetinaNet网络的拥挤人群检测方法
CN117237697B (zh) * 2023-08-01 2024-05-17 北京邮电大学 一种小样本图像检测方法、***、介质及设备
CN117372919B (zh) * 2023-09-22 2024-07-19 北京市燃气集团有限责任公司 一种第三方施工威胁物检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103597514A (zh) * 2011-06-10 2014-02-19 松下电器产业株式会社 物体检测框显示装置和物体检测框显示方法
CN106529527A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 物体检测方法和装置、数据处理装置和电子设备
CN108399388A (zh) * 2018-02-28 2018-08-14 福州大学 一种中高密度人群数量统计方法
CN109190458A (zh) * 2018-07-20 2019-01-11 华南理工大学 一种基于深度学习的小人头检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2341231A (en) * 1998-09-05 2000-03-08 Sharp Kk Face detection in an image
US9697599B2 (en) * 2015-06-17 2017-07-04 Xerox Corporation Determining a respiratory pattern from a video of a subject
CN106557778B (zh) * 2016-06-17 2020-02-07 北京市商汤科技开发有限公司 通用物体检测方法和装置、数据处理装置和终端设备
US10657364B2 (en) * 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
CN108960266B (zh) * 2017-05-22 2022-02-08 阿里巴巴集团控股有限公司 图像目标检测方法及装置
CN109948497B (zh) * 2019-03-12 2022-01-28 北京旷视科技有限公司 一种物体检测方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103597514A (zh) * 2011-06-10 2014-02-19 松下电器产业株式会社 物体检测框显示装置和物体检测框显示方法
CN106529527A (zh) * 2016-09-23 2017-03-22 北京市商汤科技开发有限公司 物体检测方法和装置、数据处理装置和电子设备
CN108399388A (zh) * 2018-02-28 2018-08-14 福州大学 一种中高密度人群数量统计方法
CN109190458A (zh) * 2018-07-20 2019-01-11 华南理工大学 一种基于深度学习的小人头检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CornerNet: Detecting Objects as Paired Keypoints;Hei Law et al.;《ECCV 2018: Computer Vision》;20181009;765-781 *
Personlab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model;George Papandreou et al.;《Proceedings of the European Conference on Computer Vision (ECCV)》;20180930;269-286 *
基于区域复合概率的行人候选框生成;覃剑 等;《电子学报》;20180731;第46卷(第7期);1719-1725 *

Also Published As

Publication number Publication date
CN109948497A (zh) 2019-06-28
WO2020181872A1 (zh) 2020-09-17

Similar Documents

Publication Publication Date Title
CN109948497B (zh) 一种物体检测方法、装置及电子设备
CN109255352B (zh) 目标检测方法、装置及***
CN109376667B (zh) 目标检测方法、装置及电子设备
CN108256404B (zh) 行人检测方法和装置
CN107358149B (zh) 一种人体姿态检测方法和装置
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN108009466B (zh) 行人检测方法和装置
CN110688524B (zh) 视频检索方法、装置、电子设备及存储介质
CN112200081A (zh) 异常行为识别方法、装置、电子设备及存储介质
CN109117773B (zh) 一种图像特征点检测方法、终端设备及存储介质
CN106845352B (zh) 行人检测方法和装置
CN107563299B (zh) 一种利用ReCNN融合上下文信息的行人检测方法
CN110610202B (zh) 一种图像处理方法及电子设备
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN111291887A (zh) 神经网络的训练方法、图像识别方法、装置及电子设备
CN112364846B (zh) 一种人脸活体识别方法、装置、终端设备及存储介质
CN111461070B (zh) 文本识别方法、装置、电子设备及存储介质
CN113449690A (zh) 图像场景变化的检测方法、***及电子设备
CN110490058B (zh) 行人检测模型的训练方法、装置、***和计算机可读介质
CN112419342A (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN115223022A (zh) 一种图像处理方法、装置、存储介质及设备
CN109961103B (zh) 特征提取模型的训练方法、图像特征的提取方法及装置
CN112464810A (zh) 一种基于注意力图的吸烟行为检测方法及装置
CN111860623A (zh) 基于改进ssd神经网络的统计树木数量的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant