CN108875750B

CN108875750B - 物体检测方法、装置和***及存储介质

Info

Publication number: CN108875750B
Application number: CN201710740825.0A
Authority: CN
Inventors: 王志成; 俞刚
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2021-08-10
Anticipated expiration: 2037-08-25
Also published as: CN108875750A

Abstract

本发明实施例提供一种物体检测方法、装置和***及存储介质。方法包括：获取待检测图像；将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图；将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域；对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征；将物体特征图中该物体候选区域的特征与对应的场景区域特征结合；以及将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。本发明可以提升物体检测的准确率。

Description

物体检测方法、装置和***及存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种物体检测方法、装置和***及存储介质。

背景技术

物体检测是计算视觉领域的一个重要问题，也有着很广泛的应用，如：无人驾驶、机器人或安防场景中对特定物体(人或物)进行检测的技术。目前的物体检测方法主要是基于区域卷积神经网络(region-based convolutional neural networks,RCNN)的改进算法以及基于单阶梯形式的算法，而这些算法在训练阶段只采用用于物体检测的数据库(例如Pascal VOC、COCO、ImageNet-det等)进行训练。但是在实际情境下，人识别某个物体的时候是无形中受到场景的影响的，如：一个白色的球状物体如果出现在泳池里，结合场景信息很大几率地会被认为是泳帽，而如果出现在排球场，则更可能会被识别为排球。目前的物体检测方法往往通过加大感受野(reception field)来表示对场景信息的理解，而这种方式明显是一种近似方法，离真正的场景理解有很大距离，所以无法将场景理解在物体检测中的作用很好地发挥出来，从某种程度上影响了物体检测准确率的提升。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种物体检测方法、装置和***及存储介质。

根据本发明一方面，提供了一种物体检测方法。该物体检测方法包括：获取待检测图像；将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图；将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域；对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征；对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。

示例性地，对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征包括：计算该物体候选区域与场景特征图中的预划分的场景区域中的每个场景区域的重叠度；选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征包括：对该物体候选区域进行缩放，以获得经缩放区域；确定场景特征图中与经缩放区域位置一致的区域为该物体候选区域的关联场景区域；以及从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果包括：对于第一数目的物体候选区域中的每一个，将结合后的特征输入分类网络，以获得分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；采用非最大值抑制算法对第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及确定第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为物体检测结果。

示例性地，对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征包括：将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

示例性地，场景网络和/或物体网络是全卷积网络。

示例性地，分类网络是全连接网络或卷积网络。

示例性地，物体检测方法还包括：利用物体分类数据库中的标注好物体类别的样本物体图像训练物体检测网络。

根据本发明另一方面，提供了一种物体检测装置，包括：图像获取模块，用于获取待检测图像；场景网络模块，用于将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图；物体网络模块，用于将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域；映射模块，用于对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征；结合模块，用于将对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及检测结果获得模块，用于对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。

示例性地，映射模块包括：重叠度计算子模块，用于对于第一数目的物体候选区域中的每一个，计算该物体候选区域与场景特征图中的预划分的场景区域中的每个场景区域的重叠度；选择子模块，用于对于第一数目的物体候选区域中的每一个，选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及第一特征提取子模块，用于对于第一数目的物体候选区域中的每一个，从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，映射模块包括：缩放子模块，用于对于第一数目的物体候选区域中的每一个，对该物体候选区域进行缩放，以获得经缩放区域；关联场景区域确定子模块，用于对于第一数目的物体候选区域中的每一个，确定场景特征图中与经缩放区域位置一致的区域为该物体候选区域的关联场景区域；以及第二特征提取子模块，用于对于第一数目的物体候选区域中的每一个，从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，检测结果获得模块包括：分类网络输入子模块，用于对于第一数目的物体候选区域中的每一个，将结合后的特征输入分类网络，以获得分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；过滤子模块，用于采用非最大值抑制算法对第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及检测结果确定子模块，用于确定第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为物体检测结果。

示例性地，结合模块包括：拼接子模块，用于对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

示例性地，场景网络和/或物体网络是全卷积网络。

示例性地，分类网络是全连接网络或卷积网络。

示例性地，物体检测装置还包括：训练模块，用于利用物体分类数据库中的标注好物体类别的样本物体图像训练物体检测网络。

根据本发明另一方面，提供了一种物体检测***，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：获取待检测图像；将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图；将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域；对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征；对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征的步骤包括：计算该物体候选区域与场景特征图中的预划分的场景区域中的每个场景区域的重叠度；选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征的步骤包括：对该物体候选区域进行缩放，以获得经缩放区域；确定场景特征图中与经缩放区域位置一致的区域为该物体候选区域的关联场景区域；以及从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果的步骤包括：对于第一数目的物体候选区域中的每一个，将结合后的特征输入分类网络，以获得分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；采用非最大值抑制算法对第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及确定第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为物体检测结果。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征的步骤包括：将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

示例性地，场景网络和/或物体网络是全卷积网络。

示例性地，分类网络是全连接网络或卷积网络。

示例性地，所述计算机程序指令被所述处理器运行时还用于执行以下步骤：利用物体分类数据库中的标注好物体类别的样本物体图像训练物体检测网络。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：获取待检测图像；将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图；将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域；对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征；对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。

示例性地，所述程序指令在运行时所用于执行的对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征的步骤包括：计算该物体候选区域与场景特征图中的预划分的场景区域中的每个场景区域的重叠度；选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，所述程序指令在运行时所用于执行的对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征的步骤包括：对该物体候选区域进行缩放，以获得经缩放区域；确定场景特征图中与经缩放区域位置一致的区域为该物体候选区域的关联场景区域；以及从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，所述程序指令在运行时所用于执行的对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果的步骤包括：对于第一数目的物体候选区域中的每一个，将结合后的特征输入分类网络，以获得分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；采用非最大值抑制算法对第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及确定第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为物体检测结果。

示例性地，所述程序指令在运行时所用于执行的对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征的步骤包括：将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

示例性地，场景网络和/或物体网络是全卷积网络。

示例性地，分类网络是全连接网络或卷积网络。

示例性地，所述程序指令在运行时还用于执行以下步骤：利用物体分类数据库中的标注好物体类别的样本物体图像训练物体检测网络。

根据本发明实施例的物体检测方法、装置和***及存储介质，将物体候选区域的特征与对应的场景区域特征关联融合起来，真正地将场景信息用于物体检测，因此可以提升物体检测的准确率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的物体检测方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的物体检测方法的示意性流程图；

图3示出根据本发明一个实施例的物体检测流程的示意图；

图4a示出根据本发明一个实施例的、对多类物体中的每类物体出现在每类场景中的概率进行统计获得的物体-场景概率图；

图4b示出根据本发明一个实施例的、对多类场景中的每类场景包含每类物体的概率进行统计获得的场景-物体概率图；

图5示出根据本发明一个实施例的物体检测装置的示意性框图；以及

图6示出根据本发明一个实施例的物体检测***的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，本发明实施例提供一种物体检测方法和装置。本文所述的物体检测方法是一种基于条件概率理论、将场景理解应用于物体检测的方法。利用场景网络作为场景信息的载体，与物体网络进行融合分类。这样，检测出的物体信息将会融合场景信息，从而可以将场景理解真正地作用于物体检测。上述融合过程实际是将物体与场景之间的条件概率应用于物体检测的过程。本发明实施例提供的物体检测方法可以很好地应用于各种采用物体检测技术的领域，例如无人驾驶、机器人或安防场景中对特定物体(人或物)进行检测的技术。

首先，参照图1来描述用于实现根据本发明实施例的物体检测方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和图像采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集图像(包括视频帧)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是监控摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集待检测图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的物体检测方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的物体检测方法。图2示出根据本发明一个实施例的物体检测方法200的示意性流程图。如图2所示，物体检测方法200包括以下步骤。

在步骤S210，获取待检测图像。

待检测图像可以是任何需要进行物体检测的图像。物体检测可以包括对物体的位置及其所属类别的检测。待检测图像可以是图像采集装置采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。此外，待检测图像可以是单个的静态图像，也可以是视频流中的某一视频帧。

待检测图像可以由客户端设备(诸如包括监控摄像头的安防设备)发送到电子设备100以由电子设备100的处理器102进行物体检测，也可以由电子设备100包括的图像采集装置110采集并传送到处理器102进行物体检测。

图3示出根据本发明一个实施例的物体检测流程的示意图。参见图3，接收到待检测图像之后，将其同时送入两个网络中。两个网络分别对应场景网络和物体网络(Object-net)。待检测图像可以分别输入场景网络和物体网络中进行处理。

在步骤S220，将所述待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图。

示例性而非限制性地，场景网络(Scene-net)可以是全卷积网络，例如，场景网络可以采用VGG或ResNet模型中的全卷积网络部分实现。将待检测图像输入场景网络之后，经过多次卷积、池化等操作，最终可以输出一个或多个特征图(feature map)，即所述场景特征图。在一个示例中，场景网络输出512个场景特征图。

在步骤S230，将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域。

示例性而非限制性地，物体网络可以是全卷积网络，例如，物体网络可以可以采用VGG或ResNet模型中的全卷积网络部分实现。

将待检测图像输入物体网络之后，物体网络可以利用类似区域建议网络(RegionProposal Network,RPN)的处理方法处理待检测图像，并最终输出一个或多个特征图(feature map)，即所述物体特征图。在一个示例中，物体网络输出512个物体特征图。物体特征图的数目和场景特征图的数目可以相同，也可以不同。此外，物体网络还可以输出若干(例如200个)物体候选区域(candidate proposals)的坐标。这样，可以确定第一数目的物体候选区域。第一数目是指由物体网络输出坐标的物体候选区域的数目，其数值可以根据需要变化，本发明不对此进行限定。示例性地，物体候选区域可以用矩形框代表。

在步骤S240，对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征。

在一个示例中，步骤S240可以包括：对于第一数目的物体候选区域中的每一个，计算该物体候选区域与场景特征图中的预划分的场景区域中的每个场景区域的重叠度；对于第一数目的物体候选区域中的每一个，选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及对于第一数目的物体候选区域中的每一个，从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性而非限制性地，可以在场景特征图中划分出至少两个子区域(称为场景区域)。需注意的是，不同场景区域之间可以存在重叠。不同场景特征图的场景区域的划分方式是相同的。

继续参考图3，在图3所示的示例中，每个场景特征图划分为五个场景区域，包括以十字线划分的四个场景区域和以特征图中心为中心划分出的一个场景区域。从五个场景区域中选择与某个物体候选区域重叠度最大的场景区域，作为该物体候选区域的关联场景区域，在图3所示的示例中为位于中心的场景区域(在图3中以较粗线条示出)。需注意，物体网络检测到的物体候选区域可以有很多个，图3仅示出其中的一个物体候选区域作为示例。示例性地，所述重叠度可以用物体候选区域与场景区域的交并比(IoU)表示。

找到关联场景区域之后，从场景特征图中提取关联场景区域对应的特征值(即关联场景区域的特征)，以获得与物体候选区域对应的场景区域特征。

划分场景区域，尤其是按照图3所示的方式划分场景区域的方式，是经过实践验证对场景的划定比较合理的一种方式，基于这种方式确定关联场景区域并获得场景区域特征之后，所最终获得的物体检测结果的准确率比较高。

当然，本发明不局限于以上示例，可以采用其他合理的方式来确定关联场景区域并进而获得场景区域特征。下面介绍关联场景区域的另一种确定方式。

在另一个示例中，步骤S240可以包括：对于第一数目的物体候选区域中的每一个，对该物体候选区域进行缩放，以获得经缩放区域；对于第一数目的物体候选区域中的每一个，确定场景特征图中与经缩放区域位置一致的区域为该物体候选区域的关联场景区域；以及对于第一数目的物体候选区域中的每一个，从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

例如，确定某一物体候选区域之后，可以将物体候选区域的面积扩大1.5倍，获得一个经缩放区域。可以理解，经缩放区域的坐标可以根据物体候选区域的坐标计算获得。随后，可以将经缩放区域的坐标直接应用于场景特征图，得到一个对应的区域，即关联场景区域。后面提取场景区域特征的方式与上一示例一致，不再赘述。本示例中提供的关联场景区域的获取方式实现简单，并且，根据物体候选区域的位置进行缩放之后得到的区域能够比较准确地包含物体候选区域周围的场景信息，从而使物体候选区域的特征能够和与该物体候选区域关联度较高的场景区域特征关联融合在一起，有利于进一步提升物体检测的准确率。

比较可取的是，上述场景特征图与上述物体特征图大小一致，以便于基于物体候选区域找到与其对应的、大小及位置合适的关联场景区域。

在步骤S250，对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征。

在一个示例中，步骤S250可以包括：对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

结合的方式可以是拼接或说连接(concatenate)。将物体候选区域的特征与对应的场景区域特征拼接起来输入到分类(classification)网络。如果第一数目的值大于1，则对每个物体候选区域分别进行处理，将各自的特征与其对应的场景区域特征拼接在一起，输入分类网络。

本领域技术人员可以理解，拼接可以采用拼接网络(例如ConcatLayer)实现，其支持某一维度(num维度或channel维度)上的合并。拼接的意义在于将多个输入组合成一个输出。在拼接过程中，可以实施适当的池化操作。

在步骤S260，对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。

示例性地，分类网络可以是全连接(fully connected)网络或者卷积网络。例如，分类网络可以由一层或多层全连接层构成。例如，分类网络还可以由一层或多层卷积层构成。例如，分类网络还可以由一层或多层全连接层加上一层或多层卷积层构成。本领域技术人员可以理解，分类网络还可以具有其他类型的层并且可以具有其他的层次组合，不再一一列举。

分类网络的输出可以包括一个或多个物体候选区域的坐标以及与每个物

体候选区域对应的该物体候选区域属于每个预定类别的置信度(score)。继续参考图3，分类网络的输出包括两部分，“物体候选区域”指的是物体候选区域的坐标，知道坐标就可以确定物体候选区域的位置。可以在原始的待检测图像上用矩形框标示出物体候选区域。

分类网络的输出以数字的形式体现。例如，每个物体候选区域的坐标可以采用一个四维向量[x1,y1,x2,y2]表示，其中[x1,y1]表示每个物体候选区域(其为矩形框)左上角的点的横坐标和纵坐标，[x2,y2]表示每个物体候选区域右下角的点的横坐标和纵坐标。置信度表示对应的物体候选区域中的物体属于某一类别的概率，其可以用浮点小数表示。预定类别的数目可以根据需要设定。例如，假设预定类别共有10种，则对于每个物体候选区域来说，可以获得10个置信度，分别表示物体候选区域属于10种预定类别的概率。

在一个示例中，所述物体检测结果可以包括分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度。也就是说，可以直接将分类网络的输出作为物体检测结果。在一般情况下，第二数目和第一数目的值相同。

在另一个示例中，可以对分类网络的输出做进一步处理来获得物体检测结果。示例性地，步骤S260可以包括：对于第一数目的物体候选区域中的每一个，将结合后的特征输入分类网络，以获得分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；采用非最大值抑制算法对第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及确定第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为物体检测结果。

在分类网络的输出结果中，可能存在与同一物体相关的多个物体候选区域，也就是说，存在多余无用的物体候选区域。采用非最大值抑制(non-maximum suppression,NMS)算法可以排除多余的物体候选区域，以提升物体检测结果的准确率和可信性。本领域技术人员可以理解NMS算法的实施方式，此处不赘述。

本文所述的场景网络、物体网络、分类网络都是主要由一些层(例如卷积层、池化层、全连接层等)构成的网络结构，因此可以将物体检测方法200中所涉及的所有网络结构视为一个总的网络模型，本文用物体检测网络表示。物体检测网络可以包括场景网络、物体网络、分类网络，还可以包括用于结合物体候选区域的特征与对应的场景区域特征的网络结构(如上述拼接网络)。可以预先对整个物体检测网络进行训练，在实际使用时，利用训练好的物体检测网络来实施物体检测方法200，以确定待检测图像中是否存在物体，物体的位置，以及物体属于每个预定类别的置信度。

物体检测方法200的各步骤的执行顺序并不局限于图2所示的顺序，其可以具有其他合理的执行顺序。例如，步骤S230可以在步骤S220之前执行。比较可取的是，步骤S230与步骤S220同步执行。

根据本发明实施例的物体检测方案融合了条件概率的理论依据。下面简要描述条件概率的理论。

根据一个示例，利用Pascal VOC 2007数据集中的检测(detection)数据作为训练数据，这些训练数据经过场景分类网络(网络结构可以与本文所述的场景网络相同或相似)处理后，标记物体所在的区域属于哪个场景类别，然后统计相关联的场景类别和物体的数目。图4a示出根据本发明一个实施例的、对多类物体中的每类物体出现在每类场景中的概率进行统计获得的物体-场景概率图；图4b示出根据本发明一个实施例的、对多类场景中的每类场景包含每类物体的概率进行统计获得的场景-物体概率图。在图4a和4b中，行表示401个场景类别(包括机场、公交站等)，列表示Pascal VOC 2007数据集中的20个物体类别，每一个行列的交汇点表示行对应场景和列对应物体之间的关联程度，颜色越深，关联程度越高。由图4a和4b可以看出，场景类别和物体类别有很大的关联性。例如，公共汽车和汽车站的关联度最高，其他关联度很高的配对也很合理。

因此，在预测物体类别的时候，可以将场景网络提取出的场景特征和物体本身的特征拼接然后再进行分类，这种检测方式融合了物体与场景之间的条件概率的理论依据。

根据本发明实施例的物体检测方法，将物体候选区域的特征与对应的场景区域特征关联融合起来，真正地将场景信息用于物体检测，因此可以提升物体检测的准确率。

示例性地，根据本发明实施例的物体检测方法可以在具有存储器和处理器的设备、装置或者***中实现。

根据本发明实施例的物体检测方法可以部署在图像采集端处，例如，在无人驾驶领域，可以部署在驾驶***的道路视觉识别采集端。替代地，根据本发明实施例的物体检测方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集待检测图像，客户端将采集到的图像传送给服务器端(或云端)，由服务器端(或云端)进行物体检测。

根据本发明实施例，物体检测方法200还可以包括：利用场景分类数据库中的标注好场景类别的样本场景图像训练场景网络。

在一个示例中，场景网络可以是预先采用场景分类数据库训练好的，这种训练称为场景网络的初始化，获得的是具有初始化参数的场景网络。场景分类数据库可以是places2数据库。当然，也可以采用其他合适的用于场景分类的数据库来训练场景网络，本发明不对此进行限制。

具有初始化参数的场景网络在后续的整个物体检测网络的训练过程中可以进一步训练。当然，场景网络也可以不参与其他网络结构的训练。也就是说，在整个物体检测网络的训练过程中，可以主要训练物体网络和分类网络以及用于结合物体候选区域的特征与对应的场景区域特征的网络结构(如上述拼接层)，场景网络中的参数保持固定，不对其参数进行更新。当然，这种训练方式仅是示例而非限制，对整个物体检测网络中的各部分网络结构的训练可以采用其他合适的方式实现，本发明不对此进行限制。

根据本发明实施例，物体检测方法200还可以包括：利用物体分类数据库中的标注好物体类别的样本物体图像训练物体检测网络。

例如，可以利用Pascal VOC 2007数据集中的检测(detection)数据作为训练数据，训练数据中包括大量样本物体图像，每个样本物体图像中的物体类别和物***置是标注好的，用对应的标注数据记录。可以利用具有初始化参数的场景网络、物体网络、分类网络和拼接网络等，计算样本物体图像中的物体属于每个预定类别的置信度和物体的位置，采用反向传播算法调整物体检测网络中采用的参数(或说权值)，直到训练收敛。

根据本发明另一方面，提供一种物体检测装置。图5示出了根据本发明一个实施例的物体检测装置500的示意性框图。

如图5所示，根据本发明实施例的物体检测装置500包括图像获取模块510、场景网络模块520、物体网络模块530、映射模块540、结合模块550和检测结果获得模块560。所述各个模块可分别执行上文中结合图2-4描述的物体检测方法的各个步骤/功能。以下仅对该物体检测装置500的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

图像获取模块510用于获取待检测图像。图像获取模块510可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

场景网络模块520用于将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图。场景网络模块520可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

物体网络模块530用于将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域。物体网络模块530可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

映射模块540用于对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征。映射模块540可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

结合模块550用于将对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征。结合模块550可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

检测结果获得模块560用于对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。检测结果获得模块560可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，映射模块540包括：重叠度计算子模块，用于对于第一数目的物体候选区域中的每一个，计算该物体候选区域与场景特征图中的预划分的场景区域中的每个场景区域的重叠度；选择子模块，用于对于第一数目的物体候选区域中的每一个，选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及第一特征提取子模块，用于对于第一数目的物体候选区域中的每一个，从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，映射模块540包括：缩放子模块，用于对于第一数目的物体候选区域中的每一个，对该物体候选区域进行缩放，以获得经缩放区域；关联场景区域确定子模块，用于对于第一数目的物体候选区域中的每一个，确定场景特征图中与经缩放区域位置一致的区域为该物体候选区域的关联场景区域；以及第二特征提取子模块，用于对于第一数目的物体候选区域中的每一个，从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，检测结果获得模块560包括：分类网络输入子模块，用于对于第一数目的物体候选区域中的每一个，将结合后的特征输入分类网络，以获得分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；过滤子模块，用于采用非最大值抑制算法对第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及检测结果确定子模块，用于确定第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为物体检测结果。

示例性地，结合模块550包括：拼接子模块，用于对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

示例性地，场景网络和/或物体网络是全卷积网络。

示例性地，分类网络是全连接网络或卷积网络。

示例性地，物体检测装置500还包括：训练模块(未示出)，用于利用物体分类数据库中的标注好物体类别的样本物体图像训练物体检测网络。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图6示出了根据本发明一个实施例的物体检测***600的示意性框图。物体检测***600包括图像采集装置610、存储装置620、以及处理器630。

图像采集装置610用于采集待检测图像。图像采集装置610是可选的，物体检测***600可以不包括图像采集装置610。在这种情况下，可以利用其他图像采集装置采集待检测图像，并将采集的图像发送给物体检测***600。

所述存储装置620存储用于实现根据本发明实施例的物体检测方法中的相应步骤的计算机程序指令。

所述处理器630用于运行所述存储装置620中存储的计算机程序指令，以执行根据本发明实施例的物体检测方法的相应步骤，并且用于实现根据本发明实施例的物体检测装置500中的图像获取模块510、场景网络模块520、物体网络模块530、映射模块540、结合模块550和检测结果获得模块560。

在一个实施例中，所述计算机程序指令被所述处理器630运行时用于执行以下步骤：获取待检测图像；将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图；将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域；对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征；对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。

示例性地，所述计算机程序指令被所述处理器630运行时所用于执行的对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征的步骤包括：计算该物体候选区域与场景特征图中的预划分的场景区域中的每个场景区域的重叠度；选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及从场景特征图中提取关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

示例性地，所述计算机程序指令被所述处理器630运行时所用于执行的对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果的步骤包括：对于第一数目的物体候选区域中的每一个，将结合后的特征输入分类网络，以获得分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；采用非最大值抑制算法对第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及确定第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为物体检测结果。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征的步骤包括：对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

示例性地，场景网络和/或物体网络是全卷积网络。

示例性地，分类网络是全连接网络或卷积网络。

示例性地，所述计算机程序指令被所述处理器630运行时还用于执行以下步骤：利用物体分类数据库中的标注好物体类别的样本物体图像训练物体检测网络。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的物体检测方法的相应步骤，并且用于实现根据本发明实施例的物体检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的物体检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的物体检测方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取待检测图像；将待检测图像输入物体检测网络中的场景网络，以获得与待检测图像的场景信息相关的场景特征图；将待检测图像输入物体检测网络中的物体网络，以获得与待检测图像的物体信息相关的物体特征图，并确定用于指示物体特征图中的物***置的第一数目的物体候选区域；对于第一数目的物体候选区域中的每一个，将该物体候选区域映射到场景特征图上，以确定与该物体候选区域对应的场景区域特征；对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及对于第一数目的物体候选区域中的每一个，将结合后的特征输入物体检测网络中的分类网络，以获得物体检测结果。

示例性地，所述程序指令在运行时所用于执行的对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征的步骤包括：对于第一数目的物体候选区域中的每一个，将物体特征图中该物体候选区域的特征与对应的场景区域特征输入物体检测网络中的拼接网络，以获得结合后的特征。

示例性地，场景网络和/或物体网络是全卷积网络。

示例性地，分类网络是全连接网络或卷积网络。

根据本发明实施例的物体检测***中的各模块可以通过根据本发明实施例的实施物体检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物体检测装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种物体检测方法，包括：

获取待检测图像；

将所述待检测图像输入物体检测网络中的场景网络，以获得与所述待检测图像的场景信息相关的场景特征图；

将所述待检测图像输入所述物体检测网络中的物体网络，以获得与所述待检测图像的物体信息相关的物体特征图，并确定用于指示所述物体特征图中的物***置的第一数目的物体候选区域；

对于所述第一数目的物体候选区域中的每一个，

将该物体候选区域映射到所述场景特征图上，以确定与该物体候选区域对应的场景区域特征；

将所述物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及

将所述结合后的特征输入所述物体检测网络中的分类网络，以获得物体检测结果。

2.如权利要求1所述的物体检测方法，其中，所述对于所述第一数目的物体候选区域中的每一个，将该物体候选区域映射到所述场景特征图上，以确定与该物体候选区域对应的场景区域特征包括：

计算该物体候选区域与所述场景特征图中的预划分的场景区域中的每个场景区域的重叠度；

选择重叠度最大的场景区域作为该物体候选区域的关联场景区域；以及

从所述场景特征图中提取所述关联场景区域的特征作为与该物体候选区域对应的场景区域特征。

3.如权利要求1所述的物体检测方法，其中，所述对于所述第一数目的物体候选区域中的每一个，将该物体候选区域映射到所述场景特征图上，以确定与该物体候选区域对应的场景区域特征包括：

对该物体候选区域进行缩放，以获得经缩放区域；

确定所述场景特征图中与所述经缩放区域位置一致的区域为该物体候选区域的关联场景区域；以及

4.如权利要求1所述的物体检测方法，其中，所述对于所述第一数目的物体候选区域中的每一个，将所述结合后的特征输入所述物体检测网络中的分类网络，以获得物体检测结果包括：

对于所述第一数目的物体候选区域中的每一个，将所述结合后的特征输入所述分类网络，以获得所述分类网络输出的、第二数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度；

采用非最大值抑制算法对所述第二数目的物体候选区域进行过滤，以获得第三数目的物体候选区域；以及

确定所述第三数目的物体候选区域中的每个物体候选区域的坐标和与每个物体候选区域对应的该物体候选区域属于每个预定类别的置信度为所述物体检测结果。

5.如权利要求1所述的物体检测方法，其中，所述对于所述第一数目的物体候选区域中的每一个，将所述物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征包括：

将所述物体特征图中该物体候选区域的特征与对应的场景区域特征输入所述物体检测网络中的拼接网络，以获得所述结合后的特征。

6.如权利要求1所述的物体检测方法，其中，所述场景网络和/或所述物体网络是全卷积网络。

7.如权利要求1所述的物体检测方法，其中，所述分类网络是全连接网络或卷积网络。

8.如权利要求1所述的物体检测方法，其中，所述物体检测方法还包括：

利用物体分类数据库中的标注好物体类别的样本物体图像训练所述物体检测网络。

9.一种物体检测装置，包括：

图像获取模块，用于获取待检测图像；

场景网络模块，用于将所述待检测图像输入物体检测网络中的场景网络，以获得与所述待检测图像的场景信息相关的场景特征图；

物体网络模块，用于将所述待检测图像输入所述物体检测网络中的物体网络，以获得与所述待检测图像的物体信息相关的物体特征图，并确定用于指示所述物体特征图中的物***置的第一数目的物体候选区域；

映射模块，用于对于所述第一数目的物体候选区域中的每一个，将该物体候选区域映射到所述场景特征图上，以确定与该物体候选区域对应的场景区域特征；

结合模块，用于将对于所述第一数目的物体候选区域中的每一个，将所述物体特征图中该物体候选区域的特征与对应的场景区域特征结合，以获得结合后的特征；以及

检测结果获得模块，用于对于所述第一数目的物体候选区域中的每一个，将所述结合后的特征输入所述物体检测网络中的分类网络，以获得物体检测结果。

10.一种物体检测***，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取待检测图像；

对于所述第一数目的物体候选区域中的每一个，

11.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取待检测图像；

对于所述第一数目的物体候选区域中的每一个，