CN106845352A

CN106845352A - 行人检测方法和装置

Info

Publication number: CN106845352A
Application number: CN201611205712.2A
Authority: CN
Inventors: 俞刚; 彭超
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2016-12-23
Filing date: 2016-12-23
Publication date: 2017-06-13
Anticipated expiration: 2036-12-23
Also published as: CN106845352B

Abstract

本发明的实施例提供了一种行人检测方法和装置。该行人检测方法包括：获取待处理图像；分析待处理图像的每个像素所属场景的场景信息；以及结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。上述行人检测方法和装置结合图像中的场景信息来进行行人检测，通过使用场景信息可以有效地减少行人检测算法所产生的假阳性结果，同时利用场景信息可以帮助行人检测算法提高检测精度。

Description

行人检测方法和装置

技术领域

本发明涉及计算机领域，更具体地涉及一种行人检测方法和装置。

背景技术

在监控领域，行人检测具有非常重要的作用。目前的行人检测算法往往通过滑窗(sliding-window)方法来从待处理图像上提取多种不同尺度的窗口(每个窗口是一个矩形框，也可以称为行人框)，并判断每个窗口中是否存在行人。但是这样的方法往往没有考虑场景的上下文(context)信息，依靠单一窗口判断是否有行人可能会得到很多假阳性(false positive)的检测结果。例如，场景中的树木、建筑物等物体可能跟行人的外观很像，这样就有可能发生误检测。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种行人检测方法和装置。

根据本发明一方面，提供了一种行人检测方法。该方法包括：获取待处理图像；分析待处理图像的每个像素所属场景的场景信息；以及结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

示例性地，在分析待处理图像的每个像素所属场景的场景信息之前，行人检测方法还包括：提取待处理图像的特征；分析待处理图像的每个像素所属场景的场景信息包括：基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息；结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人包括：结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

示例性地，基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息包括：将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

示例性地，在将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图之后，行人检测方法还包括：对于待处理图像的每个像素，从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及对于待处理图像的每个像素，确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。

示例性地，提取待处理图像的特征包括：将待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，至少一个图像特征图代表待处理图像的特征。

示例性地，结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人包括：利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积，以获得行人特征图，其中，行人特征图与待处理图像大小一致，并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

示例性地，利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积包括：对至少一个图像特征图和预定数目的场景特征图进行拼接；以及将拼接后的特征图输入一个或多个卷积层中的在先卷积层，以由一个或多个卷积层处理。

示例性地，结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人还包括：对包含同一行人的多个行人框进行筛选，以保留包含同一行人的行人框之一。

示例性地，结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人还包括：基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

示例性地，行人检测方法还包括：获取训练图像和标注数据，其中，标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别；以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。

根据本发明另一方面，提供了一种行人检测装置。该装置包括：待处理图像获取模块，用于获取待处理图像；场景分析模块，用于分析待处理图像的每个像素所属场景的场景信息；以及检测模块，用于结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

示例性地，行人检测装置还包括：特征提取模块，用于提取待处理图像的特征；场景分析模块包括：场景分析子模块，用于基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息；检测模块包括：检测子模块，用于结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

示例性地，场景分析子模块包括：输入单元，用于将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

示例性地，行人检测装置还包括：选择模块，用于对于待处理图像的每个像素，从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及场景类别确定模块，用于对于待处理图像的每个像素，确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。

示例性地，特征提取模块包括：输入子模块，用于将待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，至少一个图像特征图代表待处理图像的特征。

示例性地，检测子模块包括：卷积单元，用于利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积，以获得行人特征图，其中，行人特征图与待处理图像大小一致，并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

示例性地，卷积单元包括：拼接子单元，用于对至少一个图像特征图和预定数目的场景特征图进行拼接；以及输入子单元，用于将拼接后的特征图输入一个或多个卷积层中的在先卷积层，以由一个或多个卷积层处理。

示例性地，检测子模块还包括：筛选单元，用于对包含同一行人的多个行人框进行筛选，以保留包含同一行人的行人框之一。

示例性地，检测子模块还包括：过滤单元，用于基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

示例性地，行人检测装置还包括：训练图像获取模块，用于获取训练图像和标注数据，其中，标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别；损失函数构建模块，用于以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及训练模块，用于利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。

根据本发明实施例的行人检测方法和装置，结合图像中的场景信息来进行行人检测，通过使用场景信息可以有效地减少行人检测算法所产生的假阳性结果，同时利用场景信息可以帮助行人检测算法提高检测精度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的行人检测方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的行人检测方法的示意性流程图；

图3示出根据本发明另一个实施例的行人检测方法的示意性流程图；

图4示出根据本发明一个实施例的行人检测方法的数据处理流程的示意图；

图5示出根据本发明一个实施例的行人检测装置的示意性框图；以及

图6示出根据本发明一个实施例的行人检测***的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，本发明实施例提供一种行人检测方法和装置，其结合图像中的场景信息来进行行人检测，避免非行人物体被误检为行人。本发明实施例提供的行人检测方法可以很好地应用于各种监控领域。

首先，参照图1来描述用于实现根据本发明实施例的行人检测方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和图像采集装置110，这些组件通过总线***112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集图像(包括视频帧)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是监控摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他图像采集装置采集用于行人检测的图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的行人检测方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的行人检测方法。图2示出根据本发明一个实施例的行人检测方法200的示意性流程图。如图2所示，行人检测方法200包括以下步骤。

在步骤S210，获取待处理图像。

待处理图像可以是任何合适的、需要进行行人检测的图像，例如针对被监控区域采集到的图像。待处理图像可以是摄像头等图像采集装置采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。

待处理图像可以由客户端设备(诸如包括监控摄像头的安防设备)发送到电子设备100以由电子设备100的处理器102进行处理，也可以由电子设备100包括的图像采集装置110(例如摄像头)采集并传送到处理器102进行处理。

在步骤S220，分析待处理图像的每个像素所属场景的场景信息。

通过对待处理图像进行场景分析(scene parsing)，可以获知每个像素所属场景的场景信息，例如获知每个像素所属的场景类别，这样就能确定场景中每个位置的物理意义。简单来讲，通过场景分析可以获知在待处理图像中哪里是天空，哪里是地面，哪里是建筑物，哪里是树木等等。可以理解的是，行人不可能出现在天空或者建筑物之上。

在步骤S230，结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

如上文所述，确定待处理图像的每个像素所属场景的场景信息之后，就可以获知待处理图像中每个位置的物理意义。将所获得的场景信息与待处理图像中的行人的相关信息结合，可以检测出行人所在的位置。对于非行人物体和行人来说，可以基于该非行人物体和行人所在位置处的像素所属场景的场景信息对二者进行区分，以准确地检测出行人所在位置。

示例性地，在步骤S230所获得的行人检测结果可以包括若干行人框。行人框是矩形框，用于指示待处理图像中可能存在行人的区域。此外，行人检测结果还可以包括与每个行人框对应的行人置信度，用于表示该行人框中存在行人的概率。

根据本发明实施例的行人检测方法，结合图像中的场景信息来进行行人检测，通过使用场景信息可以有效地减少行人检测算法所产生的假阳性结果，同时利用场景信息可以帮助行人检测算法提高检测精度。

示例性地，根据本发明实施例的行人检测方法可以在具有存储器和处理器的设备、装置或者***中实现。

根据本发明实施例的行人检测方法可以部署在图像采集端处，例如，可以部署在小区门禁***的图像采集端或者部署在诸如车站、商场、银行等公共场所的安防监控***的图像采集端。替代地，根据本发明实施例的行人检测方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集图像，客户端将采集到的图像传送给服务器端(或云端)，由服务器端(或云端)进行行人检测。

示例性地，在步骤S220之前，行人检测方法200还可以包括：提取待处理图像的特征；步骤S220可以包括：基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息；步骤S230可以包括：结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

图3示出根据本发明另一个实施例的行人检测方法300的示意性流程图。如图3所示，行人检测方法300包括以下步骤。

在步骤S310，获取待处理图像。步骤S310的实施方式与步骤S210一致，不再赘述。

在步骤S320，提取待处理图像的特征。

步骤S320可以采用任何合适的现有的或将来可能实现的特征提取方法实现。示例性地，步骤S320可以包括：将待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，至少一个图像特征图代表待处理图像的特征。

参考图4，示出根据本发明一个实施例的行人检测方法的数据处理流程的示意图。如图4所示，在获取待处理图像之后，可以将待处理图像输入卷积神经网络(ConvolutionalNeural Network,CNN)中进行特征提取。待处理图像可以是静态的图像，也可以是一段视频中的任一视频帧。在卷积神经网络的输出端，可以获得至少一个图像特征图(featuremap)。卷积神经网络输出的图像特征图可以代表待处理图像的特征。示例性地，卷积神经网络可以采用在ImageNet数据集上进行预训练获得的VGG模型或者残差网络(ResNet)模型实现。在一个具体示例中，该用于特征提取的卷积神经网络通过如下方式训练得到：首先，在通用训练数据集(例如ImageNet数据集)上对卷积神经网络进行预训练；然后，在行人特有的数据集(数据集中的图片为行人图片)上对该卷积神经网络进行微调(fine-tune)以得到最终的用于特征提取的卷积神经网络。这一训练方法不仅可以加快网络的收敛速度，而且从通常图片学习到的一些底层网络信息对于行人图片也是有效的。采用卷积神经网络可以提取待处理图像中的有价值的信息，随后可以基于此信息进行场景分析和行人检测，如下文所述。上述卷积神经网络可以是预先采用大量的训练图像训练好的。

在步骤S330，基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息。

示例性地，步骤S330可以包括：将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

本文所述的全卷积网络(Fully-Convolutional Network,FCN)可以是类似于用于语义分割的全卷积网络。继续参考图4，可以将卷积神经网络输出的待处理图像的特征输入全卷积网络进行场景分析。在将待处理图像的特征输入全卷积网络之后，可以在全卷积网络的输出端获得待处理图像的场景特征图。

例如，假设预先定义场景类别共分为十种，例如马路、建筑物、树木、天空等，则可以在全卷积网络的输出端获得十个场景特征图。对于任一场景特征图来说，该场景特征图与待处理图像大小一致，并且该场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的置信度(称为场景置信度)。例如，天空特征图的坐标为(100，200)的像素的像素值表示待处理图像的坐标为(100，200)的像素属于天空的置信度。

与卷积神经网络类似地，全卷积网络可以是预先采用大量的训练图像训练好的。卷积神经网络和全卷积网络的训练方式将在下文描述，此处不做赘述。

在步骤S340，结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。在检测待处理图像中的行人的过程中，可以将待处理图像的特征和待处理图像的每个像素所属场景的场景信息结合在一起考虑，其示例性的实施方式将在下文描述。

根据本发明实施例，在将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图之后，行人检测方法300还可以包括：对于待处理图像的每个像素，从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及对于待处理图像的每个像素，确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。

假设全卷积网络输出的是十个场景特征图，对于待处理图像的坐标为(1,1)的像素来说，从这十个特征图中的坐标为(1,1)的十个像素中找出像素值最大的那个像素。假设所找出的像素值最大的像素属于树木特征图，则可以确定待处理图像的坐标为(1,1)的像素属于树木。对于待处理图像的其他像素执行类似的操作，可以确定待处理图像的每个像素所属的场景类别。

根据本发明实施例，步骤S340可以包括：利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积，以获得行人特征图，其中，行人特征图与待处理图像大小一致，并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

对至少一个图像特征图和预定数目的场景特征图的卷积可以由简单的卷积层实施，也可以由包括多个卷积层的卷积神经网络实施。最终获得的结果是行人特征图。行人特征图与待处理图像大小一致，其每个像素的像素值包括四个坐标值和一个置信度值(score)。四个坐标值分别表示一个行人框的四个顶点的位置，行人框是针对待处理图像的对应像素预测获得的。如果待处理图像的某个像素属于某个行人，则针对该像素可以预测出所属行人的行人框，如果待处理图像的某个像素不属于行人，而属于诸如建筑物等的其他物体，则针对该像素也可以预测出行人框，只不过行人框的对应置信度非常低。可以理解，如果两个距离较近的像素属于同一行人，则针对这两个像素预测出的两个行人框的坐标可能是相同或相近的，因此后续可以对行人框进行过滤，将重合的、多余的行人框丢弃，以尽量针对每个行人保留一个行人框。

根据本发明实施例，利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积包括：对至少一个图像特征图和预定数目的场景特征图进行拼接；以及将拼接后的特征图输入一个或多个卷积层中的在先卷积层，以由一个或多个卷积层处理。

拼接可以是简单拼接，例如一个图像特征图是128维，一个场景特征图是128维，则拼接之后的一个特征图可以是256维。拼接也可以是将图像特征图的每个像素的像素值与场景特征图的对应像素的像素值相加，形成新的特征图。当然，拼接还可以采用其他方式实现，本发明不一一列举。

根据本发明实施例，步骤S340还可以包括：对包含同一行人的多个行人框进行筛选，以保留包含同一行人的行人框之一。

如上文所述，在针对每个像素预测行人框之后，属于同一行人的两个像素可能预测出相同或相近的两个行人框，因此可以对行人框进行筛选。筛选可以采用常规的非极大值抑制(non-maximum suppression,NMS)方法实现。本领域技术人员可以理解，NMS主要基于两个行人框的交并集(inter-section-over-union)，使用高得分(即高置信度)的行人框来过滤与此行人框有较大重叠的其他行人框。筛选属于同一行人的行人框可以排除行人检测结果中的多余行人框，方便用户查看最可信的行人框。

根据本发明实施例，步骤S340还可以包括：基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

可以理解，行人不应当出现在天空、建筑物等物体之上。可以基于待处理图像的每个像素所属的场景类别，分析场景的上下文信息，并利用场景的上下文信息，将一些在诸如天空、建筑物等物体上面出现的行人框进行过滤。过滤不属于行人的行人框可以排除行人检测结果中的无价值行人框，方便用户查看最有价值的行人框。

在一个示例中，可以将所预测的所有行人框作为最终的行人检测结果。在另一个示例中，可以筛选包含同一行人的多余行人框，将筛选后的剩余行人框作为最终的行人检测结果。在又一示例中，可以过滤不属于行人的行人框，将过滤后的剩余行人框作为最终的行人检测结果。示例性地，筛选包含同一行人的多余行人框和过滤不属于行人的行人框这两个操作可以仅实施其中之一，也可以两个操作一起实施。

根据本发明实施例，行人检测方法200还可以包括：获取训练图像和标注数据，其中，标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别；以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。

使用事先标注好的行人位置，可以计算行人检测结果的损失函数，即第一损失函数。具体的损失函数的设置可以类似于通过多任务网络级联进行图像的实例感知语义分割(Instance-aware Semantic Segmentation via Multi-task Network Cascades)方法中所采用的设置。此外，使用事先标注好的每个像素的场景类别，可以计算场景分析结果的损失函数，即第二损失函数。本领域技术人员可以理解，假设训练图像的坐标为(1,1)的像素所属的场景类别为天空，则在全卷积网络输出的十个场景特征图中，天空特征图的坐标为(1,1)的像素的置信度可以设置为1，其余特征图的对应像素的置信度可以设置为0。示例性地，第二损失函数可以是交叉熵损失函数。返回参考图4，示出了第一损失函数和第二损失函数的位置。

利用上述两个损失函数进行多轮训练，卷积神经网络和全卷积网络中的参数会逐渐收敛到一个合理值。最终训练获得的网络模型就可以用于待处理图像的行人检测。在利用一个或多个卷积层对图像特征图和场景特征图进行卷积的实施例中，还可以与卷积神经网络和全卷积网络一起训练一个或多个卷积层中的参数。

在训练卷积神经网络和全卷积网络(和一个或多个卷积层)中的参数的过程中，可以采用常规的反向传播算法进行训练，本领域技术人员可以理解反向传播算法的实现方式，本文不对此进行赘述。

根据本发明另一方面，提供一种行人检测装置。图5示出了根据本发明一个实施例的行人检测装置500的示意性框图。

如图5所示，根据本发明实施例的行人检测装置500包括待处理图像获取模块510、场景分析模块520和检测模块530。所述各个模块可分别执行上文中结合图2-4描述的行人检测方法的各个步骤/功能。以下仅对该行人检测装置500的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

待处理图像获取模块510用于获取待处理图像。待处理图像获取模块510可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

场景分析模块520用于分析待处理图像的每个像素所属场景的场景信息。场景分析模块520可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

检测模块530用于结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。检测模块530可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，行人检测装置500还包括：特征提取模块，用于提取待处理图像的特征；场景分析模块520包括：场景分析子模块，用于基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息；检测模块530包括：检测子模块，用于结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

根据本发明实施例，场景分析子模块包括：输入单元，用于将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

根据本发明实施例，行人检测装置500还包括：选择模块，用于对于待处理图像的每个像素，从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及场景类别确定模块，用于对于待处理图像的每个像素，确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。

根据本发明实施例，特征提取模块包括：输入子模块，用于将待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，至少一个图像特征图代表待处理图像的特征。

根据本发明实施例，检测子模块包括：卷积单元，用于利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积，以获得行人特征图，其中，行人特征图与待处理图像大小一致，并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

根据本发明实施例，卷积单元包括：拼接子单元，用于对至少一个图像特征图和预定数目的场景特征图进行拼接；以及输入子单元，用于将拼接后的特征图输入一个或多个卷积层中的在先卷积层，以由一个或多个卷积层处理。

根据本发明实施例，检测子模块还包括：筛选单元，用于对包含同一行人的多个行人框进行筛选，以保留包含同一行人的行人框之一。

根据本发明实施例，检测子模块还包括：过滤单元，用于基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

根据本发明实施例，行人检测装置500还包括：训练图像获取模块，用于获取训练图像和标注数据，其中，标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别；损失函数构建模块，用于以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及训练模块，用于利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图6示出了根据本发明一个实施例的行人检测***600的示意性框图。行人检测***600包括图像采集装置610、存储装置620、以及处理器630。

图像采集装置610用于采集待处理图像。图像采集装置610是可选的，行人检测***600可以不包括图像采集装置610。在这种情况下，可以利用其他图像采集装置采集用于行人检测的图像，并将采集的图像发送给行人检测***600。

所述存储装置620存储用于实现根据本发明实施例的行人检测方法中的相应步骤的程序代码。

所述处理器630用于运行所述存储装置620中存储的程序代码，以执行根据本发明实施例的行人检测方法的相应步骤，并且用于实现根据本发明实施例的行人检测装置500中的待处理图像获取模块510、场景分析模块520和检测模块530。

在一个实施例中，所述程序代码被所述处理器630运行时使所述行人检测***600执行以下步骤：获取待处理图像；分析待处理图像的每个像素所属场景的场景信息；以及结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

在一个实施例中，在所述程序代码被所述处理器630运行时使所述行人检测***600所执行的分析待处理图像的每个像素所属场景的场景信息的步骤之前，所述程序代码被所述处理器630运行时还使所述行人检测***600执行：提取待处理图像的特征；所述程序代码被所述处理器630运行时使所述行人检测***600所执行的分析待处理图像的每个像素所属场景的场景信息的步骤包括：基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息；所述程序代码被所述处理器630运行时使所述行人检测***600所执行的结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤包括：结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

在一个实施例中，所述程序代码被所述处理器630运行时使所述行人检测***600所执行的基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息的步骤包括：将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

在一个实施例中，在所述程序代码被所述处理器630运行时使所述行人检测***600所执行的将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图的步骤之后，所述程序代码被所述处理器630运行时还使所述行人检测***600执行：对于待处理图像的每个像素，从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及对于待处理图像的每个像素，确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。

在一个实施例中，所述程序代码被所述处理器630运行时使所述行人检测***600所执行的提取待处理图像的特征的步骤包括：将待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，至少一个图像特征图代表待处理图像的特征。

在一个实施例中，所述程序代码被所述处理器630运行时使所述行人检测***600所执行的结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤包括：利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积，以获得行人特征图，其中，行人特征图与待处理图像大小一致，并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

在一个实施例中，所述程序代码被所述处理器630运行时使所述行人检测***600所执行的利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积的步骤包括：对至少一个图像特征图和预定数目的场景特征图进行拼接；以及将拼接后的特征图输入一个或多个卷积层中的在先卷积层，以由一个或多个卷积层处理。

在一个实施例中，所述程序代码被所述处理器630运行时使所述行人检测***600所执行的结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤还包括：对包含同一行人的多个行人框进行筛选，以保留包含同一行人的行人框之一。

在一个实施例中，所述程序代码被所述处理器630运行时使所述行人检测***600所执行的结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤还包括：基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

在一个实施例中，所述程序代码被所述处理器630运行时还使所述行人检测***600执行：获取训练图像和标注数据，其中，标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别；以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的行人检测方法的相应步骤，并且用于实现根据本发明实施例的行人检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的行人检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的行人检测方法。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：获取待处理图像；分析待处理图像的每个像素所属场景的场景信息；以及结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的分析待处理图像的每个像素所属场景的场景信息的步骤之前，所述计算机程序指令在被计算机运行时还使所述计算机执行：提取待处理图像的特征；所述计算机程序指令在被计算机运行时使所述计算机所执行的分析待处理图像的每个像素所属场景的场景信息的步骤包括：基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息；所述计算机程序指令在被计算机运行时使所述计算机所执行的结合待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤包括：结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人，以确定待处理图像中的行人所在的位置。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的基于待处理图像的特征分析待处理图像的每个像素所属场景的场景信息的步骤包括：将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

在一个实施例中，在所述计算机程序指令在被计算机运行时使所述计算机所执行的将待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图的步骤之后，所述计算机程序指令在被计算机运行时还使所述计算机执行：对于待处理图像的每个像素，从预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及对于待处理图像的每个像素，确定该像素属于像素值最大的像素所属的场景特征图所对应的场景类别。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的提取待处理图像的特征的步骤包括：将待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，至少一个图像特征图代表待处理图像的特征。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤包括：利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积，以获得行人特征图，其中，行人特征图与待处理图像大小一致，并且行人特征图的每个像素的像素值包括基于待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的利用一个或多个卷积层对至少一个图像特征图和预定数目的场景特征图进行卷积的步骤包括：对至少一个图像特征图和预定数目的场景特征图进行拼接；以及将拼接后的特征图输入一个或多个卷积层中的在先卷积层，以由一个或多个卷积层处理。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤还包括：对包含同一行人的多个行人框进行筛选，以保留包含同一行人的行人框之一。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机所执行的结合待处理图像的特征和待处理图像的每个像素所属场景的场景信息检测待处理图像中的行人的步骤还包括：基于待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

在一个实施例中，所述计算机程序指令在被计算机运行时还使所述计算机执行：获取训练图像和标注数据，其中，标注数据包括训练图像中的每个行人所对应的行人框和训练图像的每个像素所属的场景类别；以训练图像中的每个行人所对应的行人框作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以训练图像中的每个像素所属的场景类别作为利用卷积神经网络和全卷积网络对训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及利用第一损失函数和第二损失函数对卷积神经网络和全卷积网络中的参数进行训练。

根据本发明实施例的行人检测***中的各模块可以通过根据本发明实施例的实施行人检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的行人检测方法及装置，结合图像中的场景信息来进行行人检测，通过使用场景信息可以有效地减少行人检测算法所产生的假阳性结果，同时利用场景信息可以帮助行人检测算法提高检测精度。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的行人检测装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种行人检测方法，包括：

获取待处理图像；

分析所述待处理图像的每个像素所属场景的场景信息；以及

结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人，以确定所述待处理图像中的行人所在的位置。

2.如权利要求1所述的行人检测方法，其中，

在所述分析所述待处理图像的每个像素所属场景的场景信息之前，所述行人检测方法还包括：

提取所述待处理图像的特征；

所述分析所述待处理图像的每个像素所属场景的场景信息包括：

基于所述待处理图像的特征分析所述待处理图像的每个像素所属场景的场景信息；

所述结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人包括：

结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人，以确定所述待处理图像中的行人所在的位置。

3.如权利要求2所述的行人检测方法，其中，所述基于所述待处理图像的特征分析所述待处理图像的每个像素所属场景的场景信息包括：

将所述待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与所述待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示所述待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

4.如权利要求3所述的行人检测方法，其中，在所述将所述待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图之后，所述行人检测方法还包括：

对于所述待处理图像的每个像素，

从所述预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及

确定该像素属于所述像素值最大的像素所属的场景特征图所对应的场景类别。

5.如权利要求3所述的行人检测方法，其中，所述提取所述待处理图像的特征包括：

将所述待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，所述至少一个图像特征图代表所述待处理图像的特征。

6.如权利要求5所述的行人检测方法，其中，所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人包括：

利用一个或多个卷积层对所述至少一个图像特征图和所述预定数目的场景特征图进行卷积，以获得行人特征图，其中，所述行人特征图与所述待处理图像大小一致，并且所述行人特征图的每个像素的像素值包括基于所述待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

7.如权利要求6所述的行人检测方法，其中，所述利用一个或多个卷积层对所述至少一个图像特征图和所述预定数目的场景特征图进行卷积包括：

对所述至少一个图像特征图和所述预定数目的场景特征图进行拼接；以及

将拼接后的特征图输入所述一个或多个卷积层中的在先卷积层，以由所述一个或多个卷积层处理。

8.如权利要求6所述的行人检测方法，其中，所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人还包括：

对包含同一行人的多个行人框进行筛选，以保留所述包含同一行人的行人框之一。

9.如权利要求6所述的行人检测方法，其中，所述结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人还包括：

基于所述待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

10.如权利要求5所述的行人检测方法，其中，所述行人检测方法还包括：

获取训练图像和标注数据，其中，所述标注数据包括所述训练图像中的每个行人所对应的行人框和所述训练图像的每个像素所属的场景类别；

以所述训练图像中的每个行人所对应的行人框作为利用所述卷积神经网络和所述全卷积网络对所述训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以所述训练图像中的每个像素所属的场景类别作为利用所述卷积神经网络和所述全卷积网络对所述训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及

利用所述第一损失函数和所述第二损失函数对所述卷积神经网络和所述全卷积网络中的参数进行训练。

11.一种行人检测装置，包括：

待处理图像获取模块，用于获取待处理图像；

场景分析模块，用于分析所述待处理图像的每个像素所属场景的场景信息；以及

检测模块，用于结合所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人，以确定所述待处理图像中的行人所在的位置。

12.如权利要求11所述的行人检测装置，其中，

所述行人检测装置还包括：

特征提取模块，用于提取所述待处理图像的特征；

所述场景分析模块包括：

场景分析子模块，用于基于所述待处理图像的特征分析所述待处理图像的每个像素所属场景的场景信息；

所述检测模块包括：

检测子模块，用于结合所述待处理图像的特征和所述待处理图像的每个像素所属场景的场景信息检测所述待处理图像中的行人，以确定所述待处理图像中的行人所在的位置。

13.如权利要求12所述的行人检测装置，其中，所述场景分析子模块包括：

输入单元，用于将所述待处理图像的特征输入全卷积网络，以获得与预定数目的场景类别一一对应的预定数目的场景特征图，其中，每个场景特征图与所述待处理图像大小一致，并且每个场景特征图的每个像素的像素值表示所述待处理图像的、与该像素位置一致的像素属于该场景特征图所对应的场景类别的场景置信度。

14.如权利要求13所述的行人检测装置，其中，所述行人检测装置还包括：

选择模块，用于对于所述待处理图像的每个像素，从所述预定数目的场景特征图的、与该像素位置一致的像素的像素值中选择像素值最大的像素；以及

场景类别确定模块，用于对于所述待处理图像的每个像素，确定该像素属于所述像素值最大的像素所属的场景特征图所对应的场景类别。

15.如权利要求13所述的行人检测装置，其中，所述特征提取模块包括：

输入子模块，用于将所述待处理图像输入卷积神经网络，以获得至少一个图像特征图，其中，所述至少一个图像特征图代表所述待处理图像的特征。

16.如权利要求15所述的行人检测装置，其中，所述检测子模块包括：

卷积单元，用于利用一个或多个卷积层对所述至少一个图像特征图和所述预定数目的场景特征图进行卷积，以获得行人特征图，其中，所述行人特征图与所述待处理图像大小一致，并且所述行人特征图的每个像素的像素值包括基于所述待处理图像的、与该像素位置一致的像素预测出的行人框的顶点坐标和该行人框属于行人的行人置信度。

17.如权利要求16所述的行人检测装置，其中，所述卷积单元包括：

拼接子单元，用于对所述至少一个图像特征图和所述预定数目的场景特征图进行拼接；以及

输入子单元，用于将拼接后的特征图输入所述一个或多个卷积层中的在先卷积层，以由所述一个或多个卷积层处理。

18.如权利要求16所述的行人检测装置，其中，所述检测子模块还包括：

筛选单元，用于对包含同一行人的多个行人框进行筛选，以保留所述包含同一行人的行人框之一。

19.如权利要求16所述的行人检测装置，其中，所述检测子模块还包括：

过滤单元，用于基于所述待处理图像的每个像素所属的场景类别过滤不属于行人的行人框。

20.如权利要求15所述的行人检测装置，其中，所述行人检测装置还包括：

训练图像获取模块，用于获取训练图像和标注数据，其中，所述标注数据包括所述训练图像中的每个行人所对应的行人框和所述训练图像的每个像素所属的场景类别；

损失函数构建模块，用于以所述训练图像中的每个行人所对应的行人框作为利用所述卷积神经网络和所述全卷积网络对所述训练图像进行处理所获得的行人框的目标值构建第一损失函数，并以所述训练图像中的每个像素所属的场景类别作为利用所述卷积神经网络和所述全卷积网络对所述训练图像进行处理所获得的场景信息的目标值构建第二损失函数；以及

训练模块，用于利用所述第一损失函数和所述第二损失函数对所述卷积神经网络和所述全卷积网络中的参数进行训练。