WO2021031954A1

WO2021031954A1 - 对象数量确定方法、装置、存储介质与电子设备

Info

Publication number: WO2021031954A1
Application number: PCT/CN2020/108677
Authority: WO
Inventors: 郁昌存; 王德鑫
Original assignee: 北京海益同展信息科技有限公司
Priority date: 2019-08-20
Filing date: 2020-08-12
Publication date: 2021-02-25
Also published as: CN110472599A; CN110472599B

Abstract

本公开提供了一种对象数量确定方法、对象数量确定装置、计算机可读存储介质与电子设备，属于计算机视觉技术领域。该方法包括：对待处理图像中的对象进行识别，将识别到的所述对象的数量作为第一数值；比较所述第一数值和预设阈值；如果所述第一数值小于所述预设阈值，则将所述待处理图像中所述对象的数量确定为所述第一数值；如果所述第一数值大于所述预设阈值，则对所述待处理图像中的对象进行密度检测，得到关于所述对象的数量的第二数值，并将所述待处理图像中所述对象的数量确定为所述第二数值。本公开能够在对象分布密集的情况下，较为准确的确定对象数量，并具有较高的适用性。

Description

对象数量确定方法、装置、存储介质与电子设备

本申请要求于2019年8月20日提交的，申请号为201910769944.8，名称为“对象数量确定方法、装置、存储介质与电子设备”的中国专利申请的优先权，该中国专利申请的全部内容通过引用结合在本文中。

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种对象数量确定方法、对象数量确定装置、计算机可读存储介质与电子设备。

背景技术

在很多场合中，都需要统计某种对象的数量，例如统计景区的游客数量，统计停车场的车辆数量等。

传统的方法是在目标区域的出入口统计流入和流出的对象数量，例如景区出入口设置闸机或红外感测设备，停车场出入口设置道闸设备等，但是这种方法无法统计开放区域的对象数量，例如开放性景区的游客数量，街道的车辆数量等，并且只能统计目标区域内的对象总数，无法确定对象的分布情况。

随着深度学习与计算机视觉的发展，现有技术中出现了基于监控图像确定对象数量的方法，以统计景区的游客数量为例，在景区的不同位置设置监控摄像头，实时拍摄景区图像，从图像中识别游客，从而统计出游客数量。相比于上述传统方法，现有技术有了明显改进，其能够应用于开放区域，且能够统计区域内的对象分布情况；然而也存在一定的问题，在对象密度较大，特别是存在遮挡的情况下，例如节假日人流高峰期的景区、上下班车流高峰期的街道路段等，现有技术的准确度较低，其所确定的对象数量与实际数量差别较大，通常低于实际数量，从而限制了其应用。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种对象数量确定方法、对象数量确定装置、计算机可读存储介质与电子设备，进而至少在一定程度上改善现有技术在对象密度较大时，确定对象数量的准确度较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种对象数量确定方法，包括：对待处理图像中的对象进行识别，将识别到的所述对象的数量作为第一数值；比较所述第一数值和预设阈值；如果所述第一数值小于所述预设阈值，则将所述待处理图像中所述对象的数量确定为所述第一数值；如果所述第一数值大于所述预设阈值，则对所述待处理图像中的对象进行密度检测，得到关于所述对象数量的第二数值，并将所述待处理图像中所述对象的数量确定为所述第二数值。

在本公开的一种示例性实施例中，所述方法还包括：获取目标图像，将所述目标图像划分为多个区域，分别以各所述区域的图像作为所述待处理图像。

在本公开的一种示例性实施例中，各所述区域具有对应的预设阈值。

在本公开的一种示例性实施例中，所述对待处理图像中的对象进行识别，包括：通过预先训练的第一神经网络模型对所述待处理图像中的对象进行识别。

在本公开的一种示例性实施例中，所述第一神经网络模型包括YOLO模型(You Only Look Once，一种实时目标检测的算法框架，包括v1、v2、v3等多个版本，本公开可以采用其中任一个版本)。

在本公开的一种示例性实施例中，所述对所述待处理图像中的对象进行密度检测，包括：通过预先训练的第二神经网络模型对所述待处理图像中的对象进行密度检测。

在本公开的一种示例性实施例中，所述第二神经网络模型包括：第一分支网络，用于对所述待处理图像进行第一卷积处理，得到第一特征图像；第二分支网络，用于对所述待处理图像进行第二卷积处理，得到第二特征图像；第三分支网络，用于对所述待处理图像进行第三卷积处理，得到第三特征图像；合并层，用于将所述第一特征图像、第二特征图像和第三特征图像合并为最终特征图像；输出层，用于将所述最终特征图像映射为密度图像。

根据本公开的第二方面，提供一种对象数量确定装置，包括：识别模块，用于对待处理图像中的对象进行识别，将识别到的所述对象的数量作为第一数值；比较模块，用于比较所述第一数值和预设阈值；第一确定模块，用于如果所述第一数值小于所述预设阈值，则将所述待处理图像中所述对象的数量确定为所述第一数值；第二确定模块，用于如果所述第一数值大于所述预设阈值，则对所述待处理图像中的对象进行密度检测，得到关于所述对象数量的第二数值，并将所述待处理图像中所述对象的数量确定为所述第二数值。

在本公开的一种示例性实施例中，所述装置还包括：获取模块，用于获取目标图像，将所述目标图像划分为多个区域，分别以各所述区域的图像作为所述待处理图像。

在本公开的一种示例性实施例中，所述识别模块，用于通过预先训练的第一神经网络模型对所述待处理图像中的对象进行识别。

在本公开的一种示例性实施例中，所述第一神经网络模型包括YOLO模型。

在本公开的一种示例性实施例中，所述第二确定模块包括：密度检测单元，用于通过预先训练的第二神经网络模型对所述待处理图像中的对象进行密度检测。

根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

根据本公开的第四方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果：

对待处理图像中的对象进行识别，根据识别得到的第一数值与预设阈值的大小关系，判断图像中的对象为稀疏还是密集的情况，从而确定是采用第一数值作为最终结果，还是采用密度检测得到的第二数值作为最终结果。一方面，如果第一数值大于预设阈值，则图像中的对象密集，可能存在遮挡的情况，此时采用密度检测的方式，将得到的第二数值作为最终结构，能够较为准确的确定对象数量，使得本示例性实施例具有较高的准确度。另一方面，采用对象识别和密度检测两种方式的结合，具有较高的灵活性，通过调整预设阈值，可以使本示例性实施例应用于各种不同的场景，具有较高的适用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本示例性实施例中一种对象数量确定方法的流程图；

图2示出待处理的景区监控图像；

图3示出对景区监控图像进行游客识别的可视化效果图；

图4示出本示例性实施例中一种神经网络模型的结构图；

图5示出本示例性实施例中对目标图像划分区域的示意图；

图6示出本示例性实施例中另一种对象数量确定方法的流程图；

图7示出本示例性实施例中一种对象数量确定装置的结构框图；

图8示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质；

图9示出本示例性实施例中一种用于实现上述方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施例首先提供了一种图像中确定对象数量的方法，该方法的应用场景包括但不限于：统计景区、商场等区域内的人数；统计停车场、街道等区域内的车辆数；监测港口、码头等区域内的船舶数；监测畜牧场内的牲畜数。下面以统计景区人数的场景为例进行说明，其方法内容对于其他场景同样适用。

图1示出了本示例性实施例的方法流程，可以包括步骤S110～S140：

步骤S110，对待处理图像中的对象进行识别，将识别到的对象的数量作为第一数值。

其中，待处理图像可以是景区的监控图像或GIS图像(Geographic Information System，地理信息***，GIS图像包括地表的卫星视图、人口热力图等)等。例如：通过后台计算机或服务器拉取景区内监控摄像头的视频流，目前网络摄像头都会提供rtmp(Real Time Messaging Protocol，实时消息传输协议)、http(Hyper Text Transfer Protocol，超文本传输协议)等协议的视频流，可以通过OpenCV(Open Source Computer Vision Library，开源计算机视觉库)拉取在线视频流，获取实时的视频帧，以其中的单帧图像作为待处理图像，如图2示出了某景区的单帧监控图像。

在获取待处理图像后，可以对其中的对象进行识别。在一示例性实施例中，可以采用深度学习技术，通过预先训练的第一神经网络模型对待处理图像中的对象进行识别。例如第一神经网络模型可以采用YOLO模型，可以通过开源的密集行人检测数据集对YOLO模型进行训练，也可以人工对应用场景中的图片进行标注以得到数据集(例如从大量景区监控图像中标注出游客)并进行训练。YOLO模型以景区监控图像为输入，以图像中所有游客的包围盒(Bounding Box)信息为输出，例如将图2输入到YOLO模型中，其输出的可视化效果可以参考图3所示，YOLO模型对图像中的游客进行识别，最终实际得到每个游客的包围盒的(x,y,w,h)，x和y表示包围盒的中心在图像中的位置坐标，w和h表示包围盒的宽和高。此外，第一神经网络模型也可以采用R-CNN(Region-Convolutional Neural Network，区域卷积神经网络，或Fast R-CNN、Faster R-CNN等改进版本)、SSD(Single Shot MultiBox Detector，单步多框目标检测)等其他目标检测的算法模型。在一示例性实施例中，也可以从待处理图像中检测物体轮廓，将轮廓形状接近于对象形状的物体识别为对象。

本示例性实施例中，从待处理图像中识别出的对象数量为第一数值。

步骤S120，比较第一数值和预设阈值。

通常在待处理图像中对象较少的情况下，每个对象在图像中较为完整，易于识别，因此步骤S110得到的第一数值接近于对象的真实数量，即第一数值的可信度较高；在对象较多的情况下，可能存在若干对象被遮挡，或者单个对象的图像分辨率较低的问题，使得对象难于识别，则第一数值的可信度较低。如上述图2和图3所示，当景区内游客较多时，通过第一神经网络模型识别监控图像中的游客，在游客密集的中心区域存在较多漏检的情况。

本示例性实施例中，通过比较第一数值和预设阈值的相对大小确定第一数值是否可信，如果第一数值小于预设阈值，则待处理图像中对象相对稀疏，第一数值可信；反之，则待处理图像中对象相对密集，第一数值不可信。其中，预设阈值可以根据经验、待处理图像对应的区域特征、待处理图像和对象的尺寸关系等确定，本公开对此不做特别限定。

步骤S130，如果第一数值小于预设阈值，则将待处理图像中对象的数量确定为第一数值。

由上可知，满足步骤S130的条件时，第一数值可信，因此可以将其作为待处理图像中对象的数量，输出该结果。

步骤S140，如果第一数值大于预设阈值，则对待处理图像中的对象进行密度检测，得到关于对象数量的第二数值，并将待处理图像中对象的数量确定为第二数值。

满足步骤S140的条件时，第一数值不可信，则可以采用对象识别以外的另一种方式进行处理，即密度检测的方式，以确定待处理图像中对象的数量。密度检测与对象识别不同，其主要是对待处理图像中每个区域(或每个像素)内存在对象的概率进行回归，以统计的方式得到待处理图像中对象的数量，为上述第二数值。在对象较多的情况下，特别是分布密集、存在遮挡的情况下，密度检测比对象识别具有更高的可信度，因此可以将第二数值作为待处理图像中对象的数量，输出该结果。

需要补充的是，对于第一数值等于预设阈值的情况，可将其视为满足步骤S130条件的特殊情况，也可视为满足步骤S140条件的特殊情况，从而执行步骤S130或S140，本公开对此不做特别限定。

在一示例性实施例中，可以通过预先训练的第二神经网络模型对待处理图像中的对象进行密度检测。例如第二神经网络模型可以采用MCNN模型(Multi-column Convolutional Neural Network，多列卷积神经网络)，图4示出了MCNN模型400的一种结构，可以包括：输入层410，用于输入待处理图像；第一分支网络420，用于对待处理图像进行第一卷积处理，得到第一特征图像；第二分支网络430，用于对待处理图像进行第二卷积处理，得到第二特征图像；第三分支网络440，用于对待处理图像进行第三卷积处理，得到第三特征图像；合并层450，用于将第一特征图像、第二特征图像和第三特征图像合并为最终特征图像；输出层460，用于将最终特征图像映射为密度图像。其中，第一卷积处理、第二卷积处理和第三卷积处理分别包括一系列卷积、池化等操作，在第一、第二和第三卷积处理中，所使用的参数(如卷积核尺寸、池化参数等)不同，相当于从不同尺度上提取待处理图像的特征，分别得到第一、第二和第三特征图像；然后合并为最终特征图像，再通过1*1卷积等方式映射为密度图像，在密度图像中，每个点的数值代表该点为对象的概率，将所有点的数值累加，即得到表示待处理图像中对象数量的第二数值。

MCNN模型的训练可以基于开源数据集，图像标注可以是每个人头的坐标，使用几何自适应高斯核将人头坐标转换为概率密度图像，每个人头区域的概率之和为1。采用初始图像为样本，转换后的概率密度图像为标记(ground truth)，可以对模型进行训练。

应当理解，第二神经网络模型也可以采用其他密度检测的网络，例如MCNN的变体形式，在图4结构的基础上，增加第四分支网络等，或者在第一、第二或第三分支网络中增加中间层，或者增加一个或多个全连接层等，本公开对此不做特别限定。

基于上述说明，本示例性实施例对待处理图像中的对象进行识别，根据识别得到的第一数值与预设阈值的大小关系，判断图像中的对象为稀疏还是密集的情况，从而确定是采用第一数值作为最终结果，还是采用密度检测得到的第二数值作为最终结果。一方面，如果第一数值大于预设阈值，则图像中的对象密集，可能存在遮挡的情况，此时采用密度检测的方式，将得到的第二数值作为最终结构，能够较为准确的确定对象数量，使得本示例性实施例具有较高的准确度。另一方面，采用对象识别和密度检测两种方式的结合，具有较高的灵活性，通过调整预设阈值，可以使本示例性实施例应用于各种不同的场景，具有较高的适用性。

在一示例性实施例中，可以在获取目标图像后，将目标图像划分为多个区域，分别以各区域的图像作为待处理图像。其中，目标图像是需要确定对象数量的完整图像，例如图2所示的景区的原始监控图像，由于摄像头安置角度较高，拍摄范围较广，所拍摄的图像将部分固定景物、天空等包含在内，产生较多的干扰因素，对游客数量估计产生一定的干扰，而且不同区域的游客分布也存在密集与稀疏的差别，可以针对性地分别处理。鉴于此，参考图5所示，可以根据先验经验将图2划分为多个区域，对每个区域图像分别执行图1的方法流程，最后将每个区域的对象数量相加，得到目标图像中的对象总数。

在图5中，区域一不可能存在游客，所以可以将区域一的游客数量始终置为0。区域二和区域三中游客相对稀疏，固定景物占比较大，因此可以采用对象识别的方式识别游客，统计数量。区域四是游客主要集中的区域，较为密集，且存在较严重的遮挡情况，对象识别针对该区域的效果较差，因此可以采用密度检测的方式统计游客数量。

除了根据先验经验划分区域外，还可以采用其他方式，下面提供几个示例性方式，但下述方式不应对本公开的保护范围造成限定：

(1)根据目标图像中对象分布的特征划分区域：首先对目标图像进行对象识别，得到各对象的大致位置；然后大致选取对象分布较为密集的部分，在两个对象之间相距超过一定距离的位置划出边界线，得到一个区域，计算该区域的对象密度(该区域的对象数量/该区域的图像面积)；再逐渐向各个方向扩展该区域，如果扩展后对象密度增加，则以扩展后的区域代替扩展前的区域，如果对象密度降低，则恢复扩展前的区域；直到对象密度达到最大，确定该区域为划定的一个区域。将已确定的区域从目标图像中分割出去，再在剩余部分重复上述过程，最终完成区域划分。

(2)适用于监控图像，摄像头所拍摄的场景区域不变的情况。从监控图像中调取一定数量的有代表性的历史图像，例如在过去一周的监控图像内，选取每天下午两点到三点之间(景区内游客高峰时段)的若干帧图像，将图像划分为若干细小的方格，计算每个方格的游客出现概率(该方格内出现游客的历史图像数量/所选取的历史图像总数)，得到概率图，根据概率分布情况，将概率相近的方格连接为一个区域，从而将图像划分为多个区域。之后所拍摄的监控图像都采用该区域划分的结果。

将目标区域划分为多个区域后，对每个区域图像执行图1的方法，其中，对于各区域而言，所采用的预设阈值可以相同，也可以不同，即各区域可以具有统一的预设阈值，也可以分别具有对应的预设阈值。例如：在图5中，可以为区域二和三设置较小的预设阈值，区域四设置较大的预设阈值。各区域的预设阈值可以根据经验确定，也可以根据图像特征计算得到，例如：计算各区域内可能出现游客的部分图像面积，除以每个游客所占的图像面积，估计各区域内被游客填满且不存在遮挡时游客的数量，可以将该数量作为预设阈值，或者在该数量上乘以一个小于1的经验系数(如0.9等)作为预设阈值等，本公开对此不做特别限定。对每个区域采用针对性的预设阈值，可以更加准确的得到目标图像中对象的总数。

图6示出了本示例性实施例的另一种流程，包括：步骤S601，获取目标图像，例如可以是监控图像；步骤S602，对目标图像划分多个区域；步骤S603，以每个区域的图像为待处理图像，分别执行步骤S604～S608：步骤S604，通过对象识别，检测待处理图像中的对象数量，为第一数值；步骤S605，判断第一数值和预设阈值的大小；步骤S606，如果第一数值小于预设阈值，则确定该区域内的对象数量为第一数值；步骤S607，如果第一数值大于预设阈值，则第一数值不可信，还需对待处理图像进行对象密度检测，得到第二数值；步骤S608，确定该区域内的对象数量为第二数值；基于上述过程，可以得到每个区域的对象数量，最终执行步骤S609，累加各区域的对象数量，得到目标图像中的对象总数，从而最终确定了目标图像中的对象数量。

本公开的示例性实施例还提供了一种对象数量确定装置，如图7所示，该装置700可以包括：识别模块710，用于对待处理图像中的对象进行识别，将识别到的对象的数量作为第一数值；比较模块720，用于比较第一数值和预设阈值；第一确定模块730，用于如果第一数值小于预设阈值，则将待处理图像中对象的数量确定为第一数值；第二确定模块740，用于如果第一数值大于预设阈值，则对待处理图像中的对象进行密度检测，得到关于对象数量的第二数值，并将待处理图像中对象的数量确定为第二数值。

在一示例性实施例中，对象数量确定装置700还可以包括：获取模块(图中未示出)，用于获取目标图像，将目标图像划分为多个区域，分别以各区域的图像作为待处理图像。

在一示例性实施例中，上述各区域具有对应的预设阈值。

在一示例性实施例中，识别模块710可以用于通过预先训练的第一神经网络模型对待处理图像中的对象进行识别。

在一示例性实施例中，第一神经网络模型可以是YOLO模型。

在一示例性实施例中，第二确定模块740可以包括：密度检测单元(图中未示出)，用于通过预先训练的第二神经网络模型对待处理图像中的对象进行密度检测。

在一示例性实施例中，第二神经网络模型可以包括：第一分支网络，用于对待处理图像进行第一卷积处理，得到第一特征图像；第二分支网络，用于对待处理图像进行第二卷积处理，得到第二特征图像；第三分支网络，用于对待处理图像进行第三卷积处理，得到第三特征图像；合并层，用于将第一特征图像、第二特征图像和第三特征图像合并为最终特征图像；输出层，用于将最终特征图像映射为密度图像。

上述装置中未披露的方案细节内容可以参见方法部分的实施例内容，因而不再赘述。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为***、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“***”。

本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图8所示，描述了根据本公开的示例性实施例的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。下面参照图9来描述根据本公开的这种示例性实施例的电子设备900。图9显示的电子设备900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900可以以通用计算设备的形式表现。电子设备900的组件可以包括但不限于：上述至少一个处理单元910、上述至少一个存储单元920、连接不同***组件(包括存储单元920和处理单元910)的总线930和显示单元940。

存储单元920存储有程序代码，程序代码可以被处理单元910执行，使得处理单元910执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元910可以执行图4或图5所示的方法步骤等。

存储单元920可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)921和/或高速缓存存储单元922，还可以进一步包括只读存储单元(ROM)923。

存储单元920还可以包括具有一组(至少一个)程序模块925的程序/实用工具924，这样的程序模块925包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线930可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备900也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备900交互的设备通信，和/或与使得该电子设备900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口950进行。并且，电子设备900还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器960通过总线930与电子设备900的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

一种对象数量确定方法，其特征在于，包括：

对待处理图像中的对象进行识别，将识别到的所述对象的数量作为第一数值；

比较所述第一数值和预设阈值；

如果所述第一数值小于所述预设阈值，则将所述待处理图像中所述对象的数量确定为所述第一数值；

如果所述第一数值大于所述预设阈值，则对所述待处理图像中的对象进行密度检测，得到关于所述对象数量的第二数值，并将所述待处理图像中所述对象的数量确定为所述第二数值。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取目标图像，将所述目标图像划分为多个区域，分别以各所述区域的图像作为所述待处理图像。
根据权利要求2所述的方法，其特征在于，各所述区域具有对应的预设阈值。
根据权利要求1所述的方法，其特征在于，所述对待处理图像中的对象进行识别，包括：

通过预先训练的第一神经网络模型对所述待处理图像中的对象进行识别。
根据权利要求4所述的方法，其特征在于，所述第一神经网络模型包括YOLO模型。
根据权利要求1所述的方法，其特征在于，所述对所述待处理图像中的对象进行密度检测，包括：

通过预先训练的第二神经网络模型对所述待处理图像中的对象进行密度检测。
根据权利要求6所述的方法，其特征在于，所述第二神经网络模型包括：

第一分支网络，用于对所述待处理图像进行第一卷积处理，得到第一特征图像；

第二分支网络，用于对所述待处理图像进行第二卷积处理，得到第二特征图像；

第三分支网络，用于对所述待处理图像进行第三卷积处理，得到第三特征图像；

合并层，用于将所述第一特征图像、第二特征图像和第三特征图像合并为最终特征图像；

输出层，用于将所述最终特征图像映射为密度图像。
一种对象数量确定装置，其特征在于，包括：

识别模块，用于对待处理图像中的对象进行识别，将识别到的所述对象的数量作为第一数值；

比较模块，用于比较所述第一数值和预设阈值；

第一确定模块，用于如果所述第一数值小于所述预设阈值，则将所述待处理图像中所述对象的数量确定为所述第一数值；

第二确定模块，用于如果所述第一数值大于所述预设阈值，则对所述待处理图像中的对象进行密度检测，得到关于所述对象数量的第二数值，并将所述待处理图像中所述对象的数量确定为所述第二数值。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。