WO2020007363A1

WO2020007363A1 - 识别目标数量的方法、装置及计算机可读存储介质

Info

Publication number: WO2020007363A1
Application number: PCT/CN2019/094876
Authority: WO
Inventors: 刘明; 王怀庆; 付靖玲
Original assignee: 京东数字科技控股有限公司
Priority date: 2018-07-06
Filing date: 2019-07-05
Publication date: 2020-01-09
Also published as: CN108921105B; CN108921105A

Abstract

本公开提供了一种识别目标数量的方法、装置及计算机可读存储介质，涉及人工智能技术领域。其中的识别目标数量的方法包括：采用深度学习神经网络对待预测图像进行处理，得到具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标；对目标点云图像中的点云数量进行识别，得到待预测图像中的目标数量。本公开采用人工智能技术，能够快速、准确、高效的识别出目标群体中目标的数量，应用至畜牧行业能够为智能化饲养提供基础支撑。

Description

识别目标数量的方法、装置及计算机可读存储介质

本申请是以CN申请号为201810733440.6，申请日为2018年7月6日的申请为基础，并主张其优先权，该CN申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及人工智能技术领域，特别涉及一种识别目标数量的方法、装置及计算机可读存储介质。

背景技术

农业是我国的第一产业，我国自古以来就是农耕社会，肥沃的土地孕育、滋养了伟大的华夏民族。同时，农业也是国民经济的基础，关系到我们的日常饮食生活。养猪业作为农业的重要组成部分，对保障肉食品安全供应有重要作用。目前我国的养猪业正在从传统的养猪业向现代养猪业转变。但是，现有的猪场管理仍较为粗犷，从猪场建设到后期的饲养管理都缺乏技术人员的参与。诸多小散养殖户抗风险能力极差，无法保证其稳定盈利。在饲养过程中，因消毒措施以及防范措施不到位，饲养人员与猪只的频繁接触的过程中造成细菌、疾病的传染亦是一大隐患。

养猪场在进行猪个体数量识别的相关方法有如下几种。

耳缺：一般在仔猪出生后1～2天内，根据相应的规则在猪耳的边缘，用耳缺钳剪出缺口，根据相应的规则组成数字编号，以识别不同的猪只。同一个猪场内，同一年份，同一品种猪的编号不可重复。此方法在行业内使用多年，是较为传统的编号方法。

刺青：利用刺青钳对猪打上刺青，以分辨识别猪个体。

耳标：多数情况下，对于留种后的成年种猪使用耳标，但现在也逐步对仔猪开始使用耳标。使用时耳标头穿透牲畜耳部、嵌入辅标、固定耳标，耳标颈留在穿孔内，耳标面登载编码信息。

发明内容

发明人研究发现，相关方法中猪场对于猪只的数量计算主要是通过人工来计算不同猪栏内的个体数量，每种方法都有相应的缺陷，具体如下。

耳缺：相关技术方案中，不同的猪场在使用不同的打标标准、规范并不统一。有一些数字会出现错打现象且无法纠正，读取过程中的错误率也较高。整个工作过程中产生的工作量十分巨大，且在打标的过程中对猪体本身亦有所伤害。

刺青：在国内使用较少，操作过程较为繁琐，成本较高。

耳标：不同的猪需要不同规格的耳标，且在猪只活动时会导致耳标掉落，致使个体混淆。打标过程中产生大量人工成本。

由此可见，相关的技术方案中，人工计算猪个体数量会产生大量的人工成本，并且会出现错数、少数、重数等现象，导致个体数量统计不准确。

本公开解决的一个技术问题是，如何快速、准确、高效的识别出目标群体中目标的数量。

根据本公开实施例的一个方面，提供了一种识别目标数量的方法，包括：采用深度学习神经网络对待预测图像进行处理，得到具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标；对目标点云图像中的点云数量进行识别，得到待预测图像中的目标数量。

在一些实施例中，深度学习神经网络包括卷积层和反卷积层，其中的反卷积层被配置为对卷积层输出的图像特征进行反卷积操作并叠加至卷积层输出的图像特征，使得深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像。

在一些实施例中，深度学习神经网络包括VGG16网络模型的前五个卷积块与附加的第一反卷积层、第二反卷积层、第三反卷积层；第一反卷积层被配置为对第五个卷积块输出的图像特征进行反卷积操作并叠加至第四个卷积块输出的图像特征；第二反卷积层被配置为对第一次叠加输出的图像特征进行反卷积操作并叠加至第三个卷积块输出的图像特征；第三反卷积层被配置为对第二次叠加输出的图像特征进行反卷机操作并叠加至第二个卷积块输出的图像特征。

在一些实施例中，该方法还包括：将第一反卷积层、第二反卷积层、第三反卷积层的通道数设置为256；在第一次叠加操作之前，采用1×1的卷积操作将第五个卷积块输出的图像特征的通道数处理为256；在第二次叠加操作之前，采用1×1的卷积操作将第四个卷积块输出的图像特征的通道数处理为256；在第三次叠加操作之前，采用1×1的卷积操作将第三个卷积块输出的图像特征的通道数处理为256。

在一些实施例中，深度学***滑的目标点云灰度图像。

在一些实施例中，该方法还包括：对训练图像中的各个目标进行打点操作；利用训练图像以及打点后的训练图像对深度学习神经网络进行训练，使得深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标。

在一些实施例中，对训练图像中的各个目标进行打点操作后进行高斯模糊处理；利用训练图像以及高斯模糊处理后的训练图像对深度学习神经网络进行训练。

在一些实施例中，对训练图像中的各个目标进行打点操作包括：对训练图像中的各个目标在不同目标部位进行打点操作，并使得将代表第一目标的目标点扩大至周围八个像素点后仍然位于第一目标上。

在一些实施例中，该方法还包括：采用摄像机对待识别目标群进行录像，得到待识别目标群的视频；从视频中截取视频图像，采用前述步骤实时识别视频图像中的目标数量。

在一些实施例中，摄像机的个数为多个，摄像机的分辨率与摄像机录像环境的光照强度呈负相关，摄像机的广角随摄像机的架设位置变化而变化。

根据本公开实施例的另一个方面，提供了一种识别目标数量的装置，包括：图像处理模块，被配置为采用深度学习神经网络对待预测图像进行处理，得到具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标；数量识别模块，被配置为对目标点云图像中的点云数量进行识别，得到待预测图像中的目标数量。

在一些实施例中，第一反卷积层、第二反卷积层、第三反卷积层的通道数为256；图像处理模块被配置为：在第一次叠加操作之前，采用1×1的卷积操作将第五个卷积块输出的图像特征的通道数处理为256；在第二次叠加操作之前，将采用1×1的卷积操作将第四个卷积块输出的图像特征的通道数处理为256；在第三次叠加操作之前，将采用1×1的卷积操作将第三个卷积块输出的图像特征的通道数处理为256。

在一些实施例中，深度学***滑的目标点云灰度图像。

在一些实施例中，该装置还包括网络训练模块，被配置为：对训练图像中的各个目标进行打点操作；利用训练图像以及打点后的训练图像对深度学习神经网络进行训练，使得深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标。

在一些实施例中，网络训练模块被配置为：对训练图像中的各个目标进行打点操作后进行高斯模糊处理；利用训练图像以及高斯模糊处理后的训练图像对深度学习神经网络进行训练。

在一些实施例中，网络训练模块被配置为：对训练图像中的各个目标在不同目标部位进行打点操作，并使得将代表第一目标的目标点扩大至周围八个像素点后仍然位于第一目标上。

在一些实施例中，该装置还包括：摄像模块，被配置为对待识别目标群进行录像，得到待识别目标群的视频；图像截取模块，被配置为从视频中截取视频图像，采用前述的步骤实时识别视频图像中的目标数量。

在一些实施例中，摄像模块的个数为多个，摄像模块的分辨率与摄像模块录像环境的光照强度呈负相关，摄像模块的广角随摄像模块的架设位置变化而变化。

根据本公开实施例的又一个方面，提供了一种识别目标数量的装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述的识别目标数量的方法。

根据本公开实施例的再一个方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现前述的识别目标数量的方法。

本公开采用人工智能技术，能够快速、准确、高效的识别出目标群体中目标的数量，应用至畜牧行业能够为智能化饲养提供基础支撑。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1示出了不同数据存储方式的示意图。

图2示出了对猪只进行打点后的训练图像。

图3示出了本公开使用的深度学习神经网络的结构示意图。

图4示出了待预测图像的示意图。

图5示出了目标点云图像的示意图。

图6示出了本公开一些实施例的识别目标数量的装置的结构示意图。

图7示出了本公开另一些实施例的识别目标数量的装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本公开保护的范围。

人工智能技术作为新一轮产业变革的核心驱动力，正在释放历次科技革命和产业变革积蓄的巨大能量，并且创造新的强大引擎，重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式，引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

全流程的人工智能技术能够大大的提高养猪效率，节约大量的人工成本。在饲养过程中，可以利用人工智能技术对猪只生命周期的全过程进行监控、记录。并通过实时监控每头猪的行为轨迹、身体状况、特征数据，来进行科学的投喂料以及疾病防控，从而使得超大规模养殖得以实现。

本公开针对猪场中猪只数量统计不准确、繁琐等问题。提出了利用人工智能算法识别猪只数量的流程。通过人工智能算法，结合监控摄像头(摄像机)实时计算猪只数量，极大节约了成本，提高了饲养效率。同时解决了人工计算猪只数量时的重数、少数现象，为后续的智能化饲养提供基础支撑，提升了人工智能项目在畜牧行业落地的可行性。下面分阶段描述对本公开提供的识别目标数量的方法。

(一)铺设摄像头(摄像机)

摄像头(摄像机)的铺设是为了监控猪场整体运行情况，及时发现问题，也为人工智能算法提供相应的图像数据。根据不同部位所需要图像、视频质量的不同，选取相应参数的摄像头(摄像机)进行架设。本流程的主要功能是为了识别猪只数量，因此，在架设摄像头(摄像机)时一般需铺设在屋顶角落，设置好相应的摄像头(摄像机)角度，以便后期能够尽可能拍摄到猪场所有的猪只，方便人工智能算法可以实时计算猪场猪只数量。一般来说，架设在屋顶角落的摄像头(摄像机)，需要像素足够清晰，并且能够实时回传视频流，以便于算法进行分析。架设在下方的摄像头(摄像机)，则需要有足够的广角，以便将更多的猪只纳入到摄像头(摄像机)范围内。根据不同情况，有时需要在夜间或者不同光照条件下进行摄录，在考虑成本的同时，需要在不同的位置选用不同参数的摄像头(摄像机)，从整体角度降低硬件成本。

(二)采集数据

前期铺设的摄像头(摄像机)是提供数据的基础设施，所铺设摄像头(摄像机)可能为云端存储，或者本地外接存储设备存储。应该根据不同的存储方式将摄像头(摄像机)所摄录图像进行保存，并根据所需数据格式，利用摄像头(摄像机)的拍摄画面，进行截图，使得拍摄图像能够尽可能的看到所有猪只且没有遮挡。同时要求摄像头(摄像机)能够随时拍摄到有效画面，能够保证画质清晰，并存储为后期算法可识别格式。

(三)数据接入

猪只数量结果的产出是基于算法对信息进行加工后的数据。将采集的原始数据通过接口或者批量导入的形式录入到***中，等待人工智能***的处理。如果摄像头(摄像机)选择的是云端存储，则需要从第三方接入视频流接口，以获取实时数据。如果摄像头(摄像机)选择的是本地外接存储设备存储，则需要有本地服务器或者通过网络实时回传视频流。

图1示出了不同数据存储方式的示意图。在实际操作中要根据不同的情况选取不同的存储方式。因为某些云端存储在上传云端的过程中，会对视频进行压缩，因此我们并不能够得到原画质的视频，如果在后期对视频画面的要求较高的情况下，应选用能够满足其要求的存储方式。作为本地存储也有其缺点，首先便是成本将会上升，其次，在传输过程中对于网络要求较高，如果出现意外，存在数据丢失现象。

(四)数据有效性判断

当数据落库后，我们会对数据的真实性和有效性进行校验。依据相应的规范，形成的简单算法，先对输入的图像数据进行一次初步的过滤和筛查，符合规范(主要包括图像数据的格式、分辨率要求)的数据才会按照正常的流程去流转，否则会把图像数据定义为异常数据，直接退出流程，不再占用***资源进行处理。

(五)模型训练

在算法模型构建前期，需要将机器进行预打标的图像数据外包到数据标注平台，采用人工的方式进行标注，图像数据中的猪只即为需要标注的目标。

对深度学习神经网络进行训练的方法具体包括如下步骤：

(1)对训练图像中的各个目标进行打点操作。

图2示出了对猪只进行打点后的训练图像。打点时，在每一只猪上打一个点。可以对训练图像中的各个目标在不同目标部位进行打点操作，以便增强深度学习神经网络的泛化能力，使得深度学习神经网络能够识别猪的不同部位。

(2)利用训练图像以及打点后的训练图像对深度学习神经网络进行训练，使得深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标。

深度学习神经网络包括卷积层和反卷积层，其中的反卷积层被配置为对卷积层输出的图像特征进行反卷积操作并叠加至卷积层输出的图像特征，使得深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像。

图3示出了本公开使用的深度学习神经网络的结构示意图。如图3所示，深度学习神经网络包括VGG16网络模型的前五个卷积块与附加的第一反卷积层Q1、第二反卷积层Q2、第三反卷积层Q3。

深度学习神经网络采用了VGG16前五个卷积块,去掉了VGG16本身的全连接层。 VGG16每个卷积块都会有一次池化操作,使得输出图像的长、宽尺寸均变为输入图像的1/2，这样五个卷积块输出的图像尺寸分别为训练图像的1/2、1/4、1/8、1/16、1/32，五个卷积块输出的图像通道数分别为64、128、256、512、512。

第一反卷积层被配置为对第五个卷积块P5输出的图像特征进行反卷积操作(输出图像尺寸变为训练图像的1/16)并叠加至第四个卷积块P4输出的图像特征(输出图像尺寸为训练图像的1/16)，第二反卷积层被配置为对第一次叠加输出的图像特征进行反卷积操作(输出图像尺寸变为训练图像的1/8)并叠加至第三个卷积块P3输出的图像特征(输出图像尺寸为训练图像的1/8)，第三反卷积层被配置为对第二次叠加输出的图像特征进行反卷机操作(输出图像尺寸变为训练图像的1/4)并叠加至第二个卷积块P2输出的图像特征(输出图像尺寸为训练图像的1/4)。将第一反卷积层、第二反卷积层、第三反卷积层的通道数设置为256，在第一次叠加操作之前，采用1×1的卷积操作将第五个卷积块输出的图像特征的通道数处理为256，在第二次叠加操作之前，采用1×1的卷积操作将第四个卷积块输出的图像特征的通道数处理为256，在第三次叠加操作之前，采用1×1的卷积操作将第三个卷积块输出的图像特征的通道数处理为256，以便实现图像特征的叠加操作。

深度学***滑的目标点云灰度图像。其中，附加的卷积层P6输出长宽尺寸为训练图像1/4、通道数为256的图像特征，附加的卷积层P7输出长宽尺寸为训练图像1/4、通道数为256的图像特征，附加的卷积层P6输出长宽尺寸为训练图像1/4、通道数为1的图像特征。

在一些实施例中，在步骤S302中，可以使得将代表某只猪的目标点扩大至周围八个像素点后仍然位于该只猪上，并对训练图像中的各个目标进行打点操作后进行高斯模糊处理。在步骤S304中，利用训练图像以及高斯模糊处理后的训练图像对深度学习神经网络进行训练。

上述实施例中，采用特定的打点规范进行打点，并对训练图像打点操作后进行高速模糊处理，能够将代表目标的一个像素点变成一圈像素点，使目标点更明显的呈现在训练图像中，从而更高效的训练深度学习神经网络。训练后的深度学习能够节省人工标注的成本，能够快速识别图像中的目标。

(六)人工智能识别

完成有效性判断后，***会开始对这部分数据进行人工智能标注。采用训练好的深度学习神经网络模型对输入的图像数据进行处理，分析图像中的猪只，对输入的图像数据中的猪只进行打点处理，每一头猪需打一个点，最后统计图像中点的数量来计算猪场中的猪只数量。如下图所示，通过对每头猪的个体识别，来对猪只数量进行辨认。识别目标数量的方法具体包括如下步骤：

(1)采用深度学习神经网络对待预测图像进行处理，得到具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标。图4示出了待预测图像的示意图，图5示出了目标点云图像的示意图。

(2)对目标点云图像中的点云数量进行识别，得到待预测图像中的目标数量。

例如，对目标点云图像中目标点的数量进行积分求和，可以得到待预测图像中的猪只的数量。

(七)结果展现形式

将数据打包整理，输出猪只数量结果，在例如智能猪场APP客户端或者其他终端实时显示猪场的猪只数量状况。终端显示界面内嵌到智能猪场管理软件中，并以尽可能直观的形式展现给使用人员，以便工作人员能够清晰、直观的查看猪场实时状况，为后续生产提供帮助。

上述实施例采用人工智能技术，能够自动、快速、准确、高效的识别出目标群体中目标的数量，解决了猪场在猪只数量清点时重数、少数等现象，直观可视，能够节约大量人力成本和时间成本，应用至畜牧行业能够为智能化无人养殖场提供基础支撑。

同时，根据不同位置的图像要求将设置不同参数的摄像头(摄像机)，能够尽可能提高每个摄像头(摄像机)的利用率，在满足要求的前提下尽可能降低成本。通过初步筛选过滤无效数据，能够进一步提高资源的利用效率，节约成本。另外，数据接入方案通过优化设计，能够在需要时随时截取有效数据，并根据不同猪场的实际情况选用不同方案，实现个性化定制。

下面结合图6描述本公开一些实施例的识别目标数量的装置。

图6示出了本公开一些实施例的识别目标数量的装置的结构示意图。如图6所示，本实施例中的识别目标数量的装置60包括：

图像处理模块603，被配置为采用深度学习神经网络对待预测图像进行处理，得到具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标；

数量识别模块604，被配置为对目标点云图像中的点云数量进行识别，得到待预测图像中的目标数量。

在一些实施例中，深度学***滑的目标点云灰度图像。

在一些实施例中，该装置60还包括网络训练模块602，被配置为：对训练图像中的各个目标进行打点操作；利用训练图像以及打点后的训练图像对深度学习神经网络进行训练，使得深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，目标点云图像中的每个目标点代表待预测图像中的一个目标。

在一些实施例中，网络训练模块602被配置为：对训练图像中的各个目标进行打点操作后进行高斯模糊处理；利用训练图像以及高斯模糊处理后的训练图像对深度学习神经网络进行训练。

在一些实施例中，网络训练模块602被配置为：对训练图像中的各个目标在不同目标部位进行打点操作，并使得将代表第一目标的目标点扩大至周围八个像素点后仍然位于第一目标上。

在一些实施例中，该装置60还包括：摄像模块600，被配置为对待识别目标群进行录像，得到待识别目标群的视频；图像截取模块601，被配置为从视频中截取视频图像，采用前述步骤实时识别视频图像中的目标数量。

图7示出了本公开另一些实施例的识别目标数量的装置的结构示意图。如图7所示，该实施例的识别目标数量的装置70包括：存储器710以及耦接至该存储器710的处理器720，处理器720被配置为基于存储在存储器710中的指令，执行前述任意一些实施例中的识别目标数量的方法。其中，存储器710例如可以包括***存储器、固定非易失性存储介质等。***存储器例如存储有操作***、应用程序、引导装载程序(Boot Loader)以及其他程序等。

识别目标数量的装置70还可以包括输入输出接口730、网络接口740、存储接口750等。这些接口730、740、750以及存储器710和处理器720之间例如可以通过总线760连接。其中，输入输出接口730为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口740为各种联网设备提供连接接口。存储接口750为SD卡、U盘等外置存储设备提供连接接口。

本公开还包括一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现前述任意一些实施例中的识别目标数量的方法。

本领域内的技术人员应明白，本公开的实施例可提供为方法、***、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种识别目标数量的方法，包括：

采用深度学习神经网络对待预测图像进行处理，得到具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，所述目标点云图像中的每个目标点代表待预测图像中的一个目标；

对所述目标点云图像中的点云数量进行识别，得到待预测图像中的目标数量。
如权利要求1所述的方法，其中，所述深度学习神经网络包括卷积层和反卷积层，其中的反卷积层被配置为对卷积层输出的图像特征进行反卷积操作并叠加至卷积层输出的图像特征，使得所述深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像。
如权利要求1所述的方法，其中，

所述深度学习神经网络包括VGG16网络模型的前五个卷积块与附加的第一反卷积层、第二反卷积层、第三反卷积层；

所述第一反卷积层被配置为对第五个卷积块输出的图像特征进行反卷积操作并叠加至第四个卷积块输出的图像特征；

所述第二反卷积层被配置为对第一次叠加输出的图像特征进行反卷积操作并叠加至第三个卷积块输出的图像特征；

所述第三反卷积层被配置为对第二次叠加输出的图像特征进行反卷机操作并叠加至第二个卷积块输出的图像特征。
如权利要求3所述的方法，其中，所述方法还包括：

将所述第一反卷积层、第二反卷积层、第三反卷积层的通道数设置为256；

在第一次叠加操作之前，采用1×1的卷积操作将第五个卷积块输出的图像特征的通道数处理为256；

在第二次叠加操作之前，采用1×1的卷积操作将第四个卷积块输出的图像特征的通道数处理为256；

在第三次叠加操作之前，采用1×1的卷积操作将第三个卷积块输出的图像特征的通道数处理为256。
如权利要求3所述方法，其中，所述深度学***滑的目标点云灰度图像。
如权利要求1所述的方法，所述方法还包括：

对训练图像中的各个目标进行打点操作；

利用训练图像以及打点后的训练图像对所述深度学习神经网络进行训练，使得所述深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，所述目标点云图像中的每个目标点代表待预测图像中的一个目标。
如权利要求6所述的方法，其中，

对训练图像中的各个目标进行打点操作后进行高斯模糊处理；

利用训练图像以及高斯模糊处理后的训练图像对所述深度学习神经网络进行训练。
如权利要求7所述的方法，所述对训练图像中的各个目标进行打点操作包括：

对训练图像中的各个目标在不同目标部位进行打点操作，并使得将代表第一目标的目标点扩大至周围八个像素点后仍然位于所述第一目标上。
如权利要求1所述的方法，所述方法还包括：

采用摄像机对待识别目标群进行录像，得到待识别目标群的视频；

从所述视频中截取视频图像，采用如权利要求1中的步骤实时识别视频图像中的目标数量。
如权利要求9所述的方法，其中，所述摄像机的个数为多个，所述摄像机的分辨率与所述摄像机录像环境的光照强度呈负相关，所述摄像机的广角随所述摄像机的架设位置变化而变化。
一种识别目标数量的装置，包括：

图像处理模块，被配置为采用深度学习神经网络对待预测图像进行处理，得到具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，所述目标点云图像中的每个目标点代表待预测图像中的一个目标；

数量识别模块，被配置为对所述目标点云图像中的点云数量进行识别，得到待预测图像中的目标数量。
如权利要求11所述的装置，其中，所述深度学习神经网络包括卷积层和反卷积层，其中的反卷积层被配置为对卷积层输出的图像特征进行反卷积操作并叠加至卷积层输出的图像特征，使得所述深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像。
如权利要求11所述的装置，其中，

所述深度学习神经网络包括VGG16网络模型的前五个卷积块与附加的第一反卷积层、第二反卷积层、第三反卷积层；

所述第一反卷积层被配置为对第五个卷积块输出的图像特征进行反卷积操作并叠加至第四个卷积块输出的图像特征；

所述第二反卷积层被配置为对第一次叠加输出的图像特征进行反卷积操作并叠加至第三个卷积块输出的图像特征；

所述第三反卷积层被配置为对第二次叠加输出的图像特征进行反卷机操作并叠加至第二个卷积块输出的图像特征。
如权利要求13所述的装置，其中，所述第一反卷积层、第二反卷积层、第三反卷积层的通道数为256；

所述图像处理模块被配置为：在第一次叠加操作之前，采用1×1的卷积操作将第五个卷积块输出的图像特征的通道数处理为256；在第二次叠加操作之前，将采用1×1的卷积操作将第四个卷积块输出的图像特征的通道数处理为256；在第三次叠加操作之前，将采用1×1的卷积操作将第三个卷积块输出的图像特征的通道数处理为256。
如权利要求13所述装置，其中，所述深度学***滑的目标点云灰度图像。
如权利要求11所述的装置，所述装置还包括网络训练模块，被配置为：

对训练图像中的各个目标进行打点操作；

利用训练图像以及打点后的训练图像对所述深度学习神经网络进行训练，使得所述深度学习神经网络能够将待预测图像处理为具有待预测图像的浅层图像特征以及深层图像特征的目标点云图像，所述目标点云图像中的每个目标点代表待预测图像中的一个目标。
如权利要求16所述的装置，其中，所述网络训练模块被配置为：

对训练图像中的各个目标进行打点操作后进行高斯模糊处理；

利用训练图像以及高斯模糊处理后的训练图像对所述深度学习神经网络进行训练。
如权利要求17所述的装置，其中，所述网络训练模块被配置为：

对训练图像中的各个目标在不同目标部位进行打点操作，并使得将代表第一目标的目标点扩大至周围八个像素点后仍然位于所述第一目标上。
如权利要求11所述的装置，所述装置还包括：

摄像模块，被配置为对待识别目标群进行录像，得到待识别目标群的视频；

图像截取模块，被配置为从所述视频中截取视频图像，采用如权利要求1中的步骤实时识别视频图像中的目标数量。
如权利要求19所述的装置，其中，所述摄像模块的个数为多个，所述摄像模块的分辨率与所述摄像模块录像环境的光照强度呈负相关，所述摄像模块的广角与随所述摄像模块的架设位置变化而变化。
一种识别目标数量的装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1至10中任一项所述的识别目标数量的方法。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如权利要求1至10中任一项所述的识别目标数量的方法。