CN110992325A

CN110992325A - 基于深度学习的目标清点方法、装置和设备

Info

Publication number: CN110992325A
Application number: CN201911177765.1A
Authority: CN
Inventors: 康琦; 陈劲树
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-10

Abstract

本发明提供一种基于深度学习的目标清点方法、装置和设备，可对具有固定形状的目标物进行数量清点。所述目标清点方法包括：获取包含目标物的图像作为样本图像并进行预处理；根据预处理后的所述样本图像对预设的目标检测模型进行训练和测试；基于训练和测试后的所述目标检测模型，将获取的待清点的第一图像进行目标检测，获取检测结果，并将所述检测结果转换为被检出物的数量信息。本发明可以解决现有的目标清点方法普适性不高，灵活性较差，对于目标物的采集条件和目标物的类别限制较多等问题，具有较好适用性和灵活性。

Description

基于深度学习的目标清点方法、装置和设备

技术领域

本发明涉及计算机视觉领域，尤其涉及一种目标清点方法和装置。

背景技术

目前成堆物体的清点工作一般采用人工计数的方式，这种传统的工作方式相对繁琐，并且需要消耗很多人力资源，极大的限制了生产效率，然而目前在物体清点问题上却暂时并无高效的解决方法将人工清点取而代之。

目前技术领域中，针对清点问题的解决方法主要分有接触式与无接触式两种。有接触式清点办法中，大多使用外部仪器辅助进行称重、检测等工作以达到清点目的，如发明专利《一种药品清点计数装置及其方法》提出采用仪器称重方法进行记数，但对于体积过大和/或重量过大的物体，则难以设计可以同时保证低误差与高可操作性两点需求称量仪器；如发明专利《一种基于RFID技术的货物清点扫描拍》提出采用RFID技术进行记数，但对于堆放零落的物体，无法保证RFID相关设备不受损坏，亦无法高效地安装与回收相关装置，故也并不能根本上解决问题。

无接触式清点办法主要依托于计算机视觉技术，如发明专利《一种基于实例分割算法的栏内哺乳动物清点方法》采用实例分割算法对采集的栏内哺乳动物情况对图像进行检测，以达到记数的目的，但对于横截面积较小，且堆放情况复杂，重叠、遮挡和形变现象较多的物体，难以取得类似栏中哺乳动物的被检物大体积、分散的图像，则清点效果不佳；又如发明专利《一种基于人脸识别的用户行为信息统计方法》提出对摄像头采集到的人脸图像进行识别以统计数目的方法，但该方法对于图像采集时的光照条件和拍摄角度要求较高，不适用于光照条件随机不稳定，或图像采集角度不固定等情况。

因此，目前现有的目标清点方法仍然存在普适性不高，灵活性较差等问题，对清点时的采集条件或目标物的类别要求较高，且由于受采集条件的限制，难以对目标物进行动态实时的数量清点。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于深度学习的目标清点方法、装置和设备，可以解决现有的目标清点方法普适性不高，灵活性较差，对于目标物的采集条件和目标物的类别限制较多等问题。

为实现上述目的及其他相关目的，本发明提供一种基于深度学习的目标清点方法，其特征在于，适用于对具有固定形状的目标物进行数量清点，所述目标清点方法包括：获取包含目标物的图像作为样本图像，进行预处理；根据预处理后的所述样本图像对预设的目标检测模型进行训练和测试；获取待清点的第一图像；基于训练和测试后的所述目标检测模型，对所述第一图像进行目标检测，获取检测结果，并将所述检测结果转换为被检出物的数量信息。

于本发明一实施例中，所述预处理包括：将获取的所述样本图像按照训练集、测试集和验证集的类别进行划分；对所述样本图形中的目标物进行标注，获取所述样本图像中目标物的训练信息，包括位置信息和形状信息。

于本发明一实施例中，所述预设的目标检测模型包括单阶段式目标检测模型。

于本发明一实施例中，利用所述训练信息对所述单阶段式目标检测模型中的默认框的尺寸特征进行调整，基于调整后的默认框进行模型训练和测试。

于本发明一实施例中，对所述默认框的调整方式包括基于所述训练信息中的形状信息，结合所述默认框的通用值采用聚类分析方法获取新的默认框尺寸特征。

于本发明一实施例中，所述默认框的调整方式还包括对通过聚类分析方法获得的新的默认框尺寸特征进行实验室微调。

于本发明一实施例中，所述目标清点方法还包括：当获取的所述第一图像为一组具有时间序列的连续图像时，基于训练和测试后的所述目标检测模型，将获取的所述第一图像进行连续的目标检测，获取检测结果，将所述检测结果转换为反映数量信息的单调数组，取所述单调数组的中位数作为所述第一图像中所述被检出物的数量信息。

本发明提供一种基于深度学习的目标清点装置，用于对具有固定形状的目标物进行数量清点，所述目标清点装置包括：读取模块、预处理模块，模型训练模块和检测模块。所述读取模块用于获取包含目标物的图像作为所述模型训练模块的样本图像，以及获取待清点的第一图像；所述预处理模块用于对所述读取模块获得的所述样本图像进行预处理，包括样本分类子模块和训练信息获取子模块；所述样本分类子模块用于将所述样本图像按照训练集、测试集和验证集三种类别进行划分；所述训练信息获取子模块用于获取所述样本图像中的每个图像的训练信息；所述模型训练模块为根据所述预处理模块获取的分类后的所述样本图像以及所述训练信息，对预设的目标检测模型进行训练和测试，从而获得训练和测试后的与目标物适配的所述目标检测模型；所述检测模块，用于将所述读取模块获取的所述第一图像导入所述模型训练模块获取的所述目标检测模型中，通过目标检测后获取目标检测结果，并将所述目标检测结果转换为被检出物的数量信息。

于本发明一实施例中，所述模型训练模块中所述预设的目标检测模型包括单阶段式目标检测模型。

于本发明一实施例中，所述模型训练模块对所述预设的所述单阶段式目标检测模型的训练和测试过程包括利用所述训练信息对所述单阶段式目标检测模型中的默认框的尺寸特征采用聚类分析方法进行调整，基于调整后的默认框进行模型训练和测试。

于本发明一实施例中，所述目标清点装置还包括显示模块，用于读取所述检测模块中的所述目标检测结果，将所述检测结果通过文字和/或图像信息显示。

本发明提供一种电子设备，包括：处理器、通信接口、存储器以及通信总线；所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述存储器用于存放至少一指令；所述指令使所述处理器执行如权利要求1-8中任一项所述的一种基于深度学习的目标清点方法。

如上所述，本发明所述的一种基于深度学习的目标清点方法、装置和设备，具有以下有益效果：

本发明在设计目标检测模型结构时采用单阶段目标检测方法，可以保证模型运行在处理性能较低的移动设备上时也能实时输出检测结果，在进行目标物数量清点时具有较好的时效性；且基于预先采集的样本图像中目标物的训练信息，对所述预设的目标检测模型中的默认框的尺寸特征进行调整，从而使所述目标检测模型更好地适配目标物，在提升检测精度的同时也提升了本方法的适用性和灵活性；只需更换对应样本数据集并对模型进行重新训练，即可完成其他种类物件检测而不再需要其他适配过程，简单方便，易于使用。此外，基于本发明还可以实现对目标物实时动态的数量清点，实用性强。

附图说明

图1显示为本发明一种基于深度学习的目标清点方法于一实施例的适用场景图

图2显示为本发明一种基于深度学习的目标清点方法于一实施例的流程示意图

图3显示为本发明一种基于深度学习的目标清点方法中所述预处理过程于一实施例的流程示意图

图4显示为本发明一种基于深度学习的目标清点方法中所述默认框调整方法于一实施例的流程示意图

图5显示为本发明一种基于深度学习的目标清点方法中所述默认框调整方法于另一实施例的流程示意图

图6显示为本发明一种基于深度学习的目标清点装置于一实施例的功能结构示意图

图7显示为本发明一种基于深度学习的目标清点装置于另一实施例的功能结构示意图

元件标号说明

S101～S104 步骤

S101A～S102B 步骤

S102A～S102B 步骤

S102A～S102C 步骤

800 目标清点装置

810 读取模块

820 预处理模块

821 样本分类子模块

822 训练信息获取子模块

830 模型训练模块

840 检测模块

850 显示模块

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明提供的一种目标清点方法在本实施例中的流程图，适用于对具有固定形状的目标物进行数量清点，所述目标物的形状可以是相同的也可以是不相同的，所述物体可以是成堆排布，也可以是分散排布。在具体实现时，请参阅图1，所述目标物包括堆积的钢材。

请参阅图2，所述目标检测方法包括以下步骤：

S101，采集包含目标物的图像作为样本图像，并对所述样本图像进行预处理。

所述采集图像的方式包括但不限于利用相机或摄像机等拍摄装置，或利用带有摄像头的手机、平板等移动设备；所述图像的采集环境为随机光照环境；所述图像中目标物清晰可辨识且具有一定的几何形状。

本领域技术人员可以理解的是，在所述步骤S101中采集的图像作为后续步骤中的目标检测模型的样本图像，则采集的数量越多，训练和测试后的模型则越精确。因此，本发明的实施例对采集的目标物图像的数量不做具体限定。

对采集到的样本图像进行预处理，请参阅图3，所述预处理过程包括：

S101A，将采集到的样本图像随机分为训练集、测试集和验证集三类。

所述训练集用来训练所述目标检测模型，所述测试集用于对训练后的所述目标检测模型的模型性能进行性能测试，所述验证集用于对所述测试集经过模型测试后的测试结果进行验证。所述训练集的数量大于测试集和验证集的数量。在一个具体的实施方式中，所述训练集、测试集和验证集中样本图像的数量比例为8:1:1。

S101B，对每张样本图像中的目标物进行标注，获取所述样本图像中目标物的训练信息，包括目标物的位置信息和形状信息。具体的，采用标注框对所述样本图像中的目标物进行标注。所述目标物标注框为包含单个目标物的外接范围框；在具体实现时，所述目标物标注框为包含目标物的外接矩形框。

所述位置信息为目标物在图上的位置信息。具体的，所述目标物的位置信息包括目标物标注框的角点在图上的坐标信息，包括目标物标注框的左上角角角点和右下角角点在图上的坐标信息。

所述形状信息包括目标物的形状类别信息，以及所述目标物标注框的长宽比信息。

S102，构建目标检测模型，基于所述样本图像对预设的目标检测模型训练和测试，从而获得与所述目标物适配的鲁棒性较高的目标检测模型。

即基于所述训练集对所述预设的目标检测模型进行样本训练，以及基于所述测试集和验证集数据进行所述目标检测模型的检测性能测试，从而获得最终的目标检测模型。

在本发明中，所述预设的目标检测模是以单阶段式目标检测模型为主体，以卷积神经网络(Convolutional Neural Networks，以下简称CNN)为主要结构的检测模型，可以实现图像中目标物的特征提取。所述单阶段式目标检测方法是在对图像的第一次特征提取结果上直接预测，相较处理两次图像特征信息的双阶段检测方法而言，单阶段检测方法具有更高的实时性和时效性，提升与目标预测的效率。

在本实施例中，所述单阶段式目标检测模型采用单次目标检测器结构(SingleShot MultiBox Detector，以下简称SSD)模型；所述SSD模型的结构包括前段的基网络与后续连接的附加层。

进一步的，所述SSD模型中的基网络为采用Inception方法构建，在一个具体的实施方式中，所述SSD模型中的基网络为采用四个Inception-v2模块构建获得。所述各附加层为基于所述基网络依次经卷积变换获得的简单卷积层，即第一附加层为基于所述基网络经卷积变换获得，所第二附加层为基于所述第一附加层经卷积变换获得，并以此类推获得其他的附加层。具体的，在所述卷积变换中采用的卷积层为第一卷积层，所述第一卷积层大小包括3*3。

在一个具体的实施方式中，所述SSD模型中的基网络为采用四个Inception-v2模块构建获得，所述基网络的最终输出特征图尺寸为38像素*38像素；其后六层附加层均为简单卷积层，每层卷积层的输出特征图尺寸依次为19像素*19像素，19像素*19像素，10像素*10像素，5像素*5像素，3像素*3像素，1像素*1像素。

进一步的，所述目标检测模型的构建方法还包括在构建所述SSD模型中的所述基网络和所述附加层时，结合常用特征图融合网络算法来构建各层特征图；在具体实现时，所述常用特征图融合网络算法包括特征金字塔网络(Feature Pyramid Networks，以下简称FPN)。所述FPN结构先将SSD模型中的每一层特征图扩展为其相邻的上一层特征图的尺寸，再将扩展后的特征图与相邻上一层特征图融合获得对应的融合特征图，将各层所述融合特征图输出到第二卷积层，经卷积变换获取各所述融合特征图中的所述目标物的位置和类别检测结果。所述第二卷积层为大小较所述第一卷积层更小的卷积层，在具体实现时，包括1*1大小的卷积层。

通过SSD模型结合所述FPN辅助结构的方法，在各层特征图中融合下一层特征图的特征，可以增强面积相对较小的目标物在所述目标检测模型中提取出的语义信息与位置信息，进而提升所述目标检测模型的检测性能。

进一步的，所述SSD模型中的所述基网络中进行卷积变换时采用不同尺寸的卷积层以适配不同形状特征的目标物。

进一步的，所述SSD模型中的所述基础网络进行卷积变换时，采用与上述普通卷积层相同尺寸大小的可变形的卷积层，以适应同一类别的目标物之间的微小差异。所述可变形卷积层为基于一个平行网络来学习偏移量，该偏移量使得卷积层的采样点发生偏移，得以集中于目标而不受目标本身形变的影响。

为解决不同尺度的目标检测问题，所述SSD模型需要建立了不同尺度大小的特征图并且共享参数，所述参数为第二卷积层。在所述SSD模型中，特征图的尺寸大小与所述特征图中的目标物大小相对应，大尺度特征图(相对较低层)相对小尺度特征图(相对较高层)的感受视野更大，但检测尺度相对较小；所述大尺度特征图感受视野较大，用来检测小尺度的目标物，小尺度特征图感受视野较小，用来检测大尺度的目标物。因此，在构建所述SSD模型过程中，需要分别设定最高层特征图与原始图像的尺寸比例S_max，，以及最低层特征图与原始图像的尺寸比例S_min，则其余各层特征图与所述原始图像的尺寸比例均位于S_max和S_min这两个比例数值之间，且各比例数值的间隔固定。具体而言，假设在所述SSD模型内建立了m(m为不小于1的正整数)层特征图，第k层的特征图尺寸大小与原始图像大小的比例用s_k表示，则所述第k层特征图尺寸大小与原图大小的比例s_k计算如下：

式中k为大于等于1且小于等于m的任意正整数。由上式，可以计算出每个特征图上的所述默认框的尺寸大小。

所述原始图像为输入所述SSD模型的的单个样本图像。

进一步的，在一个具体的实施方式中，所述Smax为0.9，所述Smin为0.2。

根据所述SSD模型的目标检测工作原理，对于各所述特征层中的各像素单元设置不同尺寸特征的默认框。所述默认框的尺寸特征设定，在通用的所述SSD模型中，对每层特征图均指定了6种不同尺寸特征的默认框，以适应目标物尺寸与姿态变化。所述默认框的尺寸特征包括默认框的长宽比。具体而言，用a_r表示第k层特征层上第a种尺寸特征的默认框的长宽比，结合由所述公式(1)得到的所述第k层特征图的尺寸大小，可以计算出第k层特征图上第a种尺寸的默认框的长和宽，分别表示为

和

所述

和所述

的计算方式如下：

其中，

即所述公式(3)中a_r取值第一取值集合中的数值，所述第一取值集合为包含数值1，2，3，

的集合。值得注意的是，对于本领域技术人员，所述第一取值集合中各数值为所述SSD模型中的默认框长宽比的通用值，是根据所述SSD模型的训练经验获取，不排除有其他更合理取值的结果。

在本实施例中，所述公式(2)中采用a_r的平方根这一算子辅助计算所述默认框的宽和高，其目的是为了保证在a_r如公式(3)取值的情况下，所计算获得的所述默认框宽和高的数值大小适中，从而可以更好得适配所述目标物的检测尺度。当a_r有其他取值的情况下，公式(2)中a_r的平方根这一算子可以被a_r的其他数学形式算子替代，以获得数值合适的所述默认框的宽和高值。

另外的，沿用公式(1)的相关定义，出于对称性的考虑，针对第k层特征图上a_r为1的默认框而言，所述SSD模型又额外设置了一种尺度，用s′_k表示：

所述尺度s′_k通过取第k层特征图的尺寸与所述第k层特征图的下一层特征图尺寸的几何平均值表示，为a_r为1时的默认框额外增加了一组新的默认框宽和高的数值，以平衡所述SSD模型内默认框的尺度规范。

对于所述SSD模型，目标检测的性能与所述默认框的尺寸特征相关，且所述检测结果对所述默认框的尺寸特征参数的取值十分敏感。

为获取更好的目标检测结果，本发明在所述SSD模型的训练过程中，在所述第一取值集合中的各长宽比通用值基础上，结合所述训练信息中的所述目标物标注框的长宽比，采用聚类分析的方法，对所述默认框的长宽比进行调整。请参阅图4，所述调整的过程包括：

S102A，获取所述每个样本图像上的所述目标物标注框的长宽比信息。

S102B，将获取的所述目标物标注框的长宽比信息，并结合所述第一取值集合中的各长宽比通用值进行聚类分析，将聚类分析后的结果分为5类，即为调整后的5个新的所述默认框的宽高数值；结合所述公式(4)获得的第6个默认框的长宽比数值，共同组合为第二取值集合。

进一步的，采用的所述聚类分析方法包括k均值聚类(k-means clusteringalgorithm，以下简称K-means)算法。所述K-means算法对于相较于其他的聚类分析方法，在处理大数据量的聚类分析时具有更快的处理速度，例如处理30000个数值时，采用K-means算法相较于均值漂移聚类或DBSCAN等方法具有更快的处理速度。

进一步的，请参阅图5，所述调整过程还包括：

S102C，在采用所述聚类分析方法获得所述第二取值集合后，采用实验室微调的方法对所述第二取值集合中的各长宽比数值进一步细调，以进一步提升所述SSD模型的目标检测性能。在一个具体的实施方式中，所述实验室微调的方式包括将所述第二取值集合中的各长宽比的数值浮动±5％后依次进行实验，从而获得所述默认框长宽比例的最佳值。

对各所述特征图中各像素单元所匹配的所述默认框中心坐标进行归一化处理，以便于所述SSD模型后续计算。具体的，对于第k层特征图，以|f_k|表示第k层特征图实际尺寸的边长；根据所述SSD模型中所述特征图上每一个像素单元均匹配一组默认框的原则，则所述特征图上长度方向上第i处、宽度方向上第j处的像素单元所匹配的默认框中心坐标的归一化结果表示为：

所述公式(6)中i，j取值属于包含0但不包含f_k的正整数集合。

在所述SSD模型的训练中，对单个目标物通过所述模型检测获取的多组预测结果采用非极大值抑制法选取其中的一组，与所述目标物体的真值信息进行匹配；当检测到所述目标物体的真值信息和所述模型预测结果中选出的一组结果数据匹配时，则进行端到端的建立损失计算和反向传播，从而完成所述SSD模型的训练。

进一步的，在对所述SSD模型进行训练时，将所述目标物体的真值信息和预先建立的默认框进行匹配；具体的，以所述默认框的位置、长宽比和尺度为匹配标准，和所述目标物的真值信息进行匹配，获取所述默认框和所述真值信息的重合程度的交并比值(Intersection over Union，以下简称IoU)，以下简称IoU；然后取所有IoU值达到阈值条件的默认框作为匹配结果。而在其他常用的所述SSD模型的训练策略中，只选取IoU值最大的默认框作为匹配结果；不同于只选取IoU值最大的默认框作为匹配结果的策略，本模型采用的如上所述的训练策略可以有效得降低模型的训练难度，提高模型的训练效率。

在一个具体的实施例中，假设一个分类器x，用i表示所述默认框的序号，p表示目标物的类别，j表示真值的序号，即用

表示第i个默认框是否匹配含有类别为p的目标物的第j个真值，则

取值有且仅有1或0，其中取1时表示匹配，取0时表示不匹配，即：

对于检测结果为匹配时，则进行端至端得损失计算。在本实施例中，设置所述SSD模型的损失函数L只与分类器x、某默认框的置信度c、某默认框的位置l、与所述默认框匹配的真值g有关，则本模型的损失函数可以定义为下式：

式中，N为与真值匹配的默认框的数量，L_conf与L_loc分别表示所述SSD模型的置信度损失与定位损失，两者分别只与x、c和x、l、g有关。在交叉验证的情况下，权重项α取1。特别的，当N＝0时，损失值被设定成0。

最后，对所述损失计算后输出的检测结果采用非极大值抑制算法进行处理，计算与之匹配的真实值的IoU，根据所述IoU进行反向传播算法推进训练，完成对所述SSD模型的训练；并利用所述测试集和所述验证集对所述训练后的SSD模型进行检测，根据获得的所述IoU通过反向传播算法对所述训练后的SSD模型进行调整，使所述SSD模型在所述测试集样本图像与所述验证集样本图像上均达到mAP(mean Average Precision，平均均匀精度)大于95％的检测性能，从而获取最终的训练和测试后的SSD模型。

如上所述，在模型训练和测试的过程中，采用聚类分析方法，结合所述样本数据中目标物标注框的尺寸特征，对所述SSD模型中的默认框的尺寸特征进行调整，可以增强所述默认框对目标物形状特征的适应性，从而可以进一步提高所述目标检测模型的检测精度。

在一个具体的实施例中，所述目标物为堆放的4种类型的钢材，预先采集200张样本图像，并对所述样本图像中的目标物采用矩形标注框进行标注，获取30000个目标物的所述标注信息，所述标注信息包括目标物的位置信息和形状信息，所述形状信息包括标注框的长宽比信息。由于篇幅问题，在此只随机选取每类钢材目标物中的10组形状信息数据进行显示，如下表所述。

编号	类别	长度(单位：像素)	宽度(单位：像素)	比例(长/宽)
					1	1	38.36	30.57	1.25
2	1	52.27	50.38	1.04
					3	1	60.72	49.96	1.22
4	1	34.69	44	0.79
					5	1	13.92	15.41	0.9
6	1	17.63	14.63	1.21
					7	1	21.61	27.44	0.79
8	1	40.84	50.33	0.81
					9	1	35.47	34.2	1.04
10	1	29.93	20.01	1.5
					11	2	47.57	40.42	1.18
12	2	47.27	34.03	1.39
					13	2	41.96	38.45	1.09
14	2	22.4	17.41	1.29
					15	2	48.86	41.92	1.17
16	2	10.13	9.09	1.12
					17	2	52.54	30.73	1.71
18	2	42.43	21.49	1.97
					19	2	68.82	35.6	1.93
20	2	74.46	45.42	1.64
					21	3	21.3	13.33	1.6
22	3	72.85	35.16	2.07
					23	3	36.87	22.9	1.61
24	3	69.03	39.09	1.77
					25	3	14.58	16.85	0.87
26	3	24.02	37.48	0.64
					27	3	35.31	33.66	1.05
28	3	25.44	33.1	0.77
					29	3	27.76	43.84	0.63
30	3	36.39	45.44	0.8
					31	4	8.85	11.76	0.75
32	4	37.2	38.43	0.97
					33	4	6.99	17.86	0.39
34	4	6.86	9.37	0.73
					35	4	5.96	10.41	0.57
36	4	8.35	34.5	0.24
					37	4	6.32	11.77	0.54
38	4	3	11.25	0.27
					39	4	6.06	9.31	0.65
40	4	11.41	14.23	0.8

将SSD模型作为预设的目标检测模型，利用所述样本图像对预设的所述SSD模型进行训练，包括结合所述样本图像中目标物标注框的长宽比数据，对所述SSD模型中默认框的长宽比的所述第一取值集合中的5个数值，即

进行聚类分析计算，获得聚类分析后新的长宽比数值，即{1.00,1.31,1.84,0.77,0.54}；对每个新的长宽比数值按照±5％浮动后依次进行性能测试实验，获取最佳的默认框长宽比数值，并结合公式(4)获得的第6个数据，组合形成所述默认框长宽比的所述第二取值集合。基于调整后的所述默认框长宽比的所述第二取值集合，对所述SSD模型进行训练和测试，从而获得最终的目标检测模型。

通过对比实验，未对所述SSD模型的默认框进行调整的模型的目标检测精度为85.4％，采用聚类分析方法对所述SSD模型的默认框进行调整的模型的目标检测精度为90.54％，较未进行默认框调整的模型的目标检测精度高5.1％±0.5％。因此，采用聚类分析方法对所述默认框进行调整后的获得所述SSD模型具有更好的鲁棒性。

S103，采集第一图像；所述第一图像为用于清点目标物数量的包含目标物的图像。

进一步的，所述步骤S103还包括对采集的第一图像进行预处理，所述预处理包括调整所述第一图像的尺寸大小，使能适应所述目标检测模型的图像输入尺寸。

进一步的，对所述第一图像的获取方式包括采用成像设备的方法获取，在具体实现时，所述成像设备包括手机、平板电脑等配置有摄像头的移动装置，以及相机、摄像机等拍摄装置。

进一步的，当对待清点的目标物进行一定时间内的连续采集时，所述第一图像为一组具有连续时间序列的图像。

S104，基于所述训练和测试后获得的所述目标检测模型，对所述第一图像进行目标检测，获得目标检测结果，并将所述目标检测结果转换为被检出物的数量信息。其中，所述被检出物为通过目标检测后被检测识别出的目标物。

所述检测结果包括被检出物的位置信息，所述位置信息包括被检出物的外接矩形框角点的坐标信息。

进一步的，所述检测结果还包括被检出物的类别信息。

进一步的，所述将目标检测结果转换为被检出物的数量信息的实现方式包括，对所述目标检测结果中的位置信息或类别信息进行统计，获取被检出物的数量信息。

进一步的，当所述第一图像为一组具有连续时间序列的图像时，基于训练和测试后的所述目标检测模型，将获取的所述第一图像进行连续的目标检测，获取与所述第一图像对应的一组检测结果，并将各所述检测结果连续依次转换为反映被检出物数量的数值，即将所述检测结果转换为一序列数组，对该序列数组按照数值大小排序，取排序后的所述序列数组的中位数作为所述第一图像中所述被检出物的数量信息。通过如上所述方式，可以防止在对目标物进行所述第一图像采集时，因成像设备抖动、周围环境干扰等因素而造成的噪声干扰，从而提升所述目标检测方法的检测性能。

请参阅图6，为本发明还提供一种目标清点装置800的功能结构框架图，包括读取模块810、预处理模块820，模型训练模块830和检测模块840。

所述读取模块810用于读取或导入包含目标物的图像作为所述模型训练模块830的样本图像，或用于读取或导入包含目标物的第一图像。所述第一图像为用于清点目标物数量的包含目标物的图像。

进一步的，当对待清点的目标物进行一定时间内的连续采集时，所述第一图像还包括一组具有连续时间序列的图像。

所述预处理模块820用于将所述读取模块810获得的所述样本图像中的图像进行预处理，所述预处理模块820包括样本分类子模块821和训练信息获取子模块822；

所述样本分类子模块用于将所述样本图像分别按训练集、测试集和验证集三种类别进行划分，从而获得不同类别的样本图像；所述训练集用于存放训练所述目标检测模型的样本图像，所述测试集用于存放对训练后的所述目标检测模型进行测试的样本图像，所述验证集用于存放对所述测试集的测试结果进行验证的样本图像。

进一步的，所述样本分类子模块821对所述样本图像进行划分时，根据预先设定的训练集、测试集和验证集的数量比例随机进行划分。在一个具体的实施方式中，所述训练集、测试集和验证集中样本图像的数量比例为8:1:1。

所述训练信息获取子模块822用于对每个所述样本图像中的目标物进行标注，获取所述样本图像中目标物的训练信息，所述训练信息包括目标物的形状信息与位置信息。

具体的，采用标注框对所述样本图像中的目标物进行标注。所述目标物标注框为包含单个目标物的外接范围框；在具体实现时，所述目标物标注框为包含目标物的外接矩形框。

所述位置信息为目标物在图上的位置信息。在具体实现时，所述目标物的位置信息包括目标物标注框的角点在图上的坐标信息，包括目标物标注框的左上角角角点和右下角角点在图上的坐标信息。

进一步的，所述训练信息的获取方式包括利用标注工具通过人机交互的方式获取，所述标注工具包括但不限于LabelImg等开源图片标注工具。

所述模型训练模块830为根据所述预处理模块820获取的分类后的所述样本图像以及所述训练信息，通过对预设的所述目标检测模型进行训练和测试，从而构建所述目标检测模型。

在本实施例中，所述预设的目标检测模型包括单阶段式目标检测模型。

所述模型训练模块830将读取的所述训练信息对所述预设的单阶段式目标检测模型中的默认框的尺寸特征采用聚类分析方法进行调整，基于调整后的默认框进行模型训练和测试。

所述模型训练和测试的过程与本发明在上述实施例中所述S102中提出的模型训练和测试过程相同，在此不再赘述展开。

所述检测模块840，用于将所述读取模块810获取的所述第一图像导入所述模型训练模块830获取的训练后的所述目标检测模型中，通过目标检测后获取目标检测结果，并将所述检测结果转换为被检出物的数量信息。

所述目标检测结果至少包括被检测物的位置信息。所述位置信息为覆盖被检出物的外接矩形框的角点坐标信息。

进一步的，所述目标检测结果还包括所述被检出物的类别信息。

进一步的，当所述读取模块810获取的所述第一图像为具有连续时间序列的多个连续图像时，所述检测模块840对所述第一图像进行连续的目标检测，获取与所述第一图像对应的一组检测结果，并将各所述检测结果连续依次转换为反映被检出物数量的数值，即将所述检测结果转换为一序列数组，对该序列数组按照数值大小排序，取排序后的所述序列数组的中位数作为所述第一图像中所述被检出物的数量信息。通过如上所述方式，可以防止在对目标物进行所述第一图像采集时，因成像设备抖动、周围环境干扰等因素而造成的噪声干扰，从而提升所述目标检测方法的检测性能。

进一步的，请参阅图7，所述一种目标清点装置800还包括显示模块850，用于读取所述检测模块840中的所述目标检测结果，将所述检测结果通过文字和/或图像信息进行显示。所述显示方式包括将所述检测结果中的位置信息转换为边界框进行显示，以及本领域技术人员基于本发明内容通过联想得到的显示方式。

本发明提供一种电子设备，所述电子设备包括：处理器、存储器、通信接口和***总线；存储器和通信接口通过***总线与处理器连接并完成相互间的通信，所述存储器用于存放至少一指令，所述指令使所述处理器执行如上所述基于深度学习的目标清点方法的各个步骤。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明提出的基于深度学习的目标清点方法、装置和设备，可以解决现有的目标清点方法普适性不高，灵活性较差，对于目标物的采集条件和目标物的类别限制较多等问题。通过对目标物图像进行采集，在极短时间内完成迅速高效准确的实现目标检测和数量清点。同时，检测的相关算法具有极高的适应性与鲁棒性，只需更换对应数据集并对模型进行重新训练，即可完成其他种类物件检测而不再需要其他适配过程，简单方便，易于使用，具有较高的适用性。此外，基于本发明还可以实现对目标物实时动态的数量清点，实用性强。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于深度学习的目标清点方法，其特征在于，适用于对具有固定形状的目标物进行数量清点，所述目标清点方法包括：

获取包含目标物的图像作为样本图像，进行预处理；

根据预处理后的所述样本图像对预设的目标检测模型进行训练和测试；

获取待清点的第一图像；

基于训练和测试后的所述目标检测模型，对所述第一图像进行目标检测，获取检测结果，并将所述检测结果转换为被检出物的数量信息。

2.根据权利要求1所述的一种基于深度学习的目标清点方法，其特征在于，所述预处理包括：

将获取的所述样本图像按照训练集、测试集和验证集的类别进行划分；

对所述样本图形中的目标物进行标注，获取所述样本图像中目标物的训练信息，包括位置信息和形状信息。

3.根据权利要求2所述的一种基于深度学习的目标清点方法，其特征在于：所述预设的目标检测模型包括单阶段式目标检测模型。

4.根据权利要求3所述的一种基于深度学习的目标清点方法，其特征在于：利用所述训练信息对所述单阶段式目标检测模型中的默认框的尺寸特征进行调整，基于调整后的默认框进行模型训练和测试。

5.根据权利要求4所述的一种基于深度学习的目标清点方法，其特征在于：对所述默认框的调整方式包括基于所述训练信息中的形状信息，结合所述默认框的通用值采用聚类分析方法获取新的默认框尺寸特征。

6.根据权利要求5所述的一种基于深度学习的目标清点方法，其特征在于：所述默认框的调整方式还包括对通过聚类分析方法获得的所述新的默认框尺寸特征进行实验室微调。

7.根据权利要求1-6中任一项所述的一种基于深度学习的目标清点方法，其特征在于，所述目标清点方法还包括：当获取的所述第一图像为一组具有时间序列的连续图像时，基于训练和测试后的所述目标检测模型，将获取的所述第一图像进行连续的目标检测，获取检测结果，将所述检测结果转换为反映数量信息的单调数组，取所述单调数组的中位数作为所述第一图像中所述被检出物的数量信息。

8.一种基于深度学习的目标清点装置，特征在于，用于对具有固定形状的目标物进行数量清点，所述目标清点装置包括：读取模块、预处理模块，模型训练模块和检测模块。

所述读取模块用于获取包含目标物的图像作为所述模型训练模块的样本图像，以及获取待清点的第一图像；

所述预处理模块用于对所述读取模块获得的所述样本图像进行预处理，包括样本分类子模块和训练信息获取子模块；所述样本分类子模块用于将所述样本图像按照训练集、测试集和验证集三种类别进行划分；所述训练信息获取子模块用于获取所述样本图像中的每个图像的训练信息；

所述模型训练模块为根据所述预处理模块获取的分类后的所述样本图像以及所述训练信息，对预设的目标检测模型进行训练和测试，从而获得训练和测试后的与目标物适配的所述目标检测模型；

所述检测模块，用于将所述读取模块获取的所述第一图像导入所述模型训练模块获取的所述目标检测模型中，通过目标检测后获取目标检测结果，并将所述目标检测结果转换为被检出物的数量信息。

9.根据权利要求8所述的一种基于深度学习的目标清点装置，其特征在于：所述模型训练模块中所述预设的目标检测模型包括单阶段式目标检测模型。

10.根据权利要求9所述的一种基于深度学习的目标清点装置，其特征在于：所述模型训练模块对所述预设的所述单阶段式目标检测模型的训练和测试过程包括利用所述训练信息对所述单阶段式目标检测模型中的默认框的尺寸特征采用聚类分析方法进行调整，基于调整后的默认框进行模型训练和测试。

11.根据权利要求9或10所述的一种基于深度学习的目标清点装置，其特征在于：所述目标清点装置还包括显示模块，用于读取所述检测模块中的所述目标检测结果，将所述检测结果通过文字和/或图像信息显示。

12.一种电子设备，其特征在于，包括：处理器、通信接口、存储器以及通信总线；所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信；所述存储器用于存放至少一指令；所述指令使所述处理器执行如权利要求1-7中任一项所述的一种基于深度学习的目标清点方法。