CN115439933A

CN115439933A - 一种基于多重模型识别策略的垃圾分类投放站点检测方法

Info

Publication number: CN115439933A
Application number: CN202211075840.5A
Authority: CN
Inventors: 朱文娟; 刘硕; 汪一士
Original assignee: Hefei Kuangming Intelligent Technology Co ltd
Current assignee: Hefei Kuangming Intelligent Technology Co ltd
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-12-06

Abstract

本发明公开了一种基于多重模型识别策略的垃圾分类投放站点检测方法，涉及深度学习技术领域。本发明包括如下步骤：使用三分类神经网络进行行人以及垃圾袋坐标计算；计算行人以及垃圾袋的预测框；计算两个框的交并比，并计算两个框的GIOU；通过对识别出的垃圾袋以及形成进行GIOU逻辑判断，筛选出违章投递的居民。本发明通过对垃圾袋以及行人进行采样，学习垃圾袋以及行人的特征，利用两者的GIOU加之一定的阈值来进行乱扔垃圾行为的判定，判定成功后将数据传输至服务器，制作学习样本，制作TSN的数据集以供后续学习，减少行为识别周期算法时长，提高短期样本识别精度。

Description

一种基于多重模型识别策略的垃圾分类投放站点检测方法

技术领域

本发明属于深度学习技术领域，特别是涉及一种基于多重模型识别策略的垃圾分类投放站点检测方法，用于解决传统行为识别算法周期长以及特征样本难以捕捉导致的短期样本识别精度的问题。

背景技术

由于深度学习的方法对于行为识别表现出较强的实用性，针对视频场景下，许多研究人员通过不同的深度学习方法对人体进行行为识别，同时，在视频图像领域中运用深度学习方法进行行为识别的技术已经较为成熟。

如：Karen等人提出了一种运用时间与空间上的双流卷积神经网络的深度学习方法(Two-stream)，该方法是深度学习方法应用于行为识别上的起始点，它通过时空流处理连续视频帧的密集光流，同时通过空间流来处理静止的图像，然后分别得到其分类的分数，最后将分数融合，得到分类结果。

sijie等人提出了一种基于人体骨架数据的时间与空间注意模型(STA-LSTM)，该模型提出了运用骨骼关键点作为图像特征，通过神经网络进行处理，最终得出分类结果。具体来说，该模型是在应用长短期记忆(LSTM)的递归神经网络(RNNs)的概念之下，通过LSTM来选择感兴趣的骨骼关键点，并且它对不同帧有不同的关注点。虽其提出了一种新型的深度学习方法实现行为识别，并且准确率较高，但其速度却极低，非常不适用于真实场景。

Du等人提出了一种运用时间与空间上特征的三维卷积网络的深度学习方法(C3D)。该方法主要是提出了一种三维卷积网络架构(3DConvNets)，使得其时空特征更易学习,通过此网络可直接处理视频,得到视频帧特征,并且所有的层(包括卷积层、全连接层、激励层、池化层等)都使用相同的卷积核，更能使其效果更佳。该方法最重要的优势在于其速度快，效率远远高于其他方法，一种简单而又高效的深度学习方法，有良好的应用前景。

Amira等人提出了关于智能视频监控***的异常行为识别的综述。该综述研究了在视频监控场景下对各种异常行为的识别。根据该***的分层级别，经过行为表示与建模两个大类中进行描述，并详细的描述两类中的各种常见分类方法与分类框架。

Limin等人提出了一个基于视频的动作识别的新框架(TSN)。该模型以Two-stream方法中的空间流和时间流的概念为基础，将视频进行稀疏采样得到很多视频帧片段，再将所有片段进行预测得到每个片段的分类分数，再从这些片段的分类中找到都为同一类的片段，最终整合为最终分类结果。此模型主要思想是，在视频监控场景下，在时间流上进行样本的稀疏采样，建立长时间的模型结构，然后过学习整个视频来识别出动作分类，使得其准确度更高，更能够在实际监控场景中进行实践。

但应用在垃圾分类投放上，由于扔垃圾的动作的变换方式比较复杂，单一的通过前期人工模拟难以遍历所有行为特征，所以只能通过消耗大量的人力以及时间来扩充学习样本从而完成乱扔垃圾的动作识别。

本申请文件主要解决传统行为识别算法周期长以及特征样本难以捕捉导致的短期样本识别精度的问题。

发明内容

本发明的目的在于提供一种基于多重模型识别策略的垃圾分类投放站点检测方法，通过对垃圾袋以及行人进行采样，学习垃圾袋以及行人的特征，利用两者的GIOU加之一定的阈值来进行乱扔垃圾行为的判定，解决了现有的传统行为识别算法周期长以及特征样本难以捕捉导致的短期样本识别精度的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于多重模型识别策略的垃圾分类投放站点检测方法，包括如下步骤：

步骤S1：使用三分类神经网络进行行人以及垃圾袋坐标计算；

步骤S2：计算行人以及垃圾袋的预测框；

步骤S3：计算两个框的交并比，并计算两个框的GIOU；

步骤S4：通过对识别出的垃圾袋以及形成进行GIOU逻辑判断，筛选出违章投递的居民。

作为一种优选的技术方案，所述步骤S1中，三分类神经网络模型的训练流程如下：

步骤S11：人工模拟大量违章行为；

步骤S12：将一半的违章样本制作含有行人以及垃圾袋的训练数据集；

步骤S13：将另一半视频制作成训练集；

步骤S14：将数据集送进pytorch支持下的神经网络进行学习；

步骤S15：训练完生成三分类模型。

作为一种优选的技术方案，所述步骤S13中，另一半视频制作成训练集时，使用人工将训练集标注为xml文件，并制作VOC2007数据集。

作为一种优选的技术方案，所述步骤S15中，三分类模型包括人模型训练、垃圾袋模型训练以及背景模型训练。

作为一种优选的技术方案，所述步骤S3中，两个框的交并比IOU计算公式如下：

则两个框的GIOU计算公式如下：

则GIOU loss表示为：

L_GIOU＝1-GIOU；

即：

式中，A为人体识别框，B为垃圾袋识别框，C为全局框，C_-表示A和B在C中多余的部分。

作为一种优选的技术方案，所述步骤S4中，具体筛选方法如下：

通过模型进行识别摄像头实时图像，获取识别后各个对象数据，筛选出指定范围内的行人和垃圾袋对象的数据，使用行人和垃圾袋对象进行循环判断是否重叠；

若行人和垃圾袋对象重叠且达到指定GIOU时，则认定为该行人手拿垃圾；

若行人和垃圾袋对象重叠且未达到指定GIOU时，则认定该行人正在丢垃圾，该行人为违章投递的居民，记录该行为，将GIOU形成的最小外接矩形写进xml形成标注文件并与图片唯一对应，并将这组数据发送到服务器。

作为一种优选的技术方案，所述服务器收到数据后进行数量阈值校验，如果低于阈值，则持续接收数据；反之则进行二分类模型训练，模型训练完毕后进行测试。

作为一种优选的技术方案，所述二分类模型训练为违章行为模型训练和背景模型训练；所述模型训练完毕后进行测试，若测试结果达标，则取代原有三分类模型，使用现有模型进行违章行为预测以及告警上传；反之则继续收集数据进行训练。

本发明具有以下有益效果：

(1)本发明通过对垃圾袋以及行人进行采样，学习垃圾袋以及行人的特征，利用两者的GIOU加之一定的阈值来进行乱扔垃圾行为的判定，判定成功后将数据传输至服务器，制作学习样本，制作TSN的数据集以供后续学习，减少行为识别周期算法时长，提高短期样本识别精度；

(2)本发明通过采用的新技术能够较快地实现社区违章投递行为的检测，同时也大大降低了人工模拟样本的经济消耗。

(3)本发明通过社区边缘装置不断地收集违章图片，将GIOU形成的最小外接矩形写进xml形成标注文件并与图片唯一对应，实现违章样本收集，从而在后续实现神经网络的违章行为特征学习，为以后的TSN算法构建强有力的数据支撑。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于多重模型识别策略的垃圾分类投放站点检测方法流程图；

图2为IOU的基础上，一个“全局框”的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于多重模型识别策略的垃圾分类投放站点检测方法，包括如下步骤：

步骤S2：计算行人以及垃圾袋的预测框；

步骤S3：计算两个框的交并比，并计算两个框的GIOU；

步骤S1中，三分类神经网络模型的训练流程如下：

步骤S11：人工模拟大量违章行为；

步骤S13：将另一半视频制作成训练集，使用人工将训练集标注为xml文件，并制作VOC2007数据集；

步骤S14：将数据集送进pytorch支持下的神经网络进行学习；

步骤S15：训练完生成三分类模型，三分类模型包括人模型训练、垃圾袋模型训练以及背景模型训练。

步骤S3中，两个框的交并比IOU计算公式如下：

则两个框的GIOU计算公式如下：

则GIOU loss表示为：

L_GIOU＝1-GIOU；

即：

IOU loss的定义是先求出预测框和真实框之间的交集和并集之比，再求负对数，但是在实际使用中我们常常将IOU Loss写成1-IOU。如果两个框重合则交并比等于1，Loss为0说明重合度非常高。IOU满足非负性、同一性、对称性、三角不等性，相比于L1/L2等损失函数还具有尺度不变性，不论box的尺度大小，输出的iou损失总是在0-1之间。所以能够较好的反映预测框与真实框的检测效果。

但普通的IOU的优缺点很明显，优点：

1、IOU具有尺度不变性；

2、满足非负性。

同时，由于IOU并没有考虑框之间的距离，所以它的作为loss函数的时候也有相应的缺点：

1、在A框与B框不重合的时候IOU为0，不能正确反映两者的距离大小；

2、IOU无法精确的反映两者的重合度大小。

所以，引入了GIOU的感念，根据

可以看出：

当IOU为0时，意味着A与B非常远时，A∪B/C无限接近于0，GIOU趋近于-1，同理当IOU为1时，两框重合，A∪B/C为1，所以GIOU的取值为(-1,1]。

GIOU作为loss函数时，为L＝1-GIOU，当A、B两框不相交时A∪B值不变，最大化GIOU就是就小化C；因此，比IOU效果更好。

步骤S4中，具体筛选方法如下：

服务器收到数据后进行数量阈值校验，如果低于阈值，则持续接收数据；反之则进行二分类模型训练，模型训练完毕后进行测试。

二分类模型训练为违章行为模型训练和背景模型训练；模型训练完毕后进行测试，若测试结果达标，则取代原有三分类模型，使用现有模型进行违章行为预测以及告警上传；反之则继续收集数据进行训练。

本实施例的一个具体应用为：

本申请文件的硬件环境：显卡为RTX3080、处理器为Intel core i9-10980XE以及内存条容量为62.5GIB的服务器上搭建pytorch深度学习环境。

通过人工模拟八小时的违章行为，将四小时的样本制作了7729张含有行人以及垃圾袋的训练数据集，另外四小时视频制作成了测试集。使用人工将训练集标注为xml文件，并制作VOC2007数据集。

将数据集送进pytorch支持下的神经网络进行学习，网络模型为三分类(人、垃圾袋以及背景)，epoch为100，batch-size为32，训练图片大小为640*640，学习率为动态调节参数。

训练完100个epoch后生成三分类模型，模型的各个指标如附图所示。

在IOU的基础上找到一个“全局框”，这个全局框能够刚好把垃圾袋以及行人的两个识别框装进去，从而会产生多一部分面积C_-。

如图2所示，

则两个框的GIOU计算公式如下：

则GIOU loss表示为：

L_GIOU＝1-GIOU；

即：

通过对识别出的垃圾袋以及行人进行GIOU逻辑判断，可以筛选出违章投递的居民。

通过模型进行识别摄像头实时图像，获取识别后各个对象数据，筛选出指定范围内的行人和垃圾袋对象的数据，使用行人和垃圾袋对象进行循环判断是否重叠。

如果行人和垃圾袋对象重叠且达到指定GIOU时，既认定为该行人手拿垃圾。

如果行人和垃圾袋对象重叠且未达到指定GIOU时，既认定该行人正在丢垃圾，既该行人为违章投递的居民，记录该行为，将GIOU形成的最小外接矩形写进xml形成标注文件并与图片唯一对应，并将这组数据发送到服务器。

为防止一个行人多次触发逻辑判断，使用时间间隔判断是否记录该行为，是否发送图像到服务器。

服务器收到数据后进行数量阈值校验，如果低于阈值，则持续接收数据。反之则进行二分类(违章行为以及背景)模型训练，模型训练完毕后，由专人进行测试。如果测试结果达标，则取代原有三分类模型，使用现有模型进行违章行为预测以及告警上传。反之则继续收集数据进行训练

值得注意的是，上述***实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，包括如下步骤：

步骤S2：计算行人以及垃圾袋的预测框；

步骤S3：计算两个框的交并比，并计算两个框的GIOU；

2.根据权利要求1所述的一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，所述步骤S1中，三分类神经网络模型的训练流程如下：

步骤S11：人工模拟大量违章行为；

步骤S13：将另一半视频制作成训练集；

步骤S14：将数据集送进pytorch支持下的神经网络进行学习；

步骤S15：训练完生成三分类模型。

3.根据权利要求2所述的一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，所述步骤S13中，另一半视频制作成训练集时，使用人工将训练集标注为xml文件，并制作VOC2007数据集。

4.根据权利要求2所述的一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，所述步骤S15中，三分类模型包括人模型训练、垃圾袋模型训练以及背景模型训练。

5.根据权利要求1所述的一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，所述步骤S3中，两个框的交并比IOU计算公式如下：

则两个框的GIOU计算公式如下：

则GIOU loss表示为：

L_GIOU＝1-GIOU；

即：

6.根据权利要求1所述的一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，所述步骤S4中，具体筛选方法如下：

7.根据权利要求6所述的一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，所述服务器收到数据后进行数量阈值校验，如果低于阈值，则持续接收数据；反之则进行二分类模型训练，模型训练完毕后进行测试。

8.根据权利要求7所述的一种基于多重模型识别策略的垃圾分类投放站点检测方法，其特征在于，所述二分类模型训练为违章行为模型训练和背景模型训练；所述模型训练完毕后进行测试，若测试结果达标，则取代原有三分类模型，使用现有模型进行违章行为预测以及告警上传；反之则继续收集数据进行训练。