CN111611971B

CN111611971B - 一种基于卷积神经网络的行为检测方法及***

Info

Publication number: CN111611971B
Application number: CN202010485168.1A
Authority: CN
Inventors: 郁强; 李圣权; 李开民; 曹喆; 金仁杰
Original assignee: CCI China Co Ltd
Current assignee: CCI China Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2023-06-30
Anticipated expiration: 2040-06-01
Also published as: CN111611971A

Abstract

本发明提供一种基于卷积神经网络的行为检测方法及***，该行为检测方法借助卷积神经网络检测视频或动态图像中的人为特定行为动作，包括但不限于吃喝食物以及抽烟等行为动作，取代人为监管的方式，具有检测速率高、检测精度准等优势特点。

Description

一种基于卷积神经网络的行为检测方法及***

技术领域

本发明涉及视频处理领域，特别涉及一种基于卷积神经网络的行为检测方法及***。

背景技术

深度学习是机器学习研究的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，利用建立后的神经网络模拟人脑并取代人力活动来完成对数据的分析和处理。深度学习被广泛地应用于视觉图像处理领域，以期能够更好地更精准地获取图像中的有用信息，目前大多数的深度学习技术还是着重研究对静态图像的分析处理上，较少发现有关其应用于动态图像或视频图像处理的研究。

然而，实际生活中对动态图像或视频图像的分析处理具有非常大的研究意义，特别是用于检测特定的行为动作时，比如像是吃东西、抽烟、喝饮料此类动态行为动作，就需要分析动态图像或视频图像信息。

目前在一些特殊场所，比如地铁、公交车、电影院、博物馆等公共场所，都有明确的禁食令和禁烟令，但禁食令或禁烟令的实际执行情况并不乐观，管控单位对违反禁食令或禁烟令的的人缺乏实际有效的监管手段，造成这样情况的原因主要是由于此类动态行为属于瞬时性行为，在几分钟甚至几秒内就可以进行，而公共场所的人流量以及场所面积往往都非常地大，即使派置专人监控也难以保证监控人员可以全方位地监管到违反禁令的人，且人的精力是有限的，派置专人监控的方式耗时耗力且效果不佳。

发明内容

本发明的目的在于提供一种基于卷积神经网络的行为检测方法及***，该行为检测方法借助卷积神经网络检测视频或动态图像中的人为特定行为动作，包括但不限于吃喝食物以及抽烟等行为动作，取代人为监管的方式，具有检测速率高、检测精度准等优势特点。

本技术方案提供一种基于卷积神经网络的行为检测方法，包括以下步骤：

获取图像数据，所述图像数据至少包括针对同一检测对象的第一图像和第二图像，其中，所述第二图像获取于所述第一图像获取固定时间段之后；

将所述第一图像和所述第二图像输入神经网络模型中，获取所述第一图像、第二图像中的预测手部关键点和预测嘴部关键点的置信度图和亲和度向量图，其中，所述置信度图表示预测手部关键点和预测嘴部关键点的准确率，所述亲和度向量表示预测手部关键点和预测嘴部关键点的关联度；

通过贪心算法解析所述预测手部关键点和预测嘴部关键点的置信度图和亲和度向量图，输出所述预测手部关键点和预测嘴部关键点的坐标值；

根据所述预测手部关键点和预测嘴部关键点的坐标值获取所述第一图像、第二图像中检测对象的嘴手距离。

在另一些实施例中，该方法进一步包括：

所述图像数据至少包括针对同一检测对象的连续三张图像，其中连续的两张图像获取时间间隔固定时间段；将连续的图像输入神经网络模型中，获取每张图像的手部关键点和预测嘴部关键点的置信度图以及亲和度向量值，根据置信度图和亲和度向量图计算每张图像中检测对象的嘴手距离，若连续图像中的相邻图像的嘴手距离交替大小变化，判断检测对象在吸食烟草。

进一步地食用品包括食品和烟草，进而使得该行为检测方法可用于检测进食食用品以及吸食烟草的行为。

本技术方案提供一种基于卷积神经网络的行为检测***，包括：

图像获取单元，用于获取图像数据，其中所述图像数据至少包括针对同一检测对象的至少两张图像；置信度单元，用于获取图像的预测手部关键点和预测嘴部关键点的置信度图；亲和度单元，用于获取图像中的预测手部关键点和预测嘴部关键点的亲和度向量图；解析单元，用于通过贪心算法解析所述预测手部关键点和预测嘴部关键点的置信度图和亲和度向量图，输出所述预测手部关键点和预测嘴部关键点的坐标值；计算单元，用于根据所述预测手部关键点和预测嘴部关键点的坐标值获取所述图像中检测对象的嘴手距离。

本方案提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行所述程序时实现以上提到的基于卷积神经网络的行为检测方法的步骤。

本方案提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上提到的基于卷积神经网络的行为检测方法的步骤。

附图说明

图1是食用品检测模型的结构示意图。

图2是本方案的手部嘴部关键点检测模型的结构示意图。

图3是本方案的基于卷积神经网络的行为检测方法的方法流程示意图。

图4是本方案的基于卷积神经网络的行为检测***的框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机***通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机***的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。

计算机程序能够应用于输入数据以执行本文的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

具体的，本技术方案提供一种基于卷积神经网络的行为检测方法及***，该基于卷积神经网络的行为检测方法可用于在视频或动态图像中检测人吃喝食物和抽烟等此类动态行为，特别地，可被应用于公共场所的监控管理中。

值得一提的是，在本方案中利用嘴手距离的变化来判断用户的进食或吸烟行为，用户在进行进食或吸烟时头部(即，嘴部)的位置大多情况下会保持不动，此时，嘴手距离直观反映手部的动态动作。

在本方案中，利用判断多种图像的检测对象的嘴手距离来判断检测对象是否在食用食用品，其中食用品包括但不限于食品和烟草，其中食品包括各种供人食用或者饮用的成品和原料以及按照传统既是食品又是药品的物品，烟草包括电子烟、卷烟、烟斗等。当食用品为食用的食物时，人们在进行吃东西的行为；当食用品为饮用的饮品时，人们在进行喝东西的行为；当食用品为烟草时，人们在进行吸烟的行为，本方案提供的基于卷积神经网络的行为检测行为可检测其上提到的吃东西、喝东西或吸烟的任一行为。

具体的，本方案提供一种基于卷积神经网络的行为检测方法，用于检测检测对象是否存在特定的行为，比如食用食品或者吸食烟草，包括以下步骤：

其中图像数据为对应检测对象获取的连续图像数据，在一些实施例中，连续图像数据可选择为监控视频中对应的连续的视频帧图像集，也可选择为设定时间段内连续拍摄的拍摄图像集，也可选择为连续进行的动态图像集。

且在获取所述第一图像、第二图像中的预测手部关键点和预测嘴部关键点的置信度图和亲和度向量图之前，所述第一图像和所述第二图像经过卷积模块获得对应的特征图。

另外，在本方案中，可选择利用食用品检测模型检测获取的图像中是否存在食用品，也可结合手部关键点的坐标值和食用品检测模型检测获取的图像中检测对象的手部是否持拿食用品。

当然，以上检测对象手部是否持拿食用品的步骤可在获取嘴手距离之前进行，也可在获取嘴手距离之后进行，若通过人为选择的方式选择检测对象手持食用品的连续图像数据，则不需要深度学习模型进行食用品的检测。

其中，食用品检测模型可检测到图像数据的食用品类型及坐标值，其上的神经网络模型获取预测手部关键点的坐标值，通过食用品的坐标信息和预测手部关键点的坐标信息判断检测对象的手部是否持拿食用品，若食用品的坐标信息和手部关键点的坐标信息重叠或靠近，或者说，食用品的坐标值范围和预测手部关键点的坐标值有交叉，则判断检测对象的手部持拿食用品。

在判断用户是否在食用食用品时，只需要至少两张间隔图像即可，若第一图像和第二图像中检测对象的手部持拿食品时，判断第一图像、第二图像的嘴手距离之间的绝对差值大于设定第一阈值时，判断检测对象在食用食品。在这里值得一提的是，第二图像的嘴手距离可以比第一图像的嘴手距离大，此时，用户结束进食将食品拿离嘴部；第二图像的嘴手距离也可以比第一图像的嘴手距离小，此时，用户正在将食品拿进嘴部完成进食动作。

值得一提的是，第一图像和第二图像之间的获取时间间隔不超过30秒，设定第一阈值不大于0.5米。

举例而言，以用户A在吃面包为例：

本方案提供的基于卷积神经网络的行为检测方法获取含有用户A的第一图像和第二图像，分别获取第一图像和第二图像中用户A的嘴手距离，若第一图像的嘴手距离和第二图像的嘴手距离之间的差值大于设定第一阈值，则认定用户A在两张图像的间隔内手部移动食品至嘴部，即用户A在吃面包。(当然，在该方案中用户A手上的面包被食品检测模型检测)。

用户吸烟的行为和进食食品的行为有相似的地方也有不同的地方，用户吸食烟草的动作是不断地在嘴部往复，因此需要获取检测对象的至少三张图像，每张图像的获取时间间隔设定时间段，获取每张图像中检测对象的嘴手距离，以嘴手距离交替变大变小的判断标准进行判断。

对应的，本方案提供一种基于卷积神经网络的行为检测方法，用于检测食用食品的行为，包括以下步骤：

获取图像数据，所述图像数据至少包括针对同一检测对象的连续三张图像，其中连续的两张图像获取时间间隔固定时间段；将连续的图像输入神经网络模型中，获取每张图像的手部关键点和嘴部关键点的置信度图以及亲和度向量值，利用贪心算法根据置信度图和亲和度向量图计算每张图像中检测对象的嘴手距离。若连续图像中的嘴手距离之间的绝对差值交替大小变化，判断检测对象在吸食烟草。

当然，获取预测手部关键点和预测嘴部关键点的置信度图和亲和度向量图之前，图像经过卷积模块获得对应的特征图，该步骤同于之前所述。

以获取四张图像为例，本方案提供的基于卷积神经网络的行为检测方法包括以下步骤：

获取图像数据，所述图像数据至少包括针对同一检测对象的第一图像和第二图像，第三图像和第四图像，其中，所述第二图像获取于所述第一图像获取的固定时间段之后，第三图像获取于所述第二图像获取的固定时间段之后，第四图像获取预第三图像获取的固定时间段之后；

将所述第一图像，所述第二图像，所述第三图像以及第四图像输入神经网络模型中，获取所述第一图像、第二图像，第三图像以及第四图像中手部关键点和嘴部关键点的置信度图和亲和度向量图；

利用贪心算法根据所述置信度图和亲和度向量图获取所述第一图像、第二图像、第三图像，第四图像中检测对象的嘴手距离。

若第一图像，第二图像，第三图像和第四图像中嘴手距离交替大小变化，比如，第二图像的嘴手距离小于第一图像的嘴手距离，第三图像的嘴手距离大于第二图像的嘴手距离，第四图像的嘴手距离小于第三图像的嘴，或者，第二图像的嘴手距离大于第一图像的嘴手距离，第三图像的嘴手距离小于第二图像的嘴手距离，第四图像的嘴手距离大于第三图像的嘴手距离。且相邻图像的嘴手距离的绝对差值大于设定阈值，当然不同相邻图像之间的嘴手距离的绝对差值对应的设定阈值可不同，判断检测对象在吸食烟草。

值得一提的是，设定第一阈值、第二阈值以及第三阈值的值可以一致也可不一致，且连续图像的获取时间的间隔时间不一定要一致。优选地，控制间隔时间的不超过10秒，设定连续图像的嘴手距离之间的绝对差值对应的判断阈值不大于0.3米。

以用户A在吸食烟草为例进行说明：

获取该用户A的第一图像，第二图像，第三图像以及第四图像，分别获取图像中用户A的嘴手距离，若所述第一图像、第二图像的嘴手距离之间的绝对差值大于设定第一阈值，所述第二图像、第三图像的嘴手距离之间的绝对差值小于设定第二阈值时，第三图像、第四图像的嘴手距离之间的绝对差值大于设定第三阈值时，判断检测对象在吸食烟草，则认定用户A在第一图像和第二图像之间的间隔时间内将香烟拿进嘴部，在第二图像和第三图像之间的间隔时间内将香烟拿离嘴部，在第三图像和第四图像之间的间隔时间内再次将香烟靠近嘴部，则判断用户A在吸食烟草。

本方案采用的神经网络模型的构建和训练过程过下：

行人手部和嘴部关键点检测数据准备：采集的标记图像数据中行人手部和嘴部的关键点进行标注，对手部关键点的亲和度向量和嘴部关键点的亲和度向量进行标注；

行人手部和嘴部关键点检测网络结构设计：主干网络由卷积神经模块构成，将标记后的标记图像数据作为输入，经过卷积模块A，得到特征图F，将网络分为两个分支，分支1预测手部关键点和嘴部关键点的置信度，分支2预测手部关键点的亲和度向量和嘴部关键点的亲和度向量，每个分支都是一个迭代预测架构，分支1和分支2构成了一个阶段，每个阶段网络产生一组检测置信度图Score^k＝ρ^k(F)和一组亲和度向量

其中ρ¹和/>

是经过第一阶段网络的输出结果，之后每一阶段的输入都来自前一阶段的预测结果和经过卷积模块A得到的特征图F，/>

和/>

代表第k阶段的卷积神经模块结构，其输出为：

和

通过贪心推理解析手部和嘴部关键点的置信图和非参数表征方法Part AffinityFields(PAF部件亲和度向量场)学习手部和嘴部的关联；

行人手部和嘴部关键点检测模型训练：对网络参数赋初始化数值，设置网络的最大迭代次数m；将准备好的训练图像数据集输入网络，进行训练，如果loss值一直下降，则继续训练，直到迭代M次后，得到最终的模型；如果loss值在中途趋于稳定，则停止迭代，得到最终的模型；

损失函数为：

式中为每个阶段k的两个损失函数

和

其中，

表示人工标注手部关键点和嘴部关键点的置信图，/>

表示人工标注的手部关键点的亲和度向量和嘴部关键点的亲和度向量，m代表手部的关键点和嘴部的关键点，n代表肢体即手部、嘴部，一个肢体对应两个关键点。

食用品检测模型的构建和训练过程如下：

其中食用品包括食品或烟草。

数据准备：对标注图像进行标注，标注信息为食品或烟草的包围框以及标注的类别，即(c_j，x_j，y_j，w_j，h_l)，其中c_j表示包围框的类别，不同类别的食品对应不同的c_j值，x_j，y_j表示包围框左上角顶点的坐标，w_j，h_j表示包围框的宽和高，将标注数据样本按照8∶1∶1划分为训练集、验证集、测试集；

网络结构设计：算法采用多尺度结构的卷积神经网络，主干网络由残差模块构成，对网络特征通道分离与通道混洗，在主干网络的基础上采用自上而下的特征金字塔结构，并加入自上而下的上采样操作，构造多个层的深层特征与浅层特征信息融合，从而获取较优的特征，筛选不同大小的候选框，最后保留最优结果；

网络采用swish激活函数，

训练：输入图像大小设置为416*416，设置输入最小批量数据值为64，学习率为10-3，采用Adam梯度下降策略进行优化学习；

模型测试：输入测试数据，输出包围框信息(c，x，y，w，h)。

在食用品检测模型中，标注各类食用品对应的c_j为1，香烟或其他烟草对应为2，，则根据输出的包围框信息即可获知是否含有食品以及食品是食用品还是烟草，且可获知食品的坐标。

另外，在本方案中可在基于卷积神经网络的行为检测方法的基础上进行行为管理，包括以下步骤：将检测到存在食用食用品的检测对象的检测框加载到行人识别检测模型中，获取该检测对象的身份信息，并记录为任务库事件。

本方案另提供一种基于卷积神经网络的行为检测***，包括：

当然，本方案提供的基于卷积神经网络的行为检测***还包括判断单元，用于判断检测对象的嘴手距离与设定阈值的差值关系。其中如何判断以及数据等内容详见其上基于卷积神经网络的行为检测方法的介绍，在此不再累赘说明。

另外，本方案提供的基于卷积神经网络的行为检测***包括食用品检测单元，其中食用品检测单元运行运行食用品检测模型，用于检测图像数据中是否存在食用品以及食用品的坐标值，此时，判断单元进一步基于食用品的坐标值和预测手部关键点的坐标值判断检测对象手上是否持有食用品。在该基于卷积神经网络的行为检测***中，食用品包括食品和烟草。

关于食用品检测模型和手部关键点检测模型的训练和搭建过程如前所述，在此不再累赘说明。

另外，在一些实施例中，本方案提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以上提到的基于卷积神经网络的行为检测方法的步骤。

提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上提到的基于卷积神经网络的行为检测方法的步骤。

本发明不局限于上述最佳实施方式，任何人在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的行为检测方法，其特征在于，包括以下步骤：

利用食用品检测模型检测获取的图像中是否存在食用品，结合手部关键点的坐标值和食用品检测模型检测获取的图像中检测对象的手部是否持拿食用品，其中食用品包括食品或烟草，若第一图像和第二图像中检测对象的手部持拿食品时，根据所述预测手部关键点和预测嘴部关键点的坐标值获取所述第一图像、第二图像中检测对象的嘴手距离，所述第一图像、第二图像的嘴手距离之间的绝对差值大于设定第一阈值时，判断检测对象在食用食品，所述图像数据至少包括针对同一检测对象的连续三张图像，其中连续的两张图像获取时间间隔固定时间段，若连续图像中的相邻图像的嘴手距离交替大小变化，判断检测对象在吸食烟草。

2.根据权利要求1所述的基于卷积神经网络的行为检测方法，其特征在于，所述方法还包括：

获取所述第一图像、第二图像中的预测手部关键点和预测嘴部关键点的置信度图和亲和度向量图之前，所述第一图像和所述第二图像经过卷积模块获得对应的特征图。

3.根据权利要求1所述的基于卷积神经网络的行为检测方法，其特征在于，所述方法还包括：

将连续的图像输入神经网络模型中，获取每张图像的预测手部关键点和预测嘴部关键点的坐标值，根据坐标值计算每张图像中检测对象的嘴手距离。

4.根据权利要求1到3任一所述的基于卷积神经网络的行为检测方法，其特征在于，将所述图像数据输入食品检测模型中得到食用品的包围框信息，其中包围框信息包括食用品的类型以及坐标值，若食用品的坐标值形成的范围和预测手部关键点的坐值交叉，判断用户手持食用品。

5.一种基于卷积神经网络的行为检测***，其特征在于，包括：

图像获取单元，用于获取图像数据，其中所述图像数据至少包括针对同一检测对象的至少两张图像；

置信度单元，用于获取图像的预测手部关键点和预测嘴部关键点的置信度图；

亲和度单元，用于获取图像中的预测手部关键点和预测嘴部关键点的亲和度向量图；

解析单元，用于通过贪心算法解析所述预测手部关键点和预测嘴部关键点的置信度图和亲和度向量图，输出所述预测手部关键点和预测嘴部关键点的坐标值；

计算单元，用于利用食用品检测模型检测获取的图像中是否存在食用品，结合手部关键点的坐标值和食用品检测模型检测获取的图像中检测对象的手部是否持拿食用品，其中食用品包括食品或烟草，若第一图像和第二图像中检测对象的手部持拿食品时，根据所述预测手部关键点和预测嘴部关键点的坐标值获取所述第一图像、第二图像中检测对象的嘴手距离，所述第一图像、第二图像的嘴手距离之间的绝对差值大于设定第一阈值时，判断检测对象在食用食品，所述图像数据至少包括针对同一检测对象的连续三张图像，其中连续的两张图像获取时间间隔固定时间段，若连续图像中的相邻图像的嘴手距离交替大小变化，判断检测对象在吸食烟草。

6.根据权利要求5所述的一种基于卷积神经网络的行为检测***，其特征在于，所述***还包括：

判断单元，用于判断检测对象的嘴手距离与设定阈值的差值关系。

7.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1-3任一项所述的方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的方法的步骤_。