CN113255597B

CN113255597B - 一种基于transformer的行为分析方法、装置及其终端设备

Info

Publication number: CN113255597B
Application number: CN202110723043.2A
Authority: CN
Inventors: 姜峰; 周金明
Original assignee: Nanjing Inspector Intelligent Technology Co Ltd
Current assignee: Nanjing Inspector Intelligent Technology Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-28
Anticipated expiration: 2041-06-29
Also published as: CN113255597A

Abstract

本发明公开了一种基于transformer的行为分析方法、装置及其终端设备，该方法包括：步骤1，通过预处理模块将人体图像拆分成多个肢体局部，步骤2，把每个子块展开成一维向量，作为transformer模型的输入，transformer模型包括一个编码器和一个解码器；步骤3，通过多态融合模块优化子块的同时增强全局信息，获得行为类别标签。本发明使得目标局部与局部、局部与全局之间的联系更加紧密，使得模型能够聚焦于细微动作，大大提高了行为识别的准确率，从而实现对危险行为进行精准预警的目的。

Description

一种基于transformer的行为分析方法、装置及其终端设备

技术领域

本发明涉及图像识别技术研究领域，尤其是神经网络方面，具体涉及一种基于transformer的行为分析方法、装置及其终端设备。

背景技术

随着智慧城市的大力推进，智能社会治理体系也在逐步完善，而社会矛盾调解作为社会治理的重要一环，也备受重视。在矛盾调解中，由于当事人本身的受教育程度和个人素质不同，在调节过程的表现也不同，有些当事人表现得过于激动，可能会发生肢体冲突，这不但阻碍了正常的工作秩序，还影响了其他群众的合法权益，更是极大地影响了和谐社会的建设和发展。因此对当事人进行行为分析，准确地识别出危险动作行为，并及时预警，变得尤为重要。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：行为识别技术包含数据分析和图像识别二类，数据分析依靠感应仪器采集目标多个特定指标，根据数值统计综合输出结果，这类方法耗时耗力，且精度有限，现有图像识别类方法大多基于深度学习技术，利用单个卷积神经网络提取行为特征，只考虑了全局特征，对局部特征的表达不够。有些深度学习方法考虑到了局部信息，融入了注意力机制，但是局部特征与全局特征的融合方法比较简单，特征融合不够全面，表达能力不够强。本发明为了避免这类事件发生，研究了一种先进的行为分析方法，准确地分析出目标的微动作，能够精准地捕获目标可能会出现的危险动作，并及时预警。

发明内容

为了克服现有技术的不足，本发明提供了一种基于transformer的行为分析方法、装置及其终端设备，大大提高了行为识别的准确率，实现对危险行为进行精准预警的目的。技术方案如下：

步骤1，通过预处理模块将人体图像拆分成多个肢体局部；

将人体图像输入到预处理模块中，预处理模块是包含3个残差块的模型结构，进行了3次降采样，模型输出的特征图按通道方向求平均获得一个单通道图，把单通道图作为权重矩阵反馈给原图，得到反馈图：即单通道图的每个元素与原图相应8×8区域的每个值相乘；通过权重矩阵赋予原图中不同区域的重要性，根据反馈图的值域进行分段（即重要性分段）将原图划分成数个不同的子块，作为下一个模型的输入。

步骤2，把每个子块展开成一维向量，作为transformer模型的输入，transformer模型包括一个编码器和一个解码器。

步骤3，通过多态融合模块优化子块的同时增强全局信息；多态融合模块包括两个分支结构，其中一个分支将transformer的每个输出，通过对应的前馈网络和线性投影层获得输出向量；另一个分支将transformer的每个输出按照初始划分的顺序拼接成一个整体输入到前馈网络中进行分类，在训练优化阶段，多态融合模块为每个分支的输出分配不同权重，通过对每个分支的类别概率输出赋予权重后相加，获得行为类别标签。

并进行整个模型的优化，损失函数采用交叉熵进行计算，通过softmax获得类别的概率输出。

优选的，步骤1中，在训练阶段，模型是不断优化，推动权重矩阵的不断优化，因此每次划分的子块也是变化的，且都是向最接近人体部位的子块方向发展。

优选的，步骤2中还需要考虑空间信息，在transformer模型的输入上补充一个位置编码。

进一步的，所述位置编码的计算公式如下：

i表示的是输入向量对应的位置，P表示每个子块对应的位置矩阵（x、y坐标值），将得到的二维PE位置矩阵展开成一维向量与输入向量相加。

优选的，步骤2中所述编码器包括一个自注意力模块和一个前馈网络，自注意力模块根据输入向量获取Query向量q，Key向量k和Value向量v，为每一个输入向量计算一个得分为score=q·k，为了训练更加稳定，对score做归一化处理,然后经过softmax激活函数，接着点乘v，得到加权的每个输入向量的评分，评分相加得到该模块的输出结果，具体公式如下：

其中d _k表示向量k的维度d，用于归一化操作；

前馈网络是一个隐藏层维度为d的三层感知机，使用了ReLU激活函数。

优选的，步骤2中所述解码器相对于编码器多了一个编解码注意力模块，该模块使用所有对象之间的成对关系来对所有对象进行全局推理，推理过程以整个图像作为上下文。解码器的输入是通过对不同于编码器输入图像的其他人体图像局部区域进行编码获得的。

优选的，根据步骤3的行为类别标签，进行危险行为实时预警。

与现有技术相比，上述技术方案中的一个技术方案具有如下有益效果：通过卷积神经网络的预处理突出目标局部信息，使用transformer模型加强局部特征的提取，以及学习局部和全局的关联，多态融合模块则将局部特征与全局特征充分融合。使得目标局部与局部、局部与全局之间的联系更加紧密，使得模型能够聚焦于细微动作，大大提高了行为识别的准确率，从而实现对危险行为进行精准预警的目的。

附图说明

图1 为本公开实施例提供的一种预处理模块结构示意图；

图2 为本公开实施例提供的一种transformer框架图；

图3为本公开实施例提供的一种多态融合模块结构示意图。

具体实施方式

为了阐明本发明的技术方案和工作原理，下面将结合附图对本公开实施方式做进一步的详细描述。上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

第一方面：本公开实施例提供了一种基于transformer的行为分析方法，图1为本公开实施例提供的一种预处理模块结构示意图，图2 为本公开实施例提供的一种transformer框架图；图3为本公开实施例提供的一种多态融合模块结构示意图。结合这三幅图，该方法主要包括以下步骤：

步骤1，通过预处理模块将人体图像拆分成多个肢体局部；

将人体图像输入到预处理模块中，预处理模块是包含3个残差块的模型结构，进行了3次降采样，模型输出的特征图按通道方向求平均获得一个单通道图，把单通道图作为权重矩阵反馈给原图，得到反馈图：即单通道图的每个元素与原图相应8×8区域的每个值相乘；通过权重矩阵赋予原图中不同区域的重要性，根据反馈图的值域进行分段（即重要性分段）将原图划分成数个不同的子块，作为下一个模型的输入，具体如图1所示。在训练阶段，模型是不断优化，推动权重矩阵的不断优化，因此每次划分的子块也是变化的，且都是向最接近人体部位的子块方向发展。通过卷积神经网络进行预处理，初步赋予目标不同区域的权重，预处理模块加强了对人体局部区域（如头部、主干、四肢等）的关注，为后续网络的特征学习提供了先导知识，从而使得整个模型聚焦于人体每个部分的细微变化。

步骤2，把每个子块展开成一维向量，作为transformer模型的输入，transformer模型包括一个编码器和一个解码器；使用transformer模型的编码器加强局部特征的提取，通过解码器学习局部和全局的关联。

优选的，不同于自然语言处理中对文本信息的处理，图像还需要考虑空间信息，所以需要在输入上补充一个位置编码。

进一步的，所述位置编码的计算公式如下：

如图2所示，优选的，所述编码器包括一个自注意力模块和一个前馈网络，自注意力模块根据输入向量获取Query向量q，Key向量k和Value向量v，为每一个输入向量计算一个得分为score=q·k，为了训练更加稳定，对score做归一化处理,然后经过softmax激活函数，接着点乘v，得到加权的每个输入向量的评分，评分相加得到该模块的输出结果，具体公式如下：

其中d _k表示向量k的维度d，用于归一化操作。

所述解码器相对于编码器多了一个编解码注意力模块，该模块使用所有对象之间的成对关系来对所有对象进行全局推理，推理过程以整个图像作为上下文。解码器的输入是通过对不同于编码器输入图像的其他人体图像局部区域进行编码获得的。

步骤3，通过多态融合模块优化子块的同时增强全局信息；多态融合模块包括两个分支结构，其中一个分支将transformer的每个输出，通过对应的前馈网络和线性投影层获得输出向量。

每个输出向量包含的信息主要来自对应子块，获得的标签信息也是以局部信息为主，考虑每个子块独立优化，但缺乏全局信息的引导；因此引出另一个分支来增强全局信息。另一个分支将transformer的每个输出按照初始划分的顺序拼接成一个整体输入到前馈网络中进行分类，具体如图3所示。在训练优化阶段，多态融合模块为每个分支的输出分配不同权重，如全局分支的分配权重为0.3，包含头部和主干的分支权重分别为0.05，而包含四肢的分支分别为0.15，每个分支的类型是通过初始位置信息判断的。多态融合模块不仅将局部之间的关联结合在一起，同时合并局部信息，再用前馈网络进行融合，提高局部与全局的联系。

通过对每个分支的类别概率输出赋予权重后相加，获得行为类别标签（如跑、跳、下蹲、踢腿等动作），进行整个模型的优化，损失函数采用交叉熵进行计算，通过softmax获得类别的概率输出。

优选的，根据行为类别标签，进行危险行为实时预警。

第二方面，本公开实施例提供了一种基于transformer的行为分析装置，

基于相同的技术构思，该装置可以实现或执行所有可能的实现方式中任一项所述的一种基于transformer的行为分析方法。

优选的，该装置包括预处理单元、分析单元、融合单元；

所述预处理单元，用于执行所有可能的实现方式中任一项所述的一种基于transformer的行为分析方法的步骤1的步骤。

所述分析单元，用于执行所有可能的实现方式中任一项所述的一种基于transformer的行为分析方法的步骤2的步骤。

所述融合单元，用于执行所有可能的实现方式中任一项所述的一种基于transformer的行为分析方法的步骤3的步骤。

需要说明的是，上述实施例提供的一种基于transformer的行为分析装置在执行一种基于transformer的行为分析方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外上述实施例提供的一种基于transformer的行为分析装置与一种基于transformer的行为分析方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

第三方面，本公开实施例提供了一种终端设备，该终端设备包括所有可能的实现方式中任一项所述一种基于transformer的行为分析装置。

以上结合附图对本发明进行了示例性描述，显然，本发明具体实现并不受上述方式的限制，凡是采用了本发明的方法构思和技术方案进行的各种非实质性的改进；或者未经改进、等同替换，将本发明的上述构思和技术方案直接应用于其他场合的，均在本发明的保护范围之内。

Claims

1.一种基于transformer的行为分析方法，其特征在于，该方法主要包括以下步骤：

步骤1，通过预处理模块将人体图像拆分成多个肢体局部；

将人体图像输入到预处理模块中，预处理模块是包含3个残差块的模型结构，进行了3次降采样，模型输出的特征图按通道方向求平均获得一个单通道图，把单通道图作为权重矩阵反馈给原图，得到反馈图：即单通道图的每个元素与原图相应8×8区域的每个值相乘；通过权重矩阵赋予原图中不同区域的重要性，根据反馈图的值域进行分段，将原图划分成数个不同的子块，作为下一个模型的输入；

步骤2，把每个子块展开成一维向量，作为transformer模型的输入，transformer模型包括一个编码器和一个解码器；

步骤3，通过多态融合模块优化子块的同时增强全局信息；多态融合模块包括两个分支结构，其中一个分支将transformer的每个输出，通过对应的前馈网络和线性投影层获得输出向量；另一个分支将transformer的每个输出按照初始划分的顺序拼接成一个整体输入到前馈网络中进行分类，在训练优化阶段，多态融合模块为每个分支的输出分配不同权重，通过对每个分支的类别概率输出赋予权重后相加，获得行为类别标签；

2.根据权利要求1所述的一种基于transformer的行为分析方法，其特征在于，步骤1中，在训练阶段，模型是不断优化的，推动权重矩阵的不断优化，因此每次划分的子块也是变化的，且都是向最接近人体部位的子块方向发展。

3.根据权利要求1所述的一种基于transformer的行为分析方法，其特征在于，步骤2中还需要考虑空间信息，在transformer模型的输入上补充一个位置编码。

4.根据权利要求3所述的一种基于transformer的行为分析方法，其特征在于，所述位置编码的计算公式如下：

i表示的是输入向量对应的位置，P表示每个子块对应的位置矩阵，将得到的二维PE位置矩阵展开成一维向量与输入向量相加。

5.根据权利要求1所述的一种基于transformer的行为分析方法，其特征在于，步骤2中所述编码器包括一个自注意力模块和一个前馈网络，自注意力模块根据输入向量获取Query向量q，Key向量k和Value向量v，为每一个输入向量计算一个得分为score=q·k，为了训练更加稳定，对score做归一化处理,然后经过softmax激活函数，接着点乘v，得到加权的每个输入向量的评分，评分相加得到该模块的输出结果，具体公式如下：

其中d _k表示向量k的维度d，用于归一化操作；

6.根据权利要求1所述的一种基于transformer的行为分析方法，其特征在于，步骤2中所述解码器相对于编码器多了一个编解码注意力模块，该模块使用所有对象之间的成对关系来对所有对象进行全局推理，推理过程以整个图像作为上下文；解码器的输入是通过对不同于编码器输入图像的其他人体图像局部区域进行编码获得的。

7.根据权利要求1-6任一项所述的一种基于transformer的行为分析方法，其特征在于，根据步骤3的行为类别标签，进行危险行为实时预警。

8.一种基于transformer的行为分析装置，其特征在于，该装置可以实现权利要求1-7任一项所述的一种基于transformer的行为分析方法。

9.一种终端设备，其特征在于，该终端设备包括权利要求8所述一种基于transformer的行为分析装置。