CN113936339B - 基于双通道交叉注意力机制的打架识别方法和装置 - Google Patents
基于双通道交叉注意力机制的打架识别方法和装置 Download PDFInfo
- Publication number
- CN113936339B CN113936339B CN202111537924.1A CN202111537924A CN113936339B CN 113936339 B CN113936339 B CN 113936339B CN 202111537924 A CN202111537924 A CN 202111537924A CN 113936339 B CN113936339 B CN 113936339B
- Authority
- CN
- China
- Prior art keywords
- channel
- output
- fast
- attention
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于双通道交叉注意力机制的打架识别方法和装置,该方法首先采集生成视频数据集,设置快慢两种帧率获取不同帧图像序列,进行预处理后分别送入快慢通道,在快慢通道采用基于分开时空自注意力机制的Transformer编码器提取图像序列时空编码特征;然后,经过交叉注意力模块融合一个通道CLS token与另一通道patch token信息,实现双通道时空编码特征融合;最后,将融合后的时空编码特征经过多层感知机头进行打架行为识别。本发明通过双通道Transformer模型与交叉注意力模块能有效提取视频时空特征,提高打架行为识别的准确率,适用于室内外监控***。
Description
技术领域
本发明涉及智能视频监控及深度学习领域,尤其涉及基于双通道交叉注意力机制的Transformer打架识别方法和装置。
背景技术
现如今,监控视频已经广泛应用于社会公共场所,在维护社会公共安全上发挥着极为重要的作用,对监控视频中的异常行为和事件进行有效的识别,能更好的发挥监控视频的作用。打架斗殴行为是视频中常见的一种扰乱公共秩序的行为,严重者更涉嫌聚众斗殴和寻衅滋事,影响社会稳定。在海量视频中通过智能化手段及时发现打架斗殴行为,对维护社会安定至关重要。
现有基于视频的打架行为识别方法大多由卷积神经网络来实现,主要分为两类,一是基于骨骼或姿态流的神经网络方法,该类方法主要对视频中出现的人体进行关键点检测,提取人体的骨架或姿态信息,并对骨架序列构建时空卷积图,送入时空卷积网络进行建模,通过不断的迭代训练得到一个效果最好的权重信息,进而得到行为的类别。
该类方法影响性能的主要原因是,方法仅使用视频中人体的骨架信息,其他关键空间语义特征很难检测到,导致基于骨架的算法鲁棒性较差;且该类方法对视频时间域特征提取较为简单,仅在骨架特征后采用简单的池化层求均值,未能有效融合时间和空间特征。
二是基于双流深度神经网络的方法,该类方法主要是将视频送入双通道网络,通过双通道网络提取视频不同特征,并对双通道提取特征进行融合,来进行人体行为识别。双通道特征输入主要分为两类,一通过RGB图像或光流图像作为输入;二均为RGB图像作为输入。
基于光流图像输入的网络,其缺点在于光流提取耗时长,资源消耗较大,且整个网络无法做到端到端等不足。基于RGB图像作为输入的网络,未根据视频在时间和空间域不同特征,设置不同的图像帧数输入,若送入帧数较多,则资源消耗大,算法训练及测试时间较长,若通过采样稀疏图像帧数,则不能很好提取时间域特征,因行为动作在帧间变化较大,稀疏采样会影响空间特征提取。
基于卷积神经网络通过卷积核捕捉短距离时空信息,不能对超出感受野范围外的依赖关系进行建模。虽然网络的加深可以扩大感受野,可以一定程度解决该问题,但问题依然存在,有方法考虑将局部信息融入注意力机制,但局部信息与全局信息融合方法较为简单,使得特征融合不够全面,表达力不够。Transformer可通过自注意力机制直接比较所有时空位置上的特征,以捕获局部和全局范围内的依赖,适用于视频时空特征提取。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了基于双通道交叉注意力机制的Transformer打架识别方法和装置,设置快慢两种帧率提取不同帧图像序列,分别送入快慢通道,在快慢通道采用基于分开时空注意力机制的Transformer编码器提取时空特征,快通道提取帧与帧间行为动作变化特征,慢通道提取单帧空间语义信息,并通过交叉注意力模块融合双通道时空编码特征,最后经过多层感知机头输出行为类别。其具体技术方案如下:
基于双通道交叉注意力机制的Transformer打架识别方法,包括以下步骤:
步骤一,利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并分为训练集和测试集,即原始视频;
步骤二,将训练集和测试集设置快慢通道帧率,获取不同帧图像序列,对训练集图像进行预处理后分别送入快慢通道的Transformer编码器;
步骤三,快慢通道Transformer编码器基于分开时空注意力机制获取得到两路图像序列编码特征;
步骤四,通过交叉注意力模块融合所述两路图像序列编码特征,后通过多层感知机头得到网络预测值,并根据该预测值与真值计算损失函数训练整个网络;
步骤五,将测试集输入训练好的网络,输出最终行为类别。
进一步的,所述步骤二,具体包括以下子步骤:
(2.2)对编码,首先通过可学习矩阵线性映射为
维向量,再加入可学习位置及时间编码矩阵,得到嵌入矩阵, 表示慢通道预处理后输出向量维度,同理对快通道
输入做相同预处理,仅输出维度不同,则有,
通过可学习矩阵将输入线性映射为维向量,表示快通道预处
理后输出向量维度;
进一步的,所述步骤三,具体包括以下子步骤:
(3.1)将输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value
向量,具体的:将步骤(2.3)输出嵌入矩阵和作为输入,设、
及分别表示第个基本模块第个头Query、Key及Value向量,通过层归一化及线
性映射计算得到:
其中表示层归一化,为第个基本模块编码特征输出,当为慢
通道时表示为,,当为快通道时表示为,,表示注意力头索引,A表示多头注意力模块中多头个数,、及分别表示第个基本模块第个头Query、Key及Value向量对应的可
学习映射矩阵;
(3.2)利用步骤(3.1)输出q、k及v计算时间自注意力权重矩阵,及各注意力头输
出,将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图;
然后,将中间特征图经过步骤(3.1)得到更新后的q、k及v,计算空间自注意力权重矩阵,及
各注意力头输出,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后,再经过
层归一化和多层感知机,得到第个基本模块编码特征图输出;
进一步的,所述步骤(3.2),具体包括以下子步骤:
(3.2.1)空间自注意力权重及计算:首先利用步骤(3.1)输出q、k通过点积运算计
算时间自注意力权重矩阵,再与v加权求和得到各注意力头输出,将各
注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图,
表达式为:
(3.2.2)将步骤(3.2.1)输出中间特征图经过步骤(3.1)得到更新后的q、k
及v,q、k通过点积运算计算空间自注意力权重矩阵,再与v加权求和得到各注
意力头输出,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后得到
中间编码特征图,再经过层归一化和多层感知机层,得到第个基本模块编码特征
图输出,表达式为:
进一步的,所述步骤四,具体包括以下子步骤:
(4.1)步骤(3.3)快通道输出,为分类标志CLS token,表示为,为图像块标志patch token,表示为,其中表示矩阵中除外的其他部分,同理由慢通道输出可得到
慢通道CLS token和patch token,分别设为和;
(4.2)将步骤(4.1)输出按照步骤(3.1)所述方法,求取Query、Key及
Value向量,并经过步骤(3.2)所述方法,获取第个交叉注意力模块编码特征图输出表示
为,通过线性映射函数将通道维数还原,并与快通道的patch token连接形成输出,并送入下一个多帧率transformer编码器,
基于双通道交叉注意力机制的Transformer打架识别装置,包括一个或多个处理器,用于实现所述的基于双通道交叉注意力机制的Transformer打架识别方法。
与选优技术相比,本发明的有益效果在于:
(1)针对卷积神经网络在视频特征提取时,仅能捕捉短距离时空信息的局限,设计了一种基于双通道交叉注意力机制的Transformer打架识别模型,Transformer模型可通过自注意力机制比较所有时空位置上的特征,以捕获局部和全局范围内的依赖,有效提取视频时空特征,从而提高行为识别的准确率。
(2)根据视频时空特征不同,时间域帧间行为动作变化较快,空间域单帧语义特征帧间变化较慢,设计了双通道模型提取视频时空特征。同时为节省内存资源,提高运行效率,方法将不同帧数图像序列送入快慢通道,通道内采用分开的时空自注意力机制提取特征,且快通道内Transoformer编码器个数及输出通道维度较少,在有效提取视频时空特征的同时减少资源消耗。
(3)设计了一种基于交叉注意力机制的时空特征融合模块,将已经学习到本通道特征的CLS token和另一通道的patch token交叉融合,快速且有效的融合双通道时空特征,提高打架行为识别准确率。
(4)本发明方法能有效识别视频中的打架行为,提高识别准确率,在开源打架数据集CCTV-Fights中,准确率达87.25%,且能减少人工筛选成本,预防打架斗殴行为的发生,适用于室内外复杂场景下的视频监控***,有着广泛的应用价值。
附图说明
图1是本发明的所述的一种基于交叉注意力机制的双流Transformer打架识别方法流程图;
图2是本发明所述的一种基于交叉注意力机制的双流Transformer打架识别方法框架图;
图3是本发明所述的双通道分开时空自注意力机制Transformer编码器结构图;
图4是本发明所述的快通道交叉注意力模块示意图;
图5是本发明一种基于双通道交叉注意力机制的Transformer打架识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,一种基于交叉注意力机制的双流Transformer打架识别方法,通过筛选CCTV-Fights数据集或标注独立采集获得视频数据得到训练集及测试集;将训练集和测试集,设置快慢两种帧率获取不同帧图像序列,训练集图像序列经过预处理后送入快慢通道Transformer编码器和交叉注意力模块,最后经过多层感知机头得到网络预测结果,并根据该预测结果与真值计算损失函数训练整个网络;测试集图像序列输入训练好的网络,输出最终行为类别。
如图2所示,本发明方法采用个多帧率Transformer编码器,每个多帧率
Transformer编码器有快慢两路输入:和,处理低帧率视频数据,处理高帧率视频数据。首先,原始视频通过快慢两种帧率,提取不同帧图像序列送入和,并分别经过各自通道基于分开时空注意力机制的Transformer编码器获
取编码特征,其中和路Transformer编码器个数分别为N和M;然后,经过交叉
注意力模块融合该两路编码特征;最后,通过多层感知机头输出行为类别。
具体的,本发明的一种基于交叉注意力机制的双流Transformer打架识别方法,包括以下步骤:
步骤一:数据集生成。利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并按照4:1分为训练集和测试集。首先网络搜集视频,在YouTobe等网站输入打架关键字,并下载视频,为了数据的多样性,更换关键字语言类别重复搜索;其次筛选视频,将重复和无关的视频删除;最后标注网络搜集及本地监控摄像头独立采集的视频,将视频按照30帧每秒的帧率,以5秒切割视频,标记每帧视频行为类别,行为类别分为打架和非打架两个类别。
步骤二:输入原始视频,设置快慢两种帧率提取不同帧数图像序列,将每帧图像分割为相互不重叠的多个图像块,并经过线性映射、位置和时间编码及加入分类标志预处理后,分别送入快慢两个通道,由各自通道的基于分开时空注意力机制的Transformer编码器提取图像序列编码特征。
具体的,所述步骤二通过以下子步骤来实现:
(2.1)快慢通道帧率设置及图像分块。设输入原始视频为表
示T帧高宽为的RGB图像,对于慢通道设置较大的时间步长,则慢通道输入图像
序列帧数为,快通道设置较小的时间步长,快通道输入图像序列帧数为。本发明实施例设原始视频帧数,,,则快慢通道
输入图像帧数帧和帧。
(2.2)线性映射、位置及时间编码预处理。对步骤(2.1)输出编码,首先通
过可学习矩阵线性映射为维向量,再加入可学习位置及时间编码矩
阵,得到嵌入矩阵,本发明中表示慢通道预处理后输出向量维度。同理对快通道输入做相同预
处理,仅输出维度不同,则有,通过可学习矩阵将输入线性映射为维向量,表示快通道预处理后
输出向量维度。
(2.3)加入分类标志(CLS token),与BERT transformer相同,在步骤(2.2)输出嵌
入向量及的首位置添加可学习向量,分别输入快慢通道,用于交
叉注意力模块进行特征融合及最后行为类别输出。
如图3所示为快慢通道基于分开时空自注意力机制的Transformer编码器结构图,快通道包含N个Transformer基础模块,快通道主要用于提取帧与帧之间打架动作快速变化的特征,因此输入图像帧数较多,为减少算法运行时间,本发明设置N=1,慢通道包含M个Transformer基本模块,主要用于提取每帧图像空间语义特征,如人体的轮廓、纹理等,这些特征随着帧与帧图像变化,其特征变化较慢,因此输入图像帧数较少,为提取更丰富空间语义特征,本发明设置M=4。
步骤三:将步骤(2.3)输出嵌入矩阵和分别输入快慢通道后,由
各自通道基于分开时空注意力机制的Transformer编码器提取图像序列编码特征。首先,将
输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value向量;然后经过多
头自注意力模块,利用分开的时空自注意力机制,计算Query、Key向量间的自注意力系数矩
阵,该系数矩阵与Value向量加权求和得到第一个基本模块编码特征;最后,若基本模块数
量大于1,重复上述步骤至最后一个基本模块,得到最终的编码特征。
更具体的,所述步骤三通过以下子步骤来实现:
其中表示层归一化,为第个基本模块编码特征输出,快慢通
道原理相同,仅输入图像帧数及基于分开时空注意力机制的Transformer基本模块数不同,
为叙述方便,采用共同的符号表示,当为慢通道时表示为,,当为快
通道时表示为,,表示注意力头索引,A表示多头注
意力模块中多头个数,、及分别表示第个基本模块第个头
Query、Key及Value向量对应的可学习映射矩阵。
(3.2)第个基本模块编码特征图计算。首先利用步骤(3.1)输出q、k及v计算时间
自注意力权重矩阵,及各注意力头输出,将各注意力头输出向量连接成矩阵,并经过线性映
射及残差操作得到中间编码特征图;然后,将中间特征图经过步骤(3.1)得到更新后的q、k
及v,计算空间自注意力权重矩阵,及各注意力头输出,将各注意力头输出向量连接成矩阵,
经过线性映射及残差操作后,再经过层归一化和多层感知机,得到第个基本模块编码特
征图输出。
(3.2.1)空间自注意力权重及计算。首先利用步骤(3.1)输出q、k通过点积运算计
算时间自注意力权重矩阵,再与v加权求和得到各注意力头输出,将各
注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图。
(3.2.2)将步骤(3.2.1)输出中间特征图经过步骤(3.1)得到更新后的q、k
及v,q、k通过点积运算计算空间自注意力权重矩阵,再与v加权求和得到各注
意力头输出,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后得到
中间编码特征图,再经过层归一化和多层感知机层,得到第个基本模块编码特征
图输出。
如前所述快慢通道关注视频不同特征,为更好进行打架识别,将快慢通道提取特征进行融合。步骤三输出矩阵分为CLS token及patch token两部分,CLS token已经学习到所在通道中其他patch token的特征信息,为快速有效的进行特征融合,本发明首先,将一个通道的CLS token与另一个通道的patch token进行特征融合;然后,在下一个多帧率Transformer编码器中,将融合了另一个通道patch token信息的CLS token与本通道的patch token进行特征融合,以获取更加丰富的视频时空表征特征。快慢通道融合原理相同,为叙述简便,仅对快通道融合原理进行详细描述,慢通道同理。
步骤四:如图4所示为快通道交叉注意力模块示意图,首先,分解步骤(3.3)快慢通
道输出和获取CLS token和patch token,快通道CLS token经过线性映射将
通道维数变换到与慢通道相同,将映射后的快通道CLS token与慢通道patch token连接形
成新的矩阵;然后,经过矩阵、及线性映射得到q、k及v向量,利用q、k计算分开
的时空注意力权重矩阵,与v加权求和并经过残差操作;最后,通过线性映射将通道维数还
原,并与快通道的patch token连接形成输出,送入下一个多帧率Transformer编码器。
更加具体的,所述步骤四通过以下子步骤来实现:
(4.1)CLS token和patch token计算及预处理。步骤(3.3)快通道输出,为CLS token表示为,为patch token表示为,其
中表示矩阵中除外的其他部分,同理由慢通道输出可得
到慢通道CLS token和patch token,分别设为和。
(4.2)第个交叉注意力模块编码特征图计算。将步骤(4.1)输出按照
步骤(3.1)所述方法,求取Query、Key及Value向量,并经过步骤(3.2)所述方法,获取第个
交叉注意力模块编码特征图输出表示为。通过线性映射函数将通道维数还原,并与
快通道的patch token连接形成输出,并送入下一个多帧率transformer编码器。
(4.4)打架识别分类头。将步骤(4.3)输出,取其CLS token部分表示为,
送入多层感知机,通过分别得到快慢通道预测输出值,其中表示
打架行为识别预测值,并将两个通道输出取平均,得到最终输出值。
由于Transformer在较大数据集上表现良好,但在小数据集上效果欠佳,为解决这个问题,本发明使用Crossvit在ImageNet上的预训练模型初始化网络,使网络具备先验知识,避免训练初始阶段损失过大,模型难以收敛的情况。并在开源打架数据集CCTV-Fights上进行训练,使用预训练好的模型在自己独立采集的真实监控视频制作的数据集上进行微调,以提高识别精度。上述训练均基于损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,在150000次批量训练后模型达到收敛。
将本发明所述模型应用于开源打架数据集CCTV-Fights,识别准确率达87.25%,基于三维卷积神经网络方法slowfast【SlowFast Networks for Video Recognition】在该数据集上,识别准确率为80.05%。对于自己独立采集的真实监控视频制作的数据集,本发明使用在CCTV-Fights数据集预训练模型微调后,识别准确率达到91.65%,而slowfast算法识别准确率仅为85.35%。实验结果说明,基于Transformer的模型在小数据集上,可通过在较大数据集上预训练经过微调,得到较好的识别准确率,本发明所述的方法能有效提高打架行为识别的准确率。
与前述基于双通道交叉注意力机制的Transformer打架识别方法的实施例相对应,本发明还提供了基于双通道交叉注意力机制的Transformer打架识别装置的实施例。
参见图5,本发明实施例提供的一种基于双通道交叉注意力机制的Transformer打架识别装置,包括一个或多个处理器,用于实现上述实施例中的基于双通道交叉注意力机制的Transformer打架识别方法。
本发明基于双通道交叉注意力机制的Transformer打架识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于双通道交叉注意力机制的Transformer打架识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于双通道交叉注意力机制的Transformer打架识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,包括以下步骤:
步骤一,利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并分为训练集和测试集,即原始视频;
步骤二,将训练集和测试集设置快慢通道帧率,获取不同帧图像序列,对训练集图像进行预处理后分别送入快慢通道的Transformer编码器;
步骤三,快慢通道Transformer编码器基于分开时空注意力机制获取得到两路图像序列编码特征;
步骤四,通过交叉注意力模块融合所述两路图像序列编码特征,后通过多层感知机头得到网络预测值,并根据该预测值与真值计算损失函数训练整个网络;
步骤五,将测试集输入训练好的网络,输出最终行为类别。
2.如权利要求1所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤二,具体包括以下子步骤:
(2.2)对编码,首先通过可学习矩阵线性映射为维向
量,再加入可学习位置及时间编码矩阵,得到嵌入矩阵, 表示慢通道预处理后输出向量维度,同理对快通道
输入做相同预处理,仅输出维度不同,则有,
通过可学习矩阵将输入线性映射为维向量,表示快通道预处
理后输出向量维度;
3.如权利要求2所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤三,具体包括以下子步骤:
(3.1)将输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value向
量,具体的:将步骤(2.3)输出嵌入矩阵和作为输入,设、及分别表示第个基本模块第个头Query、Key及Value向量,通过层归一化及线性
映射计算得到:
其中表示层归一化,为第个基本模块编码特征输出,当为慢通道
时表示为,,当为快通道时表示为,,表示注意力头索引,A表示多头注意力模块中多头个数,、及分别表示第个基本模块第个头Query、Key及Value向量对应的可
学习映射矩阵;
(3.2)利用步骤(3.1)输出q、k及v计算时间自注意力权重矩阵,及各注意力头输出,将
各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图;然后,
将中间特征图经过步骤(3.1)得到更新后的q、k及v,计算空间自注意力权重矩阵,及各注意
力头输出,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后,再经过层归一
化和多层感知机,得到第个基本模块编码特征图输出;
4.如权利要求3所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤(3.2),具体包括以下子步骤:
(3.2.1)空间自注意力权重及计算:首先利用步骤(3.1)输出q、k通过点积运算计算时
间自注意力权重矩阵,再与v加权求和得到各注意力头输出,将各注意
力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图,表达
式为:
(3.2.2)将步骤(3.2.1)输出中间特征图经过步骤(3.1)得到更新后的q、k及v,
q、k通过点积运算计算空间自注意力权重矩阵,再与v加权求和得到各注意力
头输出,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后得到中间
编码特征图,再经过层归一化和多层感知机层,得到第个基本模块编码特征图输
出,表达式为:
5.如权利要求3所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤四,具体包括以下子步骤:
(4.1)步骤(3.3)快通道输出,为分类标志CLS token,表示为,为图像块标志patch token,表示为,其中表
示矩阵中除外的其他部分,同理由慢通道输出可得到慢通道CLS token和
patch token,分别设为和;
(4.2)将步骤(4.1)输出按照步骤(3.1)所述方法,求取Query、Key及Value向
量,并经过步骤(3.2)所述方法,获取第个交叉注意力模块编码特征图输出表示为,通过线性映射函数将通道维数还原,并与快通道的patch token连接形成输出,并送入下一个多帧率transformer编码器,
7.基于双通道交叉注意力机制的Transformer打架识别装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-6中任一项所述的基于双通道交叉注意力机制的Transformer打架识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111537924.1A CN113936339B (zh) | 2021-12-16 | 2021-12-16 | 基于双通道交叉注意力机制的打架识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111537924.1A CN113936339B (zh) | 2021-12-16 | 2021-12-16 | 基于双通道交叉注意力机制的打架识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113936339A CN113936339A (zh) | 2022-01-14 |
CN113936339B true CN113936339B (zh) | 2022-04-22 |
Family
ID=79289194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111537924.1A Active CN113936339B (zh) | 2021-12-16 | 2021-12-16 | 基于双通道交叉注意力机制的打架识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936339B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11798284B2 (en) | 2021-08-27 | 2023-10-24 | Chinabank Payment (beijing) Technology Co., Ltd. | System and method for rough handling recognition in a distribution center via a robust visual solution |
CN114463551A (zh) * | 2022-02-14 | 2022-05-10 | 北京百度网讯科技有限公司 | 图像处理方法、装置、存储介质及电子设备 |
CN114201475B (zh) * | 2022-02-16 | 2022-05-03 | 北京市农林科学院信息技术研究中心 | 危险行为监管方法、装置、电子设备及存储介质 |
CN114612759B (zh) * | 2022-03-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 视频处理方法、查询视频的方法和模型训练方法、装置 |
CN114973120B (zh) * | 2022-04-14 | 2024-03-12 | 山东大学 | 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及*** |
CN114783003B (zh) | 2022-06-23 | 2022-09-20 | 之江实验室 | 一种基于局部特征注意力的行人重识别方法和装置 |
CN115205750B (zh) * | 2022-07-05 | 2023-06-13 | 北京甲板智慧科技有限公司 | 基于深度学习模型的运动实时计数方法和*** |
CN115238749B (zh) * | 2022-08-04 | 2024-04-23 | 中国人民解放军军事科学院***工程研究院 | 一种基于Transformer的特征融合的调制识别方法 |
CN116129330B (zh) * | 2023-03-14 | 2023-11-28 | 阿里巴巴(中国)有限公司 | 基于视频的图像处理、行为识别、分割、检测方法及设备 |
CN116434343B (zh) * | 2023-04-25 | 2023-09-19 | 天津大学 | 基于高低频双支路的视频动作识别方法 |
CN116402811B (zh) * | 2023-06-05 | 2023-08-18 | 长沙海信智能***研究院有限公司 | 一种打架斗殴行为识别方法及电子设备 |
CN116831581B (zh) * | 2023-06-15 | 2024-06-25 | 中南大学 | 一种基于远程生理体征提取的驾驶员状态监测方法及*** |
CN116778969B (zh) * | 2023-06-25 | 2024-03-01 | 山东省人工智能研究院 | 一种基于双通道交叉注意力的域适应的心音分类方法 |
CN117197472B (zh) * | 2023-11-07 | 2024-03-08 | 四川农业大学 | 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置 |
CN117197727B (zh) * | 2023-11-07 | 2024-02-02 | 浙江大学 | 一种基于全局时空特征学习的行为检测方法与*** |
CN117253177B (zh) * | 2023-11-20 | 2024-04-05 | 之江实验室 | 一种动作视频分类方法、装置及介质 |
CN117292209B (zh) * | 2023-11-27 | 2024-04-05 | 之江实验室 | 基于时空增强三维注意力重参数化的视频分类方法及装置 |
CN117994254A (zh) * | 2024-04-03 | 2024-05-07 | 江苏兴力工程管理有限公司 | 一种基于条件交叉注意力机制的架空线路绝缘子定位识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052896A (zh) * | 2017-12-12 | 2018-05-18 | 广东省智能制造研究所 | 基于卷积神经网络与支持向量机的人体行为识别方法 |
CN113033657A (zh) * | 2021-03-24 | 2021-06-25 | 武汉理工大学 | 一种基于Transformer网络的多人行为识别方法 |
CN113255597A (zh) * | 2021-06-29 | 2021-08-13 | 南京视察者智能科技有限公司 | 一种基于transformer的行为分析方法、装置及其终端设备 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
-
2021
- 2021-12-16 CN CN202111537924.1A patent/CN113936339B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052896A (zh) * | 2017-12-12 | 2018-05-18 | 广东省智能制造研究所 | 基于卷积神经网络与支持向量机的人体行为识别方法 |
CN113033657A (zh) * | 2021-03-24 | 2021-06-25 | 武汉理工大学 | 一种基于Transformer网络的多人行为识别方法 |
CN113255597A (zh) * | 2021-06-29 | 2021-08-13 | 南京视察者智能科技有限公司 | 一种基于transformer的行为分析方法、装置及其终端设备 |
CN113673489A (zh) * | 2021-10-21 | 2021-11-19 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
Non-Patent Citations (2)
Title |
---|
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification;Chun-Fu (Richard) Chen 等;《https://arxiv.org/pdf/2103.14899.pdf》;20210822;第1-12页 * |
SlowFast Networks for Video Recognition;Christoph Feichtenhofer 等;《https://arxiv.org/pdf/1812.03982.pdf》;20191029;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113936339A (zh) | 2022-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113936339B (zh) | 基于双通道交叉注意力机制的打架识别方法和装置 | |
CN110119703B (zh) | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 | |
CN111539370B (zh) | 一种基于多注意力联合学习的图像行人重识别方法和*** | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
Kumar et al. | An object detection technique for blind people in real-time using deep neural network | |
CN106909938B (zh) | 基于深度学习网络的视角无关性行为识别方法 | |
CN111738054B (zh) | 一种基于时空自编码器网络和时空cnn的行为异常检测方法 | |
CN113780249B (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN111723667A (zh) | 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置 | |
CN109472733A (zh) | 基于卷积神经网络的图像隐写分析方法 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN110335299A (zh) | 一种基于对抗网络的单目深度估计***实现方法 | |
CN115484410A (zh) | 基于深度学习的事件相机视频重建方法 | |
CN112507893A (zh) | 一种基于边缘计算的分布式无监督行人重识别方法 | |
CN115984700A (zh) | 一种基于改进Transformer孪生网络的遥感图像变化检测方法 | |
Dastbaravardeh et al. | Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN114170657A (zh) | 融合注意力机制与高阶特征表示的面部情感识别方法 | |
CN113761282A (zh) | 视频查重方法、装置、电子设备以及存储介质 | |
CN112418229A (zh) | 一种基于深度学习的无人船海上场景图像实时分割方法 | |
CN115984714A (zh) | 一种基于双分支网络模型的云检测方法 | |
CN115953832A (zh) | 一种基于语义解耦的自注意力模型的组合动作识别方法 | |
CN113822117B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |