CN113936339B - 基于双通道交叉注意力机制的打架识别方法和装置 - Google Patents

基于双通道交叉注意力机制的打架识别方法和装置 Download PDF

Info

Publication number
CN113936339B
CN113936339B CN202111537924.1A CN202111537924A CN113936339B CN 113936339 B CN113936339 B CN 113936339B CN 202111537924 A CN202111537924 A CN 202111537924A CN 113936339 B CN113936339 B CN 113936339B
Authority
CN
China
Prior art keywords
channel
output
fast
attention
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111537924.1A
Other languages
English (en)
Other versions
CN113936339A (zh
Inventor
李玲
徐晓刚
王军
祝敏航
曹卫强
朱亚光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Zhejiang Lab
Original Assignee
Zhejiang Gongshang University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University, Zhejiang Lab filed Critical Zhejiang Gongshang University
Priority to CN202111537924.1A priority Critical patent/CN113936339B/zh
Publication of CN113936339A publication Critical patent/CN113936339A/zh
Application granted granted Critical
Publication of CN113936339B publication Critical patent/CN113936339B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于双通道交叉注意力机制的打架识别方法和装置,该方法首先采集生成视频数据集,设置快慢两种帧率获取不同帧图像序列,进行预处理后分别送入快慢通道,在快慢通道采用基于分开时空自注意力机制的Transformer编码器提取图像序列时空编码特征;然后,经过交叉注意力模块融合一个通道CLS token与另一通道patch token信息,实现双通道时空编码特征融合;最后,将融合后的时空编码特征经过多层感知机头进行打架行为识别。本发明通过双通道Transformer模型与交叉注意力模块能有效提取视频时空特征,提高打架行为识别的准确率,适用于室内外监控***。

Description

基于双通道交叉注意力机制的打架识别方法和装置
技术领域
本发明涉及智能视频监控及深度学习领域,尤其涉及基于双通道交叉注意力机制的Transformer打架识别方法和装置。
背景技术
现如今,监控视频已经广泛应用于社会公共场所,在维护社会公共安全上发挥着极为重要的作用,对监控视频中的异常行为和事件进行有效的识别,能更好的发挥监控视频的作用。打架斗殴行为是视频中常见的一种扰乱公共秩序的行为,严重者更涉嫌聚众斗殴和寻衅滋事,影响社会稳定。在海量视频中通过智能化手段及时发现打架斗殴行为,对维护社会安定至关重要。
现有基于视频的打架行为识别方法大多由卷积神经网络来实现,主要分为两类,一是基于骨骼或姿态流的神经网络方法,该类方法主要对视频中出现的人体进行关键点检测,提取人体的骨架或姿态信息,并对骨架序列构建时空卷积图,送入时空卷积网络进行建模,通过不断的迭代训练得到一个效果最好的权重信息,进而得到行为的类别。
该类方法影响性能的主要原因是,方法仅使用视频中人体的骨架信息,其他关键空间语义特征很难检测到,导致基于骨架的算法鲁棒性较差;且该类方法对视频时间域特征提取较为简单,仅在骨架特征后采用简单的池化层求均值,未能有效融合时间和空间特征。
二是基于双流深度神经网络的方法,该类方法主要是将视频送入双通道网络,通过双通道网络提取视频不同特征,并对双通道提取特征进行融合,来进行人体行为识别。双通道特征输入主要分为两类,一通过RGB图像或光流图像作为输入;二均为RGB图像作为输入。
基于光流图像输入的网络,其缺点在于光流提取耗时长,资源消耗较大,且整个网络无法做到端到端等不足。基于RGB图像作为输入的网络,未根据视频在时间和空间域不同特征,设置不同的图像帧数输入,若送入帧数较多,则资源消耗大,算法训练及测试时间较长,若通过采样稀疏图像帧数,则不能很好提取时间域特征,因行为动作在帧间变化较大,稀疏采样会影响空间特征提取。
基于卷积神经网络通过卷积核捕捉短距离时空信息,不能对超出感受野范围外的依赖关系进行建模。虽然网络的加深可以扩大感受野,可以一定程度解决该问题,但问题依然存在,有方法考虑将局部信息融入注意力机制,但局部信息与全局信息融合方法较为简单,使得特征融合不够全面,表达力不够。Transformer可通过自注意力机制直接比较所有时空位置上的特征,以捕获局部和全局范围内的依赖,适用于视频时空特征提取。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了基于双通道交叉注意力机制的Transformer打架识别方法和装置,设置快慢两种帧率提取不同帧图像序列,分别送入快慢通道,在快慢通道采用基于分开时空注意力机制的Transformer编码器提取时空特征,快通道提取帧与帧间行为动作变化特征,慢通道提取单帧空间语义信息,并通过交叉注意力模块融合双通道时空编码特征,最后经过多层感知机头输出行为类别。其具体技术方案如下:
基于双通道交叉注意力机制的Transformer打架识别方法,包括以下步骤:
步骤一,利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并分为训练集和测试集,即原始视频;
步骤二,将训练集和测试集设置快慢通道帧率,获取不同帧图像序列,对训练集图像进行预处理后分别送入快慢通道的Transformer编码器;
步骤三,快慢通道Transformer编码器基于分开时空注意力机制获取得到两路图像序列编码特征;
步骤四,通过交叉注意力模块融合所述两路图像序列编码特征,后通过多层感知机头得到网络预测值,并根据该预测值与真值计算损失函数训练整个网络;
步骤五,将测试集输入训练好的网络,输出最终行为类别。
进一步的,所述步骤二,具体包括以下子步骤:
(2.1)设原始视频为
Figure 100002_DEST_PATH_IMAGE001
表示T帧高宽为
Figure 100002_DEST_PATH_IMAGE003
的RGB图像,对于 慢通道设置时间步长
Figure 100002_DEST_PATH_IMAGE004
,则慢通道输入图像序列帧数为
Figure 100002_DEST_PATH_IMAGE005
,快通道设置时间步长
Figure 100002_DEST_PATH_IMAGE006
Figure 100002_DEST_PATH_IMAGE007
,快通道输入图像序列帧数为
Figure 100002_DEST_PATH_IMAGE008
将每帧图像分割为相互不重叠的Q块,设每块图像块大小为P×P,则
Figure 100002_DEST_PATH_IMAGE010
,将输入图像矩阵尺度变化后得到快慢通道输入向量分别为
Figure 100002_DEST_PATH_IMAGE011
Figure 100002_DEST_PATH_IMAGE012
,其中p=1,…,Q表示图像块空间位置索引,
Figure 100002_DEST_PATH_IMAGE013
Figure 100002_DEST_PATH_IMAGE014
表示图像帧数索引;
(2.2)对
Figure 100002_DEST_PATH_IMAGE015
编码,首先通过可学习矩阵
Figure 100002_DEST_PATH_IMAGE016
线性映射为
Figure 100002_DEST_PATH_IMAGE017
维向量,再加入可学习位置及时间编码矩阵
Figure 100002_DEST_PATH_IMAGE018
,得到嵌入矩阵
Figure 100002_DEST_PATH_IMAGE020
Figure 915882DEST_PATH_IMAGE017
表示慢通道预处理后输出向量维度,同理对快通道 输入
Figure 100002_DEST_PATH_IMAGE021
做相同预处理,仅输出维度不同,则有
Figure 100002_DEST_PATH_IMAGE022
, 通过可学习矩阵
Figure 100002_DEST_PATH_IMAGE023
将输入线性映射为
Figure 100002_DEST_PATH_IMAGE024
维向量,
Figure 200364DEST_PATH_IMAGE024
表示快通道预处 理后输出向量维度;
(2.3)在步骤(2.2)输出嵌入向量
Figure 100002_DEST_PATH_IMAGE025
Figure 100002_DEST_PATH_IMAGE026
的首位置添加可学习向量
Figure 100002_DEST_PATH_IMAGE027
,并分别输入快慢通道的Transformer编码器。
进一步的,所述步骤三,具体包括以下子步骤:
(3.1)将输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value 向量,具体的:将步骤(2.3)输出嵌入矩阵
Figure 100002_DEST_PATH_IMAGE028
Figure 878076DEST_PATH_IMAGE026
作为输入,设
Figure 100002_DEST_PATH_IMAGE029
Figure 100002_DEST_PATH_IMAGE030
Figure 100002_DEST_PATH_IMAGE031
分别表示第
Figure 100002_DEST_PATH_IMAGE032
个基本模块第
Figure 100002_DEST_PATH_IMAGE033
个头Query、Key及Value向量,通过层归一化及线 性映射计算得到:
Figure 100002_DEST_PATH_IMAGE034
其中
Figure 100002_DEST_PATH_IMAGE035
表示层归一化,
Figure 100002_DEST_PATH_IMAGE036
为第
Figure 100002_DEST_PATH_IMAGE037
个基本模块编码特征输出,当为慢 通道时
Figure 100002_DEST_PATH_IMAGE038
表示为
Figure 100002_DEST_PATH_IMAGE039
Figure 100002_DEST_PATH_IMAGE040
,当为快通道时
Figure 183287DEST_PATH_IMAGE038
表示为
Figure 100002_DEST_PATH_IMAGE041
Figure 100002_DEST_PATH_IMAGE042
Figure 100002_DEST_PATH_IMAGE043
表示注意力头索引,A表示多头注意力模块中多头个数,
Figure 100002_DEST_PATH_IMAGE044
Figure 100002_DEST_PATH_IMAGE045
Figure 100002_DEST_PATH_IMAGE046
分别表示第
Figure 720185DEST_PATH_IMAGE032
个基本模块第
Figure 651101DEST_PATH_IMAGE033
个头Query、Key及Value向量对应的可 学习映射矩阵;
(3.2)利用步骤(3.1)输出q、k及v计算时间自注意力权重矩阵,及各注意力头输 出,将各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图; 然后,将中间特征图经过步骤(3.1)得到更新后的q、k及v,计算空间自注意力权重矩阵,及 各注意力头输出,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后,再经过 层归一化和多层感知机,得到第
Figure 825731DEST_PATH_IMAGE032
个基本模块编码特征图输出;
(3.3)若编码器个数大于1,则重复上述步骤(3.1)和(3.2)直至最后一个编码器输 出,得到快慢通道输出表示为
Figure 100002_DEST_PATH_IMAGE047
Figure 100002_DEST_PATH_IMAGE048
进一步的,所述步骤(3.2),具体包括以下子步骤:
(3.2.1)空间自注意力权重及计算:首先利用步骤(3.1)输出q、k通过点积运算计 算时间自注意力权重矩阵
Figure 100002_DEST_PATH_IMAGE049
,再与v加权求和得到各注意力头输出
Figure 100002_DEST_PATH_IMAGE050
,将各 注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图
Figure 100002_DEST_PATH_IMAGE051
, 表达式为:
Figure 100002_DEST_PATH_IMAGE052
Figure 100002_DEST_PATH_IMAGE053
Figure 100002_DEST_PATH_IMAGE054
其中
Figure 100002_DEST_PATH_IMAGE055
表示softmax激活函数,
Figure 100002_DEST_PATH_IMAGE056
表示每个注意力头输入的 维度,
Figure 100002_DEST_PATH_IMAGE057
为步骤二输出嵌入向量的维度,在慢通道时
Figure 100002_DEST_PATH_IMAGE058
Figure 100002_DEST_PATH_IMAGE059
,在快通道时
Figure 100002_DEST_PATH_IMAGE060
Figure 100002_DEST_PATH_IMAGE061
Figure 100002_DEST_PATH_IMAGE062
表示第
Figure 100002_DEST_PATH_IMAGE063
个基本模块输出编码特征图,
Figure 100002_DEST_PATH_IMAGE064
表示为可 学习线性映射矩阵;
(3.2.2)将步骤(3.2.1)输出中间特征图
Figure 100002_DEST_PATH_IMAGE065
经过步骤(3.1)得到更新后的q、k 及v,q、k通过点积运算计算空间自注意力权重矩阵
Figure 100002_DEST_PATH_IMAGE066
,再与v加权求和得到各注 意力头输出
Figure 100002_DEST_PATH_IMAGE067
,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后得到 中间编码特征图
Figure 100002_DEST_PATH_IMAGE068
,再经过层归一化和多层感知机层,得到第
Figure 100002_DEST_PATH_IMAGE069
个基本模块编码特征 图输出
Figure 100002_DEST_PATH_IMAGE070
,表达式为:
Figure 100002_DEST_PATH_IMAGE071
Figure 100002_DEST_PATH_IMAGE072
Figure 100002_DEST_PATH_IMAGE073
Figure 100002_DEST_PATH_IMAGE074
其中
Figure 100002_DEST_PATH_IMAGE075
表示前馈神经网络。
进一步的,所述步骤四,具体包括以下子步骤:
(4.1)步骤(3.3)快通道输出
Figure 100002_DEST_PATH_IMAGE076
Figure 100002_DEST_PATH_IMAGE077
为分类标志CLS token,表示为
Figure 100002_DEST_PATH_IMAGE078
Figure 100002_DEST_PATH_IMAGE079
为图像块标志patch token,表示为
Figure 100002_DEST_PATH_IMAGE080
,其中
Figure 100002_DEST_PATH_IMAGE081
表示矩阵中除
Figure 100002_DEST_PATH_IMAGE082
外的其他部分,同理由慢通道输出
Figure 100002_DEST_PATH_IMAGE083
可得到 慢通道CLS token和patch token,分别设为
Figure 100002_DEST_PATH_IMAGE084
Figure 100002_DEST_PATH_IMAGE085
通过线性映射函数将快通道维度变化为与慢通道维度一致,并与慢通道patch token连接形成新的向量
Figure 100002_DEST_PATH_IMAGE086
,其中
Figure 100002_DEST_PATH_IMAGE087
为 快通道线性映射函数,快慢通道维数一致,
Figure 100002_DEST_PATH_IMAGE088
表示矩阵连接操作;
(4.2)将步骤(4.1)输出
Figure 100002_DEST_PATH_IMAGE089
按照步骤(3.1)所述方法,求取Query、Key及 Value向量,并经过步骤(3.2)所述方法,获取第
Figure 100002_DEST_PATH_IMAGE091
个交叉注意力模块编码特征图输出表示 为
Figure 100002_DEST_PATH_IMAGE092
,通过线性映射函数将通道维数还原,并与快通道的patch token连接形成输出
Figure 100002_DEST_PATH_IMAGE094
,并送入下一个多帧率transformer编码器,
Figure 100002_DEST_PATH_IMAGE096
其中
Figure 100002_DEST_PATH_IMAGE097
为快通道线性映射函数;
(4.3)将步骤(4.2)输出
Figure 735131DEST_PATH_IMAGE094
经过步骤三及步骤(4.1)和(4.2)计算直至最后一个多帧率Transformer编码器,设最终编码特征图输出为
Figure 100002_DEST_PATH_IMAGE099
(4.4)将步骤(4.3)输出
Figure 651003DEST_PATH_IMAGE099
,取其CLS token部分表示为
Figure 100002_DEST_PATH_IMAGE100
,送入多层感知机, 通过
Figure 100002_DEST_PATH_IMAGE101
分别得到快慢通道预测输出值,其中
Figure 100002_DEST_PATH_IMAGE102
表示打架行为识别预测 值,并将两个通道输出取平均,得到最终输出值。
进一步的,所述损失函数使用二分类交叉熵损失函数,利用MLP头预测值与图像真 实标签值计算二分类损失值
Figure 100002_DEST_PATH_IMAGE103
,表达式为:
Figure 100002_DEST_PATH_IMAGE105
其中,
Figure 496862DEST_PATH_IMAGE102
表示样本标签,如果样本时正例,取值为1,否则取值为0,
Figure 100002_DEST_PATH_IMAGE106
表示模型预 测样本是正例的概率,B表示样本个数。
基于双通道交叉注意力机制的Transformer打架识别装置,包括一个或多个处理器,用于实现所述的基于双通道交叉注意力机制的Transformer打架识别方法。
与选优技术相比,本发明的有益效果在于:
(1)针对卷积神经网络在视频特征提取时,仅能捕捉短距离时空信息的局限,设计了一种基于双通道交叉注意力机制的Transformer打架识别模型,Transformer模型可通过自注意力机制比较所有时空位置上的特征,以捕获局部和全局范围内的依赖,有效提取视频时空特征,从而提高行为识别的准确率。
(2)根据视频时空特征不同,时间域帧间行为动作变化较快,空间域单帧语义特征帧间变化较慢,设计了双通道模型提取视频时空特征。同时为节省内存资源,提高运行效率,方法将不同帧数图像序列送入快慢通道,通道内采用分开的时空自注意力机制提取特征,且快通道内Transoformer编码器个数及输出通道维度较少,在有效提取视频时空特征的同时减少资源消耗。
(3)设计了一种基于交叉注意力机制的时空特征融合模块,将已经学习到本通道特征的CLS token和另一通道的patch token交叉融合,快速且有效的融合双通道时空特征,提高打架行为识别准确率。
(4)本发明方法能有效识别视频中的打架行为,提高识别准确率,在开源打架数据集CCTV-Fights中,准确率达87.25%,且能减少人工筛选成本,预防打架斗殴行为的发生,适用于室内外复杂场景下的视频监控***,有着广泛的应用价值。
附图说明
图1是本发明的所述的一种基于交叉注意力机制的双流Transformer打架识别方法流程图;
图2是本发明所述的一种基于交叉注意力机制的双流Transformer打架识别方法框架图;
图3是本发明所述的双通道分开时空自注意力机制Transformer编码器结构图;
图4是本发明所述的快通道交叉注意力模块示意图;
图5是本发明一种基于双通道交叉注意力机制的Transformer打架识别装置的结构图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,一种基于交叉注意力机制的双流Transformer打架识别方法,通过筛选CCTV-Fights数据集或标注独立采集获得视频数据得到训练集及测试集;将训练集和测试集,设置快慢两种帧率获取不同帧图像序列,训练集图像序列经过预处理后送入快慢通道Transformer编码器和交叉注意力模块,最后经过多层感知机头得到网络预测结果,并根据该预测结果与真值计算损失函数训练整个网络;测试集图像序列输入训练好的网络,输出最终行为类别。
如图2所示,本发明方法采用
Figure DEST_PATH_IMAGE107
个多帧率Transformer编码器,每个多帧率 Transformer编码器有快慢两路输入:
Figure DEST_PATH_IMAGE108
Figure DEST_PATH_IMAGE109
Figure 916211DEST_PATH_IMAGE108
处理低帧率视频数据,
Figure 842185DEST_PATH_IMAGE109
处理高帧率视频数据。首先,原始视频通过快慢两种帧率,提取不同帧图像序列送入
Figure 323982DEST_PATH_IMAGE108
Figure 613012DEST_PATH_IMAGE109
,并分别经过各自通道基于分开时空注意力机制的Transformer编码器获 取编码特征,其中
Figure 496654DEST_PATH_IMAGE108
Figure 173623DEST_PATH_IMAGE109
路Transformer编码器个数分别为N和M;然后,经过交叉 注意力模块融合该两路编码特征;最后,通过多层感知机头输出行为类别。
具体的,本发明的一种基于交叉注意力机制的双流Transformer打架识别方法,包括以下步骤:
步骤一:数据集生成。利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并按照4:1分为训练集和测试集。首先网络搜集视频,在YouTobe等网站输入打架关键字,并下载视频,为了数据的多样性,更换关键字语言类别重复搜索;其次筛选视频,将重复和无关的视频删除;最后标注网络搜集及本地监控摄像头独立采集的视频,将视频按照30帧每秒的帧率,以5秒切割视频,标记每帧视频行为类别,行为类别分为打架和非打架两个类别。
步骤二:输入原始视频,设置快慢两种帧率提取不同帧数图像序列,将每帧图像分割为相互不重叠的多个图像块,并经过线性映射、位置和时间编码及加入分类标志预处理后,分别送入快慢两个通道,由各自通道的基于分开时空注意力机制的Transformer编码器提取图像序列编码特征。
具体的,所述步骤二通过以下子步骤来实现:
(2.1)快慢通道帧率设置及图像分块。设输入原始视频为
Figure DEST_PATH_IMAGE110
表 示T帧高宽为
Figure DEST_PATH_IMAGE111
的RGB图像,对于慢通道设置较大的时间步长
Figure DEST_PATH_IMAGE112
,则慢通道输入图像 序列帧数为
Figure DEST_PATH_IMAGE113
,快通道设置较小的时间步长
Figure DEST_PATH_IMAGE114
,快通道输入图像序列帧数为
Figure DEST_PATH_IMAGE115
。本发明实施例设原始视频帧数
Figure DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE118
,则快慢通道 输入图像帧数
Figure DEST_PATH_IMAGE119
帧和
Figure DEST_PATH_IMAGE120
帧。
将每帧图像分割为相互不重叠的Q块,设每块图像块大小为
Figure DEST_PATH_IMAGE121
,则
Figure 486924DEST_PATH_IMAGE010
,将输入图像矩阵尺度变化后得到快慢通道输入向量分别为
Figure DEST_PATH_IMAGE122
Figure DEST_PATH_IMAGE123
,其中p=1,…,Q表示图像块空间位置索引,
Figure DEST_PATH_IMAGE124
Figure DEST_PATH_IMAGE125
表示图像帧数索引。
(2.2)线性映射、位置及时间编码预处理。对步骤(2.1)输出
Figure DEST_PATH_IMAGE126
编码,首先通 过可学习矩阵
Figure DEST_PATH_IMAGE127
线性映射为
Figure DEST_PATH_IMAGE128
维向量,再加入可学习位置及时间编码矩 阵
Figure DEST_PATH_IMAGE129
,得到嵌入矩阵
Figure 101618DEST_PATH_IMAGE020
,本发明中
Figure DEST_PATH_IMAGE130
表示慢通道预处理后输出向量维度。同理对快通道输入
Figure DEST_PATH_IMAGE131
做相同预 处理,仅输出维度不同,则有
Figure DEST_PATH_IMAGE132
,通过可学习矩阵
Figure DEST_PATH_IMAGE133
将输入线性映射为
Figure DEST_PATH_IMAGE134
维向量,
Figure DEST_PATH_IMAGE135
表示快通道预处理后 输出向量维度。
(2.3)加入分类标志(CLS token),与BERT transformer相同,在步骤(2.2)输出嵌 入向量
Figure DEST_PATH_IMAGE136
Figure DEST_PATH_IMAGE137
的首位置添加可学习向量
Figure DEST_PATH_IMAGE138
,分别输入快慢通道,用于交 叉注意力模块进行特征融合及最后行为类别输出。
如图3所示为快慢通道基于分开时空自注意力机制的Transformer编码器结构图,快通道包含N个Transformer基础模块,快通道主要用于提取帧与帧之间打架动作快速变化的特征,因此输入图像帧数较多,为减少算法运行时间,本发明设置N=1,慢通道包含M个Transformer基本模块,主要用于提取每帧图像空间语义特征,如人体的轮廓、纹理等,这些特征随着帧与帧图像变化,其特征变化较慢,因此输入图像帧数较少,为提取更丰富空间语义特征,本发明设置M=4。
步骤三:将步骤(2.3)输出嵌入矩阵
Figure DEST_PATH_IMAGE139
Figure DEST_PATH_IMAGE140
分别输入快慢通道后,由 各自通道基于分开时空注意力机制的Transformer编码器提取图像序列编码特征。首先,将 输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value向量;然后经过多 头自注意力模块,利用分开的时空自注意力机制,计算Query、Key向量间的自注意力系数矩 阵,该系数矩阵与Value向量加权求和得到第一个基本模块编码特征;最后,若基本模块数 量大于1,重复上述步骤至最后一个基本模块,得到最终的编码特征。
更具体的,所述步骤三通过以下子步骤来实现:
(3.1)Query、Key及Value向量计算。将步骤(2.3)输出嵌入矩阵
Figure DEST_PATH_IMAGE141
Figure DEST_PATH_IMAGE142
作为输入,设
Figure DEST_PATH_IMAGE143
Figure DEST_PATH_IMAGE144
Figure DEST_PATH_IMAGE145
分别表示第
Figure DEST_PATH_IMAGE146
个基本模块第
Figure DEST_PATH_IMAGE147
个头Query、 Key及Value向量,可通过层归一化及线性映射计算得到:
Figure DEST_PATH_IMAGE148
Figure DEST_PATH_IMAGE149
Figure DEST_PATH_IMAGE150
其中
Figure DEST_PATH_IMAGE151
表示层归一化,
Figure DEST_PATH_IMAGE152
为第
Figure DEST_PATH_IMAGE153
个基本模块编码特征输出,快慢通 道原理相同,仅输入图像帧数及基于分开时空注意力机制的Transformer基本模块数不同, 为叙述方便,采用共同的符号表示,当为慢通道时
Figure DEST_PATH_IMAGE154
表示为
Figure DEST_PATH_IMAGE155
Figure DEST_PATH_IMAGE156
,当为快 通道时
Figure DEST_PATH_IMAGE157
表示为
Figure DEST_PATH_IMAGE158
Figure DEST_PATH_IMAGE159
Figure DEST_PATH_IMAGE160
表示注意力头索引,A表示多头注 意力模块中多头个数,
Figure DEST_PATH_IMAGE161
Figure DEST_PATH_IMAGE162
Figure DEST_PATH_IMAGE163
分别表示第
Figure DEST_PATH_IMAGE164
个基本模块第
Figure DEST_PATH_IMAGE165
个头 Query、Key及Value向量对应的可学习映射矩阵。
(3.2)第
Figure 695891DEST_PATH_IMAGE164
个基本模块编码特征图计算。首先利用步骤(3.1)输出q、k及v计算时间 自注意力权重矩阵,及各注意力头输出,将各注意力头输出向量连接成矩阵,并经过线性映 射及残差操作得到中间编码特征图;然后,将中间特征图经过步骤(3.1)得到更新后的q、k 及v,计算空间自注意力权重矩阵,及各注意力头输出,将各注意力头输出向量连接成矩阵, 经过线性映射及残差操作后,再经过层归一化和多层感知机,得到第
Figure 340499DEST_PATH_IMAGE164
个基本模块编码特 征图输出。
(3.2.1)空间自注意力权重及计算。首先利用步骤(3.1)输出q、k通过点积运算计 算时间自注意力权重矩阵
Figure DEST_PATH_IMAGE166
,再与v加权求和得到各注意力头输出
Figure DEST_PATH_IMAGE167
,将各 注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图
Figure DEST_PATH_IMAGE168
Figure DEST_PATH_IMAGE169
Figure DEST_PATH_IMAGE170
Figure DEST_PATH_IMAGE171
其中
Figure DEST_PATH_IMAGE172
表示softmax激活函数,
Figure DEST_PATH_IMAGE173
表示每个注意力头输入的 维度,
Figure DEST_PATH_IMAGE174
为步骤二输出嵌入向量的维度,在慢通道时
Figure DEST_PATH_IMAGE175
Figure DEST_PATH_IMAGE176
,在快通道时
Figure DEST_PATH_IMAGE177
Figure DEST_PATH_IMAGE178
Figure DEST_PATH_IMAGE179
表示第
Figure DEST_PATH_IMAGE180
个基本模块输出编码特征图,
Figure DEST_PATH_IMAGE181
表示为可 学习线性映射矩阵。
(3.2.2)将步骤(3.2.1)输出中间特征图
Figure DEST_PATH_IMAGE182
经过步骤(3.1)得到更新后的q、k 及v,q、k通过点积运算计算空间自注意力权重矩阵
Figure DEST_PATH_IMAGE183
,再与v加权求和得到各注 意力头输出
Figure DEST_PATH_IMAGE184
,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后得到 中间编码特征图
Figure DEST_PATH_IMAGE185
,再经过层归一化和多层感知机层,得到第
Figure DEST_PATH_IMAGE186
个基本模块编码特征 图输出
Figure DEST_PATH_IMAGE187
Figure DEST_PATH_IMAGE188
Figure DEST_PATH_IMAGE189
Figure DEST_PATH_IMAGE190
Figure DEST_PATH_IMAGE191
其中
Figure DEST_PATH_IMAGE192
表示前馈神经网络。
(3.3)快慢通道transformer编码器特征图输出。若编码器个数大于1,则重复上述 步骤(3.1)和(3.2)直至最后一个编码器输出,得到快慢通道输出表示为
Figure DEST_PATH_IMAGE193
Figure DEST_PATH_IMAGE194
如前所述快慢通道关注视频不同特征,为更好进行打架识别,将快慢通道提取特征进行融合。步骤三输出矩阵分为CLS token及patch token两部分,CLS token已经学习到所在通道中其他patch token的特征信息,为快速有效的进行特征融合,本发明首先,将一个通道的CLS token与另一个通道的patch token进行特征融合;然后,在下一个多帧率Transformer编码器中,将融合了另一个通道patch token信息的CLS token与本通道的patch token进行特征融合,以获取更加丰富的视频时空表征特征。快慢通道融合原理相同,为叙述简便,仅对快通道融合原理进行详细描述,慢通道同理。
步骤四:如图4所示为快通道交叉注意力模块示意图,首先,分解步骤(3.3)快慢通 道输出
Figure DEST_PATH_IMAGE195
Figure DEST_PATH_IMAGE196
获取CLS token和patch token,快通道CLS token经过线性映射将 通道维数变换到与慢通道相同,将映射后的快通道CLS token与慢通道patch token连接形 成新的矩阵;然后,经过矩阵
Figure DEST_PATH_IMAGE197
Figure DEST_PATH_IMAGE198
Figure DEST_PATH_IMAGE199
线性映射得到q、k及v向量,利用q、k计算分开 的时空注意力权重矩阵,与v加权求和并经过残差操作;最后,通过线性映射将通道维数还 原,并与快通道的patch token连接形成输出,送入下一个多帧率Transformer编码器。
更加具体的,所述步骤四通过以下子步骤来实现:
(4.1)CLS token和patch token计算及预处理。步骤(3.3)快通道输出
Figure DEST_PATH_IMAGE200
Figure DEST_PATH_IMAGE201
为CLS token表示为
Figure DEST_PATH_IMAGE202
Figure DEST_PATH_IMAGE203
为patch token表示为
Figure DEST_PATH_IMAGE204
,其 中
Figure DEST_PATH_IMAGE205
表示矩阵中除
Figure DEST_PATH_IMAGE206
外的其他部分,同理由慢通道输出
Figure DEST_PATH_IMAGE207
可得 到慢通道CLS token和patch token,分别设为
Figure DEST_PATH_IMAGE208
Figure DEST_PATH_IMAGE209
通过线性映射函数将快通道维度变化为与慢通道维度一致,并与慢通道patch token连接形成新的向量
Figure DEST_PATH_IMAGE210
,其中
Figure DEST_PATH_IMAGE211
为 快通道线性映射函数,用于使快慢通道维数一致,
Figure DEST_PATH_IMAGE212
表示矩阵连接操作。
(4.2)第
Figure 308806DEST_PATH_IMAGE091
个交叉注意力模块编码特征图计算。将步骤(4.1)输出
Figure DEST_PATH_IMAGE213
按照 步骤(3.1)所述方法,求取Query、Key及Value向量,并经过步骤(3.2)所述方法,获取第
Figure 720064DEST_PATH_IMAGE091
个 交叉注意力模块编码特征图输出表示为
Figure DEST_PATH_IMAGE214
。通过线性映射函数将通道维数还原,并与 快通道的patch token连接形成输出
Figure 984823DEST_PATH_IMAGE094
,并送入下一个多帧率transformer编码器。
Figure 423502DEST_PATH_IMAGE096
其中
Figure DEST_PATH_IMAGE215
为快通道线性映射函数,用于将通道维数还原。
(4.3)交叉注意力模块编码特征图输出。将步骤(4.2)输出
Figure 773712DEST_PATH_IMAGE094
经过步骤三及步骤(4.1)和(4.2)计算直至最后一个多帧率Transformer编码器,设最终编码特征图输出为
Figure 536131DEST_PATH_IMAGE099
(4.4)打架识别分类头。将步骤(4.3)输出
Figure 248872DEST_PATH_IMAGE099
,取其CLS token部分表示为
Figure DEST_PATH_IMAGE216
, 送入多层感知机,通过
Figure DEST_PATH_IMAGE217
分别得到快慢通道预测输出值,其中
Figure DEST_PATH_IMAGE218
表示 打架行为识别预测值,并将两个通道输出取平均,得到最终输出值。
(4.5)损失函数构造、模型训练及微调。本发明使用二分类交叉熵损失函数,利用 MLP头预测值与图像真实标签值计算二分类损失值
Figure DEST_PATH_IMAGE219
Figure DEST_PATH_IMAGE220
其中,
Figure DEST_PATH_IMAGE221
表示样本标签,如果样本时正例,取值为1,否则取值为0,
Figure DEST_PATH_IMAGE222
表示模型预 测样本是正例的概率,B表示样本个数。
由于Transformer在较大数据集上表现良好,但在小数据集上效果欠佳,为解决这个问题,本发明使用Crossvit在ImageNet上的预训练模型初始化网络,使网络具备先验知识,避免训练初始阶段损失过大,模型难以收敛的情况。并在开源打架数据集CCTV-Fights上进行训练,使用预训练好的模型在自己独立采集的真实监控视频制作的数据集上进行微调,以提高识别精度。上述训练均基于损失函数对网络进行反向传播,并通过批量梯度下降法不断更新网络参数,在150000次批量训练后模型达到收敛。
将本发明所述模型应用于开源打架数据集CCTV-Fights,识别准确率达87.25%,基于三维卷积神经网络方法slowfast【SlowFast Networks for Video Recognition】在该数据集上,识别准确率为80.05%。对于自己独立采集的真实监控视频制作的数据集,本发明使用在CCTV-Fights数据集预训练模型微调后,识别准确率达到91.65%,而slowfast算法识别准确率仅为85.35%。实验结果说明,基于Transformer的模型在小数据集上,可通过在较大数据集上预训练经过微调,得到较好的识别准确率,本发明所述的方法能有效提高打架行为识别的准确率。
与前述基于双通道交叉注意力机制的Transformer打架识别方法的实施例相对应,本发明还提供了基于双通道交叉注意力机制的Transformer打架识别装置的实施例。
参见图5,本发明实施例提供的一种基于双通道交叉注意力机制的Transformer打架识别装置,包括一个或多个处理器,用于实现上述实施例中的基于双通道交叉注意力机制的Transformer打架识别方法。
本发明基于双通道交叉注意力机制的Transformer打架识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于双通道交叉注意力机制的Transformer打架识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于双通道交叉注意力机制的Transformer打架识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,包括以下步骤:
步骤一,利用开源打架数据集CCTV-Fights、网络搜集及本地独立采集并标注的监控视频数据共同构造数据集,并分为训练集和测试集,即原始视频;
步骤二,将训练集和测试集设置快慢通道帧率,获取不同帧图像序列,对训练集图像进行预处理后分别送入快慢通道的Transformer编码器;
步骤三,快慢通道Transformer编码器基于分开时空注意力机制获取得到两路图像序列编码特征;
步骤四,通过交叉注意力模块融合所述两路图像序列编码特征,后通过多层感知机头得到网络预测值,并根据该预测值与真值计算损失函数训练整个网络;
步骤五,将测试集输入训练好的网络,输出最终行为类别。
2.如权利要求1所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤二,具体包括以下子步骤:
(2.1)设原始视频为
Figure DEST_PATH_IMAGE001
表示T帧高宽为
Figure DEST_PATH_IMAGE003
的RGB图像,对于慢通 道设置时间步长
Figure DEST_PATH_IMAGE004
,则慢通道输入图像序列帧数为
Figure DEST_PATH_IMAGE005
,快通道设置时间步长
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
,快通道输入图像序列帧数为
Figure DEST_PATH_IMAGE008
将每帧图像分割为相互不重叠的Q块,设每块图像块大小为P×P,则
Figure DEST_PATH_IMAGE010
,将 输入图像矩阵尺度变化后得到快慢通道输入向量分别为
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
,其中p=1,…,Q表示图像块空间位置索引,
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
表示图像帧数索引;
(2.2)对
Figure DEST_PATH_IMAGE015
编码,首先通过可学习矩阵
Figure DEST_PATH_IMAGE016
线性映射为
Figure DEST_PATH_IMAGE017
维向 量,再加入可学习位置及时间编码矩阵
Figure DEST_PATH_IMAGE018
,得到嵌入矩阵
Figure DEST_PATH_IMAGE020
Figure 316296DEST_PATH_IMAGE017
表示慢通道预处理后输出向量维度,同理对快通道 输入
Figure DEST_PATH_IMAGE021
做相同预处理,仅输出维度不同,则有
Figure DEST_PATH_IMAGE022
, 通过可学习矩阵
Figure DEST_PATH_IMAGE023
将输入线性映射为
Figure DEST_PATH_IMAGE024
维向量,
Figure 613914DEST_PATH_IMAGE024
表示快通道预处 理后输出向量维度;
(2.3)在步骤(2.2)输出嵌入向量
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE026
的首位置添加可学习向量
Figure DEST_PATH_IMAGE027
,并分别输入快慢通道的Transformer编码器。
3.如权利要求2所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤三,具体包括以下子步骤:
(3.1)将输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value向 量,具体的:将步骤(2.3)输出嵌入矩阵
Figure DEST_PATH_IMAGE028
Figure 49444DEST_PATH_IMAGE026
作为输入,设
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
分别表示第
Figure DEST_PATH_IMAGE032
个基本模块第
Figure DEST_PATH_IMAGE033
个头Query、Key及Value向量,通过层归一化及线性 映射计算得到:
Figure DEST_PATH_IMAGE034
其中
Figure DEST_PATH_IMAGE035
表示层归一化,
Figure DEST_PATH_IMAGE036
为第
Figure DEST_PATH_IMAGE037
个基本模块编码特征输出,当为慢通道 时
Figure DEST_PATH_IMAGE038
表示为
Figure DEST_PATH_IMAGE039
Figure DEST_PATH_IMAGE040
,当为快通道时
Figure 818554DEST_PATH_IMAGE038
表示为
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
表示注意力头索引,A表示多头注意力模块中多头个数,
Figure DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
分别表示第
Figure 429664DEST_PATH_IMAGE032
个基本模块第
Figure 409384DEST_PATH_IMAGE033
个头Query、Key及Value向量对应的可 学习映射矩阵;
(3.2)利用步骤(3.1)输出q、k及v计算时间自注意力权重矩阵,及各注意力头输出,将 各注意力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图;然后, 将中间特征图经过步骤(3.1)得到更新后的q、k及v,计算空间自注意力权重矩阵,及各注意 力头输出,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后,再经过层归一 化和多层感知机,得到第
Figure 207575DEST_PATH_IMAGE032
个基本模块编码特征图输出;
(3.3)若编码器个数大于1,则重复上述步骤(3.1)和(3.2)直至最后一个编码器输出, 得到快慢通道输出表示为
Figure DEST_PATH_IMAGE047
Figure DEST_PATH_IMAGE048
4.如权利要求3所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤(3.2),具体包括以下子步骤:
(3.2.1)空间自注意力权重及计算:首先利用步骤(3.1)输出q、k通过点积运算计算时 间自注意力权重矩阵
Figure DEST_PATH_IMAGE049
,再与v加权求和得到各注意力头输出
Figure DEST_PATH_IMAGE050
,将各注意 力头输出向量连接成矩阵,并经过线性映射及残差操作得到中间编码特征图
Figure DEST_PATH_IMAGE051
,表达 式为:
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE053
Figure DEST_PATH_IMAGE054
其中
Figure DEST_PATH_IMAGE055
表示softmax激活函数,
Figure DEST_PATH_IMAGE056
表示每个注意力头输入的维度,
Figure DEST_PATH_IMAGE057
为步骤二输出嵌入向量的维度,在慢通道时
Figure DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE059
,在快通道时
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
表示第
Figure DEST_PATH_IMAGE063
个基本模块输出编码特征图,
Figure DEST_PATH_IMAGE064
表示为可 学习线性映射矩阵;
(3.2.2)将步骤(3.2.1)输出中间特征图
Figure DEST_PATH_IMAGE065
经过步骤(3.1)得到更新后的q、k及v, q、k通过点积运算计算空间自注意力权重矩阵
Figure DEST_PATH_IMAGE066
,再与v加权求和得到各注意力 头输出
Figure DEST_PATH_IMAGE067
,将各注意力头输出向量连接成矩阵,经过线性映射及残差操作后得到中间 编码特征图
Figure DEST_PATH_IMAGE068
,再经过层归一化和多层感知机层,得到第
Figure DEST_PATH_IMAGE069
个基本模块编码特征图输 出
Figure DEST_PATH_IMAGE070
,表达式为:
Figure DEST_PATH_IMAGE071
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE073
Figure DEST_PATH_IMAGE074
其中
Figure DEST_PATH_IMAGE075
表示前馈神经网络。
5.如权利要求3所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特征在于,所述步骤四,具体包括以下子步骤:
(4.1)步骤(3.3)快通道输出
Figure DEST_PATH_IMAGE076
Figure DEST_PATH_IMAGE077
为分类标志CLS token,表示为
Figure DEST_PATH_IMAGE078
Figure DEST_PATH_IMAGE079
为图像块标志patch token,表示为
Figure DEST_PATH_IMAGE080
,其中
Figure DEST_PATH_IMAGE081
表 示矩阵中除
Figure DEST_PATH_IMAGE082
外的其他部分,同理由慢通道输出
Figure DEST_PATH_IMAGE083
可得到慢通道CLS token和 patch token,分别设为
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
通过线性映射函数将快通道维度变化为与慢通道维度一致,并与慢通道patch token 连接形成新的向量
Figure DEST_PATH_IMAGE086
,其中
Figure DEST_PATH_IMAGE087
为快通 道线性映射函数,快慢通道维数一致,
Figure DEST_PATH_IMAGE088
表示矩阵连接操作;
(4.2)将步骤(4.1)输出
Figure DEST_PATH_IMAGE089
按照步骤(3.1)所述方法,求取Query、Key及Value向 量,并经过步骤(3.2)所述方法,获取第
Figure DEST_PATH_IMAGE091
个交叉注意力模块编码特征图输出表示为
Figure DEST_PATH_IMAGE092
,通过线性映射函数将通道维数还原,并与快通道的patch token连接形成输出
Figure DEST_PATH_IMAGE094
,并送入下一个多帧率transformer编码器,
Figure DEST_PATH_IMAGE096
其中
Figure DEST_PATH_IMAGE097
为快通道线性映射函数;
(4.3)将步骤(4.2)输出
Figure 479245DEST_PATH_IMAGE094
经过步骤三及步骤(4.1)和(4.2)计算直至最后一个多帧率Transformer编码器,设最终编码特征图输出为
Figure DEST_PATH_IMAGE099
(4.4)将步骤(4.3)输出
Figure 39801DEST_PATH_IMAGE099
,取其CLS token部分表示为
Figure DEST_PATH_IMAGE100
,送入多层感知机,通过
Figure DEST_PATH_IMAGE101
分别得到快慢通道预测输出值,其中
Figure DEST_PATH_IMAGE102
表示打架行为识别预测值, 并将两个通道输出取平均,得到最终输出值。
6.如权利要求3所述的基于双通道交叉注意力机制的Transformer打架识别方法,其特 征在于,所述损失函数使用二分类交叉熵损失函数,利用MLP头预测值与图像真实标签值计 算二分类损失值
Figure DEST_PATH_IMAGE103
,表达式为:
Figure DEST_PATH_IMAGE105
其中,
Figure 361061DEST_PATH_IMAGE102
表示样本标签,如果样本时正例,取值为1,否则取值为0,
Figure DEST_PATH_IMAGE106
表示模型预测样 本是正例的概率,B表示样本个数。
7.基于双通道交叉注意力机制的Transformer打架识别装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-6中任一项所述的基于双通道交叉注意力机制的Transformer打架识别方法。
CN202111537924.1A 2021-12-16 2021-12-16 基于双通道交叉注意力机制的打架识别方法和装置 Active CN113936339B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111537924.1A CN113936339B (zh) 2021-12-16 2021-12-16 基于双通道交叉注意力机制的打架识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111537924.1A CN113936339B (zh) 2021-12-16 2021-12-16 基于双通道交叉注意力机制的打架识别方法和装置

Publications (2)

Publication Number Publication Date
CN113936339A CN113936339A (zh) 2022-01-14
CN113936339B true CN113936339B (zh) 2022-04-22

Family

ID=79289194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111537924.1A Active CN113936339B (zh) 2021-12-16 2021-12-16 基于双通道交叉注意力机制的打架识别方法和装置

Country Status (1)

Country Link
CN (1) CN113936339B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11798284B2 (en) 2021-08-27 2023-10-24 Chinabank Payment (beijing) Technology Co., Ltd. System and method for rough handling recognition in a distribution center via a robust visual solution
CN114463551A (zh) * 2022-02-14 2022-05-10 北京百度网讯科技有限公司 图像处理方法、装置、存储介质及电子设备
CN114201475B (zh) * 2022-02-16 2022-05-03 北京市农林科学院信息技术研究中心 危险行为监管方法、装置、电子设备及存储介质
CN114612759B (zh) * 2022-03-22 2023-04-07 北京百度网讯科技有限公司 视频处理方法、查询视频的方法和模型训练方法、装置
CN114973120B (zh) * 2022-04-14 2024-03-12 山东大学 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及***
CN114783003B (zh) 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置
CN115205750B (zh) * 2022-07-05 2023-06-13 北京甲板智慧科技有限公司 基于深度学习模型的运动实时计数方法和***
CN115238749B (zh) * 2022-08-04 2024-04-23 中国人民解放军军事科学院***工程研究院 一种基于Transformer的特征融合的调制识别方法
CN116129330B (zh) * 2023-03-14 2023-11-28 阿里巴巴(中国)有限公司 基于视频的图像处理、行为识别、分割、检测方法及设备
CN116434343B (zh) * 2023-04-25 2023-09-19 天津大学 基于高低频双支路的视频动作识别方法
CN116402811B (zh) * 2023-06-05 2023-08-18 长沙海信智能***研究院有限公司 一种打架斗殴行为识别方法及电子设备
CN116831581B (zh) * 2023-06-15 2024-06-25 中南大学 一种基于远程生理体征提取的驾驶员状态监测方法及***
CN116778969B (zh) * 2023-06-25 2024-03-01 山东省人工智能研究院 一种基于双通道交叉注意力的域适应的心音分类方法
CN117197472B (zh) * 2023-11-07 2024-03-08 四川农业大学 基于鼻出血内窥镜影像的高效师生半监督分割方法及装置
CN117197727B (zh) * 2023-11-07 2024-02-02 浙江大学 一种基于全局时空特征学习的行为检测方法与***
CN117253177B (zh) * 2023-11-20 2024-04-05 之江实验室 一种动作视频分类方法、装置及介质
CN117292209B (zh) * 2023-11-27 2024-04-05 之江实验室 基于时空增强三维注意力重参数化的视频分类方法及装置
CN117994254A (zh) * 2024-04-03 2024-05-07 江苏兴力工程管理有限公司 一种基于条件交叉注意力机制的架空线路绝缘子定位识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052896A (zh) * 2017-12-12 2018-05-18 广东省智能制造研究所 基于卷积神经网络与支持向量机的人体行为识别方法
CN113033657A (zh) * 2021-03-24 2021-06-25 武汉理工大学 一种基于Transformer网络的多人行为识别方法
CN113255597A (zh) * 2021-06-29 2021-08-13 南京视察者智能科技有限公司 一种基于transformer的行为分析方法、装置及其终端设备
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052896A (zh) * 2017-12-12 2018-05-18 广东省智能制造研究所 基于卷积神经网络与支持向量机的人体行为识别方法
CN113033657A (zh) * 2021-03-24 2021-06-25 武汉理工大学 一种基于Transformer网络的多人行为识别方法
CN113255597A (zh) * 2021-06-29 2021-08-13 南京视察者智能科技有限公司 一种基于transformer的行为分析方法、装置及其终端设备
CN113673489A (zh) * 2021-10-21 2021-11-19 之江实验室 一种基于级联Transformer的视频群体行为识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classification;Chun-Fu (Richard) Chen 等;《https://arxiv.org/pdf/2103.14899.pdf》;20210822;第1-12页 *
SlowFast Networks for Video Recognition;Christoph Feichtenhofer 等;《https://arxiv.org/pdf/1812.03982.pdf》;20191029;第1-10页 *

Also Published As

Publication number Publication date
CN113936339A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和***
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
Kumar et al. An object detection technique for blind people in real-time using deep neural network
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
CN111723667A (zh) 基于人体关节点坐标的智慧灯杆人群行为识别方法和装置
CN109472733A (zh) 基于卷积神经网络的图像隐写分析方法
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN110335299A (zh) 一种基于对抗网络的单目深度估计***实现方法
CN115484410A (zh) 基于深度学习的事件相机视频重建方法
CN112507893A (zh) 一种基于边缘计算的分布式无监督行人重识别方法
CN115984700A (zh) 一种基于改进Transformer孪生网络的遥感图像变化检测方法
Dastbaravardeh et al. Channel Attention‐Based Approach with Autoencoder Network for Human Action Recognition in Low‐Resolution Frames
CN113850182A (zh) 基于DAMR_3DNet的动作识别方法
CN114170657A (zh) 融合注意力机制与高阶特征表示的面部情感识别方法
CN113761282A (zh) 视频查重方法、装置、电子设备以及存储介质
CN112418229A (zh) 一种基于深度学习的无人船海上场景图像实时分割方法
CN115984714A (zh) 一种基于双分支网络模型的云检测方法
CN115953832A (zh) 一种基于语义解耦的自注意力模型的组合动作识别方法
CN113822117B (zh) 一种数据处理方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant