CN109871777B - 一种基于注意力机制的行为识别*** - Google Patents

一种基于注意力机制的行为识别*** Download PDF

Info

Publication number
CN109871777B
CN109871777B CN201910064529.2A CN201910064529A CN109871777B CN 109871777 B CN109871777 B CN 109871777B CN 201910064529 A CN201910064529 A CN 201910064529A CN 109871777 B CN109871777 B CN 109871777B
Authority
CN
China
Prior art keywords
channel
attention
spatial
attention module
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910064529.2A
Other languages
English (en)
Other versions
CN109871777A (zh
Inventor
招继恩
朱勇杰
王国良
张海
谭大伦
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Development Research Institute Of Guangzhou Smart City
Sun Yat Sen University
Original Assignee
Development Research Institute Of Guangzhou Smart City
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Development Research Institute Of Guangzhou Smart City, Sun Yat Sen University filed Critical Development Research Institute Of Guangzhou Smart City
Priority to CN201910064529.2A priority Critical patent/CN109871777B/zh
Publication of CN109871777A publication Critical patent/CN109871777A/zh
Application granted granted Critical
Publication of CN109871777B publication Critical patent/CN109871777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的行为识别***,由输入、中间Block、输出构成;所述***整个网络结构基于Inception V3,选择在其中一个Block加入提出的两个Attention Module;其中使用Channel Attention模块来提取通道间依赖,通过使用Spatial Attention来获取空间的依赖。本发明为了克服错误标签和背景信息的影响。使用残差学习将通道注意力和空间注意力结合起来。并使用自我注意作为网络的一部分来获取更长期的时间信息。在模型中,利用了空间和通道的注意力,并且在模块设计中只使用二维通道的注意力。

Description

一种基于注意力机制的行为识别***
技术领域
本发明涉及行为识别,具体涉及一种基于注意力机制的行为识别***。
背景技术
目前,由于Convolutional Neural Network(CNN)已经在图像分类方面取得了巨大成功,因此学界已经提出了许多基于CNN的方法来推动动作识别的性能。这些神经网络可以分为两种类型,2D卷积网络(通常使用一个RGB帧或多个流帧作为输入)和3D卷积网络(使用多个帧作为输入并同时整合空间和时间信息)。由于缺乏时间信息,一些基于2D的CNN使用并行结构来处理多RGB帧并在最后一层融合以获得时间信息。
通过堆叠一系列卷积层,CNN能够捕获远程依赖性信息。特殊层中的每个学习过滤器在本地感知域中操作,因此变换输出的每个单元不能利用该区域之外的全局信息。在网络的较低层中问题变得更加严重。但人类动作识别通常需要对整个身体和周围场景进行连贯的理解。发现远程依赖性是视频动作识别的核心。除了这个问题,视频在帧内和帧间有许多与人类行为的无关信息。
事实证明,注意力机制是帮助网络关注重要部分并减少背景响应的有效方法。在认知理论里,人们依次关注场景的不同部分来提取相关信息。注意力机制已被证明在如图像标题生成,机器翻译,图像识别等领域有较好的效果。其中大多数方法都是基于循环神经网络。SENet设计了类似与注意力的权重分布模块,可以在卷积神经网络中使用,并通过使用注意机制而不考虑空间来关注信道注意和重新加权信道权重。
我们的目标是通过使用注意机制来提高网络的表达能力:捕获远程依赖关系并关注特征中的重要部分。此外,从头开始训练3D CNN需要大型标记数据集,如Kinetics,然后在目标数据集上进行微调。我们提出了一种新的微调策略来提高性能。
现有的技术方案一为深度残差网络ResNet,深度残差学习是为了学习恒等映射而设计的。该方法是一种有效的防止过拟合和增加前向神经元网络深度的方法。最近的研究表明,可以通过显式地嵌入学习机制来改善网络的性能,这些学习机制有助于捕获空间相关性,而不需要额外的监督。这种方法在先启体系结构中得到了推广,它表明网络可以通过在模块中嵌入多尺度过程来实现具有竞争力的精度。
现有的技术方案二为Attention Network,人类的感知并不倾向于一次处理整个场景,而是有选择地将注意力集中在视觉空间的某些部分,以便在需要的时候和地方获取信息。注意机制的硬注意和软注意是两种典型的注意机制。最近工作中开发的软注意力可以端到端的训练卷积神经网络。Self-attention在机器翻译中得到了广泛的应用,它绘制了输入和输出之间的全局依赖关系。
现有技术方案一中没有考虑注意力机制,对不同的通道没有进行权重再分配,使得很容易受到背景信息和错误标签的影响。尤其是由于人为原因,在数据打标签的过程中产生了错误,神经网络仍然会当作正确的数据进行拟合。
现有技术方案二中,没有综合考虑两个不同的方面:通道之间和空间位置之间的信息,每一个通道代表一类特别的视觉关注类型,而通道内的每一个部分也应该赋予不同的权重。现有的方法把它们当作一样进行处理。
发明内容
本发明针对上述问题,提供了一种基于注意力机制的行为识别***。
本发明采用的技术方案是:一种基于注意力机制的行为识别***,由输入、中间Block、输出构成;
输入端为RGB图像,其中的Attention Module能任意嵌入在其中一个Block;注意力模块主要分为通道间注意力模块Channel Attention和空间注意力模块;SpatialAttention;视频中的一帧图像输入后,经过前馈运算后,卷积神经网络输出对应行为的类别;
所述***整个网络结构基于Inception V3,选择在其中一个Block加入两个注意力模块Attention Module;其中使用Channel Attention模块提取通道间依赖,通过使用Spatial Attention获取空间的依赖;整体***通过输入的视频数据切分为图像数据后进行行为识别。
进一步地,所述***对于Channel Attention,为了使模型能够完全捕获通道依赖性,首先通过在每个信道上使用全局最大池操作来聚合空间信息,然后将这些特征输入到非线性的两个完全连接层,用来产生通道系数;在输出部分,每个通道都乘以相应系数;由于降采样的存在,这部分的计算开销基本可以忽略不计。
更进一步地,所述***根据通道间注意力模块的设计,一个自然的想法是关注信息部分或无关信息,与通道间注意力分支对称;空间注意模块的设计有两种方式;第一种形式是计算2D描述符,该描述符对通道上每个像素的信道信息进行编码,命名为第一空间注意力模块;使用通道最大池化和通道平均池化,生成两个2D特征图
Figure GDA0002832430600000031
Figure GDA0002832430600000032
然后在它们之间进行逐元素加法并通过标准卷积层进行卷积以产生2D空间注意力图,在最后添加sigmoid激活函数;
具体公式表达如下所示:
Figure GDA0002832430600000033
Figure GDA0002832430600000034
Figure GDA0002832430600000041
其中F为输入特征,c表示通道数,δ为表示Relu函数,σ表示Sigmoid激活函数;W0以及W1分别表示两个全连接层对应的参数;
在第二种形式中,对于每个通道,将每个通道划分为N×N的网格,N选择为3或4;首先对每个网格执行最大池化,然后使用2层MLP和一个softmax激活函数来产生这些网格的系数;记为第二空间注意力模块;在设计完这些模块之后,神经网络,对数据集进行采样,数据增强并进行训练,测试时在测试集进行验证。
本发明的优点:
本发明中,为了克服错误标签和背景信息的影响。使用残差学习将通道注意力和空间注意力结合起来。并使用自我注意作为网络的一部分来获取更长期的时间信息。在模型中,利用了空间和通道的注意力,并且在模块设计中只使用二维通道的注意力。
本发明中提出的注意力机制可以很好的解决视频中存在大量冗余背景信息和与行为无关的信息这两方面的问题,通过可学习的重点特征优选和权重重分配,重点关注的是通道间和空间内的重要局部信息,对分类效果由很好的提升,此外由于注意力机制的引入,整个***收敛的更快,训练的时间更少,且相比其它的Block,由于全局池化的作用,引入的可学习参数很少,降低了整个***的开销。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明的整个网络的结构流程图;
图2是本发明的Channel Attention模块流程图;
图3是本发明的Spatial Attention Module I的流程图;
图4是本发明的Spatial Attention Module II的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参考图1至图4,如图1至图4所示,一种基于注意力机制的行为识别***,由输入、中间Block、输出构成;
输入端为RGB图像,其中的Attention Module能任意嵌入在其中一个Block;注意力模块主要分为通道间注意力模块Channel Attention和空间注意力模块;SpatialAttention;视频中的一帧图像输入后,经过前馈运算后,卷积神经网络输出对应行为的类别;
所述***整个网络结构基于Inception V3,选择在其中一个Block加入两个注意力模块Attention Module;其中使用Channel Attention模块提取通道间依赖,通过使用Spatial Attention获取空间的依赖;整体***通过输入的视频数据切分为图像数据后进行行为识别。
参考图1,如图1所示,为整个行为识别***的结构图,为一个完整的端到端的卷积神经网络,由输入、中间Block、输出构成。其中输入端为RGB图像,conv为卷积操作,pool为池化操作,其中的Attention Module可以任意嵌入在其中一个block。注意力模块主要分为通道间注意力模块(Channel Attention)和空间注意力模块(Spatial Attention)。视频中的一帧图像输入后,经过前馈运算后,卷积神经网络输出对应行为的类别。
所述***对于Channel Attention,为了使模型能够完全捕获通道依赖性,首先通过在每个信道上使用全局最大池操作来聚合空间信息,然后将这些特征输入到非线性的两个完全连接层,用来产生通道系数;在输出部分,每个通道都乘以相应系数;由于降采样的存在,这部分的计算开销基本可以忽略不计。
所述***根据通道间注意力模块的设计,一个自然的想法是关注信息部分或无关信息,与通道间注意力分支对称;空间注意模块的设计有两种方式;第一种形式是计算2D描述符,该描述符对通道上每个像素的信道信息进行编码,命名为第一空间注意力模块;使用通道最大池化和通道平均池化,生成两个2D特征图
Figure GDA0002832430600000061
Figure GDA0002832430600000062
然后在它们之间进行逐元素加法并通过标准卷积层进行卷积以产生2D空间注意力图,在最后添加sigmoid激活函数;
具体公式表达如下所示:
Figure GDA0002832430600000063
Figure GDA0002832430600000064
Figure GDA0002832430600000065
其中F为输入特征,c表示通道数,δ为表示Relu函数,σ表示Sigmoid激活函数;W0以及W1分别表示两个全连接层对应的参数;
在第二种形式中,对于每个通道,将每个通道划分为N×N的网格,N选择为3或4;首先对每个网格执行最大池化,然后使用2层MLP和一个softmax激活函数来产生这些网格的系数;记为第二空间注意力模块;在设计完这些模块之后,神经网络,对数据集进行采样,数据增强并进行训练,测试时在测试集进行验证。
整个网络的结构图如图1所示。整个网络结构基于Inception V3,选择在其中一个Block加入提出的两个Attention Module。其中使用Channel Attention模块来提取通道间依赖,通过使用Spatial Attention来获取空间的依赖。
如图2所示,对于Channel Attention,为了使模型能够完全捕获通道依赖性。我们首先通过在每个信道上使用全局最大池操作来聚合空间信息。然后将这些特征输入到非线性的两个完全连接层,用来产生通道系数。在输出部分,每个通道都乘以相应系数。由于降采样的存在,这部分的计算开销基本可以忽略不计。
根据通道间注意力模块的设计,一个自然的想法是关注“哪里”是一个信息部分而哪里是需要忽略的无关信息,与通道间注意力分支对称。空间注意模块的设计有两种方式。如图3所示。第一种形式是计算2D描述符,该描述符对通道上每个像素的信道信息进行编码,命名为第一空间注意力模块;使用通道最大池化和通道平均池化,生成两个2D特征图
Figure GDA0002832430600000071
Figure GDA0002832430600000072
然后在它们之间进行逐元素加法并通过标准卷积层进行卷积以产生2D空间注意力图,在最后添加sigmoid激活函数;
具体公式表达如下所示:
Figure GDA0002832430600000073
Figure GDA0002832430600000074
Figure GDA0002832430600000075
其中F为输入特征,c表示通道数,δ为表示Relu函数,σ表示Sigmoid激活函数;W0以及W1分别表示两个全连接层对应的参数;
在第二种形式中,对于每个通道。我们将每个通道划分为N×N的网格,在本发明中,N选择为3或4。首先对每个网格执行最大池化,然后使用2层MLP和一个softmax激活函数来产生这些网格的系数。记为Spatial Attention Module II(SAM-II)。SAM-II的细节在图4中。
在设计完这些模块之后,按照图1所示的神经网络,对数据集进行采样,数据增强并进行训练,测试时在测试集进行验证。
直觉上,不同的渠道在行动识别中扮演着不同的角色。某些通道在移动目标或部分(如人体的腿部等)中可能非常重要。某些通道可能只捕获不相关的背景信息,将信道重要性调整到信道,我们就可以实现目标自适应的最小功能。
在动作识别中,通常使用具有长短期记忆(LSTM)单元的多层递归神经网络(RNNs),该单元在空间和时间上都是深度的,其模块选择性地聚焦于视频帧的部分。本发明中,着重于研究注意力机制在CNN中的应用。
图4是Spatial Attention Module II,简写SAM II,表示第二类空间注意力模块。
本发明中,为了克服错误标签和背景信息的影响。使用残差学习将通道注意力和空间注意力结合起来。并使用自我注意作为网络的一部分来获取更长期的时间信息。在模型中,利用了空间和通道的注意力,并且在模块设计中只使用二维通道的注意力。
在本发明的***在视频分类应用中非常有效。使用BNInception、inception-v3、inception-resnet-v2作为基准,并添加模块,都有很大程度上的改进。其次,在三个著名的基准数据集上验证了性能改进,证明了本发明提出方法的广泛适用性。最后,可视化训练过的模型,发现带有本发明模块的CNN比它们的基准网络更恰当地关注目标对象。
视频中存在大量冗余背景信息和与行为无关的信息,且通常确定具体行为是根据少部分关键信息,如坐和站立,在背景信息一致的情况下,只要重点关键的行人坐和站立时的差别信息。本发明中提出的注意力机制可以很好的解决这两方面的问题,通过可学习的重点特征优选和权重重分配,重点关注的是通道间和空间内的重要局部信息,对分类效果由很好的提升,此外由于注意力机制的引入,整个***收敛的更快,训练的时间更少,且相比其它的Block,由于全局池化的作用,引入的可学习参数很少,降低了整个***的开销。
其中说明书中的英文Attention Module对应为注意力模块,Channel Attention对应为通道间注意力模块,Spatial Attention对应为空间注意力模块,SpatialAttention Module II对应为第二空间注意力模块,空间注意模块I(SAM-I)对应为第一空间注意力模块
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于注意力机制的行为识别***,其特征在于,由输入、中间Block、输出构成;
输入端为RGB图像,其中的注意力模块能任意嵌入在其中一个Block;注意力模块主要分为通道间注意力模块和空间注意力模块;视频中的一帧图像输入后,经过前馈运算后,卷积神经网络输出对应行为的类别;
所述***整个网络结构基于Inception V3,选择在其中一个Block加入两个注意力模块注意力模块;其中使用通道间注意力模块模块提取通道间依赖,通过使用空间注意力模块获取空间的依赖;整体***通过输入的视频数据切分为图像数据后进行行为识别;
所述***根据通道间注意力模块的设计,关注信息部分或无关信息,与通道间注意力分支对称;空间注意模块的设计有两种方式;第一种形式是计算2D描述符,该描述符对通道上每个像素的信道信息进行编码,命名为第一空间注意力模块;使用通道最大池化和通道平均池化,生成两个2D特征图
Figure FDA0003083432550000011
Figure FDA0003083432550000012
然后在它们之间进行逐元素加法并通过标准卷积层进行卷积以产生2D空间注意力图,在最后添加sigmoid激活函数;
具体公式表达如下所示:
Figure FDA0003083432550000013
Figure FDA0003083432550000014
Figure FDA0003083432550000015
其中F为输入特征,c表示通道数,δ为表示Relu函数,σ表示Sigmoid激活函数;W0以及W1分别表示两个全连接层对应的参数;
在第二种形式中,对于每个通道,将每个通道划分为N×N的网格,N选择为3或4;首先对每个网格执行最大池化,然后使用2层MLP和一个softmax激活函数来产生这些网格的系数;记为第二空间注意力模块;在设计完这些模块之后,神经网络,对数据集进行采样,数据增强并进行训练,测试时在测试集进行验证。
2.根据权利要求1所述的基于注意力机制的行为识别***,其特征在于,所述***对于通道间注意力模块,为了使模型能够完全捕获通道依赖性,首先通过在每个信道上使用全局最大池操作来聚合空间信息,然后将这些特征输入到非线性的两个完全连接层,用来产生通道系数;在输出部分,每个通道都乘以相应系数;由于降采样的存在,这部分的计算开销基本可以忽略不计。
CN201910064529.2A 2019-01-23 2019-01-23 一种基于注意力机制的行为识别*** Active CN109871777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910064529.2A CN109871777B (zh) 2019-01-23 2019-01-23 一种基于注意力机制的行为识别***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910064529.2A CN109871777B (zh) 2019-01-23 2019-01-23 一种基于注意力机制的行为识别***

Publications (2)

Publication Number Publication Date
CN109871777A CN109871777A (zh) 2019-06-11
CN109871777B true CN109871777B (zh) 2021-10-01

Family

ID=66917892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910064529.2A Active CN109871777B (zh) 2019-01-23 2019-01-23 一种基于注意力机制的行为识别***

Country Status (1)

Country Link
CN (1) CN109871777B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378245B (zh) * 2019-06-26 2023-07-21 平安科技(深圳)有限公司 基于深度学习的足球比赛行为识别方法、装置及终端设备
CN110309800B (zh) * 2019-07-05 2021-07-06 中国科学技术大学 一种林火烟雾探测方法及装置
CN110427867B (zh) * 2019-07-30 2021-11-19 华中科技大学 基于残差注意力机制的面部表情识别方法及***
CN110781739B (zh) * 2019-09-19 2023-07-25 平安科技(深圳)有限公司 提取行人特征的方法、装置、计算机设备和存储介质
CN111031315B (zh) * 2019-11-18 2023-05-30 复旦大学 基于注意力机制和时间依赖性的压缩视频质量增强方法
CN111709265A (zh) * 2019-12-11 2020-09-25 深学科技(杭州)有限公司 基于注意力机制残差网络的摄像监控状态分类方法
CN111199212B (zh) * 2020-01-02 2023-04-07 西安工程大学 基于注意力模型的行人属性识别方法
CN111191626B (zh) * 2020-01-02 2021-01-01 北京航空航天大学 一种多类别交通工具的精细识别方法
CN111325145B (zh) * 2020-02-19 2023-04-25 中山大学 一种基于结合时域通道相关性块的行为识别方法
CN111476131B (zh) * 2020-03-30 2021-06-11 北京微播易科技股份有限公司 一种视频处理方法和装置
CN111539370B (zh) * 2020-04-30 2022-03-15 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和***
CN111666852A (zh) * 2020-05-28 2020-09-15 天津大学 一种基于卷积神经网络的微表情双流网络识别方法
CN111738344B (zh) * 2020-06-24 2024-02-02 上海应用技术大学 一种基于多尺度融合的快速目标检测方法
CN112069884B (zh) * 2020-07-28 2024-03-12 中国传媒大学 一种暴力视频分类方法、***和存储介质
CN111985370B (zh) * 2020-08-10 2022-04-08 华南农业大学 一种基于混合注意力模块的农作物病虫害识别方法
CN112131943B (zh) * 2020-08-20 2023-07-11 深圳大学 一种基于双重注意力模型的视频行为识别方法及***
CN112200750B (zh) * 2020-10-21 2022-08-05 华中科技大学 一种超声图像去噪模型建立方法及超声图像去噪方法
CN113065588A (zh) * 2021-03-24 2021-07-02 齐鲁工业大学 基于双线性注意力网络的医学影像数据分类方法及***
CN113065450B (zh) * 2021-03-29 2022-09-20 重庆邮电大学 基于可分离三维残差注意网络的人体动作识别方法
CN113283338A (zh) * 2021-05-25 2021-08-20 湖南大学 驾驶员驾驶行为识别方法、装置、设备及可读存储介质
CN113420703B (zh) * 2021-07-03 2023-04-18 西北工业大学 基于多尺度特征提取和多注意力机制建模的动态面部表情识别方法
CN115618900A (zh) * 2021-09-22 2023-01-17 支付宝(杭州)信息技术有限公司 识别图片和训练神经网络的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102226920A (zh) * 2011-06-03 2011-10-26 贵州大学 抗裁剪的jpeg图像压缩历史及合成篡改检测方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102226920A (zh) * 2011-06-03 2011-10-26 贵州大学 抗裁剪的jpeg图像压缩历史及合成篡改检测方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN108364023A (zh) * 2018-02-11 2018-08-03 北京达佳互联信息技术有限公司 基于注意力模型的图像识别方法和***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
("Squeeze-and-Excitation Networks";Jie Hu等;《arXiv:1709.01507v3[cs.CV]》;20181025;第3页 *
"CBAM: Convolutional Block Attention Module";Sanghyun Woo等;《arXiv:1807.06521v2[cs.CV]》;20180718;第1-2页 *
Sanghyun Woo等."CBAM: Convolutional Block Attention Module".《arXiv:1807.06521v2[cs.CV]》.2018,第1-2页. *

Also Published As

Publication number Publication date
CN109871777A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109871777B (zh) 一种基于注意力机制的行为识别***
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
Salimans et al. Pixelcnn++: Improving the pixelcnn with discretized logistic mixture likelihood and other modifications
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108830157B (zh) 基于注意力机制和3d卷积神经网络的人体行为识别方法
US11068722B2 (en) Method for analysing media content to generate reconstructed media content
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和***
CN112418409A (zh) 一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法
CN111429885A (zh) 一种将音频片段映射为人脸嘴型关键点的方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN109949217A (zh) 基于残差学习和隐式运动补偿的视频超分辨率重建方法
CN113033276B (zh) 一种基于转换模块的行为识别方法
CN114022506B (zh) 一种边缘先验融合多头注意力机制的图像修复方法
CN113793261A (zh) 一种基于3d注意力机制全通道融合网络的光谱重建方法
CN113807356A (zh) 一种端到端的低能见度图像语义分割方法
Zhang et al. Multi-scale spatiotemporal feature fusion network for video saliency prediction
CN116030537B (zh) 基于多分支注意力图卷积的三维人体姿态估计方法
CN110826397B (zh) 一种基于高阶低秩多模态注意力机制的视频描述方法
CN111275751A (zh) 一种无监督绝对尺度计算方法及***
CN115457081A (zh) 一种基于图神经网络的分层融合式预测方法
CN113891069A (zh) 一种视频质量的评估方法、装置及设备
CN115278303B (zh) 视频处理方法、装置、设备以及介质
CN117557857B (zh) 结合渐进式引导蒸馏和结构重构的检测网络轻量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant