CN112926396B - 一种基于双流卷积注意力的动作识别方法 - Google Patents
一种基于双流卷积注意力的动作识别方法 Download PDFInfo
- Publication number
- CN112926396B CN112926396B CN202110116862.0A CN202110116862A CN112926396B CN 112926396 B CN112926396 B CN 112926396B CN 202110116862 A CN202110116862 A CN 202110116862A CN 112926396 B CN112926396 B CN 112926396B
- Authority
- CN
- China
- Prior art keywords
- attention
- motion
- feature
- flow
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双流卷积注意力的动作识别方法。本发明方法首先对视频做预处理获得帧图像序列与光流图像序列,并分别提取视频的外观特征表示与动作特征表示;然后构建卷积注意力模块获得帧图像和光流图像的注意力特征表示,并通过双流融合模块对两种注意力表示进行信息融合;接着训练利用卷积注意力机制和双流融合方法的动作识别模型,并根据该模型对预处理后的新视频输出其动作类别。本发明方法不仅利用通道注意力和时空注意力捕获视频动作内容的潜在模式和时空关系,还通过双流融合从全局角度对视频的外观特征与运动特征进行信息融合,有效缓解了视频长期时序依赖的时序信息缺失问题,提高了动作识别的准确度。
Description
技术领域
本发明属于计算机技术领域,尤其是视频分析中的动作识别技术领域,具体涉及一 种基于双流卷积注意力的动作识别方法。
背景技术
近年来,各类视频数据与日俱增,如何识别视频的动作内容成为许多视频处理任务 的基础研究课题。动作识别技术主要是根据视频的内容给出视频动作的类别,在辅助驾驶、视频内容审核、个性化推荐等多个应用场景有着十分重要的社会价值。例如,在车 辆辅助驾驶场景,动作识别技术可以帮助用户通过手势给导航***发出指令,提升人们 的驾驶舒适度;在视频内容审核中,动作识别***可以辅助人工进行视频内容审核,从 而提高审核效率、降低人力成本;在视频个性化推荐中,动作识别技术将视频按照内容 进行分类,根据用户感兴趣的话题类别为其推荐个性化的视频内容。目前,基于深度学 习技术的视频动作识别模型能够以远高于人工处理的效率完成动作分类任务,这将节省 大量的人工开销。
卷积神经网络(Convolutional Neural Networks,CNN)在图像识别、目标检测等计算机视觉任务上带来显著的性能提升。不同于单幅图像,由图像帧序列构成的视频需 要考虑帧与帧之间的时序关系,所以研究人员提出了多种考虑时序信息的动作识别方法。 例如,三维卷积神经网络(3D ConvNets)在二维卷积神经网络(2D ConvNets)的基础 上对其卷积核加入时序维度,通过时序卷积捕获时序信息,有效提高识别准确率;双流 (Two-Stream)方法则分别使用彩色(RGB)图像和光流(Optical Flow)图像提取空间 视觉特征和时序运动特征,再对两种特征识别结果进行融合,从而准确理解视频动作内 容。此外,视频可能存在与动作类别无关的内容,而无关内容将干扰模型的识别准确率。 对此,目前主要采用两种方法解决该问题:1)利用长短期记忆网络(LSTM,Long Short-Term Memory)对卷积神经网络提取的图像帧特征进行处理,具体通过记忆单元保留关键特征 并遗忘无关信息,以减少无关内容对模型性能的影响;2)利用视觉注意力(Visual Attention)机制在特征图的空间维度计算对应的注意力图,据此获取图像帧的关键视觉 区域所表达的信息,并抑制无关内容所在的低注意力权重区域对模型的不利影响。
现有的视频动作识别方法仍存在一些不足:第一,不同视频帧内部的关键信息存在 差异,且不同帧的重要程度不相同,所以单一的视觉注意力无法有效捕获关键信息;第二,三维卷积神经网络受限于卷积核尺寸,仅能提取小范围内多帧的短期依赖时序信息,缺少对长期依赖时序信息的提取;第三,多数基于双流的方法直接将两种特征的动作识 别结果进行加权求和,未考虑对空间特征和运动特征进行信息融合。因此,为了应对上 述不足,本发明从通道时空关系和特征融合的角度出发,提出一种基于双流卷积注意力 的动作识别方法,以提高视频动作识别准确率。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于双流卷积注意力的动作识别 方法,利用卷积注意力机制完成通道和时空维度的动作信息特征提取,通过双流融合刻画长期依赖时序关系,以便获得更能反映视频数据潜在模式的特征表示,提升模型的动 作识别精度。
本发明方法首先获取包含动作类别标记的视频,然后进行以下操作:
步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow,分别提取视频的外观特征表示FRGB和运动特征表示FFlow;
步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进 行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。
进一步,步骤(1)具体是:
(1-1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列其中,N表示RGB帧图像总数目,表示序列中第i幅、宽为w、高为h的RGB 三通道图像;视频V包含动作类别标记其中L为动作类别总数;v=10~30;
(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D(Inflated 3D ConvNets)作为视觉特征提取器分别提取SRGB对应的外观特征表示和SFlow对应的运动特征表示其中,和分 别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′。
再进一步,步骤(2)具体是:
(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力 模块包括平均池化层Avgpool3D(·)、最大池化层Maxpool3D(·)和具有一个隐藏层的多层感 知机MLP(·);时空注意力模块包括平均池化层AvgPool1D(·)、最大池化层MaxPool1D(·)和 三维卷积层f7×7×7(·);
其中,时空注意力权重 f7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1的三维卷积层,分别表示对特征图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维 度上的拼接操作;
更进一步,步骤(3)具体是:
(3-1).双流融合模块C用于两种特征的相互融合,由多个特征降维层、Softmax层、特征恢复层以及残差连接构成;
其中,和分别表示双流特征融合并残差连接后的第j段外观双流特征图和运动双流特征图; 其中,特征降维层θ(·)、φ(·)、g(·)均 表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、φ(·)、 g(·)将注意力特征的通道维度降为c'/2,符号(·)T表示向量或矩阵的转置操作, 表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表 示一个卷积核大小为1×1×1、输入通道数为输出通道数为c'的三维卷积层,WZ(·)将特 征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的 相加操作。
又进一步,步骤(4)具体是:
(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵(Cross Entropy)损失,利用随机梯度下降算法调整更新输出层双流融合模块C、外观卷积注意力模 块以及运动卷积注意力模块的参数,完成动作识别模型的构建;
(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′RGB和运动特征表示 F′Flow,并将其输入至动作识别模型获得动作得分根据动作得分获得视频内容的 动作类别即为R′中得分最高元素所对应的索引,完成动作识别任务。
本发明相比现有方法有以下不同点与创新点:1)本发明用卷积注意力机制进行视频 特征提取,不同于简单的视觉注意力机制,该机制同时计算通道注意力和时空注意力,使得提取的特征表示更能反映视频的动作内容;2)本发明采用的双流融合模块以整段特征表示为输入,可以从全局角度提取各段内部的时空特征表示,有效缓解了长期依赖问 题中的时序信息缺失;3)本发明通过卷积层映射和Softmax层归一化将外观特征与运动特 征有效融合,并用残差连接将融合特征与原始特征相加,进一步丰富特征信息量。
本发明方法适用于视频内含有干扰内容但对准确率要求较高的动作内容识别,其优 点在于:1)通过提取特征图的卷积注意力,即分别提取通道注意力和时空注意力,准确地捕获视频动作内容的潜在模式和时空关系;2)使用三维卷积层挖掘相邻帧间的短期依赖时序信息,并在全局特征表示学习中获取长期依赖时序关系,充分考虑相邻帧间的局 部语义信息与各视频段的全局语义信息;3)通过双流融合模块将运动特征与外观特征相 互融合,增加了视频特征表示的多样性。本发明能有效刻画视频的长短期时序关系、提 取视频的局部与全局特征,并对其外观特征与运动特征相互融合,可广泛应用于辅助驾 驶、视频内容审核、个性化推荐等多个场景。
附图说明
图1为本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
基于双流卷积注意力的动作识别方法,首先将给定的视频进行预处理并提取外观特 征表示和运动特征表示;然后将两种特征表示输入至卷积注意力模块得到捕获视频关键 内容的外观注意力特征表示和运动注意力特征表示;随后通过双流融合模块将两种注意 力特征表示相互融合得到外观与运动信息相结合的双流特征表示;最后利用双流特征表 示确定视频内容的动作类别。该方法利用卷积注意力机制捕获视频动作的潜在模式、有效刻画长短期依赖的时序关系、学习融合外观和运动信息的视频特征表示,从而更好地 识别视频中包含的动作。
如图1,该方法首先获取包含动作类别标记的视频,然后进行以下操作:
步骤(1).步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow, 分别提取视频的外观特征表示FRGB和运动特征表示FFlow。具体是:
(1-1).对视频V以每秒20帧的采样率进行处理,得到RGB帧图像序列其中,N表示RGB帧图像总数目,表示序列中第i幅、宽为w、高为h的RGB 三通道图像;视频V包含动作类别标记其中L为动作类别总数;v=10~30;
(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D(Inflated 3D ConvNets)作为视觉特征提取器分别提取SRGB对应的外观特征表示和SFlow对应的运动特征表示其中,和分 别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′。
(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力 模块包括平均池化层Avgpool3D(·)、最大池化层Maxpool3D(·)和具有一个隐藏层的多层感 知机MLP(·);时空注意力模块包括平均池化层AvgPool1D(·)、最大池化层MaxPool1D(·)和 三维卷积层f7×7×7(·);
其中,时空注意力权重 f7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1的三维卷积层,分别表示对特征图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维 度上的拼接操作;
(3-1).双流融合模块C中的“双流”是指外观注意力特征表示数据流和运动注意力特 征数据流,该模块用于两种特征的相互融合,由多个特征降维层、Softmax层、特征恢复层以及残差连接构成;
其中,和分别表示双流特征融合并残差连接后的第j 段外观双流特征图和运动双流特征图; 其中,特征降维层θ(·)、φ(·)、g(·)均 表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、φ(·)、 g(·)将注意力特征的通道维度降为c'/2,符号(·)T表示向量或矩阵的转置操作, 表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表 示一个卷积核大小为1×1×1、输入通道数为输出通道数为c'的三维卷积层,WZ(·)将特 征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的 相加操作。
步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型,将新视频进 行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务。具体是:
(4-3).根据视频V动作类别标记λ和最终动作得分R计算交叉熵(Cross Entropy)损失,利用随机梯度下降算法调整更新输出层双流融合模块C、外观卷积注意力模 块以及运动卷积注意力模块的参数,完成动作识别模型的构建;
(4-4).将新视频V′按照步骤(1)进行预处理得到外观特征表示F′RGB和运动特征表示F′Flow,并将其输入至动作识别模型获得动作得分根据动作得分获得视频内容的动作类别即为R′中得分最高元素所对应的索引,完成动作识别任务。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不 应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员 根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.一种基于双流卷积注意力的动作识别方法,其特征在于,该方法首先获取包含动作类别标记的视频,然后进行以下操作:
步骤(1).对视频进行预处理,获得RGB帧图像序列VRGB和光流图像序列VFlow,分别提取视频的外观特征表示FRGB和运动特征表示FFlow;具体是:
(1-1).对视频V以每秒v帧的采样率进行处理,得到RGB帧图像序列其中,N表示RGB帧图像总数目,表示序列中第i幅、宽为w、高为h的RGB三通道图像;视频V包含动作类别标记其中L为动作类别总数;v=10~30;
(1-4).使用Kinetics数据集上预训练得到的膨胀三维卷积网络模型I3D作为视觉特征提取器A;分别提取SRGB对应的外观特征表示和SFlow对应的运动特征表示其中,和分别表示第j段经下采样后m′帧的外观特征图和运动特征图,通道数为c′、宽为w′、高为h′;
(2-1).构建的卷积注意力模块包括通道注意力模块和时空注意力模块;通道注意力模块包括平均池化层Avgpool3D(·)、最大池化层Maxpool3D(·)和具有一个隐藏层的多层感知机MLP(·);时空注意力模块包括平均池化层AvgPool1D(·)、最大池化层MaxPool1D(·)和三维卷积层f7×7×7(·);
其中,时空注意力权重 f7×7×7(·)表示卷积核大小为7×7×7、输入通道数为2、输出通道数为1的三维卷积层,分别表示对特征图进行一维通道平均池化操作和一维通道最大池化操作,concat(·,·)表示特征图在通道维度上的拼接操作;
其中,和分别表示双流特征融合并残差连接后的第j段外观双流特征图和运动双流特征图; 其中,特征降维层θ(·)、φ(·)、g(·)均表示卷积核大小为1×1×1、输入通道数为c'、输出通道数为c'/2的三维卷积层,θ(·)、φ(·)、g(·)将注意力特征的通道维度降为c'/2,符号(·)T表示向量或矩阵的转置操作,表示特征相似度,Softmax层用于归一化特征相似度,特征恢复层WZ(·)表示一个卷积核大小为1×1×1、输入通道数为输出通道数为c'的三维卷积层,WZ(·)将特征表示恢复至原始通道维度c',残差连接是指计算式中双流融合后特征与注意力特征的相加操作;
步骤(4).训练由卷积注意力模块和双流融合模块组成的动作识别模型;将新视频进行预处理并输入至该模型,获得视频内容的动作类别,完成动作识别任务;具体是:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116862.0A CN112926396B (zh) | 2021-01-28 | 2021-01-28 | 一种基于双流卷积注意力的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110116862.0A CN112926396B (zh) | 2021-01-28 | 2021-01-28 | 一种基于双流卷积注意力的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926396A CN112926396A (zh) | 2021-06-08 |
CN112926396B true CN112926396B (zh) | 2022-05-13 |
Family
ID=76167714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110116862.0A Active CN112926396B (zh) | 2021-01-28 | 2021-01-28 | 一种基于双流卷积注意力的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926396B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420697B (zh) * | 2021-07-01 | 2022-12-09 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于表观和形状特征的换装视频行人重识别方法及*** |
CN113673307B (zh) * | 2021-07-05 | 2024-03-29 | 浙江工业大学 | 一种轻量型的视频动作识别方法 |
CN113850182A (zh) * | 2021-09-23 | 2021-12-28 | 浙江理工大学 | 基于DAMR_3DNet的动作识别方法 |
CN113920581B (zh) * | 2021-09-29 | 2024-04-02 | 江西理工大学 | 一种时空卷积注意力网络用于视频中动作识别的方法 |
CN113989940B (zh) * | 2021-11-17 | 2024-03-29 | 中国科学技术大学 | 视频数据中动作识别方法、***、设备与存储介质 |
CN114612979B (zh) * | 2022-03-09 | 2024-05-31 | 平安科技(深圳)有限公司 | 一种活体检测方法及装置、电子设备、存储介质 |
CN114863356B (zh) * | 2022-03-10 | 2023-02-03 | 西南交通大学 | 一种基于残差聚合图网络的群体活动识别方法及*** |
CN114648722B (zh) * | 2022-04-07 | 2023-07-18 | 杭州电子科技大学 | 一种基于视频多路径时空特征网络的动作识别方法 |
CN114882403B (zh) * | 2022-05-05 | 2022-12-02 | 杭州电子科技大学 | 基于渐进注意力超图的视频时空动作定位方法 |
CN114913150B (zh) * | 2022-05-11 | 2023-08-22 | 河海大学 | 一种混凝土大坝缺陷时序图像智能识别方法 |
CN114998799B (zh) * | 2022-06-07 | 2023-01-13 | 山东省人工智能研究院 | 基于全局知识挖掘和前景注意力的交互视频动作检测方法 |
CN114758285B (zh) * | 2022-06-14 | 2022-10-14 | 山东省人工智能研究院 | 基于锚自由和长时注意力感知的视频交互动作检测方法 |
CN115019239A (zh) * | 2022-07-04 | 2022-09-06 | 福州大学 | 一种基于时空交叉注意力的实时动作定位方法 |
CN116434343B (zh) * | 2023-04-25 | 2023-09-19 | 天津大学 | 基于高低频双支路的视频动作识别方法 |
CN117746512A (zh) * | 2024-02-19 | 2024-03-22 | 河海大学 | 一种基于双流点云序列的行为识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330362B (zh) * | 2017-05-25 | 2020-10-09 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN110909658A (zh) * | 2019-11-19 | 2020-03-24 | 北京工商大学 | 一种基于双流卷积网络的视频中人体行为识别方法 |
CN111462183A (zh) * | 2020-03-31 | 2020-07-28 | 山东大学 | 一种基于注意力机制双流网络的行为识别方法及*** |
CN111627052B (zh) * | 2020-04-30 | 2023-05-23 | 沈阳工程学院 | 一种基于双流时空注意力机制的动作识别方法t-stam |
-
2021
- 2021-01-28 CN CN202110116862.0A patent/CN112926396B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112926396A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN110414432B (zh) | 对象识别模型的训练方法、对象识别方法及相应的装置 | |
CN111563508B (zh) | 一种基于空间信息融合的语义分割方法 | |
CN110276316B (zh) | 一种基于深度学习的人体关键点检测方法 | |
CN112766158B (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
CN111814661B (zh) | 基于残差-循环神经网络的人体行为识别方法 | |
CN113469094A (zh) | 一种基于多模态遥感数据深度融合的地表覆盖分类方法 | |
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN111582044A (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN112395442B (zh) | 移动互联网上的低俗图片自动识别与内容过滤方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
WO2021218238A1 (zh) | 图像处理方法和图像处理装置 | |
CN110942471A (zh) | 一种基于时空约束的长时目标跟踪方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN114782977B (zh) | 一种基于拓扑信息和亲和度信息引导行人重识别方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
Pei et al. | FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction | |
CN113688864A (zh) | 一种基于***注意力的人-物交互关系分类方法 | |
CN115546885A (zh) | 一种基于增强时空特征的动作识别方法及*** | |
CN111611852A (zh) | 一种表情识别模型的训练方法、装置及设备 | |
CN117392392B (zh) | 一种割胶线识别与生成方法 | |
CN116486101B (zh) | 一种基于窗口注意力的图像特征匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |