CN116189053A

CN116189053A - 一种基于多模态的未修剪长视频识别***及方法

Info

Publication number: CN116189053A
Application number: CN202310167318.8A
Authority: CN
Inventors: 田野; 杨萌宇; 张蓝姗; 李九林; 王文东; 阙喜戎; 龚向阳
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-10-09
Filing date: 2023-02-27
Publication date: 2023-05-30

Abstract

本发明提供了一种基于多模态的未修剪长视频识别***及方法。本发明***包括视频采集和预处理模块、待识别视频数据库、识别和检测模块以及结果数据库。本发明方法中利用识别和检测模块中的视频识别模型对视频多个模态的帧序列进行处理，对每个模态的帧序列使用多个采样器进行交互，定位局部事件，通过单模态语义推理模块对局部事件之间的时间因果关系进行推理，由子识别模块输出单模态预测分布，最后由多模态融合模块为不同模态分配注意力权值，进行多模态预测分布融合，输出视频级的多模态类别预测结果。本发明提升了未修剪长视频识别***的推理效率以及识别精度，识别准确性明显超过了目前最优的视频识别方法。

Description

一种基于多模态的未修剪长视频识别***及方法

技术领域

本发明涉及计算机技术、视频识别技术领域，具体涉及一种基于多模态的自适应未修剪长视频识别***及方法。

背景技术

长视频如电影、纪录片、电视剧与自媒体视频等一直是人们生活中的重要组成部分，随着近年来移动互联网的发展及网速的飞快提升，在线视频已经成为人们生活中不可或缺的一部分。随着互联网的普及和发展，网络上的长视频数量飞速增加，而对于长视频的高效识别与检测依然存在挑战，识别的精度和效率对于多个下游任务十分重要，如视频传输、视频检索、视频筛查以及边缘存储等。

具体来说，在未修剪的长的视频识别任务中存在两个挑战。一方面，与只有少数动作的快照或修剪过的视频不同，未修剪的视频通常在长跨度内从多种模态描述了复杂的活动，包含了多个局部事件。通过多维度的注意力分配来消除冗余和不相关的信息是高效视频动作识别的关键，现有的视频识别方法和***大多未考虑识别的效率问题，部分方法和***对效率问题进行了优化和改进，主要是基于全局视角对单模态的短片或视频片段进行注意力的分配，如文献[1]在识别过程中针对每个镜头的视频帧序列进行手工抽样，以减少待处理视频帧的数量；文献[2]构建了暴力有关行为的知识图谱，提出了一种消除不同标签之间冗余的优化策略，得到暴力纠正矩阵修正模型；文献[3]采用了一个全局策略网络来消除帧级的空间冗余；文献[4]采用了一个全局策略网络来决策局部帧的分辨率大小；文献[5]自适应的决策在不同局部的网络架构。目前的方法虽然在大幅度的节省了运算量的同时改善了识别精度，但在较长的时间尺度上处理多模态方面还不够高效，需要耗费大量的计算资源，同时难以捕获长时间跨度的语义信息。

参考文献如下：

基于镜头识别及场景识别的分布式超高清视频识别方法和***，中国专利，公开号为CN112261440A，公开日期为20210122；

一种暴力视频分类方法、***和存储介质，中国专利，公开号为CN112069884A，公开日期为20201211；

[3]Wang Y,Yue Y,Lin Y,et al.Adafocus v2:End-to-end training ofspatial dynamic networks for video recognition[C]//2022IEEE/CVF Conference onComputer Vision and Pattern Recognition(CVPR).IEEE,2022:20030-20040.

[4]Meng Y,Lin C C,Panda R,et al.Ar-net:Adaptive frame resolution forefficient action recognition[C]//European Conference on ComputerVision.Springer,Cham,2020:86-104.

[5]Li H,Wu Z,Shrivastava A,et al.2d or not 2d？adaptive 3d convolutionselection for efficient video recognition[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2021:6155-6164.

发明内容

针对上述未修剪的长视频识别技术中存在的耗费计算资源高、识别效率低等问题，本发明提供一种基于多模态的未修剪长视频识别***及方法，能够在视频的局部事件和模态之间自适应的分配注意力和计算资源，实现对未裁剪的长视频的高效和精准识别。

本发明的一种基于多模态的未修剪长视频识别***，包括视频采集和预处理模块、待识别视频数据库、识别和检测模块以及结果数据库。

视频采集和预处理模块从外部接收视频并进行预处理，将预处理后的待识别视频存入待识别视频数据库；识别和检测模块识别待识别视频的类别，并将识别结果写入结果数据库。

识别和检测模块识别视频类别，包括：针对视频的每个模态的帧序列，分别采用N个采样器与对应模态的帧序列进行交互，定位局部事件，通过单模态语义推理模块对局部事件之间的时间因果关系进行推理，以捕获单模态的语义信息，再由子识别模块输出单模态的预测分布，最后由多模态融合模块为不同模态分配注意力权值，将所有模态的预测分布进行融合，输出视频级的多模态类别预测结果；N为大于2的整数。

视频采集和预处理模块，将视频预处理后，得到视频多个模态的时长对齐且尺寸标准化的多维帧序列，存入待识别视频数据库；待识别视频数据库中还存储视频的基本信息，包括视频长度、帧数和模态数量。

所述的识别和检测模块，在视频每个模态的帧序列中均匀地初始化N个采样器，每个采样器包含四部分，分别是局部采样器、上下文感知网络、策略网络以及评估网络；局部采样器从选定的帧中提取局部信息；上下文感知网络包含一个特征提取器和一个LSTM模块，特征提取器对局部采样器提取的局部信息进行编码输出特征向量，LSTM模块在不同时间步长下对选定的帧之间的时间因果关系进行建模；策略网络由全连接网络组成，用于选取定位局部事件的帧；评估网络由全连接网络组成，用于在训练阶段估计策略网络所选动作的q值，以帮助策略网络的学习；每个采样器内部采用了Actor-Critic结构，并使用集中式评估分散式执行框架来联合所有采样器。

所述的单模态语义推理模块，为基于多层transformer的编码器，在模态k的所有采样器停止后，将模态k的所有采样器中上下文感知网络的LSTM模块当前时刻的隐藏状态拼接起来输入单模态语义推理模块；单模态语义推理模块输出最后一层编码器的隐藏特征。

所述的子识别模块采用一层全连接网络，接受单模态语义推理模块的输出，映射输出单模态的视频类别预测分布。

所述的多模态融合模块将融合权值的动态调整转化为一个马尔可夫决策过程，首先初始化所有模态的融合权值，再利用一个策略网络逐步调整融合权值，利用最终优化得到的融合权值进行单模态预测分布的融合；所述的多模态融合模块采用了Actor-Critic结构，使用评估网络在训练期间帮助策略网络学习。

本发明***还包括结果展示模块，用于接收外部查询请求，从结果数据库中查询结果并展示出来。结果数据库中存储经过识别和检测模块处理后的视频的预测类别、类别分布、选中的观测帧编号以及不同模态的融合比例。

对应的，本发明提供的一种基于多模态的未修剪长视频识别方法，包括如下步骤：

(一)获取待识别视频，对视频解码和预处理，获取视频多个模态的时长对齐且尺寸标准化的多维帧序列；

(二)对视频的每个模态的帧序列，分别采用N个采样器与对应模态的帧序列进行交互，定位局部事件，通过单模态语义推理模块对局部事件之间的时间因果关系进行推理，以捕获单模态的语义信息，再由子识别模块输出单模态的预测分布，最后由多模态融合模块为不同模态分配注意力权值，将所有模态的预测分布进行融合，输出视频级的多模态类别预测结果；N为大于2的整数。

所述的步骤(二)中，在视频每个模态的帧序列中均匀地初始化N个采样器，每个采样器包含四部分，分别是局部采样器、上下文感知网络、策略网络以及评估网络；局部采样器从选定的帧中提取局部信息；上下文感知网络包含一个特征提取器和一个LSTM模块，特征提取器对局部采样器提取的局部信息进行编码输出特征向量，LSTM模块在不同时间步长下对选定的帧之间的时间因果关系进行建模；策略网络由全连接网络组成，用于选取定位局部事件的帧；评估网络由全连接网络组成，用于在训练阶段估计策略网络所选动作的q值，以帮助策略网络的学习；每个采样器内部采用了Actor-Critic结构，并使用集中式评估分散式执行框架来联合所有采样器；

所述的单模态语义推理模块，为基于多层transformer的编码器，在模态k的所有采样器停止后，将模态k的所有采样器中上下文感知网络的LSTM模块当前时刻的隐藏状态拼接起来输入单模态语义推理模块；单模态语义推理模块输出最后一层编码器的隐藏特征；

所述的子识别模块采用一层全连接网络，接受单模态语义推理模块的输出，映射输出单模态的视频类别预测分布；

本发明的优点与积极效果在于：

(1)本发明***和方法基于局部事件和模态间的分层博弈对模型的局部注意力进行分配，实现了多模态特征的自适应提取与融合，提升了未修剪长视频识别***的推理效率以及识别精度。

(2)本发明***和方法所使用的未修剪长视频识别模型，采用基于多智能体强化学习的分层检测方法(简称AdaSense)，通过基于多智能体的帧级的自适应采样以及多模态融合模块的自适应融合，有效地了实现帧级和模态级的注意力与计算资源分配；通过注意力分配，多模态的采样器间相互合作，以捕捉整体的结构特征，同时相互竞争，以实现计算资源的最佳分配来提高效率。

(3)在三个常用的大型视频数据集(ActivityNet、FCVID和Kinetics-Sounds)上广泛实验，表明采用本发明***和方法不仅大大减少了计算消耗，如与没有博弈机制的基础框架相比，所有数据集的GFLOPs(每秒10亿的浮点运算次数)平均减少了76.9％，而且在所有数据集的识别准确性上也明显超过了目前最优的视频识别方法，平均可提高6.4％。

附图说明

图1为本发明的基于多模态的未修剪长视频识别***的框架图；

图2为本发明的未修剪长视频自适应识别和检测方法的实现示意图；

图3为本发明的未修剪长视频识别模型的整体框架示意图；

图4为本发明训练中策略网络的CTDE框架与多目标损失函数示意图；

图5为本发明的未修剪长视频识别模型的训练与推理流程图；

图6为本发明方法在ActivityNet中与最先进的单模态(左)和多模态(右)方法对比图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

如图1所示，本发明的一种基于多模态的未修剪长视频识别***，包括如下组成部分：

视频采集和预处理模块：该模块接收外部视频输入并进行数据预处理，包括采样、裁剪、模态构建等，将视频解码为多个模态的时长对齐且尺寸标准化的多维帧序列；模态是指视觉、音频等不同的信息表征方式；

待识别视频数据库：该数据库作为一个临时缓冲区域，存储经过预处理的待识别视频，包含视频帧的多模态原始信息以及视频的长度、帧数、模态数量等基本信息；

识别和检测模块：该模块读取经过预处理模块处理后的待识别视频数据，经过自适应识别和检测算法得到待识别视频的类别，并将结果写入结果数据库；

结果数据库：该数据库存储经过识别和检测模块处理后的预测类别、类别分布、选中的观测帧编号以及不同模态的融合比例，供结果展示模块使用。

结果展示模块：该模块负责接受外部查询请求，从结果数据库中查询并返回查询结果，将结果展示给用户。

本发明的识别和检测模块中设置有未修剪长视频识别模型，即一种基于多模态的未修剪长视频自适应识别和检测程序，如图2所示，识别和检测模块基于局部事件和模态间的分层博弈对模型的局部注意力进行分配，实现了多模态特征的自适应提取与融合，提升了识别***的推理效率以及识别精度。

如图3所示，本发明的识别和检测模块中，通过采样器、单模态语义推理模块、子识别模块以及多模态融合模块来进行视频类别识别。具体地，给定一个具有k个模态的视频，分别在该视频不同模态内部采用多个联合的采样器与帧序列交互，近似地定位多个局部事件。当所有采样器停止时，利用单模态语义推理模块捕获采样器之间的时间因果关系，以推理模态层级的语义信息。然后，子识别模块输出单模态的预测分布。进一步的，多模态融合模块分配注意力权值，将所有模态的预测融合为视频级预测。在训练过程中，在基于准确性和效率的多目标奖励函数的指导下，每个模态内的采样器相互竞争计算资源以观察更多的帧，并相互合作提取关于整个模态的结构化特征。同时，多模态融合模块估计融合权值来控制模态之间的融合和混合博弈。有了这种机制，不同模态的采样器学习相互合作，输出基于多模态的准确预测结果，并相互竞争以吸引更多的融合权重分配。具体本发明***的识别和检测模块的实现在下面基于多模态的未修剪长视频识别方法中进行说明。

本发明实现的基于多模态的未修剪长视频识别方法，整体上包括：(1)获取待识别视频，对视频解码和预处理，获取视频多个模态的时长对齐且尺寸标准化的多维帧序列；(2)进行视频类别预测：对视频的每个模态的帧序列，分别采用N个采样器与对应模态的帧序列进行交互，定位局部事件，通过单模态语义推理模块对局部事件之间的时间因果关系进行推理，以捕获单模态的语义信息，再由子识别模块输出单模态的预测分布，最后由多模态融合模块为不同模态分配注意力权值，将所有模态的预测分布进行融合，输出视频级的多模态类别预测结果；N为大于2的整数。下面具体说明本发明***中识别和检测模块的功能实现，也即本发明方法视频类别预测的实现。

如图3所示，本发明实施例中视频具有2个模态，分别为视觉和听觉，在视频的不同模态的帧序列中均设置有采样器、单模态语义推理模块和子识别模块，然后将子识别模块输出的单模态的预测分布输入多模态融合模块进行视频预测。下面说明基于多模态的未修剪长视频识别中所涉及到的各模块的实现。

(一)在视频每个模态的帧序列中均匀地布置N个采样器。每个采样器模块包含四个部分，分别是局部采样器、上下文感知网络、策略网络以及评估网络。

(1)局部采样器：给定一个视频，在每个模态中均匀地初始化N个采样器。每个采样器包含一个局部采样器。每个局部采样器从帧中提取信息，获得局部时序信息。对帧提取的信息使用一个上下文感知网络对上下文的局部时序信息进行编码。在推理过程中，采样器基于局部观测对其他采样器的行为进行建模，以做出最优决策，有效地捕获附近的局部事件。每个采样器内部采用了Actor-Critic结构，并使用集中式评估分散式执行(Centralized Training and Distributed Execution，CTDE)框架来联合所有采样器。

(2)上下文感知网络：包含一个特征提取器和一个LSTM模块。基于CNN的特征提取器观察选定的帧，对提取的局部时序信息进行编码，并输出编码的特征向量O_t。对于所有的采样器，基于CNN的特征提取器的参数都是共享的。LSTM模块负责在不同的时间步长下对选定的帧之间的时间因果关系进行建模。具体来说，在采样步骤t时，LSTM网络i取当前特征向量O_t、先前隐藏状态h_t-1和前单元状态c_t-1计算LSTM网络的当前隐藏状态h_t和单元状态c_t：

h_t,c_t＝LSTM(O_t,h_t-1,c_t-1) (1)

(3)策略网络：由θ_p参数化的策略网络f_p是由全连接网络组成，它负责决定应该观察哪些帧来定位局部事件。具体地说，在采样步骤t时，模态k的采样器i根据策略网络估计的策略分布

从动作空间Ω_s中选择动作/>

以决定下一步观察哪个帧或是否停止，其中/>

表示采样器i在t时刻观测过的累计帧数，/>

表示采样器i对应的上下文感知网络在t时刻的隐藏状态。动作空间Ω_s由四个动作组成，即{0,δ,2δ,3δ},其中δ表示最小移动步骤，即帧数。在采样步骤t，当选择操作0时，采样器将停止；当选择nδ时，采样器向后跳跃nh帧进行t步骤的观测，n＝1,2,3。/>

表示对应模态k的采样器i的策略网络的参数。

(4)评估网络：由θ_r参数化的评估网络也由全连接网络组成，用于估计所选动作的q值，以帮助策略网络的学习。训练阶段，评估网络对所有策略网络的状态和行动进行了全局观察，在推理过程中不涉及评估网络。在训练过程中，在多目标奖励的指导下，评估网络引导策略网络学习如何建模其他采样器的整体环境和行动策略，以控制采样器之间的合作和竞争。

本发明采用了一个多目标奖励，从单模态和多模态的角度分别衡量模型识别的准确性和效率。中心化的评估网络负责指导策略网络学习如何基于局部观察建模整体环境和其他采样器的行为。具体训练将在下面说明。

(二)当所有采样器停止，通过单模态语义推理模块对本模态下的所有采样器观测的局部事件之间的时间因果关系进行推理，以捕获单模态的语义信息。

事件之间的逻辑关系有着不同的时间跨度而且对于不同实例的差异化很大，捕获这种时序特征是自注意力机制所擅长的。通过自注意力机制，任何采样器都可以连接到所有其他采样器，这意味着该机制可以学习跨多个事件的长期依赖关系。考虑到这一点，为了捕获单模态语义特征，本发明单模态语义推理模块采用基于多层transformer的编码器，以描述多个局部采样器上的局部事件之间的逻辑关系。具体来说，当所有采样器停止，将所有采样器中上下文感知网络的LSTM模块当前时刻的隐藏状态拼接起来作为单模态语义推理模块的输入，单模态语义推理模块在第l层编码器的隐藏特征h_l和中间状态h′_l由上一层的h_l-1生成，如下：

h′_l＝MSA(LN(h_l-1))+h_l-1 (2)

h_l＝MLP(LN(h′_l))+h′_l (3)

其中，MSA表示多头自注意力机制，LN表示层归一化，MLP表示感知机。单模态语义推理模块在第一层编码器的输入为模态k的所有采样器中上下文感知网络的LSTM模块当前时刻的隐藏状态的拼接向量。单模态语义推理模块的输出为最后一层的隐藏特征。

(三)子识别模块接受单模态语义推理模块的输出，映射输出单模态的视频类别预测分布。

本发明方法在每个模态中分别设置了子识别模块来输出单模态的视频类别预测分布，子识别模块采用一层全连接网络来将单模态语义推理模块的输出映射到预测分布。本发明实施例中，视频类别是指动作类别，分别通过子识别模块获取视频在不同模态下的类别分布预测。

(四)通过多模态融合模块为不同模态的视频类别预测分布分配不同的注意力权值，将所有模态的预测分布进行融合，输出视频级的多模态类别预测结果，作为视频的分类结果。

多种模态提供了异构的信息，这意味着模态在不同的视频场景和类别中的价值是不同的。对于模态之间的计算分配和模态内的局部采样器的训练，价值的可变性不可忽略，但具有固定权重的静态融合方法不能描述可变性。为了解决这一点，模块基于模态之间的竞争和合作，对不同模态的注意力进行了特定实例级别的调整。具体地说，多模态融合模块将融合权值的动态调整转化为一个马尔可夫决策过程，并利用一个策略网络f_u来学习顺序决策的最优策略。多模态融合模块首先初始化所有模态的融合权值，并利用策略网络逐步调整融合权值，直到收敛。在调整步骤r，给定一个带有K个模态的视频，策略网络f_u估计所有模态的融合权重的调节政策分布如下：

其中，p_i和

分别表示调整步骤t时模态i的单模态预测分布和融合权重。对于模态i，多模态融合模块从动作空间Ω_f中选择调整方向和幅度，以根据策略分布/>

来调整融合权重。动作空间Ω_f由五个动作组成，分别是{-ξ,-0.1ξ,0,+0.1ξ,+ξ}，其中ξ表示最大的调整幅度，是一个预先设置的小于1的数值。当任意两种模态的调整幅度为0时，调整过程终止，输出当前融合权值{ω₁,ω₂,…ω_K}。

然后，最终的视频级预测结果为：

本发明的多模态融合模块中同样采用了Actor-Critic结构，其中评估网络用于指导训练期间策略网络的学习。

本发明为了正确地训练多模态融合模块，即本发明方法的整个未修剪长视频识别模型框架，设计了一种多阶段的训练算法，包括如下三个阶段。训练阶段所涉及的CTDE框架与多目标损失函数如图4所示。

第一阶段：预热阶段。在这一阶段，模型的主干网络学习通过随机策略提取帧序列的空间特征和时间特征。具体来说，训练算法冻结了采样器和多模态融合模块的策略网络。在预热单模态的主干网络后，针对从数据集V中采到的视频样本v，训练算法随机抽取一半的帧

并均匀地融合所有模态为/>

并利用标准的反向传播来最小化训练数据集V上的交叉熵损失为：

其中，

和y分别表示视频v的预测类别和真实类别标签，P_i表示模态i的预测分布。AvgFusion表示平均池化融合方式。

第二阶段：策略学习阶段。在这一阶段，训练算法冻结主干网络并利用策略梯度来优化多模态融合模块和采样器的策略网络。首先，训练算法冻结了第一阶段训练的主干网络，冻结了所有模态中采样器的策略网络，解冻了多模态融合模块的策略网络进行训练。在多模态融合模块的训练过程中，奖励函数鼓励策略网络学习识别任务的最优融合策略。基于这一点，训练算法采用了一个基于视频级预测分布和真实标签的直观奖励函数，可以逐步提高正确预测的概率。具体来说，在时间步t，已知预测分布

和视频级预测标签l_t，可以生成多模态融合模块的奖励/>

如下：

其中，gt表示视频的真实标签，

表示奖励因子，/>

分别表示t时、t-1时的视频级预测分布中视频的真实标签对应的概率，l_t-1表示在时间步t-1的视频级预测标签。

其次，训练算法冻结了多模态融合模块，并解冻了所有模态中的采样器的策略网络。在这些模态中，CTDE框架被用来联合所有采样器。采样器相互竞争计算资源，相互合作，提取与识别任务相关的整体结构化特征。在模态之间，利用多模态融合模块来估计模态的值并分配融合权重。不同模态的采样器相互合作，在视频级别上产生最优的预测，并相互竞争，以获得更多的关注和计算资源。

为了实现上述分层混合博弈，训练算法采用了一个针对采样器的策略网络的多目标奖励函数。具体地说，奖励包括两部分。第一部分将全局奖励分配到多种模态，避免出现懒惰的模态。在时间步t，给定融合权重

模态n的全局奖励定义如下：

第二部分是基于单模态预测评价的局部奖励，这是一种考虑计算量消耗与预测效果的多目标奖励。在时间步t，对于模态k，获得单模态预测分布

和单模态预测类别标签

以及由采样器i采样的帧数，采样器i收到的局部奖励/>

为：

其中C是一个常数比例因子，

是t时刻采样器i已经观测过的累计帧数。

在采样步骤t，采样器i的奖励值如下：

这里的λ是一个常数的尺度因子，它控制着每个模态的采样策略的贪婪性。

第三阶段：微调阶段。在微调阶段，为了将整个框架调整到最优状态，训练算法交替地继续训练第一阶段训练的主干网络和第二阶段获得的策略网络。基于训练后的策略网络继续训练主干网络，基于训练后的主干网络继续按照第二阶段方式训练策略网络，交替进行训练，对整个网络框架进行微调。对于骨干网络训练，与第一阶段不同，训练算法将训练后的固定参数策略网络放回框架中，以取代采样和多模态融合的随机和平均策略，实现整个框架的微调。

如图5所示，本发明的基于多模态的未修剪长视频识别方法，先进行模型预测再利用训练好的模型进行长视频识别，训练阶段和预测阶段分别如下：

(1)在训练阶段，对本发明的视频识别模型首先基于大型的公开数据集进行预训练，如Kinetics、ActivityNet和FCVID等数据集，训练分为三个阶段，分别是预热、策略学习以及微调。视频识别模型将学习如何构建与类别相关的空间及时序特征，同时学习如何自适应寻找高价值的视频帧。

(2)在预测阶段，输入待检测的视频，视频识别模型首先对视频进行预处理，进一步的在选择高价值视频帧后提取帧内的空间特征以及帧间的时序特征，最后融合多个模态的特征，输出对应的视频识别结果。

如图6所示，将本发明的基于多模态的未修剪长视频识别***及方法在三个常用的大型视频数据集—ActivityNet、FCVID和Kinetics-Sounds上进行实验。图6中的横坐标表示用于评估计算消耗的推理成本，纵坐标表示用于评估目标检测精度的mAP指标，mAP值越高表示目标检测精度和准确度越高。

图6左图中，MultiAgent、LiteEval、AdaFrame-5、SCSampler、AR-Net、VideoIQ、FrameExit、AdaFocusV2均为现有单模态识别方法，从图中可以看出，采用本发明方法(AdaSense)和这些方法在公开数据集上进行单模态的类别识别，本发明具有更好的检测精度和准确度，比较低的计算消耗。

图6右图中，ListenToLook和AdaMML均为现有多模态识别方法，从图中可以看出，使用本发明方法达到了最先进的长视频识别准确性，同时大大降低了推理的成本。具体来说，AdaSense不仅大大减少了计算消耗，与没有博弈机制的基础框架相比，所有数据集的GFLOPs平均减少了76.9％，而且在所有数据集的准确性上也明显超过了最先进的方法。如图6所示，在所有数据集中的识别精度提高了4.9％-12.2％，GFLOPs减少了47.0％-49.3％。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述，以避免赘述和不必要地限制本发明。上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式，在本发明技术方案的基础上，本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

Claims

1.一种基于多模态的未修剪长视频识别***，其特征在于，包括视频采集和预处理模块、识别和检测模块、待识别视频数据库和结果数据库；

视频采集和预处理模块，用于接收视频，对视频进行预处理后存入待识别视频数据库；

识别和检测模块，用于识别待识别视频的类别，并将识别结果写入结果数据库；

所述的识别和检测模块识别视频类别，包括：针对视频的每个模态的帧序列，分别采用N个采样器与对应模态的帧序列进行交互，定位局部事件，通过单模态语义推理模块对局部事件之间的时间因果关系进行推理，以捕获单模态的语义信息，再由子识别模块输出单模态预测分布，最后由多模态融合模块为不同模态分配注意力权值，将所有模态的预测分布进行融合，输出视频级的多模态类别预测结果；N为大于2的整数。

2.根据权利要求1所述的***，其特征在于，所述的视频采集和预处理模块，将视频预处理后，得到视频多个模态的时长对齐且尺寸标准化的多维帧序列，存入待识别视频数据库；待识别视频数据库中还存储视频的基本信息，包括视频长度、帧数和模态数量。

3.根据权利要求1所述的***，其特征在于，所述的识别和检测模块，在视频每个模态的帧序列中均匀地初始化N个采样器，每个采样器包含四部分，分别是局部采样器、上下文感知网络、策略网络以及评估网络；局部采样器从选定的帧中提取局部信息；上下文感知网络包含一个特征提取器和一个LSTM模块，特征提取器对局部采样器提取的局部信息进行编码输出特征向量，LSTM模块在不同时间步长下对选定的帧之间的时间因果关系进行建模；策略网络由全连接网络组成，用于选取定位局部事件的帧；评估网络由全连接网络组成，用于在训练阶段估计策略网络所选动作的q值，以帮助策略网络的学习；每个采样器内部采用了Actor-Critic结构，并使用集中式评估分散式执行框架来联合所有采样器；

4.根据权利要求3所述的***，其特征在于，所述的LSTM模块，在t时刻获取特征提取器输出的特征向量O_t，结合LSTM网络在t-1时刻的隐藏状态h_t-1和单元状态c_t-1，计算在t时刻LSTM网络的隐藏状态h_t和单元状态c_t，并将隐藏状态输出给策略网络。

5.根据权利要求3所述的***，其特征在于，所述的策略网络实现为：设对应模态k的采样器i的策略网络的参数为

在t时刻对应模态k的采样器i的策略网络估计的策略分布为/>

采样器i根据该策略分布从动作空间Ω_s中选择动作/>

以决定下一步观察哪个帧或是否停止观察；其中，动作空间Ω_s由四个动作组成{0,δ,2δ,3δ}，δ表示最小移动帧数，0代表采样器停止；/>

表示采样器i的上下文感知网络中LSTM模块在t时刻的隐藏状态；/>

表示采样器i在t时刻观测过的累计帧数。

6.根据权利要求1或3所述的***，其特征在于，所述的单模态语义推理模块的第l层编码器的隐藏特征h_l如下生成：

h′_l＝MSA(LN(h_l-1))+h_l-1

h_l＝MLP(LN(h′_l))+h′_l

其中，h_l-1为单模态语义推理模块的第l-1层编码器的隐藏特征，h′_l为单模态语义推理模块的第l-1层编码器的中间状态，MSA表示多头自注意力机制，LN表示层归一化，MLP表示感知机。

7.根据权利要求1或3所述的***，其特征在于，所述的多模态融合模块中，利用策略网络f_u逐步调整融合权值，直到收敛；设视频有K个模态，在策略网络f_u的调整步骤r根据如下策略分布调整K个模态的融合权重：

其中，p_i表示模态i的单模态预测分布，

表示在调整步骤r的模态i的融合权重，对于模态i，多模态融合模块根据策略分布/>

从动作空间Ω_f中选择融合权重的调整方向和幅度，动作空间Ω_f＝{-ξ,-0.1ξ,0,+0.1ξ,+ξ}，其中ξ为预先设置的最大调整幅度值；当任意两种模态的调整幅度为0时，调整过程终止，输出融合权值{ω₁,ω₂,…ω_K}；

最终，多模态融合模块输出视频级的预测结果

8.根据权利要求3所述的***，其特征在于，所述的识别和检测模块，在训练阶段分三个阶段进行训练，如下：

(1)第一阶段，冻结采样器和多模态融合模块的策略网络，单模态的主干网络通过随机策略提取帧序列的空间特征和时间特征，从训练数据集V中获取视频样本v，对样本v随机抽取一半的帧

并均匀地融合所有模态，得到预测结果/>

利用标准的反向传播最小化训练数据集V上的交叉熵损失；

(2)第二阶段，冻结经第一阶段的各单模态的主干网络，利用策略梯度优化采样器和多模态融合模块的策略网络；在该阶段，首先冻结所有模态中采样器的策略网络，训练多模态融合模块的策略网络，使用一个基于视频级预测结果和真实标签的直观奖励函数，鼓励多模态融合模块的策略网络学习最优融合策略；在时间步t，直观奖励函数

如下：

其中，

表示奖励因子，l_t、l_t-1分别表示在时间步t、t-1的视频级预测标签，gt表示视频的真实标签，/>

分别表示在t时、t-1时的视频级预测分布中视频的真实标签对应的概率；

其次，冻结多模态融合模块，解冻所有模态中采样器的策略网络，采用一个多目标奖励函数训练采样器的策略网络；多目标奖励函数包括两部分，第一部分是将全局奖励分配到各模态，设在时间步t获得K个模态的融合权重

则模态n的全局奖励/>

如下：

第二部分是基于单模态预测评价的局部奖励，在时间步t采样器i收到局部奖励

为：

其中，C是一个常数比例因子，

表示t时采样器i已经观测过的累计帧数，/>

和/>

分别表示在时间步t和时间步t-1的单模态预测标签，/>

和/>

分别表示在时间步t和时间步t-1的单模态预测分布，

得到在时间步t采样器i的奖励值

其中，λ是尺度因子；

(3)第三阶段，基于训练后的策略网络继续训练主干网络，基于训练后的主干网络继续按照第二阶段方式训练策略网络，交替进行训练，对整个网络框架进行微调。

9.根据权利要求1所述的***其特征在于，所述***还包括结果展示模块，用于接收外部查询请求，从结果数据库中查询结果并展示出来，结果数据库中存储经过识别和检测模块处理后的视频的预测类别、类别分布、选中的观测帧编号以及不同模态的融合比例。

10.一种基于多模态的未修剪长视频识别方法，其特征在于，包括：

(二)对视频的每个模态的帧序列，分别采用N个采样器与对应模态的帧序列进行交互，定位局部事件，通过单模态语义推理模块对局部事件之间的时间因果关系进行推理，以捕获单模态的语义信息，再由子识别模块输出单模态的预测分布，最后由多模态融合模块为不同模态分配注意力权值，将所有模态的预测分布进行融合，输出视频级的多模态类别预测结果；N为大于2的整数；

其中，在视频每个模态的帧序列中均匀地初始化N个采样器，每个采样器包含四部分，分别是局部采样器、上下文感知网络、策略网络以及评估网络；局部采样器从选定的帧中提取局部信息；上下文感知网络包含一个特征提取器和一个LSTM模块，特征提取器对局部采样器提取的局部信息进行编码输出特征向量，LSTM模块在不同时间步长下对选定的帧之间的时间因果关系进行建模；策略网络由全连接网络组成，用于选取定位局部事件的帧；评估网络由全连接网络组成，用于在训练阶段估计策略网络所选动作的q值，以帮助策略网络的学习；每个采样器内部采用了Actor-Critic结构，并使用集中式评估分散式执行框架来联合所有采样器；