CN114241360A

CN114241360A - 一种基于自适应推理的视频识别方法和装置

Info

Publication number: CN114241360A
Application number: CN202111402759.9A
Authority: CN
Inventors: 黄高; 王语霖; 陈昭熹; 蒋昊峻; 宋士吉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-25

Abstract

本申请提供了一种基于自适应推理的视频识别方法和装置，属于视频分析技术领域。本申请实施例使用全局特征提取网络提取视频流中的每帧图像的粗粒度全局特征图后，使用策略网络将包含目标物体的初始局部区域图像裁剪出来，再通过局部特征提取网络提取细粒度局部特征图，并对粗粒度全局特征图和细粒度局部特征图进行平均池化和级联操作，得到融合特征向量，最后利用分类器根据融合特征向量，确定当前帧图像的目标局部图像以及目标局部图像对应的预测标签。本申请实施例能够有效识别出每帧图像中信息量最丰富的目标局部图像，并输出对应的预测标签，实现对每帧图像的自适应在线推理，并通过压缩每帧图像的空间冗余信息，有效降低推理时延和计算量。

Description

一种基于自适应推理的视频识别方法和装置

技术领域

本申请涉及视频分析技术领域，特别是涉及一种基于自适应推理的视频识别方法和装置。

背景技术

目前，得益于深度神经网络技术的飞速发展，精确的视频识别算法被广泛应用于生产生活的各个领域。然而，这类算法专注于使用更大更深更复杂的网络来提升视频识别算法的精度，而忽略了实际应用中计算资源的瓶颈。在视频识别广泛的应用场景中，如安防、动态捕捉等，基于大型视频识别神经网络的算法往往需要部署在计算资源有限的边缘设备上。而这些边缘设备在运行大型神经网络的算法时，往往存在虽然精度高，但是计算资源消耗大、模型推理速度慢的问题。

发明内容

本申请提供一种基于自适应推理的视频识别方法和装置，以解决视频识别任务中计算资源消耗大、模型推理速度慢的问题。

为了解决上述问题，本申请采用了以下的技术方案：

第一方面，本申请实施例提供了一种基于自适应推理的视频识别方法，应用于神经网络，所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器，所述方法包括：

以视频流中的每一帧图像为当前帧图像；通过所述全局特征提取网络对所述当前帧图像进行特征提取，得到粗粒度全局特征图，并将所述粗粒度全局特征图输入到所述策略网络；

所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像，并将所述初始局部区域图像输入到所述局部特征提取网络；

所述局部特征提取网络对所述初始局部区域图像进行特征提取，得到细粒度局部特征图，对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作，分别得到全局特征向量和局部特征向量，并将所述全局特征向量和所述局部特征向量输入到级联网络；

所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作，得到融合特征向量，并将所述融合特征向量输入到所述分类器；

所述分类器根据所述融合特征向量，确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。

在本申请一实施例中，所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像的步骤，包括：

所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量，确定所述当前帧图像的初始局部区域图像的坐标信息，其中，所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息；

根据所述当前帧图像的初始局部区域图像的坐标信息，对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像。

在本申请一实施例中，所述全局特征提取网络、所述局部特征提取网络和所述分类器的训练过程包括：

获得第一视频训练数据集，并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取，得到第一初始全局特征图，并通过最小化交叉熵误差，以实现对所述第一初始特征提取网络的模型参数的迭代更新，最终得到所述全局特征提取网络；

通过二维均匀分布对所述第一初始全局特征图进行随机采样，以得到第一初始局部区域图像，并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练，得到初始局部特征图，并通过最小化交叉熵误差，以实现对所述第二初始特征提取网络的模型参数的迭代更新，最终得到所述局部特征提取网络；

将所述初始局部特征图输入到初始分类器进行预训练，并通过最小化交叉熵误差，以实现对所述初始分类器的模型参数的迭代更新，最终得到所述分类器。

在本申请一实施例中，所述策略网络的训练过程包括：

获得第二视频训练数据集，并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取，得到第二初始全局特征图，并将所述第二初始全局特征图输入到初始策略网络；

所述初始策略网络对所述第二初始全局特征图进行随机裁剪，得到第二初始局部区域图像，并将所述第二初始局部区域图像输入到所述分类器，以得到分类结果；

所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励，并通过最大化折扣奖励的和，以实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络。

在本申请一实施例中，所述初始策略网络利用奖励函数获得所述分类结果对应的折扣奖励，并通过最大化折扣奖励的和，以实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络的步骤包括：

通过以下奖励函数，获得所述分类结果对应的折扣奖励：

式中：

表示第二视频训练数据集中的t时刻对应的第二初始局部区域图像；r_t表示t时刻对应的第二初始局部区域图像的奖励值；p_ty表示t时刻对应的第二初始局部区域图像的分类器置信度；

表示t时刻对应的第二初始局部区域图像对应的误差期望；

通过以下激励函数，最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络：

式中：r_t表示t时刻对应的第二初始局部区域图像的奖励值；γ表示预设的奖励折扣因子；

表示累积的折扣奖励的和；π表示策略网络。

第二方面，基于相同发明构思，本申请实施例提供了一种基于自适应推理的视频识别装置，所述装置包括：

第一特征提取模块，用于以视频流中的每一帧图像为当前帧图像；通过全局特征提取网络对所述当前帧图像进行特征提取，得到粗粒度全局特征图，并将所述粗粒度全局特征图输入到策略网络；

第一裁剪模块，用于通过所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像，并将所述初始局部区域图像输入到局部特征提取网络；

第二特征提取模块，用于通过所述局部特征提取网络对所述初始局部区域图像进行特征提取，得到细粒度局部特征图，对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作，分别得到全局特征向量和局部特征向量，并将所述全局特征向量和所述局部特征向量输入到级联网络；

特征融合模块，用于通过所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作，得到融合特征向量，并将所述融合特征向量输入到分类器；

结果输出模块，用于通过所述分类器根据所述融合特征向量，确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。

在本申请一实施例中，所述第一裁剪模块包括：

确定子模块，用于通过所述策略网络利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量，确定所述当前帧图像的初始局部区域图像的坐标信息，其中，所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息；

裁剪子模块，用于根据所述当前帧图像的初始局部区域图像的坐标信息，对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像。

在本申请一实施例中，所述装置还包括：

第一训练模块，用于获得第一视频训练数据集，并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取，得到第一初始全局特征图，并通过最小化交叉熵误差，以实现对所述第一初始特征提取网络的模型参数的迭代更新，最终得到所述全局特征提取网络；

第二训练模块，用于通过二维均匀分布对所述第一初始全局特征图进行随机采样，以得到第一初始局部区域图像，并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练，得到初始局部特征图，并通过最小化交叉熵误差，以实现对所述第二初始特征提取网络的模型参数的迭代更新，最终得到所述局部特征提取网络；

第三训练模块，用于将所述初始局部特征图输入到初始分类器进行预训练，并通过最小化交叉熵误差，以实现对所述初始分类器的模型参数的迭代更新，最终得到所述分类器。

在本申请一实施例中，所述装置还包括：

第三特征提取模块，用于获得第二视频训练数据集，并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取，得到第二初始全局特征图，并将所述第二初始全局特征图输入到初始策略网络；

第二裁剪模块，用于通过所述初始策略网络对所述第二初始全局特征图进行随机裁剪，得到第二初始局部区域图像，并将所述第二初始局部区域图像输入到所述分类器，以得到分类结果；

第四训练模块，用于通过所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励，并通过最大化折扣奖励的和，以实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络。

在本申请一实施例中，所述第四训练模块还用于：

通过以下奖励函数，获得所述分类结果对应的折扣奖励：

式中：

表示t时刻对应的第二初始局部区域图像对应的误差期望；

表示累积的折扣奖励的和；π表示策略网络。

与现有技术相比，本申请包括以下优点：

本申请实施例提供的一种基于自适应推理的视频识别方法，在使用轻量化的全局特征提取网络提取整个视频流中的每帧图像的粗粒度全局特征图后，使用策略网络将粗粒度全局特征图中包含目标物体的初始局部区域图像裁剪出来，实现对每帧图像的空间冗余性的压缩，再通过局部特征提取网络提取初始局部区域图像的细粒度局部特征图，并对粗粒度全局特征图和细粒度局部特征图进行平均池化和级联操作，得到精度更高的融合特征向量，最后利用分类器根据融合特征向量，确定当前帧图像的目标局部图像以及目标局部图像对应的预测标签。本申请实施例通过全局特征提取网络、策略网络、局部特征提取网络以及分类器的配合使用，能够有效识别出每帧图像中信息量最丰富的目标局部图像，并能够针对每个目标局部图像输出对应的预测标签，实现对每帧图像的自适应推理，在保证识别精度的同时，通过有效压缩视频流中的每帧图像中固有的空间冗余性，尽可能降低了大型神经网络的推理时延和计算量，具有更低的部署成本，更高的推理速度，以及更广的使用场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中一种基于自适应推理的视频识别方法的步骤流程图；

图2是本申请实施例中一种基于自适应推理的视频识别装置的功能模块示意图。

附图标记：200-基于自适应推理的视频识别装置；201-第一特征提取模块；202-第一裁剪模块；203-第二特征提取模块；204-特征融合模块；205-结果输出模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施方式需要说明的是，在视频识别的实际应用场景中，计算量往往与视频识别***的能源消耗、碳排放量及推理延迟直接相关。因此，对于一个实际***，从经济和安全角度考量，资源消耗代价往往是一个不可忽略的重要因素；同时对于计算资源有效的边缘设备而言，制约算法部署的瓶颈将不再是准确率，而是算法的计算效率。

在目前视频识别领域中，得益于大型神经网络的算法精度高的优势，往往是直接将原始视频流送入大型神经网络中进行识别，便能够输出高精度识别结果。然而，对于视频流中的图像而言，往往存在大量的空间冗余，正是由于这部分空间冗余的存在，增加了模型的计算量和资源消耗量，并降低了模型的推理速度。

需要说明的是，在视频分析领域，可以将视频识别任务建模为序列决策过程，即将视频流转换为长度为T的视频帧序列V＝{v₁,2,…,v_T}，并输出该视频对应的类别标签p_t，其中若t∈{T}，则模型只需在整个视频帧序列结尾输出一个预测标签，该方式称为离线推理；若t∈{1,2,…,}，则此时模型需要随时输出该视频的预测标签，且每次预测结果均基于当前帧图像以及当前帧图像的前一帧图像观测而来，该方式被称为在线推理。

针对现有技术存在计算资源消耗大、模型推理速度慢的问题，本申请实施例旨在提供一种视频识别算法，旨在通过压缩视频流的每帧图像中固有的空间冗余性，仅保留图像中信息量最丰富的目标局部图像，并输出每个目标局部图像对应的预测标签，进而实现对每帧图像的自适应在线推理，在保证识别精度的同时，尽可能降低了大型神经网络的推理时延和计算量。

参照图1，示出了本申请一种基于自适应推理的视频识别方法，应用于神经网络，所述神经网络包括全局特征提取网络、策略网络、局部特征提取网络以及分类器，所述方法可以包括以下步骤：

步骤S101：以视频流中的每一帧图像为当前帧图像；通过全局特征提取网络对所述当前帧图像进行特征提取，得到粗粒度全局特征图，并将所述粗粒度全局特征图输入到策略网络。

在本实施方式中，将视频识别任务建模为序列决策过程，即将视频流转换为长度为T的视频帧序列V＝{v₁,v₂,…,v_T}；将视频帧序列V输入到经过预训练的全局特征提取网络f_G中进行特征提取，其中，在t时刻，全局特征提取网络以v_t作为输入，获得粗粒度全局特征图

其中，T表示视频帧序列的长度，v_t表示t时刻的视频帧图像；

表示t时刻的粗粒度全局特征图；f_G表示全局特征提取网络。

步骤S102：所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像，并将所述初始局部区域图像输入到局部特征提取网络。

本实施方式需要说明的是，包含目标物体的初始局部区域图像指整个当前帧中信息量最丰富的区域，其中目标物体可以包括图像中需要聚焦的人、动物或者各种物体，本实施方式不对目标物体做出具体限制。

在本实施方式中，由于全局特征提取网络f_G是针对整个图像进行的特征提取，因而得到的粗粒度全局特征图

虽然在一定程度上减少了冗余信息，但是并不能准确定位到信息量最丰富的区域，即包含目标物体的初始局部区域图像。

在本实施方式中，可基于强化学习算法构建策略网络π，以提高策略网络π的裁剪精度。需要说明的是，强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的目标是从环境状态到行为的映射，使得智能体选择的行为能够获得最佳的效果，使得整个***的运行性能为最佳。基于强化学习的***一般包含环境、观察网络、策略网络、动作空间、激励函数等要素。

在本实施方式中，为进一步实现策略网络π对每一帧图像的自适应高效推理，提高裁剪初始局部区域图像时的效率和准确率，其中，所述策略网络π对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像的步骤，可以包括以下具体子步骤：

子步骤S102-1：所述策略网络π利用预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量，确定所述当前帧图像的初始局部区域图像的坐标信息，其中，所述隐藏层状态向量用于表征所述前一帧图像中的包含目标物体的初始局部区域图像所在的坐标信息。

在本实施方式中，策略网络π决定了视频流中的每一帧图像在模型中应当聚焦的空间位置，通过策略网络π对粗粒度全局特征图

进行空间特征建模，进而确定当前帧图像中应该聚焦的空间位置，该空间位置即对应当前帧图像的初始局部区域图像的坐标信息。具体地，可以通过马尔可夫过程建模该决策过程，初始局部区域图像的位置在以下分布上采样：

其中，

代表策略网络预先存储的所述当前帧图像的前一帧图像的隐藏层状态向量；

为当前帧图像的粗粒度全局特征图；

表示初始局部区域图像；π表示策略网络。

本实施方式需要说明的是，由于不同视频帧之间具有时间连续性，前一帧图像域与当前帧图像高度相关、内容相似，所以可以通过前一帧图像中的隐藏层状态向量推理得到当前帧图像的初始局部区域图像。

优选地，可以基于循环卷积神经网络搭建策略网络π，以满足视频数据的时间特征建模，策略网络π的头部则采用1×1的卷积核，作为降采样手段以降低计算复杂度，同时使用离散化的二维空间位置作为策略网络π的动作空间，即在二维像素平面上均匀分割出若干正方形侯选位置，供策略网络π进行选择，以降低强化学习训练阶段的收敛难度。

子步骤S102-2：根据所述当前帧图像的初始局部区域图像的坐标信息，对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像。

在本实施方式中，通过预设的矩形框对粗粒度全局特征图

进行裁剪，并固定矩形框的大小，使得在进行裁剪时，只需要获取一个坐标信息(如矩形框的左上角坐标)即可获得包含目标物体的初始局部区域图像。

在本实施方式中，每一帧图像的裁剪位置均是基于上一帧图像的隐藏层状态向量得到，能够在保证识别精度的同时有效提高策略网络π的推理速度，实现高效推理。

步骤S103：所述局部特征提取网络对所述初始局部区域图像进行特征提取，得到细粒度局部特征图，对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作，分别得到全局特征向量和局部特征向量，并将所述全局特征向量和所述局部特征向量输入到级联网络。

在本实施方式中，针对策略网络π得到的初始局部区域图像，通过局部特征提取网络f_L实现局部细粒度特征提取，并以初始局部区域图像的图片序列

作为输入，得到细粒度局部特征图

其中，

表示t时刻的初始局部区域图像，

表示t时刻的细粒度局部特征图。

在本实施方式中，在得到细粒度局部特征图

之后，对粗粒度全局特征图

和细粒度局部特征图

进行平均池化操作，分别得到全局特征向量

和局部特征向量

通过平均池化操作能够有效减少神经网络中特征的数据量，进而减少计算量和所需显存，同时保留图像的背景信息。

步骤S104：所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作，得到融合特征向量，并将所述融合特征向量输入到分类器。

在本实施方式中，级联网络用于连接全局特征向量

和局部特征向量

也就是说将初始的当前帧图像和裁剪后得到的局部图像的特征进行融合，得到融合特征向量

通过重用全局特征提取网络f_G输出的粗粒度全局特征图

能够进一步提升精度并提高计算效率。

步骤S105：所述分类器根据所述融合特征向量，确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。

在本实施方式中，分类器f_C为经过预训练的神经网络，分类器f_C可以将融合特征向量

映射到给定类别中的某一对应类别，得到所述目标局部图像对应的预测标签p_t：

其中，P_t表示t时刻对应的分类器f_C的Softmax预测结果。在本实施方式中，基于融合特征向量

可实现对当前帧图像的类别的精确快速识别，并输出对应的预测标签P_t。

在本实施方式中，分类器f_C还可以根据融合特征向量

获取对应的目标局部图像的坐标信息。根据该坐标信息，可以将最终所需的信息量最丰富的目标局部图像从初始图像中(即对应的当前帧图像)裁剪出来，减少空间冗余信息，使得目标局部图像在神经网络中，尤其是大容量神经网络中能够快速准确的识别出来，尽可能降低了模型的推理时延和计算量，使得基于大型神经网络的视频识别算法能够在计算资源有限的边缘设备上实时运行，因而本实施方式具有更为广阔的应用场景。

在一个可行的实施方式中，所述全局特征提取网络f_G、所述局部特征提取网络f_L和所述分类器f_C的训练过程可以包括以下步骤：

步骤S201：获得第一视频训练数据集，并将所述第一视频训练数据集输入到第一初始特征提取网络进行特征提取，得到第一初始全局特征图，并通过最小化交叉熵误差，以实现对所述第一初始特征提取网络的模型参数的迭代更新，最终得到所述全局特征提取网络。

步骤S202：通过二维均匀分布对所述第一初始全局特征图进行随机采样，以得到第一初始局部区域图像，并将所述第一初始局部区域图像输入到第二初始特征提取网络进行预训练，得到初始局部特征图，并通过最小化交叉熵误差，以实现对所述第二初始特征提取网络的模型参数的迭代更新，最终得到所述局部特征提取网络。

步骤S203：将所述初始局部特征图输入到初始分类器进行预训练，并通过最小化交叉熵误差，以实现对所述初始分类器的模型参数的迭代更新，最终得到所述分类器。

本实施方式需要说明的是，第一视频训练数据集D_train和步骤S101-步骤S205中的视频流的流程相似，即依次经过第一初始特征提取网络、第二初始特征提取网络和初始分类器进行训练，不同之处在于，使用二维均匀分布代替空间策略网络π以随机采样初始局部特征图的空间位置，进而得到初始局部特征图，作为其中的一个优选方案，在对第一初始特征提取网络、第二初始特征提取网络和初始分类器进行预设时间的训练的过程中，可以采用梯度下降法最小化交叉熵误差L_CE(·)：

其中，T表示第一视频训练数据集D_train的视频长度；y表示第一视频训练数据集D_train的真实类别标签，p_t表示t时刻的第一初始特征提取网络、第二初始特征提取网络或初始分类器的Softmax预测结果，L_CE(p_t,y)表示第一初始特征提取网络、第二初始特征提取网络或初始分类器在t时刻对应的交叉熵误差。

在一个可行的实施方式中，在得到最终所需的所述全局特征提取网络f_G、所述局部特征提取网络f_L和所述分类器f_C之后，再对策略网络π进行训练，具体地，策略网络π的训练过程可以包括以下步骤：

步骤S301：获得第二视频训练数据集，并将所述第二视频训练数据集输入到所述全局特征提取网络进行特征提取，得到第二初始全局特征图，并将所述第二初始全局特征图输入到初始策略网络。

步骤S302：所述初始策略网络对所述第二初始全局特征图进行随机裁剪，得到第二初始局部区域图像，并将所述第二初始局部区域图像输入到所述分类器，以得到分类结果。

步骤S303：所述初始策略网络获得奖励函数针对所述分类结果得到的折扣奖励，并通过最大化折扣奖励的和，以实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络。

在本实施方式中，固定经过步骤S201-步骤S203得到的全局特征提取网络f_G、所述局部特征提取网络f_L和所述分类器f_C的网络参数，通过强化学习算法对初始策略网络进行训练。具体地，在t时刻，对于经过裁剪得到的第二初始局部区域图像，初始策略网络将接收到一个奖励来指示该裁剪位置是否有益于分类，并通过最大化折扣奖励的和来实现对所述初始策略网络的模型参数的迭代更新。其中，通过以下奖励函数，获得所述分类结果对应的折扣奖励：

式中：

表示t时刻对应的第二初始局部区域图像对应的误差期望。

在本实施方式中，在t时刻的奖励值r_t能够度量对应的第二初始局部区域图像

的价值，即对于最终分类器正确判别的贡献大小；同时可以使用单次蒙特卡洛采样估计奖励函数中的

在奖励函数的基础上，再通过以下激励函数，最大化折扣奖励的和实现对所述初始策略网络的模型参数的迭代更新，最终得到所述策略网络π：

表示累积的折扣奖励的和；π表示策略网络。

在本实施方式中，强化学习的目标是最大化激励函数，也就是最大化折扣奖励的和。在训练初始策略网络的过程中，利用激励函数使得初始策略网络针对第二初始局部区域图像的裁剪位置可以得到不断优化，使得最终的得到的策略网络π能够准确定位到图像中信息量最为丰富的局部区域，提高裁剪的准确性。

基于同一发明构思，参照图2，本申请一实施例提供了一种基于自适应推理的视频识别装置200，所述装置包括：

第一特征提取模块201，用于以视频流中的每一帧图像为当前帧图像；通过全局特征提取网络对所述当前帧图像进行特征提取，得到粗粒度全局特征图，并将所述粗粒度全局特征图输入到策略网络；

第一裁剪模块202，用于通过所述策略网络对所述粗粒度全局特征图进行裁剪，得到包含目标物体的初始局部区域图像，并将所述初始局部区域图像输入到局部特征提取网络；

第二特征提取模块203，用于通过所述局部特征提取网络对所述初始局部区域图像进行特征提取，得到细粒度局部特征图，对所述粗粒度全局特征图和所述细粒度局部特征图进行平均池化操作，分别得到全局特征向量和局部特征向量，并将所述全局特征向量和所述局部特征向量输入到级联网络；

特征融合模块204，用于通过所述级联网络对所述全局特征向量和所述局部特征向量进行级联操作，得到融合特征向量，并将所述融合特征向量输入到分类器；

结果输出模块205，用于通过所述分类器根据所述融合特征向量，确定所述当前帧图像的目标局部图像以及所述目标局部图像对应的预测标签。

在一个可行的实施方式中，所述第一裁剪模块202包括：

在一个可行的实施方式中，所述装置还包括：

在一个可行的实施方式中，所述第四训练模块还用于：

通过以下奖励函数，获得所述分类结果对应的折扣奖励：

式中：

表示t时刻对应的第二初始局部区域图像对应的误差期望；

表示累积的折扣奖励的和；π表示策略网络。

需要说明的是，在本实施方式中，视频识别的具体实施方式可参见前述本申请实施例的基于自适应推理的视频识别方法的具体实施方式，在此不再赘述。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于自适应推理的视频识别方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。