CN113378717B

CN113378717B - 基于关键对象拼合的视频识别方法及装置存储介质和终端

Info

Publication number: CN113378717B
Application number: CN202110652794.XA
Authority: CN
Inventors: 宋卓然; 鲁恒; 景乃锋; 梁晓峣
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-08-30
Anticipated expiration: 2041-06-11
Also published as: CN113378717A

Abstract

本发明公开了一种基于关键对象拼合的视频识别方法及装置存储介质和终端，其中方法包括对目标视频进行解码；获取I类帧图像识别结果；通过对象追踪算法获取P类帧图像数据中的所有关键对象矩形框和B类帧图像数据中的所有关键对象矩形框；通过对象聚合算法对所获取的关键对象矩形框进行聚合，并将合成帧输入到预设深度神经网络中得到合成帧识别结果；通过对象拆分算法对合成帧识别结果进行拆分，并将拆分结果返还到原图像数据中。本发明方法通过挤压掉输入到预设深度神经网络中的非关键信息来减少视频帧所对应的冗余计算，大大节省了目标视频识别任务中的计算工作量，提高了识别任务处理速度和识别准确率。

Description

基于关键对象拼合的视频识别方法及装置存储介质和终端

技术领域

本发明涉及神经网络技术领域，尤其涉及一种基于关键对象拼合的视频识别方法和装置存储介质和终端。

背景技术

深度卷积神经网络已经在图像识别中得到广泛的应用，例如在图像的分类、检测及分割中。随着其发展，人们逐渐将深度卷积神经网络的应用范围扩展到了视频领域。

通常基于深度神经网络的视频识别任务可以将每个视频帧当成一张张独立的图片，输入到深度神经网络中进行识别，即将视频识别当成图像识别任务分别对每帧进行识别。然而，直接将适用于图像识别任务的网络模型应用在所有视频帧上，需要承受极大的计算开销和能量开销；从另一方面来说，应用于图像识别任务的神经网络擅长于处理静态物体，无法捕捉视频帧与帧之间的物体的移动特点，从而导致视频识别的准确率较低。

因此，研究者们提出了针对视频识别任务的深度神经网络模型，利用视频帧间的时间局部性来进一步增强识别准确率。Caelles等人提出了双流FCN网络模型分别对每帧的前景和轮廓进行分割，但是依然需要将该双流FCN神经网络应用于每帧上，因此该方法所消耗的时间、能耗都很大，且该方法没有利用视频帧间的时间局部性，因此识别的准确率也很难得到保证。为了更高的准确率，Cheng等人提出了Segflow方法，利用一个神经网络抽取帧间的时间局部性---光流信息，再利用光流信息辅助每帧的识别神经网络，得到最终的识别结果。但该方法耗费了过多的精力来抽取光流，因此在TiTAN X GPU上所提高的识别速度也有限。

发明内容

本发明所要解决的技术问题是现有神经网络处理视频识别任务中往往需要对每帧视频图像进行处理，存在耗时长、耗能大、识别准确率难得到保证以及识别速度很难提上去。

为了解决上述技术问题，本发明提供了一种基于关键对象拼合的实时视频识别方法，包括：

通过预设视频解码器对目标视频进行解码，获取所述目标视频的I类帧图像数据、P类帧图像数据、B类帧图像数据、运动矢量表和帧内预测模式表；

将所述I类帧图像数据输入到预设深度神经网络中，得到I类帧图像识别结果；

基于所述I类帧图像识别结果、所述运动矢量表和所述帧内预测模式，通过对象追踪算法获取所述P类帧图像数据中的所有关键对象矩形框和所述B类帧图像数据中的所有关键对象矩形框；

通过对象聚合算法对所获取的关键对象矩形框进行聚合得到多个合成帧，并将所有所述合成帧输入到所述预设深度神经网络中得到多个合成帧识别结果；

通过对象拆分算法对所有所述合成帧识别结果进行拆分，并将拆分结果返还到所述B类帧图像数据和所述P类帧图像数据中，得到P类帧图像识别结果和B类帧图像识别结果。

优选地，基于所述I类帧图像识别结果、所述运动矢量表和所述帧内预测模式，通过对象追踪算法获取所述P类帧图像数据中的所有关键对象矩形框和所述B类帧图像数据中的所有关键对象矩形框步骤包括：

基于所述I类帧图像识别结果、所述运动矢量表和所述帧内预测模式表，通过预设恢复操作按预设追踪顺序依次获取每帧P帧图像数据的临时识别结果和每帧B帧图像数据的临时识别结果；

依次遍历每帧P帧图像数据的临时识别结果和每帧P帧图像数据的临时识别结果，获取每帧P帧图像数据中的关键分割小块和每帧B帧图像数据中的关键分割小块，基于每帧P帧图像数据中的关键分割小块和每帧B帧图像数据中的关键分割小块获取每帧P帧图像数据中的关键对象识别框和每帧B帧图像数据中的关键对象识别框；

其中，预设追踪顺序为所述目标视频的解码顺序剔除掉I类帧图像数据后的顺序。

优选地，通过预设恢复操作获取单帧P帧图像数据的临时识别结果或单帧B帧图像数据的临时识别结果包括：

假设待获取临时识别结果的P帧图像数据或B帧图像数据为目标图像数据；

基于所述I类帧图像识别结果、前序帧图像临时识别结果集和运动矢量表获取所述目标图像数据中部分分割小块的第一类参考分割小块，并分别将所述第一类参考分割小块的分割识别结果复制到所述目标图像数据中对应的分割小块上，得到目标图像数据的第一识别结果；

基于所述目标图像数据的第一识别结果和所述帧内预测模式表获取所述目标图像数据中其它部分分割小块的第二类参考分割小块，并分别将所述第二类参考分割小块的分割识别结果复制到所述目标图像数据中对应的分割小块上，得到目标图像数据的临时识别结果；

其中，所述前序帧图像临时识别结果集包括当前已获取的所有图像数据的临时识别结果。

优选地，遍历单帧图像数据的临时识别结果，获取该帧图像数据中的关键分割小块，基于该帧图像数据中的关键分割小块获取该帧图像数据中的关键对象识别框包括：

遍历单帧图像数据的临时识别结果，将该帧图像数据临时识别结果中包含预设颜色像素的分割小块作为临时分割小块，将该图像数据中与所述临时分割小块相对应的分割小块作为关键分割小块；

将该帧图像数据中包含所有所述关键分割小块的最小矩形框作为关键对象矩形框，并记录所述关键对象矩形框的原始位置信息。

优选地，通过对象聚合算法对所获取的关键对象矩形框进行聚合得到多个合成帧包括：

将所有关键对象矩形框依次排列形成更新对象列表；

依次将所述更新对象列表中所有关键对象矩形框放置于多个空闲帧中，形成多个合成帧；

其中，将所述更新对象列表中关键对象矩形框放置于一个空闲帧中，形成一个合成帧包括：

构建一个空闲帧作为待放置空闲帧，并将所述待放置空闲帧中空闲区域集合成空闲区域列表；

按预设放置方式依次将所述更新对象列表中的关键对象矩形框放置于所述空闲区域列表中的空闲区域中，直到待放置关键对象矩形框无法从所述空闲区域列表中选取出可放置的空闲区域，所述待放置空闲帧完成合成形成合成帧。

优选地，按预设放置方式依次将所述更新对象列表中的关键对象矩形框放置于所述空闲区域列表中的空闲区域中包括：

将所述更新对象列表中首个所述关键对象矩形框确定为待放置关键对象矩形框；

从所述空闲区域列表中筛选出一个长度和宽度分别大于所述待放置关键对象矩形框的长度和宽度的空闲区域，作为待放置空闲区域；

将所述待放置关键对象矩形框放置于所述待放置空闲区域的左上角，并记录所述待放置关键对象矩形框的放置位置信息；

对所述待放置区域进行划分，获取新的空闲区域并将其保存到所述空闲区域列表中；

将所述待放置空闲区域从所述空闲区域列表中剔除，将所述待放置关键对象矩形框从所述更新对象列表中剔除，并重新确定待放置关键对象矩形框。

优选地，对所述待放置区域进行划分包括：

获取所述待放置关键对象矩形框与所述待放置空闲区域的高度差和宽度差；

当所述高度差大于所述宽度差时，将放置有所述待放置关键对象矩形框的待放置空闲区域沿所述待放置关键对象矩形框的底边外沿所在直线进行划分；

当所述高度差小于所述宽度差时，将放置有所述待放置关键对象矩形框的待放置空闲区域沿所述待放置关键对象矩形框的右边外沿所在直线进行划分。

优选地，通过对象拆分算法对所有所述合成帧识别结果进行拆分，并将拆分结果返还到所述B类帧图像数据和所述P类帧图像数据中，得到P类帧图像识别结果和B类帧图像识别结果步骤包括：

基于所有所述关键对象矩形框的放置位置信息分别对所有所述合成帧识别结果进行拆分得到所有所述关键对象矩形框对应的关键对象识别结果；

基于所有所述关键对象矩形框的原始位置信息，依次将所有所述关键对象矩形框对应的关键对象识别结果返还到所述B类帧图像数据和所述P类帧图像数据中，得到P类帧图像识别结果和B类帧图像识别结果。

为了解决上述技术问题，本发明还提供了一种基于关键对象拼合的实时视频识别装置，包括依次连接的解码模块、I类帧图像识别结果获取模块、关键对象矩形框获取模块、聚合模块和拆分并返回模块；

其中，所述解码模块，用于通过预设视频解码器对目标视频进行解码，获取所述目标视频的I类帧图像数据、P类帧图像数据、B类帧图像数据、运动矢量表和帧内预测模式表；

所述I类帧图像识别结果获取模块，用于将所述I类帧图像数据输入到预设深度神经网络中，得到I类帧图像识别结果；

所述关键对象矩形框获取模块，用于基于所述I类帧图像识别结果、所述运动矢量表和所述帧内预测模式，通过对象追踪算法获取所述P类帧图像数据中的所有关键对象矩形框和所述B类帧图像数据中的所有关键对象矩形框；

所述聚合模块，用于通过对象聚合算法对所获取的关键对象矩形框进行聚合得到多个合成帧，并将所有所述合成帧输入到所述预设深度神经网络中得到多个合成帧识别结果；

所述拆分并返回模块，用于通过对象拆分算法对所有所述合成帧识别结果进行拆分，并将拆分结果返还到所述B类帧图像数据和所述P类帧图像数据中，得到P类帧图像识别结果和B类帧图像识别结果。

为了解决上述技术问题，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至8中任一项所述基于关键对象拼合的视频识别方法。

为了解决上述技术问题，本发明还提供了一种终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述基于关键对象拼合的视频识别方法。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

应用本发明实施例提供的基于关键对象拼合的实时视频识别方法，通过将目标视频进行解码，并将解码出的I类帧图像数据送入预设深度神经网络中进而得到I类帧图像识别结果，再基于I类帧图像识别结果以及解码出的运动矢量表和帧内预测模式表获取P类帧图像数据和B类帧图像数据中的关键对象矩形框，并将关键对象矩形框聚合成合成帧，之后仅将合成帧送入预设深度神经网络识别，并将识别结果差分并分发回它们所属的帧中，即可完成目标视频的识别任务。即本发明基于关键对象拼合的实时视频识别方法，通过将多个连续视频帧中的关键对象聚合起来并将合成帧作为深度神经网络的输入，进而实现输入到深度神经网络的数据量的减少，即通过挤压掉输入到预设深度神经网络中的非关键信息来减少视频帧所对应的冗余计算，大大节省了目标视频识别任务中的计算工作量，提高了识别任务处理速度和识别准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1示出了本发明实施例一基于关键对象拼合的实时视频识别方法的步骤示意图；

图2示出了本发明实施例一基于关键对象拼合的实时视频识别方法的一种示范过程示意图；

图3示出了本发明实施例一基于关键对象拼合的实时视频识别方法的流程示意图；

图4示出了本发明实施例一中对象追踪算法的一种示范过程示意图；

图5示出了本发明实施例一中一个合成帧形成过程的示例图；

图6示出了本发明实施例一中对象拆分算法的具体过程示意图；

图7示出了本发明实施例二基于关键对象拼合的实时视频识别装置的结构示意图；

图8示出了本发明实施例四终端的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

深度卷积神经网络已经在图像识别中得到广泛的应用，例如在图像的分类、检测及分割中。随着其发展，人们逐渐将深度卷积神经网络的应用范围扩展到了视频领域。研究者们提出了针对视频识别任务的深度神经网络模型，利用视频帧间的时间局部性来进一步增强识别准确率。Caelles等人提出了双流FCN网络模型分别对每帧的前景和轮廓进行分割，但是依然需要将该双流FCN神经网络应用于每帧上，因此该方法所消耗的时间、能耗都很大，且该方法没有利用视频帧间的时间局部性，因此识别的准确率也很难得到保证。为了更高的准确率，Cheng等人提出了Segflow方法，利用一个神经网络抽取帧间的时间局部性---光流信息，再利用光流信息辅助每帧的识别神经网络，得到最终的识别结果。但该方法耗费了过多的精力来抽取光流，因此在TiTAN X GPU上所提高的识别速度也有限。

实施例一

为解决现有技术中存在的技术问题，本发明实施例提供了一种基于关键对象拼合的实时视频识别方法。

图1示出了本发明实施例一基于关键对象拼合的实时视频识别方法的步骤示意图；图2示出了本发明实施例一基于关键对象拼合的实时视频识别方法的一种示范过程示意图；图3示出了本发明实施例一基于关键对象拼合的实时视频识别方法的流程示意图；参照图1至图3所示，本发明实施例基于关键对象拼合的实时视频识别方法包括如下步骤。

在处理目标视频的识别任务中，每帧图像数据中可能存在多个对象需被识别，但为了描述的简要性，以下以单对象的视频分割任务为例，当然我们的方法也可以应用于多对象的视频分割任务和视频检测任务中。若存在多个识别对象需识别或检测，可设定所有的识别对象均为关键对象，再通过本发明方法对目标视频进行识别；或者依次将多个识别对象中的识别对象依次作为关键对象，通过重复本发明方法实现多识别对象的识别。针对多个识别对象的情况，上述两种处理方式中后一种更加高效。

步骤S101，通过预设视频解码器对目标视频进行解码，获取目标视频的I类帧图像数据、P类帧图像数据、B类帧图像数据、运动矢量表和帧内预测模式表。

具体地，本发明实施例目标视频的视频编解码标准为具有I帧图像数据、B帧图像数据和P帧图像数据的分类，且每帧图像数据按预设大小块分割，并具有运动矢量表和帧内预测模式表。例如目标视频的视频编解码标准可为H.265的视频，此时分割小块为编码树块；目标视频的视频编解码标准还可为H.264的视频，此时分割小块为宏块。其中，运动矢量是视频解码器通过记录依赖关系的码流来表示分割小块的运动轨迹的量。视频解码器将被依赖的帧和分割小块称作参考帧和参考分割小块，而运动矢量表则包括目标视频中每一B帧图像数据和P帧图像数据分别所对应依赖的参考帧以及B帧图像数据和P帧图像数据中每一分割小块所对应依赖的参考分割小块。

需要说明的是，上述每一帧图像数据可按照分割小块为基本单位进行切分，且分割小块的典型大小为8×8个像素。视频解码器在解码过程中，视频解码器按照指定的解码顺序将比特流解压回连续的视频帧。对于I帧图像数据，分割小块进行帧内解码；对于P帧图像数据和B帧图像数据，分割小块利用参考分割小块、运动矢量和残差进行帧内及帧间解码。具体视频解码器对I类帧图像数据、P类帧图像数据以及B类帧图像数据的解码过程包括如下特征：对于I类帧图像数据，每个分割小块根据帧内预测模式，选择上下左右等某一个方向上的某一分割小块，加上两者之间的残差，得到每个分割小块的最终数值。对于P类帧图像数据，每个分割小块既可能选择帧内进行编码，也可能选择帧间进行预测；因此在对P类帧图像数据中的分割小块进行解码时，视频解码器首先需根据分割小块信息确定其解码方式为帧间还是帧内；若为帧内预测，则对其进行帧内解码；若为帧间预测，则视频解码器则需根据运动矢量定位到前序参考帧中的参考分割小块，加上两者之间的残差，得到每个分割小块的最终数值。而对于B类帧图像数据，同样需确定其解码方式为帧间还是帧内；若为帧间预测，预设解码器根据运动矢量在视频播放顺序中的前序或后续参考帧中的参考分割小块，加上两者之间的残差，得到每个分割小块的最终数值。

因此，基于上述内容可知，通过预设视频解码器对目标视频进行解码，不仅了获得目标视频的I类帧图像数据、P类帧图像数据和B类帧图像数据，还可获得相应的运动矢量表和帧内预测模式表。其中在H.265编码标准中，共有35种帧内预测模式。

且视频解码器在解码过程中会根据帧间依赖关系来记录帧的解码顺序，因此通常目标视频中帧的解码顺序和播放顺序是不一致的。例如假设(I0,B1,B2,B3,P4,I5,B6,P7)是视频的播放顺序，而(I0,P4,B3,B2,B1,I5,P7,B6)则会是实际的解码顺序，因为此时B3依赖I0和P4。更进一步地，视频解码器可将码流根据特定的解码顺序转换回常规的帧序列。需要说明的是，所有解码过的I帧、P帧和B帧都会被写回到全局存储或者一个用来显示的缓存中。

步骤S102，将I类帧图像数据输入到预设深度神经网络中，得到I类帧图像识别结果。

具体地，将I类帧图像数据输入到与识别任务对应的预设深度神经网络中，以获取到目标视频中的I类帧图像识别结果。

步骤S103，基于I类帧图像识别结果、运动矢量表和帧内预测模式表，通过对象追踪算法获取P类帧图像数据中的所有关键对象矩形框和B类帧图像数据中的所有关键对象矩形框。

在本步骤中，我们主要是利用视频解码过程中产生的运动矢量和帧内预测模式来追踪P类帧图像数据和B类帧图像数据中的关键对象。而本实施例中的对象追踪算法主要包括恢复操作和分类操作两个操作。其中恢复操作的输出为利用运动矢量大致勾勒出的P类帧图像数据和B类帧图像数据的大致识别结果(即临时识别结果)，该结果将被输入到分类操作中，而分类操作则会通过矩形框定位出P类帧图像数据和B类帧图像数据中关键对象的具体坐标。

具体地，本实施例中的预设恢复操作即主要是通过复制粘贴的方式，将P类帧图像数据和B类帧图像数据的参考分割小块的识别结果复制下来，并粘贴到P类帧图像数据和B类帧图像数据中，以获取P类帧图像数据和B类帧图像数据的临时识别结果。基于此本实施例获取P类帧图像数据和B类帧图像数据中关键对象的具体操作包括：基于对目标视频解码获取的运动矢量表和帧内预设模式，以及已获取的I类帧图像识别结果，通过预设恢复操作获取每帧P帧图像数据的临时识别结果和每帧B帧图像数据的临时识别结果，进而得到P类帧图像数据临时识别结果和B类帧图像数据临时识别结果。其中每帧P帧图像数据的临时识别结果和每帧B帧图像数据的临时识别结果的获取过程是按预设追踪顺序依次获取的；而预设追踪顺序为目标视频的解码顺序中剔除掉I类帧图像数据后的顺序。

更近一步地，P类帧图像数据临时识别结果和B类帧图像数据临时识别结果的获取过程即为通过相同操作重复获取多个单帧图像数据临时识别结果的过程。为了对本发明实施例进行更详细的说明，以下以单帧P帧图像数据的临时识别结果或单帧B帧图像数据的临时识别结果的获取过程为例进行说明。首先先假设待获取临时识别结果的P帧图像数据或B帧图像数据为目标图像数据；其次将预设追踪顺序中处于目标图像数据之前的前序帧图像数据的识别结果，即当前已获取的所有图像数据的临时识别结果集合成前序帧图像临时识别结果集，以作为目标图像数据获取临时识别结果的一个获取依据。需要说明的是，每完成一帧图像数据临时识别结果的获取过程，即可将其存储在前序帧图像数据的识别结果集中，以作为后续帧图像数据获取临时识别结果的获取依据。且当目标图像数据为预设追踪顺序中第一帧图像数据时，前序帧图像临时识别结果集为空集。

由于P帧图像数据或B帧图像数据在解码过程中均存在帧间预测和帧内预测，因此单帧P帧图像数据的临时识别结果或单帧B帧图像数据的临时识别结果的过程具体包括：基于已获取的I类帧图像识别结果、前序帧图像临时识别结果集和运动矢量表获取目标图像数据中部分分割小块的第一类参考分割小块，并分别将第一类参考分割小块的分割识别结果复制到目标图像数据中对应分割小块上，得到目标图像数据的第一识别结果；基于目标图像数据的第一识别结果和帧内预测模式表获取目标图像数据中其它部分分割小块的第二类参考分割小块，并分别将第二类参考分割小块的分割识别结果复制到目标图像数据中对应的分割小块上，得到目标图像数据的临时识别结果。

图4示出了本发明实施例一中对象追踪算法的一种示范过程示意图；为了展示P帧图像数据的临时识别结果和B帧图像数据的临时识别结果是如何获取的，以下以P4帧图像数据的恢复过程为例进行说明。具体其恢复操作包括依次进行的帧间恢复和帧内恢复。如图4中所示，帧间恢复模式包括三个运动矢量，其中目标坐标(dstx,dsty)为(512,128)的分割小块有一个运动矢量(P4,I0,501,120,512,128)，即P4帧图像数据中坐标为(512,128)的分割小块指向I0帧图像数据的坐标为(501,120)的分割小块，我们可以定位到I0对应的参考分割小块的分割识别结果，并将该识别结果取出并写回P4帧图像数据中坐标为(512,128)的位置上；而对于运动矢量(P4,I0,625,302,616,328)，我们已知该分割小块位于P4帧图像数据，其坐标为(616,328)，并指向I0的坐标为(625,302)的分割小块，我们可以定位到I0对应的参考分割小块的分割识别结果，并将该识别结果取出并写回P4帧中坐标为(616,328)的位置上；依次类推，将所有以P4帧图像数据为目标帧的运动矢量按上述步骤执行，完成帧间恢复。而在帧内恢复模式下，P4帧图像数据包括三个预测模式，目标坐标(dstx,dsty)为(480,120)的分割小块有一个预测模式(P4,480,120,0)，其中，0表示该分割小块为第0种预测模式，该预测模式表示当前分割小块的参考分割小块为其上方的分割小块，因此我们可以定位到P4帧图像数据中当前分割小块正上方的参考分割小块的分割识别结果，并将该识别结果取出并写回P4帧图像数据中坐标为(480,120)的位置上；而对于预测模式(P4,360,80,7)，其中，7表示该分割小块为第7种预测模式，该预测模式表示当前分割小块的参考分割小块为其右侧的分割小块，因此我们可以定位到P4帧图像数据中当前分割小块右侧的参考分割小块的分割识别结果，并将该识别结果取出并写回P4帧中坐标为(360,80)的位置上；以此类推，将所有以P4帧图像数据为目标帧的预测模式按上述步骤执行，完成帧内恢复。

在获取每帧P帧图像数据的临时识别结果和每帧P帧图像数据的临时识别结果后，还需完成每帧P帧图像数据中的关键对象识别框和每帧B帧图像数据中的关键对象识别框的获取工作。每帧P帧图像数据中的关键对象识别框和每帧B帧图像数据中的关键对象识别框的获取工作具体包括：依次遍历每帧P帧图像数据的临时识别结果和每帧B帧图像数据的临时识别结果，获取每帧P帧图像数据中的关键分割小块和每帧B帧图像数据中的关键分割小块，基于每帧P帧图像数据中的关键分割小块和每帧B帧图像数据中的关键分割小块获取每帧P帧图像数据中的关键对象识别框和每帧B帧图像数据中的关键对象识别框。

其中每帧P帧图像数据中的关键对象识别框和每帧B帧图像数据中的关键对象识别框的过程实质也为相同操作重复实施的过程，因此获取了单帧图像数据中关键对象识别框的获取过程即获取了所有P帧图像数据和B帧图像数据的关键对象识别过程。

遍历单帧图像数据的临时识别结果，获取该帧图像数据中的关键分割小块，基于该帧图像数据中的关键分割小块获取该帧图像数据中的关键对象识别框包括：遍历单帧图像数据的临时识别结果，将该帧图像数据临时识别结果中包含预设颜色像素的分割小块作为临时分割小块，将该图像数据中与临时分割小块相对应的分割小块作为关键分割小块；将该帧图像数据中包含所有关键分割小块的最小矩形框作为关键对象矩形框，并记录关键对象矩形框的原始位置信息，以便于后续进行恢复。

需要说明的是，P帧图像数据和B帧图像数据中关键对象识别框的获取过程并非必须是获取所有P帧图像数据的临时识别结果和所有B帧图像数据的临时识别结果之后才可实施。临时识别结果获取过程和关键对象识别结果获取过程可同时进行，即当获取一帧图像数据的临时识别结果后，即可基于该帧图像数据的临时识别结果获取该帧图像数据的关键对象识别框。

图4中还显示了将P4帧图像数据的临时识别结果和B3帧图像数据的临时识别结果进行合并形成合成帧的过程。参考图4所示，在分类操作中，我们将分别遍历P4帧图像数据和B3帧图像数据的临时识别结果，并检查每个像素的识别结果。我们设定关键对象所对应的识别结果像素为白色(像素值为255)，非关键对象所对应的识别结果像素为黑色(像素值为0)。因此，根据识别结果的像素值，我们可以将这些像素分为关键像素和非关键像素。最后，我们将所有的关键像素连接起来，画出一个可以覆盖所有关键像素的矩形框，并记录该矩形框的对角坐标。此时，需要注意的是，由于恢复操作是以分割小块为单位操作的，因此在实际操作中，我们会以分割小块为单位进行分类操作。具体来说，我们将遍历P4帧图像数据和B3帧图像数据的临时识别结果，并检查每个分割小块所对应的识别结果中是否含有白色像素，若含有白色像素，则认为该块为关键块，否则认为该块为非关键块；最后，我们将所有的关键块连接起来，画出一个可以覆盖所有关键块的矩形框，并记录该矩形框在当前P帧图像数据和B帧图像数据中的坐标信息作为原始位置信息(原始位置信息会在对象拆分算法中用于将识别后的结果拆分回其原本所属的帧中)，之所以要用矩形框定位P帧图像数据和B帧图像数据中的关键对象的原因是为了便于后续的对象聚合操作。

需要说明是，原始位置信息获取后可存储于更新对象列表中。

步骤S104，通过对象聚合算法对所获取的关键对象矩形框进行聚合得到多个合成帧，并将所有合成帧输入到预设深度神经网络中得到多个合成帧识别结果。

具体地，对P类帧图像数据和B类帧图像数据使用对象追踪算法后，我们可以定位到P类帧图像数据和B类帧图像数据中的关键对象，为了获得P类帧图像数据和B类帧图像数据的识别结果，我们需要像拼图一样将所有关键对象矩形框所覆盖的相应原始图像聚合成多个合成帧来处理，而后再将所有合成帧输入到预设深度神经网络中得到多个合成帧识别结果。

进一步地，获取多个合成帧过程包括：将所有关键对象矩形框依次排列形成更新对象列表；依次将更新对象列表中所有关键对象矩形框放置于多个空闲帧中，形成多个合成帧。其中，将更新对象列表中关键对象矩形框放置于一个空闲帧中，形成一个合成帧包括：构建一个空闲帧作为待放置空闲帧，并将待放置空闲帧中空闲区域集合成空闲区域列表；按预设放置方式依次将更新对象列表中的关键对象矩形框放置于空闲区域列表中的空闲区域中，直到待放置关键对象矩形框无法从空闲区域列表中选取出可放置的空闲区域，待放置空闲帧完成合成形成合成帧。多次重复上述单个合成帧合成过程即可实现依次将所有所获取的关键对象识别框放置于多个空闲帧的目的。

更进一步地，按预设放置方式依次将更新对象列表中的关键对象矩形框放置于空闲区域列表中的空闲区域中包括：将更新对象列表中首个关键对象矩形框确定为待放置关键对象矩形框；按次序从空闲区域列表中筛选出一个长度和宽度分别大于待放置关键对象矩形框的长度和宽度的空闲区域，作为待放置空闲区域；将待放置关键对象矩形框放置于待放置空闲区域的左上角，并记录待放置关键对象矩形框的放置位置信息；对待放置区域进行分割，获取新的空闲区域并将其保存到空闲区域列表中；将待放置空闲区域从空闲区域列表中剔除，将当前待放置关键对象矩形框从更新对象列表中剔除，并重新确定待放置关键对象矩形框，重复上述过程，直到待放置关键对象矩形框无法从空闲区域列表中选取出可放置的空闲区域，待放置空闲帧即完成合成形成合成帧。其中放置位置信息包括已放置的待放置关键对象矩形框在待放置空闲帧中左上角坐标信息和右下角坐标信息。

优选地，对待放置区域进行分割包括：获取待放置关键对象矩形框与待放置空闲区域的高度差和宽度差；当高度差大于宽度差时，将放置有待放置关键对象矩形框的待放置空闲区域沿待放置关键对象矩形框的底边外沿所在直线进行划分；当高度差小于宽度差时，将放置有待放置关键对象矩形框的待放置空闲区域沿待放置关键对象矩形框的右边外沿所在直线进行划分。

图5示出了本发明实施例一中一个合成帧形成过程的示例图；参考图5所示，对于一个大小为h_O*w_O的待放置关键对象矩形框(假设为关键对象矩形框Ⅰ)，我们需要从空闲区域列表中找到一个大小为h_R*w_R的空闲区域，以满足h_O<h_R且w_O<w_R的条件。此时空闲区域列表中仅包括一个完整的空闲帧A，由于此时空闲帧A满足h_O<h_R且w_O<w_R的条件，因此我们将关键关键对象矩形框Ⅰ放置在待放置空闲区域的左上角，并将关键对象矩形框Ⅰ的放置位置信息记录在更新对象列表中。

通过对待放置区域进行分割的方式对已放置有关键对象矩形框Ⅰ的空闲帧A进行分割，得到空闲区域A1和空闲区域A2，上述分割方式使得空闲区域A1与空闲区域A2的面积差最大化，将空闲帧A从空闲区域列表中剔除，并将空闲区域A1与空闲区域A2保存到空闲区域列表中，同时将关键对象矩形框Ⅰ从更新对象列表中剔除。

假设依次该进行放置的待放置关键对象矩形框为关键对象矩形框Ⅱ，我们从空闲区域列表找到一个大小为h_R*w_R的空闲区域，满足h_O<h_R且w_O<w_R的条件(即空闲区域A2)，然后我们将关键对象矩形框Ⅱ放置在空闲区域A2的左上角，并将关键对象矩形框Ⅱ的放置位置信息记录在更新对象列表中，并完成相应剔除并更新空闲区域列表中的空闲区域。此时我们发现下一个待放置关键对象矩形框已经无法在当前的更新空闲区域列表中找到可放置的空闲区域，此时完成该合成帧的合成。

在上述对象聚合算法中，最理想的情况是将所有的关键对象矩形框都能准确地、无缝隙地装入一个合成帧中。然而，在实际情况下在对象聚合时由于关键对象矩形框的大小不一致无法实现完全无缝隙放置。

需要说的是，放置位置信息获取后可存储于更新对象列表中，即更新对象列表中每剔除一个关键对象矩形框即存储一个对应的放置位置信息。

步骤S105，通过对象拆分算法对所有合成帧识别结果进行拆分，并将拆分结果返还到B类帧图像数据和P类帧图像数据中，得到P类帧图像识别结果和B类帧图像识别结果。

图6示出了本发明实施例一中对象拆分算法的具体过程示意图，参考图6所示，为了获得P类帧图像数据和B类帧图像数据的最终识别结果，我们需要一个对象拆分算法将合成帧的识别结果拆分开，并将拆分后的结果分配到所对应的原始帧图像数据中。具体地，我们会基于所有关键对象矩形框的放置位置信息对所有合成帧识别结果进行拆分，得到所有关键对象矩形框对应的关键对象识别结果；而后再基于所有关键对象矩形框的原始位置信息，分别所有关键对象矩形框对应的关键对象识别结果返还到B类帧图像数据和P类帧图像数据中，进而得到P类帧图像识别结果和B类帧图像识别结果。

本发明实施例提供的基于关键对象拼合的实时视频识别方法，通过将目标视频进行解码并将解码出的I类帧图像数据送入预设深度神经网络中进而得到I类帧图像识别结果，再基于I类帧图像识别结果以及解码出的运动矢量表和帧内预测模式表获取P类帧图像数据和B类帧图像数据中的关键对象矩形框，并将关键对象矩形框聚合成合成帧，之后仅将合成帧送入预设深度神经网络识别，并将识别结果差分并分发回它们所属的帧中，即可完成目标视频的识别任务。即本发明基于关键对象拼合的实时视频识别方法，通过将多个连续视频帧中的关键对象聚合起来并将合成帧作为深度神经网络的输入，进而实现输入到深度神经网络的数据量的减少，即通过挤压掉输入到预设深度神经网络中的非关键信息来减少视频帧所对应的冗余计算，大大节省了目标视频识别任务中的计算工作量，提高了识别任务处理速度和识别准确率。

实施例二

为解决现有技术中存在的上述技术问题，本发明实施例提供了一种基于关键对象拼合的实时视频识别装置。

图7示出了本发明实施例二基于关键对象拼合的实时视频识别装置的结构示意图，参考图7所示，本发明实施例基于关键对象拼合的实时视频识别装置包括依次连接的解码模块、I类帧图像识别结果获取模块、关键对象矩形框获取模块、聚合模块和拆分并返回模块。

其中，解码模块用于通过预设视频解码器对目标视频进行解码，获取目标视频的I类帧图像数据、P类帧图像数据、B类帧图像数据、运动矢量表和帧内预测模式表；

I类帧图像识别结果获取模块用于将I类帧图像数据输入到预设深度神经网络中，得到I类帧图像识别结果；

关键对象矩形框获取模块用于基于I类帧图像识别结果、运动矢量表和帧内预测模式表，通过对象追踪算法获取P类帧图像数据中的所有关键对象矩形框和B类帧图像数据中的所有关键对象矩形框；

聚合模块用于通过对象聚合算法对所获取的关键对象矩形框进行聚合得到多个合成帧，并将所有合成帧输入到预设深度神经网络中得到多个合成帧识别结果；

拆分并返回模块用于通过对象拆分算法对所有合成帧识别结果进行拆分，并将拆分结果返还到B类帧图像数据和P类帧图像数据中，得到P类帧图像识别结果和B类帧图像识别结果。

本发明实施例提供的基于关键对象拼合的实时视频识别装置，通过将目标视频进行解码并将解码出的I类帧图像数据送入预设深度神经网络中进而得到I类帧图像识别结果，再基于I类帧图像识别结果以及解码出的运动矢量表和帧内预测模式表获取P类帧图像数据和B类帧图像数据中的关键对象矩形框，并将关键对象矩形框聚合成合成帧，之后仅将合成帧送入预设深度神经网络识别，并将识别结果差分并分发回它们所属的帧中，即可完成目标视频的识别任务。即本发明基于关键对象拼合的实时视频识别装置，通过将多个连续视频帧中的关键对象聚合起来并将合成帧作为深度神经网络的输入，进而实现输入到深度神经网络的数据量的减少，即通过挤压掉输入到预设深度神经网络中的非关键信息来减少视频帧所对应的冗余计算，大大节省了目标视频识别任务中的计算工作量，提高了识别任务处理速度和识别准确率。

实施例三

为解决现有技术中存在的上述技术问题，本发明实施例还提供了一种存储介质，其存储有计算机程序，该计算机程序被处理器执行时可实现实施例一中基于关键对象拼合的实时视频识别方法中的所有步骤。

基于关键对象拼合的实时视频识别方法的具体步骤以及应用本发明实施例提供的可读存储介质获取的有益效果均与实施例一相同，在此不在对其进行赘述。

需要说明的是：存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

实施例四

为解决现有技术中存在的上述技术问题，本发明实施例还提供了一种终端。

图8示出了本发明实施例四终端的结构示意图，参照图8所示，本实施例终端包括相互连接的处理器及存储器；存储器用于存储计算机程序，处理器用于执行存储器存储的计算机程序，以使终端执行时可实现实施例一基于关键对象拼合的实时视频识别方法中的所有步骤。

基于关键对象拼合的实时视频识别方法的具体步骤以及应用本发明实施例提供的终端获取的有益效果均与实施例一相同，在此不在对其进行赘述。

需要说明的是，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。同理处理器也可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于关键对象拼合的视频识别方法，包括：

基于所述I类帧图像识别结果、所述运动矢量表和所述帧内预测模式表，通过对象追踪算法获取所述P类帧图像数据中的所有关键对象矩形框和所述B类帧图像数据中的所有关键对象矩形框；

2.根据权利要求1所述的方法，其特征在于，基于所述I类帧图像识别结果、所述运动矢量表和所述帧内预测模式表，通过对象追踪算法获取所述P类帧图像数据中的所有关键对象矩形框和所述B类帧图像数据中的所有关键对象矩形框步骤包括：

3.根据权利要求2所述的方法，其特征在于，通过预设恢复操作获取单帧P帧图像数据的临时识别结果或单帧B帧图像数据的临时识别结果包括：

4.根据权利要求2所述的方法，其特征在于，遍历单帧图像数据的临时识别结果，获取该帧图像数据中的关键分割小块，基于该帧图像数据中的关键分割小块获取该帧图像数据中的关键对象识别框包括：

5.根据权利要求4所述的方法，其特征在于，通过对象聚合算法对所获取的关键对象矩形框进行聚合得到多个合成帧包括：

将所有关键对象矩形框依次排列形成更新对象列表；

6.根据权利要求5所述的方法，其特征在于，按预设放置方式依次将所述更新对象列表中的关键对象矩形框放置于所述空闲区域列表中的空闲区域中包括：

7.根据权利要求6所述的方法，其特征在于，对所述待放置区域进行划分包括：

8.一种基于关键对象拼合的视频识别装置，其特征在于，包括依次连接的解码模块、I类帧图像识别结果获取模块、关键对象矩形框获取模块、聚合模块和拆分并返回模块；

所述关键对象矩形框获取模块，用于基于所述I类帧图像识别结果、所述运动矢量表和所述帧内预测模式表，通过对象追踪算法获取所述P类帧图像数据中的所有关键对象矩形框和所述B类帧图像数据中的所有关键对象矩形框；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至7中任一项所述基于关键对象拼合的视频识别方法。

10.一种终端，其特征在于，包括：处理器及存储器；