WO2024109902A1

WO2024109902A1 - 一种基于视频超分辨率的多目标识别方法和装置

Info

Publication number: WO2024109902A1
Application number: PCT/CN2023/133779
Authority: WO
Inventors: 陈巍; 王珏; 焦国华; 罗栋; 赵琦
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2022-11-25
Filing date: 2023-11-23
Publication date: 2024-05-30
Also published as: CN118097482A

Abstract

本申请实施例提供了一种基于视频超分辨率的多目标识别方法、装置、电子设备及存储介质，涉及计算机技术领域。其中，该方法包括：获取原始视频；基于所述原始视频提取得到的特征，对所述原始视频进行视频超分辨率重建，将低分辨率的所述原始视频恢复为高分辨率的待识别视频；对各所述待识别图像中的至少一个目标对象进行目标检测，得到各所述目标对象的检测结果；确定与各所述目标对象所属类别相适配的目标识别模型，分别调用与不同所述目标对象所属类别相适配的目标识别模型，对包含所述目标对象的所述待识别图像进行目标识别，得到各所述目标对象的识别结果。本申请实施例解决了相关技术中目标识别的准确率低下的问题。

Description

一种基于视频超分辨率的多目标识别方法和装置

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种基于视频超分辨率的多目标识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的不断发展，各种各样的新算法和新模型被提出。其中的有许多新兴技术可以被运用到人的生产生活当中，比如目标识别可以帮助人们在整体背景中发现较难察觉的物体，或与其它模块相互配合，完成自动化的生产或者处理过程。

其中，各种目标识别技术已经在监控视频分析等方面具有初步运用，然而，现有的目标识别技术对监控视频的分辨率有较高的要求，若监控视频的视频分辨率过低，目标识别无法得到准确的识别结果。但是，由于监控设备的分辨率问题，监控视频的分辨率不高，通过更换更先进的监控设备获取监控视频，可以提高监控视频的分辨率，但是经济成本过高。

由上可知，对视频进行目标识别的准确率不高成为了亟需解决的问题。

技术问题

本申请各实施例提供了一种基于视频超分辨率的多目标识别方法、装置、电子设备及存储介质，可以解决相关技术中存在的对视频进行目标识别的准确率不高的问题。

技术解决方案

根据本申请实施例的一个方面，一种基于视频超分辨率的多目标识别方法，包括：获取原始视频；基于所述原始视频提取得到的特征，对所述原始视频进行视频超分辨率重建，将低分辨率的所述原始视频恢复为高分辨率的待识别视频；所述待识别视频包括多帧待识别图像；对各所述待识别图像中的至少一个目标对象进行目标检测，得到各所述目标对象的检测结果，其中，所述目标对象的检测结果至少包括所述目标对象所属类别；确定与各所述目标对象所属类别相适配的目标识别模型，分别调用与不同所述目标对象所属类别相适配的目标识别模型，对包含所述目标对象的所述待识别图像进行目标识别，得到各所述目标对象的识别结果。

根据本申请实施例的一个方面，一种基于视频超分辨率的多目标识别方法，包括：视频获取模块，用于获取原始视频；视频超分辨率模块，用于基于所述原始视频提取得到的特征，对所述原始视频进行视频超分辨率重建，将低分辨率的所述原始视频恢复为高分辨率的待识别视频；所述待识别视频包括多帧待识别图像；目标检测模块，用于对各所述待识别图像中的至少一个目标对象进行目标检测，得到各所述目标对象的检测结果，其中，所述目标对象的检测结果至少包括所述目标对象所属类别；目标识别模块，用于确定与各所述目标对象所属类别相适配的目标识别模型，分别调用与不同所述目标对象所属类别相适配的目标识别模型，对包含所述目标对象的所述待识别图像进行目标识别，得到各所述目标对象的识别结果。

根据本申请实施例的一个方面，一种电子设备，包括：至少一个处理器、至少一个存储器、以及至少一条通信总线，其中，存储器上存储有计算机程序，处理器通过通信总线读取存储器中的计算机程序；计算机程序被处理器执行时实现如上所述的多目标识别方法。

根据本申请实施例的一个方面，一种存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上所述的多目标识别方法。

根据本申请实施例的一个方面，一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序存储在存储介质中，计算机设备的处理器从存储介质读取计算机程序，处理器执行计算机程序，使得计算机设备执行时实现如上所述的多目标识别方法。

有益效果

本申请提供的技术方案带来的有益效果是：

在上述技术方案中，基于恢复得到的高分辨率的待识别视频，首先对待识别包含的各待识别图像中目标对象进行目标检测，再基于检测结果选择与各目标对象所属类别相适配的目标识别模型进行目标识别，不仅提升了目标检测与目标识别的效率，并且，基于高分辨的待识别视频进行目标识别，增加了目标识别的准确性，解决了相关技术中存在的对视频进行目标识别的准确率低下的问题。

附图说明

图1是根据本申请所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种基于视频超分辨率的多目标识别方法的流程图；

图3是图2对应实施例中步骤370在一个实施例的流程图；

图4是图2对应实施例中步骤370在一个实施例的流程图；

图5是图2对应实施例中步骤330在一个实施例的流程图；

图6是图5对应实施例中步骤335在一个实施例的流程图；

图7是图5对应实施例中步骤335在一个实施例的结构框图；

图8是图2对应实施例中步骤350在一个实施例的流程图；

图9是图2对应实施例中步骤370之前的步骤在一个实施例的流程图；

图10是一应用场景中一种基于视频超分辨率的多目标识别方法的具体实现示意图；

图11是根据一示例性实施例示出的一种基于视频超分辨率的多目标识别装置的结构框图；

图12是根据一示例性实施例示出的一种服务器的硬件结构图（电子设备为服务器）；

图13是根据一示例性实施例示出的一种电子设备的结构框图。

本发明的实施方式

如前所述，监控视频的视频分辨率过低影响了目标识别的准确率。

目标识别往往对图像或是视频的清晰度具有一定的要求，如果摄像头本身的分辨率不高，那么该目标识别往往较难达到预期的效果。同时，如果识别的目标对象在高速运动过程中，摄像头所获得的图像便会产生模糊，这也将影响目标识别的具体情况，并且，如果目标识别面对的实际环境不佳，例如雾霾、浓雾、阴天，也会影响目标识别的识别结果。

并且，一个较大的项目可能有检测多种目标对象、并对目标对象有多种精细化处理的需求，而一两种神经网络模型较难满足这个需求。

由上可知，相关技术中仍存在对视频进行目标识别的准确率不高的缺陷。

为此，本申请提供的多目标识别方法，能够有效地提升目标识别的准确率，相应地，该多目标识别方法适用于信息推荐装置、该信息推荐装置可部署于配置冯诺依曼体系结构的电子设备，例如，该电子设备可以是台式电脑、笔记本电脑、服务器等等。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1为一种基于视频超分辨率的多目标识别方法所涉及的一种实施环境的示意图。

该实施环境包括采集端110和服务端130。

具体地，采集端110，可以是具有采集图片、视频、多媒体中至少一种或多种数据功能的电子设备，在此不构成具体限定。

服务端130，该服务端130可以是台式电脑、笔记本电脑、服务器等等电子设备，还可以是由多台服务器构成的计算机设备集群，甚至是由多台服务器构成的云计算中心。其中，服务端130用于提供后台服务，例如，后台服务包括但不限于多目标识别服务等等。

服务端130与采集端110之间通过有线或者无线等方式预先建立网络通信连接，并通过该网络通信连接实现服务端130与采集端110之间的数据传输。传输的数据包括但不限于：原始视频等等。

通过采集端110与服务端130的交互，采集端110将原始视频发送给服务端130，服务端130结合视频超分辨率对获取到的原始视频进行处理，便能够完成对目标对象的目标检测与目标识别。

请参阅图2，本申请实施例提供了一种多目标识别方法，该方法适用于电子设备，该电子设备可以是图1所示出实施环境中的服务端130。如图2所示，该方法可以包括以下步骤：

步骤310，获取原始视频。

原始视频是通过视频采集设备对目标对象所在环境进行拍摄和采集得到的。其中，视频采集设备可以是具备视频采集功能的电子设备，例如，摄像机、配置摄像头的智能手机等等。视频采集设备可以部署在目标对象所在环境的四周，例如，若目标对象为人，则视频采集设备可以部署在目标对象会出现的建筑内的廊柱上；若目标对象为车辆，则视频采集设备可以部署在公路边的灯柱上。

关于原始视频的获取，原始视频可以来源于视频采集设备实时拍摄并采集的视频，也可以是预先存储于电子设备的一历史时间段由视频采集设备拍摄并采集的原始视频。那么，对于电子设备而言，在视频采集设备拍摄并采集得到原始视频之后，可以实时处理原始视频，还可以预先存储了再处理，例如，在电子设备的CPU低的时候处理原始视频，或者，根据工作人员的指示处理原始视频。由此，本实施例中的多目标识别可以针对实时获取到的原始视频，也可以针对历史时间段获取到的原始视频，在此并未进行具体限定。

步骤330，基于原始视频提取得到的特征，对原始视频进行视频超分辨率重建，将低分辨率的原始视频恢复为高分辨率的待识别视频。

首先说明的是，由于各种客观原因，例如，视频采集设备分辨率低，原始视频可以存在噪点、分辨率低等影响视频质量的情况。然而，目标检测往往对图像或是视频的清晰度具有一定的要求，如果原始视频的分辨率不高，那么目标检测往往较难达到预期的效果。同时，如果检测的目标对象在高速运动过程中，视频采集设备所获得的原始视频便会产生模糊，这也将影响目标检测的检测结果。

基于此，在进行目标检测之前需要改善原始视频的视频质量。可以通过视频超分辨率模型，提取原始视频的特征，将低分辨率的原始视频恢复为高分辨率的待识别视频，再基于高分辨率的待识别视频进行目标检测，其中，目标检测是以帧图像为单位进行的，待识别视频包括多帧待识别图像。

步骤350，对各待识别图像中的至少一个目标对象进行目标检测，得到各目标对象的检测结果。

如前所述，待识别图像中包括多帧待识别图像，每帧待识别图像所包含的目标对象的类别和数量不一定相同，因此，需要对待识别图像进行目标对象检测，确定各待识别图像中所包含的目标对象。其中，可以使用传统目标检测方法实现目标检测，例如光流法、背景减去法、帧插法等，也可以使用目标检测算法实现目标检测，例如Cascade R-CNN算法、DPM算法、HOG算法等，还可以通过基于深度学习的模型实现目标检测，在此不作限定。其中，目标对象的检测结果至少包括目标对象所属类别，根据分类思想，对于不同类别的目标对象，使用不同的目标识别模型对其进行识别。

步骤370，确定与各目标对象所属类别相适配的目标识别模型，分别调用与不同目标对象所属类别相适配的目标识别模型，对包含目标对象的待识别图像进行目标识别，得到各目标对象的识别结果。

如前所述，检测结果至少包括目标对象所属类别，所属类别可以是车辆、人物、植物等，关于对不同类别的目标对象进行目标识别，可以通过目标识别算法实现，也可以通过基于深度学习训练得到的机器学习模型实现。

关于通过基于深度学习训练得到的机器学习模型进行目标识别，可以理解，不同的目标识别模型基于不同类别的目标对象训练而成，因此，利用与目标对象所属类别相适配的目标模型对该类别的目标对象进行识别，识别效果更好。

例如，若检测得到的目标对象所属类别为车辆，则将该目标对象输入车辆识别模型，若检测得到的目标对象所属类别为人物，则将该目标对象输入人脸识别模型，通过调用与不同目标对象所属类别相适配的目标识别模型对目标对象进行目标识别，可以同时完成对多种类别目标对象的目标识别，加快得到目标识别的速度。

在一个可能的实现方式，目标识别模型包括人脸识别模型，人脸识别模型是经训练得到的、且具有对目标图像进行识别的能力的机器学习模型，如图3所示，步骤370可以包括以下步骤：

步骤410，对目标图像中人脸区域中的人脸关键点进行定位。

步骤430，基于定位得到的人脸关键点，从目标图像中分割出包含人脸的人脸区域图像。

步骤450，将人脸区域图像映射至欧式空间。

步骤470，基于人脸区域图像中人脸与样本图像中人脸的相似度，得到针对人物区域图像中人脸的识别结果。

首先说明的是，目标图像可以是人脸图像、也可以是人物图像，其中，人物图像包含人物的身体区域以及人脸区域，人脸识别模型针对目标图像的人脸区域进行识别，以此获取该目标对象的识别结果。因此，若目标对象是人物图像，首先对人物图像的进行检测，得到人物图像的人脸区域图像。进一步地，还可以结合待识别视频相邻帧图像之间的相似性，来捕获行走的人物中的人脸区域，在此不作限定。关于人脸关键点，是指针对人脸区域，定位出人脸面部的关键区域位置，包括眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。可以理解，人脸关键点可以用于将人脸区域图像从目标图像中分割出来。

需要说明的是，欧式空间包括目标对象的人脸区域图像与人脸识别模型中各样本图像之间的距离，人脸区域图像在欧式空间中的距离用于指示人脸区域图像中人脸与样本图像中人脸的相似度；样本图像是指用于训练人脸识别模型的人脸区域图像。可以理解，相似度越高，该样本图像是该目标对象的识别结果的可能性越高，因此，可以选定相似度最高的样本图像为识别结果，当然，人脸识别模型中提供的样本图像不一定包括该目标对象的识别结果，那么，为了避免相似度最高的样本图像不是识别结果而造成误识别的情况出现，可以为相似度配置设定阈值，当样本图像与人脸图像之间的相似度最高且超过设定阈值时，该样本图像是该目标对象的识别结果，利用欧式空间映射的方法得到识别结果的方法，可以有效地提升人脸识别的准确率。

其中，该识别结果可以包括目标对象的身份信息，例如姓名、年龄、职业等，在此不作限定。

在一个可能的实现方式，目标识别模型包括车牌识别模型，车牌识别模型是经训练得到的、且具有对目标图像进行识别的能力的机器学习模型，如图4所示，步骤370可以包括以下步骤：

步骤510，通过车牌识别模型的各网络层，对目标图像进行特征提取，得到目标图像的特征序列。

步骤530，通过车牌识别模型对特征序列进行映射，得到针对目标图像的识别结果。

其中，特征序列包括目标图像的多个特征，目标图像可以是车牌图像，也可以是车辆图像，在此不作限定。进一步地，目标图像的各特征用于指示车牌图像/车辆图像中的字符信息。车牌识别模型主要是针对车辆的车牌进行识别，可以理解，不同车辆的车牌是唯一的，因此，可以针对车辆图像的车牌区域进行字符识别，以此得到对目标对象（车辆）的识别结果。

关于对特征序列的映射，是指通过车牌识别模模型利用样本图像中字符的上下文结构对特征序列进行映射，以输出一个带有概率的预测序列，其用于指示车牌区域各字符的最大可能性，也就是说，通过该预测序列，可以得到对目标图像的识别结果，即车辆的车牌号。其中，样本图像是指用于训练车牌识别模型的车牌图像。

需要说明的是，车牌识别模型输入的特征序列长度与目标图像宽度相关，而车牌识别模型输出的预测序列长度与样本图像宽度相关，由于特征序列长度与预测序列长度可能存在差异，可能会导致车牌识别模型无法得到正确的识别结果。基于此，可以在车牌识别模型的训练中引入损失函数，用于解决车牌识别模型的输入序列与输出序列不对齐的问题，例如，可以选用免分割的CTC损失函数对车辆识别模型进行端到端的训练。

通过上述过程，基于恢复得到的高分辨率的待识别视频进行目标检测，提升了目标检测与目标识别的效率，并且，基于高分辨的待识别视频进行目标识别，增加了目标识别的准确性，解决了相关技术中存在的对视频进行目标识别的准确率过低的问题。

请参阅图5，在一示例性实施例中，步骤330可以包括以下步骤：

步骤331，对原始视频进行特征提取，得到原始视频的浅层特征。

首先说明的是，对于原始视频中各原始图像而言，包含了各原始图像的浅层特征和深层特征。其中，浅层特征可以通过浅层网络结构提取得到，其分辨率高，包含更多位置、细节信息。可以理解，为了对原始视频进行视频超分辨率重建，不能缺少浅层特征中的位置、细节信息。关于浅层特征提取，可以通过卷积提取原始视频的浅层特征，例如，2D卷积。

步骤333，将原始视频划分为多个原始视频片段。

首先说明的是，同一个目标对象在原始视频的不同帧图像中包含的特征是不一样的，可以理解，利用同一个目标对象在多帧图像的特征对该目标对象进行恢复的恢复效果，会比仅利用该目标对象在一帧图像的特征进行恢复的恢复效果好。那么，为了利用原始视频多帧图像的特征对原始视频进行视频超分辨率重建，有必要将多帧图像的特征进行融合。可以通过对齐的方法和不对齐的方法实现帧间特征融合。

其中，在不对齐的方法，对于不同帧而言，同一个目标对象随着时间推进位置会发生变化，姿态也会产生一定的形变。如果不对运动中的目标对象进行对齐的话，可能会出现输入的多帧视频同一目标对象出现在不同位置的情况。这就要加深网络结构，以更大感受野，才能提取到运动范围较大的相同的特征；在对齐的方法，是将不同帧的同一个目标对象（位置发生变化的）对齐到同一位置，使得目标对象都处在相同位置，方便提取到目标对象尽可能多的特征。

由上可知，在进行深层特征提取之前，可以通过对原始视频进行移帧处理，将同一个目标对象对齐到同一个位置，以此将原始视频各帧图像的各目标对象都对齐。基于该移帧操作，得到若干个原始视频片段，各原始视频片段之间不重叠、且各原始视频片段均包括原始视频中连续的至少两帧原始图像。并且，将原始视频划分为不重叠的视频片段且并行运行，能降低特征提取时的计算量，提升效率。

步骤335，利用并行超分机制中的各个阶段，进行针对各原始视频片段中连续原始图像的特征传播，得到各原始视频片段的深层特征；每一个阶段对应一种尺度，各阶段包括时间相互自注意力模块和/或平行扭曲模块。

如前所述，浅层特征包含更多位置、细节信息，但是，特征提取时经过的卷积更少，其语义性更低，噪声更多。在进行视频超分辨率重建时，原始视频中的语义信息也至关重要，那么，也需要获取原始视频中的语义信息。而各原始图像的深层特征包含了丰富的语义信息，通常是图像整体性的信息。也就是说，可以通过提取原始视频中各原始图像的深层特征，以获取原始视频中的语义信息。

步骤337，基于得到的浅层特征和深层特征，为原始视频中各原始图像并行地进行特征重建，得到待识别视频。

其中，特征重建是同时从原始视频中各原始图像的浅层特征和深层特征的相加中进行特征重建，其中，不同帧的原始图像是根据与其对应的浅层特征和深层特征独立地进行重建的，因此，在进行特征重建时，可以并行地进行，再根据特征重建后得到的各原始图像的高清特征，将低分辨率的原始视频恢复为高分辨率的待识别视频。

关于深层特征提取，在一个可能的实现方式，如图6所示，步骤335包括以下步骤：

步骤3351，在对应不同尺度的多个阶段，利用阶段中的时间相互自注意力模块，对各原始视频片段中的连续原始图像进行特征提取，得到各原始视频片段在不同尺度上的特征。

步骤3353，利用与阶段中时间相互自注意力模块串接的平行扭曲模块，各原始视频片段在不同尺度上的特征进行对齐。

步骤3355，在最后一个阶段，利用阶段中的时间相互自注意力模块，对各原始视频片段在不同尺度上的特征进行特征融合，得到各原始视频片段的深层特征。

在进行深层特征提取时，随着下采样次数增加，感受野逐渐增加，感受野之间重叠区域也不断增加，此时的像素点代表的信息是一个区域的信息，获得的是这块区域或相邻区域之间的特征，细节相对不够细腻，但语义信息丰富。

基于此，结合图7的特征提取结构对各原始视频片段中连续原始图像进行特征提取，可以理解，经过一个阶段的特征提取，即增加了一次下采样次数，得到的特征包含更多的语义信息。

具体地，前5个阶段的时间相互自注意力模块用于对原始视频片段的连续原始图像进行目标对象关节运动估计，以完成特征提取；与时间相互注意力模块串接的平行扭曲模块，用于通过对原始视频片段中当前帧原始图像特征与相邻帧原始图像特征进行平行特征变形，以进一步融合当前帧原始图像与相邻帧原始图像的特征；最后一个阶段的时间相互注意力模块用于将前5个阶段提取得到的不同尺度的特征进行特征融合，以得到各原始视频片段的深层特征。

由上可知，由于使用了浅层特征、以及经过多尺度特征提取得到的深层特征进行视频超分辨率重建，待识别视频的分辨率更高、更自然，基于高分辨率的待识别视频进行目标检测，检测结果更准确。并且，经过多尺度特征提取得到的深层特征，包含更多的特征信息，基于该深层特征进行视频恢复，分辨率更高，细节更丰富，效果更好。

请参阅图8，在一示例性实施例中，步骤350可以包括以下步骤：

步骤351，对各待识别图像进行网格化处理，得到各待识别图像对应的网格图像。

步骤353，基于卷积神经网络对各网格单元进行的目标检测，得到各网格单元中的多个预测框及对应的预测参数。

步骤355，基于各预测框的预测参数对各预测框进行筛选，将筛选得到的预测框及对应的预测参数作为各目标对象的检测结果。

其中，网格图像包括多个网格单元，网格化处理是为了基于网格图像的各网格单元，生成多个预测框，这些预测框可以粗略的覆盖待识别图像的整个图像区域，针对这些预测框进行目标检测，得到这些预测框的检测结果，即完成了对待识别图像的目标检测。各个预测框有与之对应的预测参数，其中，预测参数包括对应预测框在网格图像中的位置、用于指示对应预测框中是否存在目标对象的置信度、用于指示对应预测框中存在的目标对象属于不同类别的概率中的至少一种。各预测框的目标检测的检测结果，基于对应的预测参数得到，也就是说，基于预测参数中的置信度确定该预测框中是否存在目标对象，若该置信度指示该预测框中不存在目标对象，则不需要进行进一步判断，若指示存在目标对象，则基于预测参数中的存在的目标对象属于不同类别的概率，确定该目标对象所属类别。

需要说明的是，可以为置信度设定阈值，当置信度超过相应阈值时，对应的预测框存在目标对象；关于概率，可以基于目标对象属于不同类别的概率大小，选择最大概率对应的类别为该目标对象的检测结果，在此不作限定。

如前所述，预测参数中还包括对应预测框在网格图像中的位置，若预测框中存在的目标对象，则该预测框的位置为目标对象的位置，基于此，可以根据该位置从待识别图像中分割出目标对象的图像，该目标对象包括人物、车辆中的至少一种。具体地，如图9所示，在一个可能的实现方式，步骤335之后可以包括以下步骤：

步骤610，基于目标对象的检测结果，获得目标对象在待识别图像中的位置。

步骤630，根据目标对象在待识别图像中的位置，在待识别视频中的各待识别图像中定位包含目标对象的区域。

步骤650，从各待识别图像中分割出包含目标对象的目标图像。

在上述实施例的作用下，可以通过各预测框的预测参数一次性得到各预测框是否存在目标对象，以及目标对象的所属类别，并且，预测参数还包括各预测框的位置，可以通过该位置从待识别图像中分割得到目标对象图像，减少了计算过程，增加目标检测效率，提升了目标检测的速度。

图10是一应用场景中一种基于视频超分辨率的多目标识别方法的具体实现示意图。

通过步骤801，获取原始视频。

通过步骤803，提取原始视频中的特征，基于特征将低分辨率的原始视频恢复为高分辨率的待识别视频。

通过步骤805，基于待识别视频进行目标检测，得到待识别视频中的目标对象以及目标对象所属类别。

通过步骤807，根据目标对象的所属类别选择与类别相适应的目标识别模型。其中，目标对象的所属类别可以是人物、车辆、植物等，可以根据任务的需求配置相应的目标识别模型。

若目标对象为车辆，则通过步骤809，基于车牌识别模型得到待识别视频中各车辆的识别结果。若目标对象为人物，则通过步骤811，基于人脸识别模型得到待识别视频中各人物的识别结果。

通过步骤813，针对待识别视频中所有存在的目标对象进行目标识别，得到识别结果。

在本应用场景中，基于恢复得到的高分辨率的待识别视频进行目标检测，对检测结果进行目标识别，可以快速地、准确地获取待识别视频中所有存在的目标对象的识别结果，在一些特殊的应用场景可以协助搜查目标对象，例如，在刑侦案件中，从低分辨率的监控视频中快速识别犯罪嫌疑人，或者犯罪嫌疑人的车辆。

下述为本申请装置实施例，可以用于执行本申请所涉及的多目标识别方法。对于本申请装置实施例中未披露的细节，请参照本申请所涉及的多目标识别方法的方法实施例。

请参阅图10，本申请实施例中提供了一种多目标识别装置900，包括但不限于：视频获取模块910、视频超分辨率模块930、目标检测模块950、以及目标识别模块970。

其中，视频获取模块910，用于获取原始视频；

视频超分辨率模块930，用于基于所述原始视频提取得到的特征，对所述原始视频进行视频超分辨率重建，将低分辨率的所述原始视频恢复为高分辨率的待识别视频；所述待识别视频包括多帧待识别图像；

目标检测模块950，用于对各所述待识别图像中的至少一个目标对象进行目标检测，得到各所述目标对象的检测结果，其中，所述目标对象的检测结果至少包括所述目标对象所属类别；

目标识别模块970，用于确定与各所述目标对象所属类别相适配的目标识别模型，分别调用与不同所述目标对象所属类别相适配的目标识别模型，对包含所述目标对象的所述待识别图像进行目标识别，得到各所述目标对象的识别结果。

需要说明的是，上述实施例所提供的多目标识别装置在进行目标识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即多目标识别装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的多目标识别装置与多目标识别方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

图11根据一示例性实施例示出的一种服务器的结构示意。该服务器适用于图1所示出实施环境中的服务器200。

需要说明的是，该服务器只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图11示出的示例性的服务器2000中的一个或者多个组件。

服务器2000的硬件结构可因配置或者性能的不同而产生较大的差异，如图11所示，服务器2000包括：电源210、接口230、至少一存储器250、以及至少一中央处理器（CPU, Central Processing Units）270。

具体地，电源210用于为服务器2000上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口，用于与外部设备交互。例如，进行图1所示出实施环境中终端100与服务器200之间的交互。当然，在其余本申请适配的示例中，接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，如图11所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作***251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作***251用于管理与控制服务器200上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作***251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块（图11未示出），每个模块都可以分别包含有对服务器2000的计算机程序。例如，多目标识别装置可视为部署于服务器2000的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是原始视频、待识别视频等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机程序，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机程序的形式来完成多目标识别方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图13，本申请实施例中提供了一种电子设备4000，该电子设备400可以包括：台式电脑、笔记本电脑、服务器等。

在图13中，该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。其中，处理器4001和存储器4003相连，如通过通信总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application Specific Integrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

通信总线4002可包括一通路，在上述组件之间传送信息。通信总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（Extended Industry Standard Architecture，扩展工业标准结构）总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact Disc Read Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003上存储有计算机程序，处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。

该计算机程序被处理器4001执行时实现上述各实施例中的多目标识别方法。

此外，本申请实施例中提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的多目标识别方法。

本申请实施例中提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述各实施例中的多目标识别方法。

与相关技术相比，，基于高分辨的待识别视频进行目标识别，增加了目标识别的准确性，解决了相关技术中存在的对视频进行目标识别的准确率低下的问题，并且，基于目标对象所属类别选定与其相适配的目标识别模型进行目标识别，进一步提升了目标识别的准确性。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

Claims

一种基于视频超分辨率的多目标识别方法，其特征在于，包括：

获取原始视频；

基于所述原始视频提取得到的特征，对所述原始视频进行视频超分辨率重建，将低分辨率的所述原始视频恢复为高分辨率的待识别视频；所述待识别视频包括多帧待识别图像；

对各所述待识别图像中的至少一个目标对象进行目标检测，得到各所述目标对象的检测结果，其中，所述目标对象的检测结果至少包括所述目标对象所属类别；

确定与各所述目标对象所属类别相适配的目标识别模型，分别调用与不同所述目标对象所属类别相适配的目标识别模型，对包含所述目标对象的所述待识别图像进行目标识别，得到各所述目标对象的识别结果。
如权利要求1所述的方法，其特征在于，所述基于所述原始视频进行特征提取，得到若干个视频特征，根据各所述视频特征将低分辨率的所述原始视频重建为高分辨率的待识别视频，包括：

对所述原始视频进行特征提取，得到所述原始视频的浅层特征；

将所述原始视频划分为多个原始视频片段，各所述原始视频片段之间不重叠、且各所述原始视频片段均包括所述原始视频中连续的至少两帧原始图像；

利用并行超分机制中的各个阶段，进行针对各所述原始视频片段中连续原始图像的特征传播，得到各所述原始视频片段的深层特征；每一个阶段对应一种尺度，各阶段包括时间相互自注意力模块和/或平行扭曲模块；

基于得到的浅层特征和深层特征，为所述原始视频中各所述原始图像并行地进行特征重建，得到所述待识别视频。
如权利要求2所述的方法，其特征在于，所述利用并行超分机制中的各个阶段，进行针对各所述原始视频片段中连续原始图像的特征传播，得到各所述原始视频片段的深层特征，包括：

在对应不同尺度的多个所述阶段，利用所述阶段中的时间相互自注意力模块，对各所述原始视频片段中的连续原始图像进行特征提取，得到各所述原始视频片段在不同尺度上的特征；

利用与所述阶段中所述时间相互自注意力模块串接的平行扭曲模块，各所述原始视频片段在不同尺度上的所述特征进行对齐；

在最后一个所述阶段，利用所述阶段中的时间相互自注意力模块，对各所述原始视频片段在不同尺度上的所述特征进行特征融合，得到各所述原始视频片段的深层特征。
如权利要求1至3任一项所述的方法，其特征在于，所述对所述待识别视频的各帧待识别图像中的目标对象进行目标检测，得到检测结果，包括：

对各所述待识别图像进行网格化处理，得到各所述待识别图像对应的网格图像；所述网格图像包括多个网格单元；

基于卷积神经网络对各所述网格单元进行的目标检测，得到各所述网格单元中的多个预测框及对应的预测参数，其中，所述预测参数包括对应预测框在所述网格图像中的位置、用于指示对应预测框中是否存在目标对象的置信度、用于指示对应预测框中存在的目标对象属于不同类别的概率中的至少一种；

基于各所述预测框的预测参数对各所述预测框进行筛选，将筛选得到的预测框及对应的预测参数作为各所述目标对象的检测结果。
如权利要求1至3任一项所述的方法，其特征在于，所述目标对象包括人物、车辆中的至少一种；

所述将包含所述目标对象的待识别图像输入适配到的目标识别模型进行目标识别，得到所述目标对象的识别结果之前，所述方法还包括：

基于所述目标对象的检测结果，获得所述目标对象在所述待识别图像中的位置；

根据所述目标对象在所述待识别图像中的位置，在所述待识别视频中的各所述待识别图像中定位包含所述目标对象的区域；

从各所述待识别图像中分割出包含所述目标对象的目标图像。
如权利要求5所述的方法，其特征在于，所述目标识别模型包括人脸识别模型，所述人脸识别模型是经训练得到的、且具有对所述目标图像进行识别的能力的机器学习模型；

所述将包含所述目标对象的待识别图像输入适配到的目标识别模型进行目标识别，得到所述目标对象的识别结果，包括：

对所述目标图像中人脸区域中的人脸关键点进行定位；

基于定位得到的所述人脸关键点，从所述目标图像中分割出包含人脸的人脸区域图像；

将所述人脸区域图像映射至欧式空间，所述人脸区域图像在所述欧式空间中的距离用于指示所述人脸区域图像中人脸与样本图像中人脸的相似度；所述样本图像是指用于训练所述人脸识别模型的人脸区域图像；

基于所述人脸区域图像中人脸与样本图像中人脸的相似度，得到针对所述人物区域图像中人脸的识别结果。
如权利要求5所述的方法，其特征在于，所述目标识别模型包括车牌识别模型，所述车牌识别模型是经训练得到的、且具有对目标图像进行识别的能力的机器学习模型；

所述将包含所述目标对象的待识别图像输入适配到的目标识别模型进行目标识别，得到所述目标对象的识别结果，包括：

通过所述车牌识别模型的各网络层，对所述目标图像进行特征提取，得到所述目标图像的特征序列；

通过所述车牌识别模型对所述特征序列进行映射，得到针对所述目标图像的识别结果。
一种基于视频超分辨率的多目标识别方法，其特征在于，包括：

视频获取模块，用于获取原始视频；

视频超分辨率模块，用于基于所述原始视频提取得到的特征，对所述原始视频进行视频超分辨率重建，将低分辨率的所述原始视频恢复为高分辨率的待识别视频；所述待识别视频包括多帧待识别图像；

目标检测模块，用于对各所述待识别图像中的至少一个目标对象进行目标检测，得到各所述目标对象的检测结果，其中，所述目标对象的检测结果至少包括所述目标对象所属类别；

目标识别模块，用于确定与各所述目标对象所属类别相适配的目标识别模型，分别调用与不同所述目标对象所属类别相适配的目标识别模型，对包含所述目标对象的所述待识别图像进行目标识别，得到各所述目标对象的识别结果。
一种电子设备，其特征在于，包括：至少一个处理器、至少一个存储器、以及至少一条通信总线，其中，

所述存储器上存储有计算机程序，所述处理器通过所述通信总线读取所述存储器中的所述计算机程序；

所述计算机程序被所述处理器执行时实现权利要求1至7中任一项所述的多目标识别方法。
一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的多目标识别方法。