CN116343080A

CN116343080A - 一种动态稀疏关键帧视频目标检测方法、装置及存储介质

Info

Publication number: CN116343080A
Application number: CN202310142065.9A
Authority: CN
Inventors: 李�浩; 杜明辉; 廖平
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-27

Abstract

本发明公开了一种动态稀疏关键帧视频目标检测方法、装置及存储介质，本发明利用视频帧之间的高度关联性，提出了一种基于关键帧目标匹配，非关键帧利用匹配结果进行插值预测的实时视频目标检测后处理方法，通过帧间目标的位移速度自适应地调整关键帧间隔，并计算目标框匹配分数和视频帧间的直方图相似度用以约束后处理算法生效的时机，在牺牲较小的精度的情况下可以大幅提升视频目标检测速度。本发明方法可以广泛应用到所有静态目标检测器上。

Description

一种动态稀疏关键帧视频目标检测方法、装置及存储介质

技术领域

本发明涉及目标检测领域，尤其涉及一种动态稀疏关键帧视频目标检测方法、装置及存储介质。

背景技术

随着人工智能的不断发展，以卷积神经网络为代表的深度学习模型在计算机视觉这一方向得到了广泛的研究。目标检测作为计算机视觉的热门研究领域，在例如人脸识别，自动驾驶，智能安防，医疗辅助，传统工业等都有广泛的应用。现有目标检测算法又可以进一步分为双阶段目标检测和单阶段目标检测两类，前者是先产生候选框区域，再进行分类，代表性算法如Faster-RCNN、Mask-RCNN算法等，后者是直接对目标的类别和位置进行回归，如YOLO系列算法等。为了满足实时目标检测的帧率要求，常采用速度快，参数少的YOLO以及MobileNet等神经网络算法。

借助于图形处理器(GPU)，上述目标检测算法的推理速度已经能够达到实时要求，但随着物联网技术的发展，在各类边缘计算设备上部署目标检测算法的需求也越来越多，受到成本和算力等诸多限制，现有目标检测算法的部署仍超出大部分边缘设备硬件的能力，特别是对实时性要求更高的视频目标检测。相比于静态图像，视频具有丰富的上下文和时序信息可以利用，在一定的帧间隔内，目标的位置和外观不会发生剧烈变化，因此可以充分利用视频的特性，改善现有目标检测器的性能。目前提升视频目标检测速度的方法主要有以下几种：(1)只在稀疏的关键帧上进行复杂的神经网络推理，非关键帧利用光流网络计算目标的光流，引导关键帧的特征传播到非关键帧，或者对非关键帧重新设计新的小型网络，但是计算量同样较大，在背景多变的情况下光流网络也容易导致信息丢失，降低准确率。(2)对静态目标检测结果进行后处理，如T-CNN将检测与跟踪结合，利用目标跟踪算法对生成的候选框进行跟踪生成链接序列，并对检测结果重评分。Seq Bbox Matching利用目标框之间的联合交集对关键帧目标进行匹配，通过跨视频帧链接生成tubelets，并使用这些链接优化检测结果。

综上所述，现已有方法大多是建立在离线视频的基础上，需要用到当前帧和未来帧的推理信息，较少能够处理实时视频流时下的目标检测，实现过程也相对复杂，在实际监控等复杂多变的场景下，算法的性能也会受到较大影响。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种动态稀疏关键帧视频目标检测方法、装置及存储介质。

本发明所采用的技术方案是：

一种动态稀疏关键帧视频目标检测方法，包括以下步骤：

S1、初始化检测参数，所述检测参数包括关键帧间隔值d、目标框匹配阈值和图像相似度阈值；

S2、实时获取视频数据中第t帧图像，判断所述第t帧图像是否为关键帧；

S3、若第t帧图像是关键帧，采用预设网络模型对该关键帧进行目标检测，获得第一目标检测结果；将获得的第一目标检测结果与预保存中的第二目标检测结果进行匹配，获得目标框匹配相似度，判断目标框匹配相似度是否高于所述目标框匹配阈值；

S5、若目标框匹配相似度高于或等于所述目标框匹配阈值，根据第一目标检测结果和第二目标检测结果预测并保存第t帧至第t+d帧之间若干帧图像的目标框检测结果；以及根据所述第一目标检测结果更新所述第二目标检测结果；

S6、若目标框匹配相似度低于所述目标框匹配阈值，保存第一目标检测结果，重新初始化检测参数，获取下一帧图像并返回执行步骤S2；

S7、若第t帧图像不是关键帧，计算所述第t帧图像与第t-1帧图像的直方图相似度，判断直方图相似度是否高于所述图像相似度阈值；

S8、若直方图相似度高于或等于所述图像相似度阈值，根据保存中的目标框检测结果获取所述第t帧的检测结果；

S9、若直方图相似度低于所述图像相似度阈值，采用预设网络模型对该第t帧进行目标检测，获得并保存目标检测结果；重新初始化检测参数，获取下一帧图像并返回执行步骤S2。

进一步地，所述目标框匹配相似度通过以下方式计算获得：

match score＝∑IoU_ij*(conf_i+conf_j)/l

其中，IoU_ij表示两帧图像的目标框的IoU值，conf_i表示第一帧图像检测到的目标框的置信度分数，conf_j表示第二帧图像检测到的目标框的置信度分数，l是两针图像之间匹配的目标个数。

进一步地，所述根据第一目标检测结果和第二目标检测结果预测并保存第t帧至第t+d帧之间若干帧图像的目标框检测结果这一步骤之前，还包括以下步骤：

计算第t帧图像与保存的上一关键帧图像之间的直方图相似度；

若计算的直方图相似度高于或等于图像相似度阈值，则执行根据第一目标检测结果和第二目标检测结果预测并保存第t帧至第t+d帧之间若干帧图像的目标框检测结果这一步骤；

若计算的直方图相似度低于图像相似度阈值，则保存第一目标检测结果，重新初始化检测参数，获取下一帧图像并返回执行步骤S2。

进一步地，所述直方图相似度的计算公式为：

其中，H₁,H₂表示两帧图像的直方图，

表示直方图数据均值，H₁(I),H₂(I)表示直方图数据矩阵，N表示直方图子区段bin的数量。

进一步地，所述根据第一目标检测结果和第二目标检测结果预测并保存第t帧至第t+d帧之间若干帧图像的目标框检测结果，包括：

设第二目标检测结果为为：

第一目标检测结果为/>

m，n为各自目标框数量，其中/>

为目标框的中心点坐标，/>

为目标框的宽，/>

为目标框的高；

计算未来第k帧的目标框中心点的坐标：

式中，N为匹配目标框数量，d₂为上一次的关键帧间隔；

根据计算获得的目标框中心点的坐标，以及第一目标检测结果或者第二目标检测结果中目标框的宽高，获得未来第k帧图像的的目标框检测结果。

进一步地，所述步骤S5还包括调整关键帧间隔值的步骤：

计算匹配目标框中心位置的平均单帧位移Δw：

根据平均单帧位移Δw与预设的运动速度值进行比对，并根据比对结果对关键帧间隔值进行增大处理或者进行调小处理。

进一步地，所述初始化检测参数，包括：

对前d帧图像均采用预设网络模型进行目标检测，并保存目标检测结果。

进一步地，在采用预设网络模型对图像进行目标检测之后，还包括以下步骤：

采用NMS算法对检测到的目标框进行处理，获得每个目标的类别、置信度、目标框中心点坐标和宽高，作为目标检测结果。

在预测非关键帧的目标检测结果时，目标框的宽高保持不变，置信度和类别采用最大化策略，预测得到的目标检测结果为

本发明所采用的另一技术方案是：

一种动态稀疏关键帧视频目标检测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明利用视频帧之间的高度关联性，提出了一种基于关键帧目标匹配，非关键帧利用匹配结果进行插值预测的实时视频目标检测后处理方法，并计算目标框匹配分数和视频帧间的直方图相似度用以约束后处理算法生效的时机；本发明方法可以应用到所有静态目标检测器上，在牺牲较小的精度的情况下可以大幅提升视频目标检测速度。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种动态稀疏关键帧视频目标检测方法的流程图；

图2是本发明实施例中目标框匹配算法的示意图；

图3是本发明实施例中一种动态稀疏关键帧视频目标检测方法的框架图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

针对现有的技术问题，设计一种复杂度低同时能够满足实时性要求的视频目标检测方法是解决边缘计算设备算力不足问题的关键。本发明与现有先进的静态目标检测算法相结合，通过计算视频匹配帧间目标的位移速度，动态自适应地决定关键帧的间隔，非关键帧检测结果用双线性插值算法得出，并加入视频帧间相似度评价用以约束预测结果，降低视频场景突变的影响，能够已非常小的计算代价和精度损失，大幅提升视频目标检测的速度，并且可以应用到所有的静态目标检测器上。

如图1和图3所示，本实施例提供一种动态稀疏关键帧视频目标检测方法，包括以下步骤：

以下结合具体实施例对上述方法进行详细解释说明。

本实施例是以静态目标检测器为基础的，在权衡现有目标检测算法的速度与精度后，可采用单阶段目标检测算法yolov4为基准模型。与现有的工作类似，本发明实施例利用标准ImageNet VID和ImageNet DET两个数据集作为训练和测试。ImageNet VID数据集包含3862个训练集和555个验证集，数据集中有30个类别，ImageNet DET是具有200个类别的大型目标检测数据集，我们只用到和ImageNet VID类别相同的数据。考虑到数据集的大小和视频的冗余性，我们只从中随机抽取了12个类别的数据，每个视频随机抽取1/10帧用以训练。通过训练，可以获得一个基础的目标检测模型，具体地，可以利用opencv工具获取第t时刻的视频帧I_t信息作为该模型的输入。

参见图1，首先设置动态关键帧间隔的初始值以及目标框匹配和图像相似度分数的阈值，在本实施例中关键帧间隔初值设为d＝3，目标框匹配和图像相似度分数的阈值分别为0.1和0.5。为了进行实时的后处理，本实施例只用到当前帧和历史帧的检测结果，在初始目标框匹配中，前d帧均采用基础目标检测器推理，当帧计数器到达关键帧间隔时，当前第t帧判定为关键帧，利用基础目标检测器推理，再经过NMS算法后获得每个目标的类别、置信度、目标框中心点坐标和宽高的检测结果，记为(class,conf,x,y,w,h)。

每次关键帧到来时我们会保存关键帧的检测结果作为下一次关键帧匹配的数据。随后，我们进行当前第t帧和历史第t-d帧目标框的匹配。目标框匹配算法具体如下：

第t-d帧的目标框信息记为:

第t帧的目标框信息记为:

其中，m，n为各自目标框数量，

计算目标框的交并比矩阵:

交并比是用来描述两个框之间的重合度的，交并比越大，重合度越高，上述步骤将两帧间的目标框两两匹配计算其IoU，计算出来的IoU矩阵作为目标框匹配的距离矩阵，由于该目标框匹配近可以近似于二分图的最大权匹配问题，采用KM算法可以计算得出最后的匹配对结果。

如图2所示，由于实际场景复杂多变，在得到匹配结果后，关键帧与关键帧之间的检测结果也可能差别很大，只根据IoU值去判断目标之间是否完全匹配，有时并不可信。因此本实施例方法将匹配目标的IoU值与各自置信度分数进行加权，计算得出本次的匹配分数，用以进一步约束匹配结果，如下所示：

match score＝∑IoU_ij*(conf_i+conf_j)/l (2)

其中，l是关键帧与关键帧之间匹配的目标个数，conf_i,conf_j分别为两个图像上检测框的置信度。

在得到关键帧的匹配信息后，接下来介绍本实施例的图像相似度评价模块。在真实世界场景下，连续视频帧之间可能会出现场景或目标的突变，这时候关键帧匹配或者非关键帧预测的结果就会发生错误，进而影响检测准确率。为了防止此类情形，本实施例采用了计算复杂度低的图像直方图相似度作为评价约束，当前帧为关键帧时，计算第t-n帧图像与当前第t帧图像直方图的相似度，具体步骤如下：

1)计算两帧的直方图矩阵H₁,H₂。

2)计算直方图的巴士距离：

distance为两帧直方图相似度分数，当匹配可信度或者相似度分数有一个未达到设定阈值，则放弃后面的动态关键帧插值模块，重新进入初始化操作。当满足上述两个约束条件后，就进行动态关键帧间隔d的选取以及未来d帧预测结果的计算和保存。

基于视频帧上下文连续性特点，可以认为在间隔很短的连续帧序列中，物体是近似做匀速运动的，物体的位置信息变动很小，如果所有帧都使用基础目标检测器推理，会造成大量无用计算，降低视频目标检测的速度，与之前的视频目标检测方法类似，本实施例在非关键帧上放弃基础目标检测器的推理，进而设计了一种低复杂度的动态关键帧插值方法，根据前面匹配的第t-d帧和第t帧关键帧的检测结果(class,conf,x,y,w,h)，可以计算出匹配目标框中心位置的平均单帧位移Δw：

其中

N为匹配目标框数量，d₂为上一次的关键帧间隔，关键帧的间隔根据Δw的大小动态选择。

作为一种可选的实施方式，本实施例根据位移大小将目标运动速度分为三个等级：slow、middle、fast，慢速运动下的目标由于其位置相对固定，间隔帧的大小可以设置的更大，而对于快速运动的目标，位置变动较大，如果采用固定关键帧间隔的方法，当关键帧间隔设置较大时，容易造成目标漂移等错误预测结果，根据目标运动速度将关键帧的间隔限制在对应的三个速度区域中，每次关键帧到来时都会更新间隔帧值，在提升视频目标检测速度的情况下，精度损失会更少。本发明方法设置的初始关键帧阈值为3，对应三个速度等级的间隔值分别为1，2，3，关键帧间隔的阈值不限于3，可以根据实际场景需要改变阈值大小，当初始阈值设置更大时，检测速度会更快，但检测精度也会在一定程度上降低，需要根据使用场景作出速度和精度的权衡。

进一步地，关键帧插值策略具体如下：

计算未来d_cur-1帧的目标框中心点的位置：

目标框的宽高保持不变，置信度和类别采用最大化策略，选取匹配帧目标框置信度分数高的作为预测框的分数和类别。最后将预测的结果为：

保存并输出当前帧的检测结果。

当非关键帧到来时，首先进入图像相似度评价模块，即计算当前帧与上一帧的直方图相似度，计算方式同上。当相似度分数超过设定值时，认为该帧与关键帧在同一场景下，直接查询在关键帧插值模块保存的预测结果而无需再进行复杂的神经网络推理过程，当相似度分数低于设定值时，放弃当前非关键帧的预测结果，利用基础目标检测器重新检测，并且重新初始化参数，进入到下一次的关键帧匹配中。至此在实时视频流下的一帧图像检测过程已经完成，后续视频帧重复当前步骤即可。

本实施例方法在ImageNet-VID数据集的子集上进行了训练和测试，关键帧间隔初始阈值为3，目标框匹配分数设置为0.1，图像相似度阈值为0.5，测试结果如表1所示，检测速度提升了70％左右，而精度仅损失1％左右。

表1

methods	mAP(％)	Run times(ms)
			yolov3	74.33	17.5
yolov3+动态关键帧策略	73.16	9.4
			yolov4	74.45	34.5
yolov4+动态关键帧策略	73.21	24.6

综上所述，本发明方法在现有基础目标检测器的基础上，设计了一种轻量级的实时视频目标检测后处理算法，本发明方法用到的基础目标检测器包括但不限于yolo系列算法，理论上可以应用到任何一种目标检测算法中，设计的动态关键帧匹配模块以及图像相似度约束模块可以在损失较少精度的情况下，大幅提升视频目标检测速度，部署方式简单，可以很好地应用于边缘计算设备中的目标检测，另外根据实际使用场景可以有选择地调整关键帧间隔以及相似度的阈值，从而在精度和速度之间达到更好的平衡。

本实施例还提供还提供一种动态稀疏关键帧视频目标检测装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示方法。

本实施例的一种动态稀疏关键帧视频目标检测装置，可执行本发明方法实施例所提供的一种动态稀疏关键帧视频目标检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种动态稀疏关键帧视频目标检测方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。