CN117315530A

CN117315530A - 基于多帧信息的实例匹配方法

Info

Publication number: CN117315530A
Application number: CN202311208924.6A
Authority: CN
Inventors: 朱文祺; 曹家乐; 庞彦伟
Original assignee: Tianjin University; Shanghai AI Innovation Center
Current assignee: Tianjin University; Shanghai AI Innovation Center
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-29
Anticipated expiration: 2043-09-19
Also published as: CN117315530B

Abstract

本发明涉及一种基于多帧信息的实例匹配方法，包括下列步骤：对视频进行基于查询的实例分割；计算实例查询cosine相似性分数；对于上一步骤得到的相似性分数，经过时间加权和Topk两个不同分支的融合，得到最终的相似性分数；将两个分支得到的相似性分数矩阵进行相加，在两个维度上分别经过Softmax函数操作，计算这两个矩阵的平均值，生成相似性分数矩阵作为后续匈牙利算法中的代价矩阵，完成当前帧实例查询的匹配任务。

Description

基于多帧信息的实例匹配方法

技术领域

本发明涉及视频实例分割技术中实例匹配的方法，特别是涉及基于查询的视频实例分割技术中实例匹配的方法。

背景技术

视频实例分割任务在2019年被提出，被定义为同时检测、分割和跟踪视频中的实例，将每个视频帧中的实例从背景和其他实例中精确地分离出来并在视频的不同帧内追踪关联相同实例。视频实例分割技术有着广泛的应用。当下自主驾驶技术正在飞速发展，视频实例分割技术可以帮助自动驾驶车辆更准确地识别前方的交通信号灯、行人、车辆等物体，从而更好地做出驾驶决策。在医疗图像处理领域，视频实例分割技术可以帮助医生更准确地检测和定位肿瘤等问题，提高诊断准确率和诊断效率。除此之外，视频实例分割技术还可以被广泛应用于电影特效制作、虚拟现实、智能监控等视频理解领域。研究视频实例分割技术对于提高计算机视觉技术的水平，推动多媒体信息处理与应用的发展具有重要意义。

视频实例分割技术大致分为两种模式：在线实例实例分割技术和离线型视频实例分割技术。相较于离线型视频实例分割技术，在线视频实例分割技术在处理长视频序列和连续视频序列任务上有着很大的优势，但是分割的准确性却远不如离线型视频实例分割网络，对此Wu^[1]等做了深入分析，证明了因不同实例存在外观相似性而导致的实例关联错误是在线视频实例分割网络与离线型视频实例分割网络在性能上具有较大差距的主要原因。

与视频实例分割任务一同被提出的Mask-track R-CNN^[2]视频实例分割技术将实例匹配问题视为分类问题，用N个数字表示已经存在的N个实例，用0表示未曾出现的实例。SipMask^[3]方法改进了Mask-track R-CNN中实例匹配的方法，从追踪特征图中提取出追踪矩阵进行实例匹配。Compfeat^[4]方法提出了同时考虑特征相似性和基于原始图特征相关的相似性得分模块，提高了实例匹配的准确性。时空GNN^[5]网络的跟踪分支利用图像的边缘特征来关联现有的实例或初始化新的实例。随着Transformer在计算机视觉领域的广泛应用，基于查询的方法逐渐应用到视频实例分割任务上。IDOL^[1]网络和MinVIS^[6]网络都是基于查询的视频实例分割网络。IDOL网络在实例匹配阶段使用时间加权Softmax策略，将前T帧中的实例查询通过时间加权函数产生新的实例查询用于实例匹配，匹配时采用双向Softmax相似性分数。MinVIS网络仅计算当前帧的实例查询与前一帧的实例查询Cosine相似性分数，将其作为匈牙利算法^[7]的代价矩阵即可完成实例匹配。

参考文献：

[1]Wu J,Liu Q,Jiang Y,et al.In defense of online models for videoinstance segmentation[C]//Computer Vision–ECCV 2022:17th European Conference,Tel Aviv,Israel,October 23–27,2022,Proceedings,Part XXVIII.Cham:SpringerNature Switzerland,2022:588-605.

[2]Yang L,Fan Y,Xu N.Video instance segmentation[C]//Proceedings ofthe EEE/CVF International Conference on Computer Vision.2019:5188-5197.

[3]Cao J,Anwer R M,Cholakkal H,et al.Sipmask:Spatial informationpreservation for fast image and video instance segmentation[C]//ComputerVision–ECCV 2020:16th European Conference,Glasgow,UK,August 23–28,2020,Proceedings,Part XIV 16.Springer International Publishing,2020:1-18.

[4]Fu Y,Yang L,Liu D,et al.Compfeat:Comprehensive feature aggregationfor video instance segmentation[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2021,35(2):1361-1369.

[5]Wang T,Xu N,Chen K,et al.End-to-end video instance segmentationvia spatial-temporal graph neural networks[C]//Proceedings of the IEEE/CVFInternational Conference on Computer Vision.2021:10797-10806.

[6]Huang D A,Yu Z,Anandkumar A.Minvis:A minimal video instancesegmentation framework without video-based training[J].arXiv preprint arXiv:2208.02245,2022.

[7]Kuhn H W.The Hungarian method for the assignment problem[J].NavalResearch Logistics(NRL),2005,52(1):7-21.

发明内容

本发明旨在解决现有的基于查询的在线视频实例分割方法中实例匹配错误的问题，提供一种基于多帧信息的实例匹配方法，技术方案如下：

一种基于多帧信息的实例匹配方法，包括下列步骤：

(1)对视频进行基于查询的实例分割，设当前帧实例查询为Q_t，将当前帧实例查询分别与在前帧进行匹配，设经过匹配后的前T帧的实例查询依次为Q_t-1，Q_t-2，Q_t-3，......，Q_t-T；

(2)计算实例查询cosine相似性分数，得到T个二维相似性分数矩阵S_i∈[-1,1]^N×N，i＝1,2,3......T，N是存储空间中存储的实例查询帧数，T≤N；

(3)对于上一步骤得到的T个二维相似性分数矩阵S_i，经过时间加权和Topk两个不同分支的融合，将经过两种不同融合方法得到的相似性分数进行相加后经过Softmax函数得到最终的相似性分数，方法如下：

在时间加权分支，对于T个二维相似性分数矩阵S_i，根据前T帧实例查询与当前帧实例查询的时域距离分配不同的权重系数相乘后相加融合为一个相似性分数矩阵S_time，与当前帧时域距离越近分配的权重越大；

在Topk分支，将T个二维相似性分数矩阵S_i转换为三维相似性矩阵S∈[-1,1]^T×N×N，在第一个维度上进行降序排序后选择排列在最前面的K个二维矩阵得到矩阵S′∈[-1,1]^K×N×N,然后在矩阵S′的第一个维度上将K个二维矩阵进行平均得到一个二维矩阵，此矩阵即为该分支最终的相似性分数矩阵S_topk∈[-1,1]^N×N；

将两个分支得到的相似性分数矩阵S_time和S_topk进行相加，在两个维度上分别经过Softmax函数操作，得到两个相似性分数矩阵S_d0和S_d1，计算这两个矩阵的平均值，生成相似性分数矩阵S_o∈[0,1]^N×N作为后续匈牙利算法中的代价矩阵，完成当前帧实例查询的匹配任务。

进一步的，步骤(3)中，设权重系数为a_i，其计算公式如下：

其中，i表示前T帧中的第i帧与当前帧的时域距离。

与其他实例查询匹配方案相比，本发明有如下优势：(a)能够充分利用多帧实例查询信息，对于某些实例在某些帧中消失后再次出现等特殊情况，本发明能够提高实例匹配的准确性和稳定性。(b)本发明提出了两种不同相似性矩阵融合方式，对于多帧信息进行不同的处理，得到了更为丰富的实例匹配信息，能够保证实例匹配的准确性和稳定性。(c)本发明所使用的相似性矩阵融合方法均为简单计算，在提高实例匹配准确性的同时没有占用过多的计算资源。

附图说明

图1实例查询错误匹配示例

图2多帧实例查询相似性计算的过程

图3时间加权融合方式示意图

图4Topk融合方式示意图

图5双分支融合方式示意图

图6本发明实施例的流程图

具体实施方式

现有的基于查询的在线视频实例分割方法，如MinVIS^[6]方法通过图像实例分割网络得到视频帧的实例编码，再经过后处理步骤完成不同帧的实例匹配，这些方法未能充分利用多帧信息，导致实例中途消失后再次出现等特殊情况下实例匹配发生错误，如图1所示，第一位骑车人实例被遮挡后再次出现实例ID号发生了变化，说明实例匹配发生了错误，这是由于此方法只使用了前一帧图像的信息，实例再次出现时由于前一帧图像中并没有此实例信息，所以在匹配时会发生错误。本专利提出了一种充分利用多帧信息的简单快速实例匹配方法,利用多帧信息进行匹配可以减少上述情况的发生，进而可以进一步提高视频实例分割任务中实例匹配的准确性。具体地，在基于查询的在线视频实例分割方法的后处理阶段，利用网络生成的当前帧实例查询与前T帧已经匹配的实例查询计算得到的相似性分数，经过时间加权与Topk融合方案，利用匈牙利算法完成跨帧实例匹配任务。

下面详细介绍本发明提出的利用多帧信息的实例匹配方案流程，包括帧间实例查询cosine相似性分数的计算过程以及多帧相似性分数矩阵的时间加权与Topk融合方案。

(1)实例查询cosine相似性计算过程

将基于查询的在线视频实例分割方法，如MinVIS^[6]方法第一阶段得到的当前帧实例查询Q_t∈R^N×C分别与内存中经过匹配后的前T帧的实例查询Q_t-1，Q_t-2，Q_t-3，......，Q_t-T∈R^N×C计算cosine相似性分数，得到T个二维相似性分数矩阵S_i∈[-1,1]^N×N，i＝1,2,3......T，计算过程如图2所示。

(2)时间加权与Topk融合方案

对于上一步骤得到的T个相似性分数矩阵S_i，经过时间加权和Topk两个不同的分支，将经过两种不同的融合方法得到的相似性分数进行相加后进行Softmax操作得到最终的相似性分数。

在时间加权分支，对于T个相似性分数矩阵S_i，根据内存中实例查询与待匹配帧实例查询的时域距离分配不同的权重系数相乘后相加融合为一个相似性分数矩阵S_time∈[-1,1]^N×N，权重系数计算公式如下：

其中i表示某帧与待匹配帧时域上的距离，距离越近权重越大。计算过程如图3所示。

如图4所示，在Topk分支首先将T个二维相似性分数矩阵S_i转换为三维相似性矩阵S∈[-1,1]^T×N×N，在第一个维度上进行降序排序后选择排列在最前面的K个二维矩阵得到矩阵S′∈[-1,1]^K×N×N,然后在矩阵S′的第一个维度上将K个二维矩阵进行平均得到一个二维矩阵，即为该分支最终的相似性分数矩阵S_topk∈[-1,1]^N×N。

如图5所示，将两个分支得到的相似性分数矩阵S_time和S_topk进行相加，在两个维度上分别经过Softmax函数操作，得到两个相似性分数矩阵S_d0和S_d1，计算这两个矩阵的平均值，生成相似性分数矩阵S_o∈[0,1]^N×N作为后续匈牙利算法^[7]中的代价矩阵，完成当前帧实例ID的匹配任务。

图6给出了本发明所提出方法的具体实施方法，具体步骤如下：

步骤1：对于基于查询的在线视频实例分割方法第一阶段生成的实例查询，当前帧为第一帧时不进行任何操作，将其存入固定长度的内存空间中，当前帧非第一帧时，将其与内存空间存储的多帧实例查询分别计算相似性分数，得到相似性分数矩阵。

步骤2：将得到的相似性分数矩阵分别经过时间加权分支和Topk分支得到两种方式融合后的相似性分数矩阵。

步骤3：将两个分支的相似性分数矩阵相加经过双向Softmax操作融合为最终的相似性分数矩阵。

步骤4：将最终的相似性分数矩阵转换为代价矩阵，使用匈牙利算法计算当前帧实例查询的匹配索引。

步骤5：按照匹配索引重新排序当前帧的实例查询，存入内存空间，当内存空间存储帧数达到最大值时，删除最先被存入的帧实例查询。

Claims

1.一种基于多帧信息的实例匹配方法，包括下列步骤：

在Topk分支，将T个二维相似性分数矩阵S_i转换为三维相似性矩阵S∈[-1,1]^T×N×N，在第一个维度上进行降序排序后选择排列在最前面的K个二维矩阵得到矩阵S^′∈[-1,1]^K×N×N,然后在矩阵S^′的第一个维度上将K个二维矩阵进行平均得到一个二维矩阵，此矩阵即为该分支最终的相似性分数矩阵S_topk∈[-1,1]^N×N；

2.根据权利要求1所述的实例匹配方法，其特征在于，步骤(3)中，设权重系数为a_i，其计算公式如下：

其中，i表示前T帧中的第i帧与当前帧的时域距离。