CN114782861A - 实例分割方法、相关设备和存储介质 - Google Patents

实例分割方法、相关设备和存储介质 Download PDF

Info

Publication number
CN114782861A
CN114782861A CN202210335171.4A CN202210335171A CN114782861A CN 114782861 A CN114782861 A CN 114782861A CN 202210335171 A CN202210335171 A CN 202210335171A CN 114782861 A CN114782861 A CN 114782861A
Authority
CN
China
Prior art keywords
frame
video image
image
fusion
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210335171.4A
Other languages
English (en)
Inventor
杨澍生
李昱
赵珣
单瀛
王兴刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210335171.4A priority Critical patent/CN114782861A/zh
Publication of CN114782861A publication Critical patent/CN114782861A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种实例分割方法、相关设备和存储介质,其中方法包括:获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N为大于1的整数;获取所述每帧视频图像的图像特征以及所述每帧视频图像对应的时域记忆特征,所述时域记忆特征用于指示视频图像在时域上的记忆图像特征;对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征;基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例,可以提高视频实例分割的准确性。

Description

实例分割方法、相关设备和存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及一种实例分割方法、相关设备和存储介质。
背景技术
实例分割是图像识别和计算机视觉至关重要的预处理,被广泛应用于各个领域。例如,实例分割能够用于对象识别、对象检测和对象查找等任务。目前在进行视频实例分割时,主要基于传统卷积神经网络的视频实例分割模型,使用传统卷积神经网络在提取特征时,受限于卷积操作的局部性,只能提取到局部特征,然后基于局部特征实现实例分割,在一定程度上会导致实例分割结果的不准确性。
发明内容
本申请实施例提供了一种实例分割方法、相关设备和存储介质,可以提高视频实例分割的准确性。
一方面,本申请实施例提供了一种实例分割方法,包括:
获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N 为大于1的整数;
获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征,时域记忆特征用于指示视频图像在时域上的记忆图像特征;
对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征;
基于每帧视频图像的图像特征和对应的记忆移位特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。
一方面,本申请实施例提供了一种实例分割装置,包括:
获取单元,用于获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N为大于1的整数;
获取单元,还用于获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征,时域记忆特征用于指示视频图像在时域上的记忆图像特征;
处理单元,用于对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征;
处理单元,还用于基于每帧视频图像的图像特征和对应的记忆移位特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括输入设备、输出设备、处理器和计算机存储介质,该处理器和计算机存储介质相互连接,其中,计算机存储介质用于存储计算机程序,该处理器被配置用于调用计算机程序,执行上述实例分割方法。
一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,该计算机程序被处理器执行时,用于实现上述实例分割方法。
一方面,本申请实施例提供了一种计算机程序产品,计算机程序产品包括计算机程序;该计算机程序存储在计算机可读存储介质中,计算机程序被计算机设备的处理器执行时,执行上述实例分割方法。
在本申请实施例中,在获取目标视频中的N帧视频图像之后,可以获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征,时域记忆特征用于指示视频图像在时域上的记忆图像特征;对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征,基于每帧视频图像的图像特征和对应的记忆移位特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。通过对每帧视频图像的时域记忆特征进行时域移位处理,可以实现每帧视频图像中的时域记忆特征进行信息交互,进而实现了帧与帧之间在时域上的信息交互,使得根据每帧视频图像对应的记忆移位特征和图像特征可以更加准确地对每帧视频图像包括的实例进行分割,提高了实例分割的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的一种实例分割模型的架构图;
图1b是本申请实施例提供的一种实例分割***的架构图;
图2是本申请实施例提供的一种实例分割方法的流程示意图;
图3a是本申请实施例提供的一种实例分割模型中的基于记忆移位的帧级别时域特征融合模块的结构图;
图3b是本申请实施例提供的一种时域记忆特征的时域移位的流程示意图;
图3c是本申请实施例提供的另一种实例分割模型的架构图;
图4是本申请实施例提供的另一种实例分割方法的流程示意图;
图5a是本申请实施例提供的另一种实例分割模型的架构图;
图5b是本申请实施例提供的一种记忆移位特征反向时域移位的流程示意图;
图6是本申请实施例提供的一种模型训练方法的流程示意图;
图7是本申请实施例提供的一种实例分割装置的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、查找和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的实例分割方案涉及人工智能的计算机视觉技术。视频实例分割旨在同时检测、分割、查找视频中的感兴趣区域(RoI,Region of Interest) 或感兴趣的实例,其中,视频实例分割是实例分割在视频领域的自然拓展,相较于实例分割,视频实例分割需要对时域(或时间域)上的视频实例进行时域查找追寻,因此可以充分利用视频模态(即指以视频形态呈现)所带来的时域信息对视频中的实例进行实例分割,从而可以提高视频实例分割的准确性。该实例分割方案的大致原理如下:为了充分将帧与帧之间的信息(如图像特征) 进行交互,具体的,在对目标视频中的实例进行实例分割时,充分的利用时域上的丰富信息,先获取该目标视频,并从目标视频中获取N帧视频图像,其中,每帧视频图像中可以包括一个或多个实例,该实例可以是人物、动物、物体等等;每帧视频图像可以对应一个时域信息,例如目标视频的时域信息为15秒的信息,每帧视频图像对应的时域信息可以是第1秒的信息、第4秒的信息等等。
然后,可以提取该N帧视频图像中每帧视频图像的图像特征,并获取每帧视频图像对应的时域记忆特征;该时域记忆特征可以用于指示视频图像在时域上的记忆图像特征,即可以理解为:时域记忆特征中可以包括视频图像的部分或全部图像特征。接着,采用记忆移位机制对每帧视频图像对应的时域记忆特征在时间序列上进行时域移位,以此来对每帧视频图像在时域上的信息进行捕获,得到每帧视频图像对应的移位记忆特征。其中,此处的信息捕获可以理解为:由于时域记忆特征用于指示视频图像在时域上的记忆图像特征,因此得到的移位记忆特征可以包括除自身视频图像的图像特征之外,还可以包括其他视频图像在时域上的图像特征。进一步,计算机设备可以基于每帧视频图像对应的移位记忆特征和图像特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。通过在时间序列上的移位处理实现了每帧视频图像对应的时域记忆特征在时域上的信息流动,在时域上构建有效的信息流动,提高了实例分割的准确性。
其中,基于每帧视频图像对应的移位记忆特征和图像特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例的具体实现方式可以是:基于每帧视频图像对应的移位记忆特征和图像特征进行特征融合,得到每帧视频图像的图像融合特征,并基于每帧视频图像的图像融合特征对每帧视频图像进行实例分割,该图像融合特征包括了其他视频图像中的图像特征,结合其他的视频图像中的图像特征可以更加准确地对该视频图像进行实例分割。
在一个实施例中,本申请实施例不仅可以完成在时域上的帧级图像特征融合处理,还可以采用时空查询交互机制实现构建实例级别的视频信息综合。在对视频进行实例分割时,引入M个实例查询向量,该M个实例查询向量可以负责在输入的每帧视频图像中预测相应的视频实例,该M个实例查询向量可以与上述每帧视频图像对应的移位记忆特征和图像特征共同对N帧视频图像中的实例进行预测分割,最终可以得到每帧视频图像包括的实例,其中,M可以为大于或等于1的整数。作为一种实现方式,这M个实例查询向量会广播到每帧视频图像上,然后基于每帧视频图像的图像特征、对应的移位记忆特征以及对应的M个实例查询向量,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。通过引入M个实例查询向量,M个实例查询向量可以负责在输入的每帧视频图像中预测相应的视频实例,从而构建了完全端到端(End-to-end)的实例分割方案,避免存在“一对多”的匹配情况下使用非极大值抑制等后处理操作,极大简化了视频实例分割的复杂程度,提高了实例分割的效率,该实例查询方法保持了具有竞争力的推理速度。其中,端到端是指:整个流程为统一的过程,不包含额外的后处理等模块。
在一个实施例中,本申请实施例提供的实例分割方案涉及人工智能的机器学习技术,上述实例分割方案可以通过一个时间域高效的实例分割模型(或实例分割算法或Tevit)来实现,该实例分割模型可以如图1a所示,该实例分割模型可以包括骨干网络(也可理解为主干特征提取网络Backbone)和网络预测头,该实例分割模型适用PVT-B1等网络作为基础网络,并在该基础网络中引入基于记忆移位的帧级别时域特征融合模块,从而构建该实例分割模型中的骨干网络;并在该网络预测头中引入时空查询模块。基于记忆移位的帧级别时域特征融合模块可以用于对每帧视频图像对应的时域记忆特征在时间序列上进行移位来对时域上的信息捕获,得到每帧视频图像对应的移位记忆特征,并对每帧视频图像的图像特征和对应的移位记忆特征进行特征融合处理,得到每帧视频图像的图像融合特征。
该时空交互查询模块可以用于对每帧视频图像对应的M个实例查询向量进行特征融合分析,得到每帧视频图像对应的M个融合实例查询向量。此处的特征融合分析包括帧内特征融合和帧间特征融合,实现了充分利用查询在时间维度(即帧内特征融合)和空间维度(即帧间特征融合)的参数共享,高效的完成时间维度和空间维度的实例查询。然后,将每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对N帧视频图像进行实例分割。通过该实例分割模型可以高效的利用时域信息,完成在时域上的帧级图像特征融合处理以及构建实例级别的视频信息综合,实现了基于实例查询、完全端到端的实例分割模型,无需使用非极大值抑制等后处理操作,加大简化了实例分割模型的复杂度。
其中,网络预测头还可以配置关于实例分割对应的实例任务。在经过基于记忆移位的帧级别时域特征融合模块和时空交互的查询模块处理之后可以得到每帧视频图像中的实例前景掩码,然后可以通过网络预测头对每帧视频图像中的实例前景掩码处理,实现相应的实例任务,例如,通过网络预测头输出每帧视频图像的实例前景掩码、实例包围框、实例类别等等。
通过上述实例分割方案可以有效地进行视频剪辑、场景解析等多种视频理解任务。以视频剪辑为例,通过该实例分割方案,可以得到视频中的目标实例,并将目标实例对应的视频图像剪辑生成关于该目标实例的视频片段。
本申请实施例提供的实例分割方案有如下有益效果:(1)通过在时间序列上的移位处理实现了每帧视频图像对应的时域记忆特征在时域上的信息流动,在时域上构建有效的信息流动,提高了实例分割的准确性。(2)通过引入M个实例查询向量,M个实例查询向量可以负责在输入的每帧视频图像中预测相应的视频实例,从而构建了无后处理、完全端到端的实例查询方案,避免存在“一对多”的匹配情况下使用非极大值抑制等后处理操作,极大简化了视频实例分割的复杂程度,提高了视频实例分割的效率。
基于上述实例分割方案,本申请提供了一种实例分割***,请参见图1b,该实例分割***可以包括终端设备101和服务器102,其中,终端设备101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本申请涉及的终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101和服务器102的数量也不做限制。
在一个实施例中,上述实例分割方案可由上述终端设备101执行,终端设备101可以提供一个视频选择界面,该视频选择界面中可以包括多个视频,用户可以选择多个视频中的任意一个视频(即目标视频),然后终端设备101可以向服务器102发送目标视频获取请求,服务器102可以基于目标视频获取请求向终端设备返回目标视频,然后终端设备101可以基于上述实例分割方案对目标视频中的N帧视频图像进行实例分割,得到每帧视频图像包括的实例。该每帧视频图像包括的实例可以保存到服务器102中。
在另一个实施例中,上述实例分割方案可由上述服务器102执行,用户可以通过终端设备101向服务器102发送针对目标视频的实例分割请求,服务器 102可以基于实例分割请求直接获取目标视频,并采用上述实例分割方案对目标视频中的N帧视频图像进行实例分割,得到每帧视频图像包括的实例,并保存该每帧视频图像包括的实例,同时服务器102可以通过终端设备101向用户展示每帧视频图像包括的实例。
基于上述实例分割方案,请参阅图2,图2为本申请实施例提供的一种实例分割方法的流程示意图。该方法可由计算机设备执行,该计算机设备可以是上述实例分割***中的终端设备101或者服务器102,本实施例中所描述的实例分割方法,可以包括以下步骤S201-S204:
S201、获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N为大于1的整数。目标视频可以是用户预先录制的视频(即离线视频),或者,该目标视频可以是实时视频(或在线视频),例如,目标视频可以直播视频。目标视频包括的实例(或每帧视频图像包括的实例)可以是视频中的动物、任务、物体等等,本申请不作限定。
在具体实现中,当用户想要对目标视频进行实例分割时,可以将该目标视频上传到计算机设备;相应的,计算机设备可以获取到该目标视频;或者,在视频直播时,计算机设备可以直接获取该直播视频作为目标视频。
其中,N帧视频图像可以是目标视频中的部分视频图像,也可以是目标视频中的全部视频图像。在实际过程中,按照推理策略可以获取目标视频中的N 帧视频图像。其中,针对在线视频和离线视频而言,按照推理策略获取目标视频中的N帧视频图像的方式可以是不同的;在一个实施例中,当目标视频为离线视频时,按照推理策略获取目标视频中的N帧视频图像的具体实现方式可以是:将目标视频分成多个视频子片段,并从多个视频子片段中获取目标视频子片段,该N帧视频图像为将目标视频子片段中的全部视频图像。在另一个实施例中,当目标视频为在线视频时,按照推理策略获取目标视频中的N帧视频图像的具体实现方式可以是:将目标视频中获取全部视频图像作为N帧视频图像。需要说明的是,该推理策略可以根据需求设置,本申请不作限定。在一些实施例中,获取目标视频中的N帧视频图像的具体实现方式还可以是:从目标视频中随机采样离散的N帧视频图像。
S202、获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征,该时域记忆特征用于指示视频图像在时域上的记忆图像特征。可以理解为:该记忆图像特征可以包括视频图像的部分或全部图像特征。每帧视频图像的图像特征为整个视频图像的特征图,而非视频图像中的实例的特征。
在一个实施例中,计算机设备可以先对每帧视频图像进行特征提取,得到每帧视频图像的初始图像特征,并获取每帧视频图像对应的初始时域记忆特征,其中,初始图像特征为整个视频图像的特征图,初始时域记忆特征可以预先初始化,每帧视频图像对应的初始时域记忆特征的数量可以是一个或多个,一个或多个初始时域记忆特征可以是相同的,或者,一个或多个初始时域记忆特征也可以是不同。计算机设备可以基于每帧视频图像的初始图像特征和对应的初始时域记忆特征,得到每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征。
其中,基于每帧视频图像的初始图像特征和对应的初始时域记忆特征,得到每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征的具体实现方式可以是:将每帧视频图像的初始图像特征和对应的初始时域记忆特征进行特征融合,得到每帧视频图像的中间图像特征和对应的中间时域记忆特征,并对每帧视频图像的中间图像特征和对应的中间时域记忆特征进行空间变换,最终可以得到每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征。其中,上述提到的特征融合是指:将每帧视频图像的初始图像特征和对应的初始时域记忆特征在时域上进行信息交互,使得每帧视频图像对应的初始时域记忆特征能够注意到该帧视频图像的初始图像特征,从而得到包含部分或者全部初始图像特征的时域记忆特征。
在一个实施例中,可以调用实例分割模型对每帧视频图像进行特征提取,得到每帧视频图像的初始图像特征,并获取每帧视频图像对应的初始时域记忆特征。该初始时域记忆特征可以是上述实例分割模型中的基于记忆移位的帧级别时域特征融合模块的网络参数。在一些实施例中,每帧视频图像对应的初始时域记忆特征可以以插件的形式***到实例分割模型中的基于记忆移位的帧级别时域特征融合模块,并随机初始化。实例分割模型中的基于记忆移位的帧级别时域特征融合模块可以如图3a所示,基于记忆移位的帧级别时域特征融合模块301中可以包括第一多头注意力模块、第一前向网络、记忆移位模块、第二多头注意力模块、第二前向网络;记忆移位模块可以用于对每帧视频图像对应的时域记忆特征进行时域移位处理。第一多头注意力模块和第二多头注意力模块可以在整张特征图的范围内进行特征提取,在大范围的感受范围下,多头注意力模块相较于传统的卷积网络通常获得了更好的模型效果。第一前向网络和第二前向网络可以用于空间变换。基于记忆移位的帧级别时域特征融合模块301 的输入可以是每帧视频图像的初始图像特征(即实例分割模型中的初始特征提取模块提取到的初始图像特征),基于记忆移位的帧级别时域特征融合模块301 的输出可以是每帧视频图像的图像聚合特征。
其中,获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征的具体实现方式可以为:调用基于记忆移位的帧级别时域特征融合模块中的第一多头注意力模块对每帧视频图像的初始图像特征和对应的初始时域记忆特征进行特征融合,得到每帧视频图像的中间图像特征和对应的中间时域记忆特征,然后调用基于记忆移位的帧级别时域特征融合模块中的第一前向网络对每帧视频图像的中间图像特征和对应的中间时域记忆特征进行空间变换,得到每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征。其中,第一多头注意力模块可以为MHSA(Multi-head Self Attention),是一种用于序列处理、特征聚合或特征融合的神经网络模块,第一前向网络可以为FFN(Feed ForwardNetwork),一种用于在多头注意力模块之后的特征处理的全连接网络,被***于多头注意力模块之后,主要目标为对图像特征进行空间变换。通过第一多头注意力模块和第一前向网络对初始图像特征进行处理之后,得到的每帧视频图像对应的时域记忆特征可以成功捕获到视频图像的图像特征,如图3a中的时域记忆特征31捕获到了第一帧视频图像的图像特征,即该时域记忆特征31包括第一帧视频图像的图像特征;时域记忆特征32捕获到了第二帧视频图像的图像特征,即该时域记忆特征32包括第二帧视频图像的图像特征;时域记忆特征33 捕获了第三帧视频图像的图像特征,即该时域记忆特征33包括第三帧视频图像的图像特征。
S203、对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征。
由步骤S202可知,时域记忆特征用于指示视频图像在时域上的记忆图像特征,该记忆图像特征可以包括部分或者全部的图像特征,本申请实施例为了充分利用时域上每帧视频图像的丰富信息,可以在时域上对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征。通过时间维度上的移位,实现了每帧视频图像与每帧视频图像在时域上的信息交互,这样后续在对每帧视频图像进行实例分割时,可以借助其他视频图像的图像特征来对该视频图像进行实例分割,提高实例分割的准确性。
在一个实施例中,步骤S203的具体实现方式可以是:将N帧视频图像对应的时域记忆特征划分为多个记忆特征组,每个记忆特征组均包括相同数量的时域记忆特征,其中,每个记忆特征组也可称为一个记忆模块。例如,N帧视频图像对应的时域记忆特征一共为32个,可以将32个时域记忆特征划分为4个记忆特征组,每个记忆特征组均包括8个时域记忆特征;然后,获取每个记忆特征组的移动步长和移动方向,并按照每个记忆特征组的移动步长和移动方向移动每个记忆特征组中的时域记忆特征,得到每帧视频图像对应的记忆移位特征。其中,移位步长和移动方向可以根据需求设置,例如,移位步长可以设置为1、2、3等等,移动方向是基于N帧视频图像构建的时间序列来确定的,例如,基于N帧视频图像从上到下构建时间序列,移动方向可以是向上或向下移动;又例如,基于N帧视频图像从左到右构建时间序列,移动方向可以是向左移动或者向右移动。
例如,在图3b中,黑色立方体表示时域记忆特征,白色立方体表示每帧视频图像的图像特征(图3b中以5帧为例),从上到下表示每帧视频图像所构建的时间序列(即图3b中的T表示时间序列中的时域信息,G表示记忆特征组),从左到右依次表示4个记忆特征组。第一个记忆特征组:移动步长为1(即S=1),移动方向为向上移动;第二个记忆特征组:移动步长为1(即S=1),移动方向为向下移动;第三个记忆特征组:移动步长为2(即S=2),移动方向为向上移动;第四个记忆特征组的移动步长为2(即S=2),移动方向为向下移动。然后计算机设备沿着N帧视频图像构建的时间序列,分别按照每个记忆特征组的移动方向和移动步长来移动每组记忆特征组中的时域记忆特征,得到每帧视频图像对应的记忆移位特征,上述对每个记忆特征组的时域记忆特征进行时域移位处理的示意图如图3b所示,实现了在时域上每帧视频图像对应的时域记忆特征之间的信息交互。
其中,本申请实施例中可以直接将N帧视频图像对应的初始时域记忆特征划分为多个初始记忆特征组,每个初始记忆特征组均包括相同数量的初始时域记忆特征,然后调用在步骤S202中的第一多头注意力模块和第一前向网络对每帧视频图像的图像特征和多个初始记忆特征组进行处理,也可以得到上述多个记忆特征组,每个记忆特征组均包括相同数量的时域记忆特征。此时,记忆特征组的数量和初始记忆特征组的数量相同,记忆特征组包括的时域记忆特征的数量和初始记忆特征组包括的初始时域记忆特征的数量相同。
在一个实施例中,可以调用记忆移位模块对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征。通过时域移位处理,N帧视频图像中的任一帧图像视频对应的时域记忆特征可以看到其余视频图像对应的时域记忆特征。例如,在图3a中,在经过步骤S202可以得到第一帧视频图像对应的时域记忆特征31,第二帧视频图像对应的时域记忆特征 32,第三帧视频图像对应的时域记忆特征33,然后通过调用记忆移位模块对这三帧视频图像对应的时域记忆特征进行时域移位特征,可以得到第一帧视频图像对应的记忆移位特征34,第二帧视频图像对应的记忆移位特征35,第三帧视频图像对应的记忆移位特征36。该第一帧视频图像对应的记忆移位特征34可以包括第二帧视频图像对应的时域记忆特征32以及第三帧视频图像对应的时域记忆特征33;该第二帧视频图像对应的记忆移位特征35可以包括第一帧视频图像对应的时域记忆特征31以及第三帧视频图像对应的时域记忆特征33;该第三帧视频图像对应的记忆移位特征36可以包括第二帧视频图像对应的时域记忆特征 32以及第一帧视频图像对应的时域记忆特征31。应理解的是,通过时域移位处理之后,每帧视频图像对应的时域记忆特征可以在时域上关注一帧或者前后两帧甚至更多帧视频图像对应的时域记忆特征,最终得到每帧视频图像对应的记忆移位特征。
S204、基于每帧视频图像的图像特征和对应的记忆移位特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。
在一个实施例中,计算机设备可以先基于每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的图像融合特征,此时,任一帧视频图像的图像融合特征可以包括与其他视频图像相关的部分图像特征的信息。然后基于每帧视频图像的图像融合特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例,最终可以得到目标视频中的实例。通过图像融合特征来进行实例分割,可以较为准确对每帧视频图像进行实例分割。
在一个实施例中,计算机设备可以调用第二多头注意力模块对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的中间图像融合特征,并调用第二前向网络对每帧视频图像的中间图像融合特征进行空间变换,得到每帧视频图像的图像融合特征,第二多头注意力模块可以是 MHSA,第二前向网络为FFN。如图3a中的图像融合特征37、图像融合特征38 和图像融合特征39,图像融合特征37、图像融合特征38和图像融合特征39均除包括自身图像特征之外的其他两帧视频图像的图像特征。通过上述第一多头注意力模块和第二多头注意力模块的多头注意力机制可以在整张特征图的范围内进行特征提取,在大范围的感受范围下,使用多头注意力模块相较于传统的卷积网络通常获得了更好的模型效果。
在一个实施例中,基于每帧视频图像的图像融合特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例的具体实现方式可以是:获取M个实例查询向量,该M个实例查询向量用于负责在N帧视频图像中预测出每帧视频图像包括的实例。然后,基于每帧视频图像的图像融合特征和对应的M个实例查询向量,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。其中,M个实例向量可以是根据需求预先设置的。通过引入实例查询向量,该 M个实例查询向量用于负责在N帧视频图像中预测出每帧视频图像包括的实例,实现端到端的实例分割,加快了实例推理速度,进一步提高了实例分割的效率。
在一个实施例中,如图3c,实例分割模型还可以包括:时空交互查询模块 302;该时空交互查询模块302可以包括级联的多种多头注意力模块(即图3c 中的3个第三多头注意力模块和第四多头注意力模块),级联的多种多头注意力模块可以用于实现每帧视频图像在实例级别上的实例查询,以确定每帧视频图像对应的融合实例查询向量,该时空交互查询模块302的输入可以是M个实例查询向量。在图3c中,时空交互查询模块302包括多个第三多头注意力模块和第四多头注意力模块,多个第三多头注意力模块和第四多头注意力模块中的模块参数是相同的。可理解为:在时空交互查询模块中级联的多种多头注意力模块的模块参数是相同的,后续调用实例分割模型中的基于记忆移位的帧级别时域特征融合模块和时空交互查询模块分别在特征和实例两个层次进行了高效地时域信息提取。
其中,基于每帧视频图像的图像融合特征和对应的M个实例查询向量,对 N帧视频图像进行实例分割,得到每帧视频图像包括的实例可以是:将M个实例查询向量广播到N帧视频图像中,得到每帧视频图像对应的M个实例查询向量,并分别调用第三多头注意力模块和第四多头注意力模块对每帧视频图像对应的M个实例查询向量进行帧内和帧间特征融合,最终得到每帧视频图像对应的M个融合实例查询向量,并基于每帧视频图像的图像融合特征和对应的M个融合实例查询向量进行动态卷积,得到每帧视频图像包括的实例。如图3c所示,在经过基于记忆移位的帧级别时域特征融合模块得到的每帧视频图像的图像融合特征之后,将每帧视频图像的图像融合特征输入时空交互查询模块302,调用时空交互查询模块302可以对每帧视频图像的图像融合特征与对应的M个融合实例查询向量进行动态卷积,最终可以得到3帧视频图像包括的实例,即第一帧视频图像包括的实例为图3c中虚线框框出的人物和滑板,第二帧视频图像包括的实例为图3c中虚线框框出的人物和滑板,第三帧视频图像包括的实例为图 3c中虚线框框出的人物和滑板。
在本申请实施例中,在获取目标视频中的N帧视频图像之后,可以获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征,时域记忆特征用于指示视频图像在时域上的记忆图像特征;对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征;基于每帧视频图像的图像特征和对应的记忆移位特征,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。通过对每帧视频图像的时域记忆特征进行时域移位处理,实现了帧与帧之间在时域上的信息交互,使得根据每帧视频图像对应的记忆移位特征和图像特征可以更加准确地对每帧视频图像包括的实例进行分割,提高了实例分割的准确性。
基于上述实例分割方案,请参阅图4,图4为本申请实施例提供的另一种实例分割方法的流程示意图。该实例分割方法可由计算机设备执行,该计算机设备可以是上述终端设备101或者服务器102。本实施例中所描述的实例分割方法,可以包括以下步骤S401-S407:
S401、获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N为大于1的整数。
S402、获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征,时域记忆特征用于指示视频图像在时域上的记忆图像特征。
S403、对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征。
需要说明的是,步骤S401-S403的具体实现方式可参见上述步骤S201-S203 的具体实现方式,在此不再赘述。
S404、对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的图像融合特征。其中,每帧视频图像的图像融合特征的数量可以为L个,L可以为大于或等于1的整数。
在一个实施例中,计算机设备可以对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的初始图像融合特征,并将每帧视频图像的初始融合图像特征进行空间转换,得到每帧视频图像的图像融合特征。在一个实施例中,对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合还可以得到每帧视频图像对应的初始记忆移位融合特征,并将每帧视频图像对应的初始记忆移位融合特征进行空间转换,得到每帧视频图像对应的记忆移位融合特征。
在一个实施例中,计算机设备可以调用基于记忆移位的帧级别时域特征融合模块中的第二多头注意力模块对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的初始图像融合特征和每帧视频图像对应的初始记忆移位融合特征,并调用第二前向网络对每帧视频图像的初始图像融合特征和对应的初始记忆移位融合特征进行空间变换,得到每帧视频图像的图像融合特征和每帧视频图像对应的记忆移位融合特征。
其中,本申请实施例可以只计算一次每帧视频图像的融合特征,但为了保证实例分割的准确性,本申请实例也可以多次计算每帧视频图像的图像融合特征,从而得到每帧视频图像的多个图像融合特征,以使得后续可以从多个图像融合特征选择最合适的图像融合特征对视频图像进行实例分割。在这种情况下,本申请实施例中提到的实例分割模型除3c所示的架构图,该实例分割模型还可以如图5a所示的架构图,在图5a所示的实例分割模型中的基于记忆移位的帧级别时域特征融合模块中增加了反向记忆移位模块,即基于记忆移位的帧级别时域特征融合模块还可如图5a的501所示。该反向记忆移位模块可以用于对通过第二多头注意力模块和第二前向网络处理后的记忆移位融合特征进行反向时域移位处理,反向时域移位处理后得到的反向移位记忆特征可以用于下一次视频图像的图像融合特征的计算,通过这种方式,可以加重时域上的信息交互,进一步提高了实例分割的准确性。
在一个实施例中,每帧视频图像的图像融合特征的数量可以为L个,对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的图像融合特征可以包括以下步骤s11-s15:
s11、基于每帧视频图像的图像特征和对应的记忆移位特征确定每帧视频图像的候选图像融合特征和对应的记忆移位融合特征。
在具体实现中,计算机设备可以第二多头注意力模块对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的初始图像融合特征和每帧视频图像对应的初始记忆移位融合特征,然后调用第二前向网络对每帧视频图像的初始图像特征和对应的初始记忆移位融合特征进行空间转换,得到每帧视频图像的图像融合特征以及每帧视频图像对应的记忆移位融合特征。
s12、对每帧视频图像对应的记忆移位融合特征进行反向时域移位处理,得到每帧视频图像对应的反向移位特征。
在一个实施例中,上述基于记忆移位的帧级别时域特征融合模块501包括反向记忆移位模块,计算机设备可以调用反向记忆移位模块对每帧视频图像对应的记忆移位融合特征进行反向时域移位处理,得到每帧视频图像对应的反向移位特征。如经过反向记忆移位模块可以得到如图5a所示的第一帧视频图像对应的反向移位特征51、第二帧视频图像对应的反向移位特征52、第三帧视频图像对应的反向移位特征53。可以看出,此时反向移位特征51、反向移位特征52 和反向移位特征53可以包括这三帧视频图像的部分图像特征。
在一个实施例中,调用反向记忆移位模块对每帧视频图像对应的记忆移位融合特征进行反向时域移位处理,得到每帧视频图像对应的反向移位特征的具体实现方式可以是:调用反向记忆移位模块获取每个记忆特征组的移动步长和移动方向,并按照每个记忆特征组的移动步长以及移动方向的反方向对每帧视频图像对应的记忆移位融合特征进行反向时域移位,最终得到每帧视频图像对应的反向移位特征。例如图5b,在图5b中,黑色立方体表示时域记忆特征,白色立方体表示每帧视频图像的图像特征(图5b中以5帧为例),从上到下表示每帧视频图像所构建的时间序列(即图5b中的T表示时间序列中的时域,G表示记忆特征组),从左到右依次表示4个记忆特征组。第一个记忆特征组:移动步长为1(即S=1),移动方向为向上移动;第二个记忆特征组:移动步长为1 (即S=1),移动方向为向下移动;第三个记忆特征组:移动步长为2(即S=2),移动方向为向上移动;第四个记忆特征组的移动步长为2(即S=2),移动方向为向下移动;计算机设备按照这4组记忆特征组的移动步长和移动方向的反方向移动每帧视频图像对应的记忆移位融合特征,得到每帧视频图像对应的反向移位特征。即在进行反向时域移位时,第一组:移动步长为1(即S=1),移动方向为向下移动;第二组:移动步长为1(即S=1),移动方向为向上移动;第三组:移动步长为2(即S=2),移动方向为向下移动;第四组的移动步长为2 (即S=2),移动方向为向上移动。
需要说明的是,步骤s12可以在步骤s13之前执行,也可以在步骤s13之后执行,本申请对此不作限定。
s13、统计每帧视频图像的候选图像融合特征的数量。
在具体实现中,计算机设备可以统计每帧视频图像的候选图像融合特征的数量,并判断每帧视频图像的候选图像融合特征的数量是否大于L。若每帧视频图像的候选图像融合特征的数量小于L,则执行步骤s14;若每帧视频图像的候选图像融合特征的数量等于L,则执行步骤s15。
s14、若确定数量小于L,则可以获取每帧视频图像的新的图像特征和对应的新的时域记忆特征,并对每帧视频图像对应的新的时域记忆特征进行时域移位处理,得到每帧视频图像对应的新的记忆移位特征;然后,基于每帧视频图像的新的图像特征和对应的新的记忆移位特征进行特征融合,得到每帧视频图像的新的候选图像融合特征,每帧视频图像的新的图像特征和对应的新的时域记忆特征是基于每帧视频图像的候选图像融合特征和对应的反向移位特征确定的。
在具体实现中,若确定每帧视频图像的候选图像融合特征的数量小于L,则可以将每帧视频图像的候选图像融合特征和对应的反向移位特征作为基于记忆移位的帧级别时域特征融合模块的输入,也就是说,将每帧视频图像的候选图像融合特征看成每帧视频图像的新的初始图像特征,将每帧视频图像对应的反向移位特征看成每帧视频图像对应的新的初始时域记忆特征;然后对每帧视频图像的新的初始图像特征和对应的新的初始时域记忆特征进行特征融合、空间变换等处理,得到每帧视频图像的新的图像特征和对应的新的时域记忆特征,进而对每帧视频图像对应的新的时域记忆特征进行时域移位处理,得到每帧视频图像对应的新的记忆移位特征,并基于每帧视频图像的新的图像特征和对应的新的记忆移位特征进行特征融合,得到每帧视频图像的新的候选图像融合特征。然后,再一次统计每帧视频图像的候选图像融合特征(此时包括新的候选图像融合特征)的数量,直到每帧视频图像的候选图像融合特征的数量等于L,执行步骤s15。需要说明的是,当每帧图像的候选图像融合特征的数量不等于L 时,均会将上一次得到的每帧视频图像的新的候选图像融合特征作为下一次计算每帧视频图像的新的候选图像融合特征时,每帧视频图像的新的初始图像特征,以及将上一次反向时域移位处理得到的每帧视频图像对应的反向移位特征作为下一次计算每帧视频图像的新的的候选图像融合特征时,每帧视频图像对应的新的初始时域记忆特征。其中,对每帧视频图像的新的初始图像特征和对应的新的初始时域记忆特征进行特征融合、空间变换,得到每帧视频图像的新的图像特征和对应的新的时域记忆特征、每帧视频图像对应的新的时域记忆特征进行时域移位处理,得到每帧视频图像对应的新的记忆移位特征的具体实现方式可以参见上述相应部分的描述,在此不再赘述。
例如,当L为3时,N为3;针对3帧视频图像中的图像1,计算机设备可以基于图像1的图像特征和对应的记忆移位特征确定图像1的候选图像融合特征1和对应的记忆移位融合特征1;对图像1对应的记忆移位融合特征1进行反向时域移位处理,得到图像1对应的反向移位特征1,然后统计图像1的图像融合特征的数量为1;该数量小于L,计算机设备可以将图像1的候选图像融合特征1作为图像1的新的初始图像特征,将图像1对应的反向移位特征1作为图像1对应的新的初始时域记忆特征,然后基于图像1的新的初始图像特征和对应的新的初始时域记忆特征,得到图像1的新的图像特征和对应的新的时域记忆特征,并按照步骤S202-S204进行处理,得到图像1的候选图像融合特征2 (即新的候选图像融合特征)以及对应的记忆移位融合特征2,并对图像1对应的记忆移位融合特征2进行反向时域移位,得到图像1对应的反向移位特征2;再次统计图像1的候选图像融合特征的数量为2,该数量小于3,此时,将图像 1的候选图像融合特征2作为图像2的新的初始图像特征,将图像1对应的反向移位特征2作为图像1对应的新的初始时域记忆特征,并按照上述方式得到图像1的又一个候选图像融合特征3,此时,统计图像1的候选图像融合特征的数量为3,该数量等于L,将图像1的3个候选图像融合特征(即候选图像融合特征1、候选图像融合特征2和候选图像融合特征3)均作为图像1的图像融合特征。其余两帧视频图像的L个图像融合特征可以参见确定图像1的L个图像融合特征的具体实现方式,在此不再赘述。
需要说明的是,上述只是示例性的以L为3进行描述,在实际过程中L可以为4、5等等,本申请实施例不作限定;针对任意一帧视频图像的L个图像融合特征均可以参见上述图像1的L个图像融合特征的实现方式来确定。此处的L 还可理解为:需要调用基于记忆移位的帧级别时域特征融合模块次数。
s15、若数量等于L,则将每帧视频图像的L个候选图像融合特征确定为每帧视频图像的L个图像融合特征。
在一个实施例中,当每帧视频图像的图像融合特征的数量为一个(即L=1) 时,计算机设备可以直接对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的图像融合特征,并将每帧视频图像的图像融合特征用于对每帧视频图像进行实例分割。也就是说经过一次步骤S402-S404 处理即可,此时,也可以无需对每帧视频图像对应的记忆移位融合特征进行时域反向移位。当每帧视频图像的图像融合特征的数量为多个(即L大于1)时,则将每帧视频图像的L个候选图像融合特征确定为每帧视频图像的L个图像融合特征。
S405、获取M个实例查询向量;M可以根据需求设置,例如M可以为3、 10、100等等。该M个实例查询向量可以预先设置或者随机初始化。通过M个实例查询向量可以用于输入的N帧视频图像包括的实例进行实例预测。M个实例查询向量可以理解为实例分割模型中时空交互查询模块的参数。
S406、将M个实例查询向量广播到N帧视频图像中,得到每帧视频图像对应的M个实例查询向量。
其中,针对步骤S405获取到的M个实例查询向量,可将M个实例查询向量广播到N帧视频图像中以实现将M个实例查询向量分别与每帧视频图像进行关联,也就是说,在对每帧视频图像进行实例分割时,均会利用该M个实例查询向量。
S407、基于每帧视频图像的图像融合特征和对应的M个实例查询向量,对 N帧视频图像进行实例分割,得到每帧视频图像包括的实例。
在一个实施例中,计算机设备可以对每帧视频图像对应的M个实例查询向量进行特征融合分析,得到每帧视频图像对应的M个融合实例查询向量;然后基于每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。
其中,对每帧视频图像对应的M个实例查询向量进行特征融合分析,得到每帧视频图像对应的M个融合实例查询向量可以包括:对每帧视频图像对应的 M个实例查询向量进行帧内特征融合,得到每帧视频图像对应的M个帧内实例查询向量;对N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到每帧视频图像对应的M个融合实例查询向量。
在一个实施例中,如图5a所示的实例分割模型,该实例分割模型中的时空交互查询模块502可以包括多个第三多头注意力模块(即帧内注意力模块)和第四多头注意力模块(即帧间注意力模块),第三多头注意力模块和第四多头注意力模块可以为MASH;第三多头注意力模块用于帧内特征融合,即可理解为通过第三多头注意力模块可以使得每帧视频图像对应的M个实例查询向量相互关注自身的实例信息;第四多头注意力模块用于帧间特征融合,即可理解为通过第四多头注意力模块可以使得帧与帧之间的实例查询向量关注自己的实例在其他帧中的实例信息,通过帧内和帧间的多头注意力机可以将时间域上的实例级别特征进行综合。其中,多个第三多头注意力模块和第四多头注意力模块中的模块参数是一致的,如第三多头注意力模块和第四多头注意力模块中的权重共享,这样可以提高实例分割模型的参数利用率。第三多头注意力模块的数量可以根据输入视频中视频图像的数量确定,如在5a图中,输入三帧视频图像,就可以对应有三个多头注意力模块。
对每帧视频图像对应的M个实例查询向量进行帧内特征融合,得到每帧视频图像对应的M个帧内实例查询向量可以包括:计算机设备可以调用N个多头注意力模块对N帧视频图像对应的M个实例查询向量进行帧内特征融合,得到每帧视频图像对应的M个帧内实例查询向量,一个多头注意力模块处理一帧视频图像对应的M个实例查询向量。例如,在图5a中,M为3,计算机设备可以调用一个第三多头注意力模块对视频图像1对应的3个实例查询向量进行帧内特征融合,得到视频图像1对应的3个帧内实例查询向量,即如图5a中的55 所示;计算机设备可以调用一个第三多头注意力模块对视频图像2对应的3个实例查询向量进行帧内特征融合,得到视频图像2对应的3个帧内实例查询向量,即如图5a中的56所示;然后计算机设备可以调用一个第三多头注意力模块对视频图像3对应的3个实例查询向量进行帧内特征融合,得到视频图像3 对应的3个帧内实例查询向量,即如图5a中的57所示。
在一个实施例中,对N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到每帧视频图像对应的M个融合实例查询向量可以包括:获取每帧视频图像对应的M个帧内实例查询向量中的第i个帧内实例查询向量,i大于或等于1,且i小于或等于M;基于N帧视频图像对应的第i个帧内实例查询向量,对每帧视频图像对应的第i个帧内实例查询向量进行帧间特征融合,得到每帧视频图像对应的第i个融合实例查询向量。在一个实施例中,计算机设备可以调用第四多头注意力模块,基于N帧视频图像对应的第i个帧内实例查询向量,对每帧视频图像对应的第i个帧内实例查询向量进行帧间特征融合,得到每帧视频图像对应的第i个融合实例查询向量。
例如,如图5a,M=3,计算机设备可以获取视频图像1对应的第1个帧内实例查询向量(即图5a中的帧内实例查询向量58),视频图像2对应的第1个帧内实例查询向量(即图5a中的帧内实例查询向量59),视频图像3对应的第 1个帧内实例查询向量(即图5a中的帧内实例查询向量60),然后调用第四多头注意力模块对视频图像1对应的第1个帧内实例查询向量、视频图像2对应的第1个帧内实例查询向量和视频图像3对应的第1个帧内实例查询向量进行帧间特征融合,得到视频图像1对应的第1个融合实例查询向量(即图5a中的融合实例查询向量61)、视频图像2对应的第1个融合实例查询向量(即图5a中的融合实例查询向量62)以及视频图像3对应的第1个融合实例查询向量(即图5a中的融合实例查询向量63)。然后计算机设备可以获取视频图像1对应的第2个帧内实例查询向量,视频图像2对应的第2个帧内实例查询向量,视频图像3对应的第2个帧内实例查询向量,以及获取视频图像1对应的第3个帧内实例查询向量,视频图像2对应的第3个帧内实例查询向量,视频图像3对应的第3个帧内实例查询向量,并按照调用第四多头注意力模块对每帧视频图像的第1个帧内实例查询向量进行帧间特征融合的方式,最终可以得到视频图像1对应的第2个融合实例查询向量、视频图像2对应的第2个融合实例查询向量、视频图像3对应的第2个融合实例查询向量;以及得到视频图像1对应的第3个融合实例查询向量、视频图像2对应的第3个融合实例查询向量、视频图像3对应的第3个融合实例查询向量。
在一个实施例中,当每帧视频图像的图像融合特征为L个时,基于每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例的具体实现方式可以是:从每帧视频图像的L个图像融合特征中选择每帧视频图像对应的目标图像融合特征,并基于每帧视频图像对应的目标图像融合特征和对应的M个融合实例查询向量,对每帧视频图像进行实例分割,得到每帧视频图像包括的实例。接下来以目标视频图像为例进行讲解,该目标视频图像为N帧视频图像中的任一帧:
基于目标视频图像的图像融合特征和对应的M个融合实例查询向量,对目标视频图像进行实例分割,得到目标视频图像包括的实例可以包括:从目标视频图像的L个图像融合特征中选取目标图像融合特征;将目标图像融合特征和目标视频图像对应的M个融合实例查询向量进行动态卷积,得到目标视频图像包括的实例。在具体实现中,可以将目标视频图像对应的M个融合实例查询向量作为卷积核,并将该卷积核与目标图像融合特征进行卷积,得到目标视频图像的二值掩码图,从二值掩码图中可以区分出该目标视频图像包括的实例。
其中,当L为1时,从目标视频图像的L个图像融合特征中选取目标图像融合特征的具体实现方式可以是:将该目标视频图像的图像融合特征直接确定为目标图像融合特征。当L为大于或等于2时,计算机设备从目标视频图像的L 个图像融合特征中选取目标图像融合特征的具体实现方式为:确定目标视频图像中的实例尺寸,可以基于目标视频图像中的实例尺寸从目标视频图像的L个图像融合特征中选取目标图像融合特征。具体的,可以建立视频图像中的实例尺寸与图像融合特征之间的对应关系,基于目标视频图像中的实例尺寸和对应关系从L个图像融合特征中选取目标图像融合特征。在一些实施例中,当目标视频图像中的实例尺寸越大时,可以选取像素越大的图像融合特征,本申请对此不作限定。
在一个实施例中,基于目标视频图像的图像融合特征和对应的M个融合实例查询向量,对目标视频图像进行实例分割,得到目标视频图像包括的实例可以包括:从目标视频图像的L个图像融合特征中选取目标图像融合特征,目标视频图像为N帧视频图像中的任一帧;基于目标图像融合特征和目标视频图像对应的M个融合实例查询向量进行S次动态卷积,得到目标视频图像包括的实例。当S为1时,即直接将目标图像融合特征和目标视频图像对应的M个融合实例查询向量进行动态卷积,就可以得到目标视频图像包括的实例。
当S大于1时,计算机设备可以基于目标图像融合特征和目标视频图像对应的M个融合实例查询向量进行S次动态卷积,可以得到S次动态卷积后的目标视频图像对应的M个更新融合实例查询向量和目标视频图像包括的候选实例;其中,一次动态卷积处理后均可以得到M个更新融合实例查询向量和目标视频图像包括的候选实例;在进行S次动态卷积时,每一次动态卷积所用的M 个融合实例查询向量均可以捕获目标视频图像中的图像融合特征的信息,得到 M个更新融合实例查询向量,因此下一次进行动态卷积时所用的M个融合实例查询向量均是对上一次对应的M个更新融合实例查询向量进行处理得到的。即第y次动态卷积得到的M个更新融合实例查询向量是基于第y-1次的融合实例查询向量与目标图像融合特征进行动态卷积得到的,第y-1次的融合实例查询向量是对第y-1次动态卷积得到的M个更新融合实例查询向量进行特征融合分析得到的;y大于1,且y小于或等于S;将第S次动态卷积得到的目标视频图像包括的候选实例确定为目标视频图像包括的实例。其中,M个更新融合实例查询向量是利用M个融合实例查询向量捕获目标视频图像中的图像特征得到的,即在进行动态卷积时,M个融合实例查询向量可以捕获目标视频图像中的图像特征,这样在将M个更新融合实例查询向量用于下一次确定M个融合实例查询向量时,在经过帧间特征融合和帧内特征融合之后,并利用空间维度和时间维度的参数,可以高效的完成在时间维度和空间维度两个维度的实例查询。同时,在确定每帧视频图像对应的M个融合实例查询向量时通过对参数进行重复利用,没有额外的引入新的参数,从而达成了高效的实例级时域特征综合。
其中,第y-1次的融合实例查询向量是对第y-1次动态卷积得到的M个更新融合实例查询向量进行特征融合分析得到的可以是:调用目标视频图像对应的第三多头注意力模块对第y-1次动态卷积得到的M个更新融合实例查询向量进行帧内特征融合,得到目标视频图像对应的新的M个帧内实例查询向量,即最终每帧视频图像均可以得到对应的新的M个帧内实例查询向量。然后调用第四多头注意力模块,对N帧视频图像对应的新的M个帧内实例查询向量进行帧间特征融合,得到目标视频图像对应的第y-1次的融合实例查询向量。
例如,当S为3时,N为2,2帧视频图像分别为视频图像1和视频图像2;计算机设备可以基于视频图像1的目标图像融合特征和视频图像1对应的M个融合实例查询向量进行第一次动态卷积,得到第一次动态卷积后视频图像1的 M个更新融合实例查询向量和视频图像1包括的候选实例;同时,可以将视频图像2的目标图像融合特征和视频图像2对应的M个融合实例查询向量进行第一次动态卷积,得到第一次动态卷积后视频图像2的M个更新融合实例查询向量和视频图像2包括的候选实例;然后调用视频图像1对应的第三多头注意力模块对第一次动态卷积后视频图像1的M个更新融合实例查询向量进行帧内特征融合,得到第一动态卷积后视频图像1的M个帧内实例查询向量,同时,调用视频图像2对应的第三多头注意力模块对第一次动态卷积后视频图像2的M 个更新融合实例查询向量进行帧内特征融合,得到第一次动态卷积后视频图像2 对应的M个帧内实例查询向量,然后对第一动态卷积后视频图像1的N帧视频图像对应的M个帧内实例向量和第一动态卷积后视频图像2对应的M个帧内实例向量进行帧间特征融合,得到第一次动态卷积后视频图像1对应的M个融合实例查询向量以及得到视频图像2对应的M个融合实例查询向量。将第一动态卷积后视频图像1对应的M个融合实例查询向量和视频图像1的目标图像融合特征进行第二动态卷积,得到第二次动态卷积后视频图像1对应的M个更新融合实例查询向量以及视频图像1包括的候选实例。然后,调用视频图像1对应的第三多头注意力模块对第二次动态卷积后视频图像1对应的M个更新融合实例查询向量进行帧内特征融合,得到第二动态卷积后视频图像1对应的M个帧内实例查询向量;并调用第四多头注意力模块对第二动态卷积后视频图像1对应的M个帧内实例查询向量和第二动态卷积后视频图像2对应的M个帧内实例查询向量进行帧间特征融合,得到视频图像1对应的M个融合实例查询向量以及视频图像2对应的M个融合实例查询向量,将第二次动态卷积后视频图像1 对应的M个融合实例查询向量和视频图像1的目标图像融合特征进行第三动态卷积,得到第三次动态卷积后视频图像1对应的M个更新融合实例查询向量以及视频图像1包括的候选实例;最终将第三次动态卷积后得到的视频图像1包括的候选实例作为视频图像1包括的实例以及将第三次动态卷积后得到的视频图像2包括的候选实例作为视频图像2包括的实例。
需要说明的是,上述仅仅示例性给出S=3,本申请实施例中的S可以根据需求设置,例如S可以是3次、6次等等。应理解的是,当进行S次动态卷积时,上一次动态卷积得到的M个更新实例查询向量均会用于下一次确定M个融合实例查询向量,即作为如图5a中的时空交互查询模块302的输入,即最终可以调用S次时空交互查询模块。
在本申请实施例中,计算机设备在获取目标视频中的N帧视频图像之后,一方面,获取每帧视频图像的图像特征以及每帧视频图像对应的时域记忆特征,并对每帧视频图像对应的时域记忆特征进行时域移位处理,得到每帧视频图像对应的记忆移位特征;对每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到每帧视频图像的图像融合特征,可以实现每帧视频图像在时域上信息交互,可以有效提高后续对每帧视频图像的视频分割;另一方面,计算机设备可以获取M个实例查询向量,并将M个实例查询向量广播到N帧视频图像中,得到每帧视频图像对应的M个实例查询向量,基于每帧视频图像的图像融合特征和对应的M个实例查询向量,对N帧视频图像进行实例分割,得到每帧视频图像包括的实例。M个查询查询向量可以负责预测每帧视频图像的实例预测,基于实例查询向量与融合图像特征集合对每帧视频图像进行实例分割,无需依赖非极大值抑制等后处理方式,直接端到端输出每帧视频图像包括的实例,实现了快速高效且准确的视频实例分割。
上述每帧视频图像包括的实例可以是调用实例分割模型对每帧视频图像进行实例分割得到,该实例分割模型可以包括骨干网络和网络预测头,该实例分割模型适用PVT-B1等网络作为基础网络,并在该基础网络中引入基于记忆移位的帧级别时域特征融合模块,从而构建该实例分割模型中的骨干网络,并在该网络预测头中引入时空查询模块,该目标基础网络的网络参数由在MS-COCO 实例分割数据集上预训练的权重初始化,使用的数据集为COCO Instance Seg数据集。基于该实例分割模型,本申请还提供了一种模型训练方法,请参见图6,该模型训练方法可以由计算机设备执行,该计算机设备可以是上述终端设备101 或者服务器102。本实施例中所描述的模型训练方法,可以包括以下步骤 S601-S605:
S601、获取从样本视频采样的R帧样本视频图像以及每帧样本视频图像对应的实例标注,R为大于1的整数。
其中,样本视频可以是预先录制的视频,或者样本数据可以是YouTube-VIS, OVIS以及YouTube-VIS-2021三个大规模视频实力分割基线数据集中的样本视频。实例标注可以是实例类别、包围框、实例前景掩码以及实例嵌入向量中的一种或多种。
在具体实现中,计算机设备可以从样本视频中随机采样连的R帧样本视频图像,例如,R可以需求设置,R可以为5、10、11等等。本申请实施例中改进了单阶段实例分割网络QueryIns,将其拓展到视频实例分割领域,每帧视频图像都会被先缩放到一定尺寸;例如,每帧视频图像都会被先缩放到短边处于(320, 800)像素的图像,长边被缩放为1333,本申请实例对此不作限定。后续在训练时,本申请实施例的实例分割模型QueryVIS(或Tevit,QueryVIS:查询视频实例分割)使用自适应动量估计权重衰减(Adaptive momentestimation weight decay,AdamW)作为优化器在8张显卡上进行训练,其中一次梯度下降使用的样本数为80。本申请实施例所提出的QueryInst一共在视频实例分割数据集上进行了12次完整迭代,初始学习率设置为0.000025,学习率分别在第8次和第11 次完整迭代之后除以10。
S602、调用初始实例分割模型,获取每帧样本视频图像的样本图像特征以及每帧样本视频图像对应的样本时域记忆特征,样本时域记忆特征用于指示样本视频图像在时域上的样本记忆图像特征。
在具体实现中,计算机设备可以调用初始分割模型中包括的初始特征提取模块对每帧样本视频图像的初始图像特征,并获取每帧样本视频图像对应的样本时域记忆特征。其中,样本时域记忆特征可以理解为初始分割模型中的模型参数,在一些实施例中,样本时域记忆特征可以是生成插件***到初始实例分割模型中的初始基于记忆移位的帧级别时域特征融合模块。然后调用初始基于记忆移位的帧级别时域特征融合模块中的第一多头注意力模块对每帧样本视频图像的初始图像特征和对应的样本时域记忆特征进行特征融合,得到每帧样本视频图像的中间样本图像特征和每帧样本视频图像对应的中间样本时域记忆特征。然后计算机设备可以调用基于记忆移位的帧级别时域特征融合模块中的第一前向网络对每帧样本视频图像的中间样本图像特征和每帧样本视频图像对应的中间样本时域记忆特征进行空间变换,得到每帧样本视频图像的样本图像特征以及每帧样本视频图像对应的样本时域记忆特征。
S603、对每帧样本视频图像对应的样本时域记忆特征进行时域移位处理,得到每帧样本视频图像对应的样本记忆移位特征。
在一个实施例中,可以调用初始基于记忆移位的帧级别时域特征融合模块中的初始记忆移位模块对每帧样本视频图像对应的样本时域记忆特征进行时域移位处理,得到每帧样本视频图像对应的样本记忆移位特征。
S604、基于每帧样本视频图像的样本图像特征和对应的样本记忆移位特征,对R帧样本视频图像进行实例分割,得到每帧样本视频图像包括的预测实例。
在具体实现中,计算机设备可以调用初始基于记忆移位的帧级别时域特征融合模块中的第二多头注意力模块对每帧样本视频图像的样本图像特征和对应的样本记忆移位特征进行特征融合,得到每帧样本视频图像的中间样本图像融合特征,然后调用初始基于记忆移位的帧级别时域特征融合模块中的第二前向网络对每帧样本视频图像的中间样本图像融合特征进行空间变换,得到每帧样本视频图像的样本图像融合特征;然后基于每帧样本视频图像的样本图像融合特征,对每帧样本视频图像进行实例分割。
在一个实施例中,在模型初始化阶段,本申请实施例可以采用随机初始化实例的方式随机初始化M个样本实例查询向量。例如,M的取值为50、100、 200等等,本申请实施例不作限定。M个随机初始化的样本实例查询向量负责在输入的视频段(即R帧样本视频图像)中预测到视频实例。对于输入的视频图像而言,M个实例查询向量会广播到每一帧样本视频图像上,然后通过帧内以及帧间的多头注意力机制,将时间域上的实例级别特征进行综合。具体的,可以获取M个样本实例查询向量,并将M个样本实例查询向量广播到每帧样本视频图像,得到每帧样本视频图像对应的M个样本实例查询向量;然后调用初始时空交互查询模块中每帧样本视频图像对应的第三多头注意力模块对每帧样本视频图像的M个样本实例查询向量进行帧内特征融合,得到每帧样本视频图像对应的M个帧内样本实例查询向量;然后调用第四多头注意力模块对每帧样本视频图像对应的M个帧内样本实例查询向量进行帧间特征融合,得到每帧样本视频图像的样本图像融合特征;然后基于每帧样本视频图像的样本图像融合特征和对应的M个融合样本实例查询向量,对R帧样本视频图像进行实例分割,得到每帧样本视频图像包括的预测实例。
在一个实施例中,在调用初始基于记忆移位的帧级别时域特征融合模块中的第二多头注意力模块对每帧样本视频图像的样本图像特征和对应的样本记忆移位特征进行特征融合,得到每帧样本视频图像的中间样本图像融合特征的过程中,调用初始基于记忆移位的帧级别时域特征融合模块中的第二多头注意力模块对每帧样本视频图像的样本图像特征和对应的样本记忆移位特征进行特征融合,还可以得到每帧样本视频图像对应的中间样本记忆移位特征,并采用初始基于记忆移位的帧级别时域特征融合模块中的第二前向网络对每帧样本视频图像对应的中间样本记忆移位特征进行空间变换,得到每帧样本视频图像对应的样本记忆移位融合特征。其中,样本图像融合特征的数量可以为L个,L为大于或等于1的整数。
其中,如何确定每帧样本视频图像的L个样本图像融合特征的具体实现方式可以参见上述如何确定每帧样本视频图像的L个图像融合特征的具体实现方式,在此不再赘述。
在一个实施例中,当调用初始基于记忆移位的帧级别时域特征融合模块得到每帧样本视频图像的L个样本融合图像特征时,基于每帧样本视频图像的样本图像融合特征和对应的M个融合样本实例查询向量,对R帧视频图像进行实例分割,得到每帧样本视频图像包括的预测实例的可以包括:从目标样本视频图像的L个样本图像融合特征中选取目标样本图像融合特征,目标样本视频图像为R帧样本视频图像中的任一帧;然后调用初始时空查询交互模块,基于目标样本图像融合特征和目标样本视频图像对应的M个样本融合实例查询向量进行S次动态卷积,得到S次动态卷积后的目标样本视频图像对应的M个更新样本融合实例查询向量和目标样本视频图像包括的样本候选实例;一次动态卷积处理后得到M个更新样本融合实例查询向量和目标样本视频图像包括的样本候选实例;第y次动态卷积得到的M个更新样本融合实例查询向量是基于第y-1 次的样本融合实例查询向量与目标样本图像融合特征进行动态卷积得到的,第 y-1次的样本融合实例查询向量是对第y-1次动态卷积得到的M个更新样本融合实例查询向量进行特征融合分析得到的;y大于1,且y小于或等于S;将每次动态卷积后得到的每帧样本视频图像包括的样本候选实例均作为每帧样本视频图像包括的预测实例。
S605、基于每帧样本视频图像包括的预测实例和对应的实例标注,更新初始实例分割模型的模型参数,得到实例分割模型。其中,模型参数可以包括初始基于记忆移位的帧级别时域特征融合模块中的网络参数、初始时空交互查询模块中的网络参数、M个实例查询向量等等。
由步骤S604可知,每次动态卷积后得到的每帧样本视频图像包括的样本候选实例均作为每帧样本视频图像包括的预测实例,在计算模型损失值时,需要参考每次动态卷积得到的每帧样本视频图像包括的预测实例与对应的实例标注之间的损失值。计算机设备可以计算每次动态卷积后得到的每帧样本视频图像包括的预测实例与对应实例标注之间的损失,得到每次动态卷积后每帧样本视频图像对应的损失值;基于S次动态卷积所得到的每帧样本视频图像对应的损失值,确定模型损失值,并基于模型损失值更新初始实例分割模型的网络参数,得到实例分割模型。
在本申请实施例中,实例分割模型(TeViT)采用“一对一”的采样样本(即样本视频图像)与真实值(即标注实例)的连接方法。具体而言,对于存在的若干个实例查询向量,在进行样本连接及损失函数计算时,为了实现一个实例查询向量负责一个真实值的宗旨,计算每次动态卷积后得到的每帧样本视频图像包括的样本候选实例与对应实例标注之间的损失,得到每次动态卷积后每帧样本视频图像对应的损失值的具体实现方式可以是:在训练阶段,实例查询向量在进行包围框预测之后,通过逐一计算与真实值(标注实例)之间的损失值,得到实例查询向量的预测(预测实例)与真实值的包围框(即标注实例)之间的二维损失矩阵。之后,采用匈牙利等二分图匹配算法在二维损失矩阵中进行实例查询向量与真实值包围框之间的一一匹配,从而得到实例查询与真实值包围框之间的匹配结果,即每次动态卷积之后均可以生成二维损失矩阵,并采用匈牙利等二分图匹配算法得到实例查询(即候选实例)与真实值包围框之间的匹配结果,最终可以得到每次动态卷积后得到的每帧样本视频图像包括的样本候选实例与对应实例标注之间的损失。由于匹配到真实值之间的实例查询向量可以负责预测该真实值的实例类别、包围框、实例掩码以及实例嵌入向量,即损失函数为该实例查询向量预测(即预测实例)及其对应的真实值(即实例标注)之间的实例级别的损失。特别的,对于没有匹配到真实值的实例查询向量,对应的损失函数仅仅包含真实值为负样本的分类损失。
在本申请实施例中,获取从样本视频采样的R帧样本视频图像以及每帧样本视频图像对应的实例标注,R为大于1的整数;调用初始实例分割模型,获取每帧样本视频图像的样本图像特征以及每帧样本视频图像对应的样本时域记忆特征,样本时域记忆特征用于指示样本视频图像在时域上的样本记忆图像特征;对每帧样本视频图像对应的样本时域记忆特征进行时域移位处理,得到每帧样本视频图像对应的样本记忆移位特征;基于每帧样本视频图像的样本图像特征和对应的样本记忆移位特征,对R帧样本视频图像进行实例分割,得到每帧样本视频图像包括的预测实例;基于每帧样本视频图像包括的预测实例和对应的实例标注,更新初始实例分割模型,得到实例分割模型。通过对初始实例分割模型进行模型训练,得到实例分割模型,可以得到端到端的实例分割模型,提高了实例分割模型的准确性。
利用本申请实施例所提出的实例分割方法,该实例分割方法可以实现对每帧视频图像对应的时域记忆特征进行时域记忆移位以及利用M个实例查询向量进行帧内和帧间信息交互(即实现时域和空间的信息交互),从而鲁棒并准确的将视频中的实例检测、分割、查找出来。在YouTube-VIS,OVIS以及 YouTube-VIS-2021三个大规模视频实力分割基线数据集上,本申请在mAP (Mean Average Precision视频实例分割算法的一个评价指标)上有了很可观的精度提升。与其他目前的先进方法相比,本实例分割方法(TeViT)在速度和精度方面都获得了较大的领先。即在YouTube-VIS,OVIS以及YouTube-VIS-2021 三个大规模视频实力分割基线数据集上,本方法取得了最高的精度,同时保持了具有竞争力的推理速度。以下3个表格分别为在YouTube-VIS,OVIS以及 YouTube-VIS-2021三个大规模视频实力分割基线数据集上进行验证的验证结果:
(1)在公开数据集YouTube-VIS验证集上的精度如表1所示,对比基准参考方法
表1
Figure BDA0003576531870000301
Figure BDA0003576531870000311
(2)在公开数据集YouTube-VIS-2021上,本方法也取得了当前最佳的性能,如表2所示:
表2
Figure BDA0003576531870000312
Figure BDA0003576531870000321
(3)在公开数据集OVIS上,本方法也取得了当前最佳的性能,如表3所示:
表3
Figure BDA0003576531870000322
基于上述实例分割方法实施例的描述,本申请实施例还公开了一种实例分割装置,该实例分割装置可以是运行于上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该实例分割装置可以执行图2、图4和图6所示的方法。请参见图7,所述实例分割装置可以包括如下单元:
获取单元701,用于获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N为大于1的整数;
所述获取单元701,还用于获取所述每帧视频图像的图像特征以及所述每帧视频图像对应的时域记忆特征,所述时域记忆特征用于指示视频图像在时域上的记忆图像特征;
处理单元702,用于对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征;
所述处理单元702,还用于基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,所述处理单元702在对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征时,可具体用于:
将所述N帧视频图像对应的时域记忆特征划分为多个记忆特征组,每个记忆特征组均包括相同数量的时域记忆特征;
获取所述每个记忆特征组的移动步长和移动方向;
按照所述每个记忆特征组的移动步长和移动方向移动所述每个记忆特征组中的时域记忆特征,得到所述每帧视频图像对应的记忆移位特征。
在一个实施例中,所述处理单元702在基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,可具体用于:
对所述每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到所述每帧视频图像的图像融合特征;
基于所述每帧视频图像的图像融合特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,所述每帧视频图像的图像融合特征的数量为L个,L为大于或等于1的整数,所述处理单元702在对所述每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到所述每帧视频图像的图像融合特征时,可具体用于:
基于所述每帧视频图像的图像特征和对应的记忆移位特征确定所述每帧视频图像的候选图像融合特征和对应的记忆移位融合特征;
对所述每帧视频图像对应的记忆移位融合特征进行反向时域移位处理,得到所述每帧视频图像对应的反向移位特征;
统计所述每帧视频图像的候选图像融合特征的数量;
若所述数量小于所述L,则获取每帧视频图像的新的图像特征和对应的新的时域记忆特征,并对所述每帧视频图像对应的新的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的新的记忆移位特征;基于所述每帧视频图像的新的图像特征和对应的新的记忆移位特征进行特征融合,得到所述每帧视频图像的新的候选图像融合特征,所述每帧视频图像的新的图像特征和对应的新的时域记忆特征是基于所述每帧视频图像的候选图像融合特征和对应的反向移位特征确定的;
若所述数量等于所述L,则将所述每帧视频图像的L个候选图像融合特征确定为所述每帧视频图像的L个图像融合特征。
在一个实施例中,所述处理单元702在基于所述每帧视频图像的图像融合特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,可具体用于:
获取M个实例查询向量;
将所述M个实例查询向量广播到N帧视频图像中,得到每帧视频图像对应的M个实例查询向量;
基于所述每帧视频图像的图像融合特征和对应的M个实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,所述处理单元702在基于所述每帧视频图像的图像融合特征和对应的M个实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,可具体用于:
对所述每帧视频图像对应的M个实例查询向量进行特征融合分析,得到所述每帧视频图像对应的M个融合实例查询向量;
基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,所述处理单元702在对所述每帧视频图像对应的M个实例查询向量进行特征融合分析,得到所述每帧视频图像对应的M个融合实例查询向量时,可具体用于:
对所述每帧视频图像对应的M个实例查询向量进行帧内特征融合,得到所述每帧视频图像对应的M个帧内实例查询向量;
对所述N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的M个融合实例查询向量。
在一个实施例中,所述处理单元702在对所述N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的M个融合实例查询向量时,可具体用于:
获取所述每帧视频图像对应的M个帧内实例查询向量中的第i个帧内实例查询向量,i大于或等于1,且i小于或等于M;
基于所述N帧视频图像对应的第i个帧内实例查询向量,对所述每帧视频图像对应的第i个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的第i个融合实例查询向量。
在一个实施例中,当所述每帧视频图像的图像融合特征的数量为L个时,所述处理单元702在基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,可具体用于:
从目标视频图像的L个图像融合特征中选取目标图像融合特征,所述目标视频图像为所述N帧视频图像中的任一帧;
将所述目标图像融合特征和所述目标视频图像对应的M个融合实例查询向量进行动态卷积,得到所述目标视频图像包括的实例。
在一个实施例中,当所述每帧视频图像的图像融合特征的数量为L个时,所述处理单元702在基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,可具体用于:
从目标视频图像的L个图像融合特征中选取目标图像融合特征,所述目标视频图像为所述N帧视频图像中的任一帧;
基于所述目标图像融合特征和所述目标视频图像对应的M个融合实例查询向量进行S次动态卷积,得到所述S次动态卷积后的目标视频图像对应的M个更新融合实例查询向量和所述目标视频图像包括的候选实例;一次动态卷积处理后得到M个更新融合实例查询向量和所述目标视频图像包括的候选实例;第 y次动态卷积得到的M个更新融合实例查询向量是基于第y-1次的融合实例查询向量与所述目标图像融合特征进行动态卷积得到的,所述第y-1次的融合实例查询向量是对第y-1次动态卷积得到的M个更新融合实例查询向量进行特征融合分析得到的;y大于1,且y小于或等于S;
将第S次动态卷积得到的所述目标视频图像包括的候选实例确定为所述目标视频图像包括的实例。
在一个实施例中,所述每帧视频图像包括的实例是调用实例分割模型对所述每帧视频图像进行实例分割得到的,所述获取单元701,还用于获取从样本视频采样的R帧样本视频图像以及每帧样本视频图像对应的实例标注,R为大于1 的整数;
所述处理单元702,还用于调用初始实例分割模型,获取所述每帧样本视频图像的样本图像特征以及所述每帧样本视频图像对应的样本时域记忆特征,所述样本时域记忆特征用于指示样本视频图像在时域上的样本记忆图像特征;对所述每帧样本视频图像对应的样本时域记忆特征进行时域移位处理,得到所述每帧样本视频图像对应的样本记忆移位特征;基于所述每帧样本视频图像的样本图像特征和对应的样本记忆移位特征,对所述R帧样本视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例;基于所述每帧样本视频图像包括的预测实例和对应的实例标注,更新所述初始实例分割模型的模型参数,得到实例分割模型。
在一个实施例中,所述处理单元702在基于所述每帧样本视频图像的样本图像特征和对应的样本记忆移位特征,对所述R帧样本视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例时,可具体用于:
对所述每帧样本视频图像的样本图像特征和对应的样本记忆移位特征进行特征融合,得到所述每帧样本视频图像的样本图像融合特征;
获取M个样本实例查询向量,并将所述M个样本实例查询向量广播到每帧样本视频图像,得到所述每帧样本视频图像对应的M个样本实例查询向量;
对所述每帧样本视频图像的M个样本实例查询向量进行特征融合分析,得到所述每帧样本视频图像对应的M个融合样本实例查询向量;
基于所述每帧样本视频图像的样本图像融合特征和对应的M个融合样本实例查询向量,对所述R帧视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例。
在一个实施例中,当所述样本图像融合特征的数量为L个时,所述处理单元702在基于所述每帧样本视频图像的样本图像融合特征和对应的M个融合样本实例查询向量,对所述R帧视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例时,可具体用于:
从目标样本视频图像的L个样本图像融合特征中选取目标样本图像融合特征,所述目标样本视频图像为R帧样本视频图像中的任一帧;
基于所述目标样本图像融合特征和所述目标样本视频图像对应的M个样本融合实例查询向量进行S次动态卷积,得到所述S次动态卷积后的目标样本视频图像对应的M个更新样本融合实例查询向量和所述目标样本视频图像包括的样本候选实例;一次动态卷积处理后得到M个更新样本融合实例查询向量和所述目标样本视频图像包括的样本候选实例;第y次动态卷积得到的M个更新样本融合实例查询向量是基于第y-1次的样本融合实例查询向量与所述目标样本图像融合特征进行动态卷积得到的,所述第y-1次的样本融合实例查询向量是对第y-1次动态卷积得到的M个更新样本融合实例查询向量进行特征融合分析得到的;y大于1,且y小于或等于S;
将每次动态卷积后得到的每帧样本视频图像包括的样本候选实例均作为所述每帧样本视频图像包括的预测实例。
在一个实施例中,所述处理单元702在基于所述每帧样本视频图像包括的预测实例和对应的实例标注,更新所述初始实例分割模型的模型参数,得到实例分割模型时,可具体用于:
计算每次动态卷积后得到的每帧样本视频图像包括的预测实例与对应实例标注之间的损失,得到每次动态卷积后所述每帧样本视频图像对应的损失值;
基于所述S次动态卷积所得到的每帧样本视频图像对应的损失值,确定模型损失值;
基于所述模型损失值更新所述初始实例分割模型的模型参数,得到实例分割模型。
可以理解的是,本实施例的实例分割装置的各功能单元的功能可根据上述方法实施例图2、图4和图6中的方法具体实现,其具体实现过程可以参照上述方法实施例图2、图4和图6中的相关描述,此处不再赘述。
基于上述实例分割方法实施例的描述,本申请实施例还公开了一种计算机设备,请参见图8,该计算机设备至少可包括处理器801、输入设备802、输出设备803以及存储器804。其中,计算机设备内的处理器801、输入设备802、输出设备803以及存储器804可通过总线或其他方式连接。
所述存储器804是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器804既可以包括计算机设备的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。存储器804提供存储空间,该存储空间存储了计算机设备的操作***。并且,在该存储空间中还存放计算机程序 (包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器;可选的,还可以是至少一个远离前述处理器的计算机存储介质、所述处理器可以称为中央处理单元(Central Processing Unit,CPU),是计算机设备的核心以及控制中心,用于运行所述存储器804中存储的计算机程序。
在一个实施例中,可由处理器801加载并执行存储器804中存放的计算机程序,以实现上述有关实例分割方法实施例中的方法的相应步骤;具体的,所述处理器801加载并执行存储器804中存放的计算机程序,用于:
获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N 为大于1的整数;
获取所述每帧视频图像的图像特征以及所述每帧视频图像对应的时域记忆特征,所述时域记忆特征用于指示视频图像在时域上的记忆图像特征;
对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征;
基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,在对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
将所述N帧视频图像对应的时域记忆特征划分为多个记忆特征组,每个记忆特征组均包括相同数量的时域记忆特征;
获取所述每个记忆特征组的移动步长和移动方向;
按照所述每个记忆特征组的移动步长和移动方向移动所述每个记忆特征组中的时域记忆特征,得到所述每帧视频图像对应的记忆移位特征。
在一个实施例中,在基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
对所述每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到所述每帧视频图像的图像融合特征;
基于所述每帧视频图像的图像融合特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,所述每帧视频图像的图像融合特征的数量为L个,L为大于或等于1的整数,在对所述每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到所述每帧视频图像的图像融合特征时,所述处理器801 加载并执行存储器804中存放的计算机程序,具体用于:
基于所述每帧视频图像的图像特征和对应的记忆移位特征确定所述每帧视频图像的候选图像融合特征和对应的记忆移位融合特征;
对所述每帧视频图像对应的记忆移位融合特征进行反向时域移位处理,得到所述每帧视频图像对应的反向移位特征;
统计所述每帧视频图像的候选图像融合特征的数量;
若所述数量小于所述L,则获取每帧视频图像的新的图像特征和对应的新的时域记忆特征,并对所述每帧视频图像对应的新的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的新的记忆移位特征;基于所述每帧视频图像的新的图像特征和对应的新的记忆移位特征进行特征融合,得到所述每帧视频图像的新的候选图像融合特征,所述每帧视频图像的新的图像特征和对应的新的时域记忆特征是基于所述每帧视频图像的候选图像融合特征和对应的反向移位特征确定的;
若所述数量等于所述L,则将所述每帧视频图像的L个候选图像融合特征确定为所述每帧视频图像的L个图像融合特征。
在一个实施例中,在基于所述每帧视频图像的图像融合特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,所述处理器801 加载并执行存储器804中存放的计算机程序,具体用于:
获取M个实例查询向量;
将所述M个实例查询向量广播到N帧视频图像中,得到每帧视频图像对应的M个实例查询向量;
基于所述每帧视频图像的图像融合特征和对应的M个实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,在基于所述每帧视频图像的图像融合特征和对应的M个实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
对所述每帧视频图像对应的M个实例查询向量进行特征融合分析,得到所述每帧视频图像对应的M个融合实例查询向量;
基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
在一个实施例中,在对所述每帧视频图像对应的M个实例查询向量进行特征融合分析,得到所述每帧视频图像对应的M个融合实例查询向量时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
对所述每帧视频图像对应的M个实例查询向量进行帧内特征融合,得到所述每帧视频图像对应的M个帧内实例查询向量;
对所述N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的M个融合实例查询向量。
在一个实施例中,在对所述N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的M个融合实例查询向量时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
获取所述每帧视频图像对应的M个帧内实例查询向量中的第i个帧内实例查询向量,i大于或等于1,且i小于或等于M;
基于所述N帧视频图像对应的第i个帧内实例查询向量,对所述每帧视频图像对应的第i个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的第i个融合实例查询向量。
在一个实施例中,当所述每帧视频图像的图像融合特征的数量为L个时,在基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
从目标视频图像的L个图像融合特征中选取目标图像融合特征,所述目标视频图像为所述N帧视频图像中的任一帧;
将所述目标图像融合特征和所述目标视频图像对应的M个融合实例查询向量进行动态卷积,得到所述目标视频图像包括的实例。
在一个实施例中,当所述每帧视频图像的图像融合特征的数量为L个时,在基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
从目标视频图像的L个图像融合特征中选取目标图像融合特征,所述目标视频图像为所述N帧视频图像中的任一帧;
基于所述目标图像融合特征和所述目标视频图像对应的M个融合实例查询向量进行S次动态卷积,得到所述S次动态卷积后的目标视频图像对应的M个更新融合实例查询向量和所述目标视频图像包括的候选实例;一次动态卷积处理后得到M个更新融合实例查询向量和所述目标视频图像包括的候选实例;第 y次动态卷积得到的M个更新融合实例查询向量是基于第y-1次的融合实例查询向量与所述目标图像融合特征进行动态卷积得到的,所述第y-1次的融合实例查询向量是对第y-1次动态卷积得到的M个更新融合实例查询向量进行特征融合分析得到的;y大于1,且y小于或等于S;
将第S次动态卷积得到的所述目标视频图像包括的候选实例确定为所述目标视频图像包括的实例。
在一个实施例中,所述每帧视频图像包括的实例是调用实例分割模型对所述每帧视频图像进行实例分割得到的,所述处理器801加载并执行存储器804 中存放的计算机程序,还用于:
获取从样本视频采样的R帧样本视频图像以及每帧样本视频图像对应的实例标注,R为大于1的整数;
调用初始实例分割模型,获取所述每帧样本视频图像的样本图像特征以及所述每帧样本视频图像对应的样本时域记忆特征,所述样本时域记忆特征用于指示样本视频图像在时域上的样本记忆图像特征;
对所述每帧样本视频图像对应的样本时域记忆特征进行时域移位处理,得到所述每帧样本视频图像对应的样本记忆移位特征;
基于所述每帧样本视频图像的样本图像特征和对应的样本记忆移位特征,对所述R帧样本视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例;
基于所述每帧样本视频图像包括的预测实例和对应的实例标注,更新所述初始实例分割模型的模型参数,得到实例分割模型。
在一个实施例中,在基于所述每帧样本视频图像的样本图像特征和对应的样本记忆移位特征,对所述R帧样本视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
对所述每帧样本视频图像的样本图像特征和对应的样本记忆移位特征进行特征融合,得到所述每帧样本视频图像的样本图像融合特征;
获取M个样本实例查询向量,并将所述M个样本实例查询向量广播到每帧样本视频图像,得到所述每帧样本视频图像对应的M个样本实例查询向量;
对所述每帧样本视频图像的M个样本实例查询向量进行特征融合分析,得到所述每帧样本视频图像对应的M个融合样本实例查询向量;
基于所述每帧样本视频图像的样本图像融合特征和对应的M个融合样本实例查询向量,对所述R帧视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例。
在一个实施例中,当所述样本图像融合特征的数量为L个时,在基于所述每帧样本视频图像的样本图像融合特征和对应的M个融合样本实例查询向量,对所述R帧视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
从目标样本视频图像的L个样本图像融合特征中选取目标样本图像融合特征,所述目标样本视频图像为R帧样本视频图像中的任一帧;
基于所述目标样本图像融合特征和所述目标样本视频图像对应的M个样本融合实例查询向量进行S次动态卷积,得到所述S次动态卷积后的目标样本视频图像对应的M个更新样本融合实例查询向量和所述目标样本视频图像包括的样本候选实例;一次动态卷积处理后得到M个更新样本融合实例查询向量和所述目标样本视频图像包括的样本候选实例;第y次动态卷积得到的M个更新样本融合实例查询向量是基于第y-1次的样本融合实例查询向量与所述目标样本图像融合特征进行动态卷积得到的,所述第y-1次的样本融合实例查询向量是对第y-1次动态卷积得到的M个更新样本融合实例查询向量进行特征融合分析得到的;y大于1,且y小于或等于S;
将每次动态卷积后得到的每帧样本视频图像包括的样本候选实例均作为所述每帧样本视频图像包括的预测实例。
在一个实施例中,在基于所述每帧样本视频图像包括的预测实例和对应的实例标注,更新所述初始实例分割模型的模型参数,得到实例分割模型时,所述处理器801加载并执行存储器804中存放的计算机程序,具体用于:
计算每次动态卷积后得到的每帧样本视频图像包括的预测实例与对应实例标注之间的损失,得到每次动态卷积后所述每帧样本视频图像对应的损失值;
基于所述S次动态卷积所得到的每帧样本视频图像对应的损失值,确定模型损失值;
基于所述模型损失值更新所述初始实例分割模型的模型参数,得到实例分割模型。
应当理解,在本申请实施例中,所称处理器801可以是中央处理单元(CentralProcessing Unit,CPU),该处理器801还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,可执行上述所有实施例中所执行的步骤。
本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被计算机设备的处理器执行时,执行上述所有实施例中的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (15)

1.一种实例分割方法,其特征在于,包括:
获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N为大于1的整数;
获取所述每帧视频图像的图像特征以及所述每帧视频图像对应的时域记忆特征,所述时域记忆特征用于指示视频图像在时域上的记忆图像特征;
对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征;
基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
2.如权利要求1所述的方法,其特征在于,所述对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征,包括:
将所述N帧视频图像对应的时域记忆特征划分为多个记忆特征组,每个记忆特征组均包括相同数量的时域记忆特征;
获取所述每个记忆特征组的移动步长和移动方向;
按照所述每个记忆特征组的移动步长和移动方向移动所述每个记忆特征组中的时域记忆特征,得到所述每帧视频图像对应的记忆移位特征。
3.如权利要求1或2所述的方法,其特征在于,所述基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例,包括:
对所述每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到所述每帧视频图像的图像融合特征;
基于所述每帧视频图像的图像融合特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
4.如权利要求3所述的方法,其特征在于,所述每帧视频图像的图像融合特征的数量为L个,L为大于或等于1的整数,所述对所述每帧视频图像的图像特征和对应的记忆移位特征进行特征融合,得到所述每帧视频图像的图像融合特征,包括:
基于所述每帧视频图像的图像特征和对应的记忆移位特征确定所述每帧视频图像的候选图像融合特征和对应的记忆移位融合特征;
对所述每帧视频图像对应的记忆移位融合特征进行反向时域移位处理,得到所述每帧视频图像对应的反向移位特征;
统计所述每帧视频图像的候选图像融合特征的数量;
若所述数量小于所述L,则获取每帧视频图像的新的图像特征和对应的新的时域记忆特征,并对所述每帧视频图像对应的新的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的新的记忆移位特征;基于所述每帧视频图像的新的图像特征和对应的新的记忆移位特征进行特征融合,得到所述每帧视频图像的新的候选图像融合特征,所述每帧视频图像的新的图像特征和对应的新的时域记忆特征是基于所述每帧视频图像的候选图像融合特征和对应的反向移位特征确定的;
若所述数量等于所述L,则将所述每帧视频图像的L个候选图像融合特征确定为所述每帧视频图像的L个图像融合特征。
5.如权利要求3所述的方法,其特征在于,所述基于所述每帧视频图像的图像融合特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例,包括:
获取M个实例查询向量;
将所述M个实例查询向量广播到N帧视频图像中,得到每帧视频图像对应的M个实例查询向量;
基于所述每帧视频图像的图像融合特征和对应的M个实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
6.如权利要求5所述的方法,其特征在于,所述基于所述每帧视频图像的图像融合特征和对应的M个实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例,包括:
对所述每帧视频图像对应的M个实例查询向量进行特征融合分析,得到所述每帧视频图像对应的M个融合实例查询向量;
基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
7.如权利要求6所述的方法,其特征在于,所述对所述每帧视频图像对应的M个实例查询向量进行特征融合分析,得到所述每帧视频图像对应的M个融合实例查询向量,包括:
对所述每帧视频图像对应的M个实例查询向量进行帧内特征融合,得到所述每帧视频图像对应的M个帧内实例查询向量;
对所述N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的M个融合实例查询向量。
8.如权利要求7所述的方法,其特征在于,所述对所述N帧视频图像对应的M个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的M个融合实例查询向量,包括:
获取所述每帧视频图像对应的M个帧内实例查询向量中的第i个帧内实例查询向量,i大于或等于1,且i小于或等于M;
基于所述N帧视频图像对应的第i个帧内实例查询向量,对所述每帧视频图像对应的第i个帧内实例查询向量进行帧间特征融合,得到所述每帧视频图像对应的第i个融合实例查询向量。
9.如权利要求6所述的方法,其特征在于,当所述每帧视频图像的图像融合特征的数量为L个时,所述基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例,包括:
从目标视频图像的L个图像融合特征中选取目标图像融合特征,所述目标视频图像为所述N帧视频图像中的任一帧;
将所述目标图像融合特征和所述目标视频图像对应的M个融合实例查询向量进行动态卷积,得到所述目标视频图像包括的实例。
10.如权利要求6所述的方法,其特征在于,当所述每帧视频图像的图像融合特征的数量为L个时,所述基于所述每帧视频图像的图像融合特征和对应的M个融合实例查询向量,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例,包括:
从目标视频图像的L个图像融合特征中选取目标图像融合特征,所述目标视频图像为所述N帧视频图像中的任一帧;
基于所述目标图像融合特征和所述目标视频图像对应的M个融合实例查询向量进行S次动态卷积,得到所述S次动态卷积后的目标视频图像对应的M个更新融合实例查询向量和所述目标视频图像包括的候选实例;一次动态卷积处理后得到M个更新融合实例查询向量和所述目标视频图像包括的候选实例;第y次动态卷积得到的M个更新融合实例查询向量是基于第y-1次的融合实例查询向量与所述目标图像融合特征进行动态卷积得到的,所述第y-1次的融合实例查询向量是对第y-1次动态卷积得到的M个更新融合实例查询向量进行特征融合分析得到的;y大于1,且y小于或等于S;
将第S次动态卷积得到的所述目标视频图像包括的候选实例确定为所述目标视频图像包括的实例。
11.如权利要求1所述的方法,其特征在于,所述每帧视频图像包括的实例是调用实例分割模型对所述每帧视频图像进行实例分割得到的,所述方法还包括:
获取从样本视频采样的R帧样本视频图像以及每帧样本视频图像对应的实例标注,R为大于1的整数;
调用初始实例分割模型,获取所述每帧样本视频图像的样本图像特征以及所述每帧样本视频图像对应的样本时域记忆特征,所述样本时域记忆特征用于指示样本视频图像在时域上的样本记忆图像特征;
对所述每帧样本视频图像对应的样本时域记忆特征进行时域移位处理,得到所述每帧样本视频图像对应的样本记忆移位特征;
基于所述每帧样本视频图像的样本图像特征和对应的样本记忆移位特征,对所述R帧样本视频图像进行实例分割,得到所述每帧样本视频图像包括的预测实例;
基于所述每帧样本视频图像包括的预测实例和对应的实例标注,更新所述初始实例分割模型的模型参数,得到实例分割模型。
12.一种实例分割装置,其特征在于,包括:
获取单元,用于获取目标视频中的N帧视频图像,每帧视频图像包括一个或多个实例,N为大于1的整数;
所述获取单元,还用于获取所述每帧视频图像的图像特征以及所述每帧视频图像对应的时域记忆特征,所述时域记忆特征用于指示视频图像在时域上的记忆图像特征;
处理单元,用于对所述每帧视频图像对应的时域记忆特征进行时域移位处理,得到所述每帧视频图像对应的记忆移位特征;
所述处理单元,还用于基于所述每帧视频图像的图像特征和对应的记忆移位特征,对所述N帧视频图像进行实例分割,得到所述每帧视频图像包括的实例。
13.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,调用所述存储器中的所述计算机程序,用于执行如权利要求1~11任一项所述的实例分割方法。
14.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,执行权利要求1~11任一项所述的实例分割方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时用于加载并执行如权利要求1~11任一项所述的实例分割方法。
CN202210335171.4A 2022-03-31 2022-03-31 实例分割方法、相关设备和存储介质 Pending CN114782861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210335171.4A CN114782861A (zh) 2022-03-31 2022-03-31 实例分割方法、相关设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210335171.4A CN114782861A (zh) 2022-03-31 2022-03-31 实例分割方法、相关设备和存储介质

Publications (1)

Publication Number Publication Date
CN114782861A true CN114782861A (zh) 2022-07-22

Family

ID=82427048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210335171.4A Pending CN114782861A (zh) 2022-03-31 2022-03-31 实例分割方法、相关设备和存储介质

Country Status (1)

Country Link
CN (1) CN114782861A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备
CN112669324A (zh) * 2020-12-31 2021-04-16 中国科学技术大学 基于时序特征聚合和条件卷积的快速视频目标分割方法
CN113065459A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于动态条件卷积的视频实例分割方法及***
CN114241388A (zh) * 2021-12-22 2022-03-25 中国科学院深圳先进技术研究院 基于时空记忆信息的视频实例分割方法和分割装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651292A (zh) * 2020-10-01 2021-04-13 新加坡依图有限责任公司(私有) 基于视频的人体动作识别方法、装置、介质及电子设备
CN112669324A (zh) * 2020-12-31 2021-04-16 中国科学技术大学 基于时序特征聚合和条件卷积的快速视频目标分割方法
CN113065459A (zh) * 2021-03-31 2021-07-02 山东师范大学 一种基于动态条件卷积的视频实例分割方法及***
CN114241388A (zh) * 2021-12-22 2022-03-25 中国科学院深圳先进技术研究院 基于时空记忆信息的视频实例分割方法和分割装置

Similar Documents

Publication Publication Date Title
EP3147817A1 (en) Method and apparatus for video and image match searching
Thomas et al. Perceptual video summarization—A new framework for video summarization
CN112257526B (zh) 一种基于特征交互学习的动作识别方法及终端设备
Zhu et al. Depth2action: Exploring embedded depth for large-scale action recognition
CN113704531A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112132197A (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
CN112232164A (zh) 一种视频分类方法和装置
CN111667005B (zh) 一种采用rgbd视觉传感的人体交互***
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN112668492A (zh) 一种自监督学习与骨骼信息的行为识别方法
CN110956059B (zh) 一种动态手势识别方法、装置和电子设备
Dai et al. Video scene segmentation using tensor-train faster-RCNN for multimedia IoT systems
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN113627402A (zh) 一种图像识别方法及相关装置
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
Sun et al. Multitask multigranularity aggregation with global-guided attention for video person re-identification
CN113822134A (zh) 一种基于视频的实例跟踪方法、装置、设备及存储介质
CN112257638A (zh) 一种图像比对方法、***、设备及计算机可读存储介质
CN115171014A (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN114782861A (zh) 实例分割方法、相关设备和存储介质
CN111881794A (zh) 一种视频行为识别方法及***
Li et al. VirtualActionNet: A strong two-stream point cloud sequence network for human action recognition
Caetano et al. Magnitude-Orientation Stream network and depth information applied to activity recognition
CN110795972A (zh) 行人身份识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination