CN111260679A

CN111260679A - 图像处理方法、图像分割模型训练方法及相关装置

Info

Publication number: CN111260679A
Application number: CN202010014372.5A
Authority: CN
Inventors: 叶海佳; 何帅; 王文斓
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2020-06-09
Anticipated expiration: 2040-01-07
Also published as: CN111260679B; WO2021139625A1

Abstract

本申请提出一种图像处理方法、图像分割模型训练方法及相关装置，涉及人工智能技术领域，通过获得在时序上相邻的两个训练图像，以及该两个训练图像之间的光流信息作为训练图像集，并获得该训练图像集对应的训练标注信息；然后将这两个训练图像输入图像分割模型，得到两个训练掩膜信息；进而根据这两个训练掩膜信息、训练标注信息以及光流信息，更新图像分割模型的模型参数，直至图像分割模型达到设定的收敛条件；相比于现有技术，能够使图像分割模型利用光流信息学习到图像间的运动信息，使得图像分割模型能够结合每一图像与相邻的其他图像之间的运动信息，提取对应图像的掩膜信息，确保在进行图像融合时，连续的图像之间具有一致性。

Description

图像处理方法、图像分割模型训练方法及相关装置

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种图像处理方法、图像分割模型训练方法及相关装置。

背景技术

抠图技术是指将一张图像中的前景信息和背景信息分离，然后将得到的前景信息应用在其他背景信息中；利用抠图技术，能够将提取到的前景信息与任意的背景信息相融合，比如在直播领域，可以将提取到的人像信息与任意背景图片或者是视频进行融合，从而提升用户观看直播的体验感。

然而，目前的抠图技术仅仅是将人像信息与背景信息的像素分离，得到一个只包含0与1的掩膜，在融合时，相邻图像帧之间的一致性较差，导致视频画面中的对象信息可能会出现抖动等情况。

发明内容

本申请的目的在于提供一种图像处理方法、图像分割模型训练方法及相关装置，能够在进行图像融合时，确保连续的图像之间具有一致性。

为了实现上述目的，本申请采用的技术方案如下：

第一方面，本申请提供一种图像分割模型训练方法，所述方法包括：

获得训练图像集以及所述训练图像集对应的训练标注信息；其中，所述训练图像集包括在时序上相邻的两个训练图像，以及该两个训练图像之间的光流(optical flow)信息；

将所述两个训练图像输入所述图像分割模型，得到两个训练掩膜信息；

根据所述两个训练掩膜信息、所述训练标注信息以及所述光流信息，更新所述图像分割模型的模型参数，直至所述图像分割模型达到设定的收敛条件。

第二方面，本申请提供一种图像处理方法，所述方法包括：

接收待处理图像以及待融合背景；

将所述待处理图像输入至利用如本申请提供的上述方法训练至收敛的图像分割模型，得到所述待处理图像对应的目标掩膜信息；

利用所述目标掩膜信息对所述待处理图像以及所述待融合背景进行处理，得到融合图像。

第三方面，本申请提供一种图像分割模型训练装置，所述装置包括：

第一处理模块，用于获得训练图像集以及所述训练图像集对应的训练标注信息；其中，所述训练图像集包括在时序上相邻的两个训练图像，以及该两个训练图像之间的光流信息；

所述第一处理模块还用于，将所述两个训练图像输入所述图像分割模型，得到两个训练掩膜信息；

更新模块，用于根据所述两个训练掩膜信息、所述训练标注信息以及所述光流信息，更新所述图像分割模型的模型参数，直至所述图像分割模型达到设定的收敛条件。

第四方面，本申请提供一种图像处理装置，所述装置包括：

接收模块，用于接收待处理图像以及待融合背景；

第二处理模块，用于将所述待处理图像输入至利用本申请提供的上述方法训练至收敛的图像分割模型，得到所述待处理图像对应的目标掩膜信息；

所述第二处理模块还用于，利用所述目标掩膜信息对所述待处理图像以及所述待融合背景进行处理，得到融合图像。

第五方面，本申请提供一种电子设备，所述电子设备包括存储器，用于存储一个或多个程序；处理器；当所述一个或多个程序被所述处理器执行时，实现上述的图像分割模型训练方法或者是图像处理方法。

第六方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的图像分割模型训练方法或者是图像处理方法。

本申请提供的一种图像处理方法、图像分割模型训练方法及相关装置，通过获得在时序上相邻的两个训练图像，以及该两个训练图像之间的光流信息作为训练图像集，并获得该训练图像集对应的训练标注信息；然后将这两个训练图像输入图像分割模型，得到两个训练掩膜信息；进而根据这两个训练掩膜信息、训练标注信息以及光流信息，更新图像分割模型的模型参数，直至图像分割模型达到设定的收敛条件；相比于现有技术，在训练图像分割模型时，能够使图像分割模型利用光流信息学习到图像间的运动信息，使得图像分割模型能够结合每一图像与相邻的其他图像之间的运动信息，提取对应图像的掩膜信息，使得在进行图像融合时，能够确保连续的图像之间具有一致性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它相关的附图。

图1示出本申请提供的电子设备的一种示意性结构框图；

图2示出本申请提供的图像分割模型训练方法的一种示意性流程图；

图3示出图像分割模型的一种示意性结构图；

图4示出图2中步骤206的子步骤的一种示意性流程图；

图5示出本申请提供的图像分割模型训练方法的另一种示意性流程图；

图6示出光流信息的一种提取方式示意图；

图7示出本申请提供的图像分割模型训练方法的再一种示意性流程图；

图8示出本申请提供的图像处理方法的一种示意性流程图；

图9示出一种图像融合前后对照示意图；

图10示出本申请提供的图像分割模型训练装置的一种示意性结构框图；

图11示出本申请提供的图像处理装置的一种示意性结构框图。

图中：100-电子设备；101-存储器；102-处理器；103-通信接口；400-图像分割模型训练装置；401-第一处理模块；402-更新模块；500-图像处理装置；501-接收模块；502-第二处理模块。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请的一些实施例中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请选定的一些实施例。基于本申请中的一部分实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在例如上述的直播领域中，利用抠图技术，可以将例如主播的人像等前景信息与背景信息进行分离，然后将分离出的前景信息与其他的背景信息进行融合。

其中，假定抠图分离出的前景信息表示为F，融合的背景信息表示为B，则融合后的图像I可以表示为：I＝mF+(1-m)B。

式中，m表示前景信息F对应的掩膜信息(mask)。

结合上述图像I的融合公式可知，由于前景信息F和背景信息B均为输入的定值，因此图像I的融合效果主要是受掩膜信息取值的影响。

在一些抠图方案中，比如人像二值语义分割，在获得掩膜信息时，人像二值语义分割方案是从语义的层次理解图像，将图像中的信息从语义类属中归类为前景像素和背景像素，得到的是一个0与1掩膜。

然而，在例如网络直播等场景中，将例如主播人像等前景信息与其他背景信息进行融合时，由于网络直播播放的是连续的视频流，因此不仅需要考虑前景信息与背景信息之间的融合，还要考虑连续的两帧图像的分割结果不能有太大的偏差。但例如上述的人像二值语义分割方案，其考虑的仅仅是单帧图像的分割，没有考虑到相邻图像帧分割结果在时序上的一致性，使得应用在网络直播等场景的人像分割时，分割后的前景信息在与其他背景信息融合后，融合产生的视频画面中的对象信息可能出现抖动现象，影响用户体验。

为此，基于上述缺陷，本申请提供的一种可能的实现方式为：通过获得在时序上相邻的两个训练图像，以及该两个训练图像之间的光流信息作为训练图像集，并获得该训练图像集对应的训练标注信息；然后将这两个训练图像输入图像分割模型，得到两个训练掩膜信息；进而根据这两个训练掩膜信息、训练标注信息以及光流信息，更新图像分割模型的模型参数，直至图像分割模型达到设定的收敛条件；使得图像分割模型能够结合每一图像与相邻的其他图像之间的运动信息，提取对应图像的掩膜信息，进而在进行图像融合时，能够确保连续的图像之间具有一致性。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1示出本申请提供的电子设备100的一种示意性结构框图，该电子设备100内可以存储有未经训练的图像分割模型，从而执行本申请提供的图像分割模型训练方法，以完成对该图像分割模型的训练；或者是，该电子设备100内可以存储有利用本申请提供的图像分割模型训练方法训练至收敛的图像分割模型，并利用该训练至收敛的图像分割模型实现本申请提供的图像处理方法。

其中，电子设备100包括存储器101、处理器102和通信接口103，该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器101可用于存储软件程序及模块，如本申请提供的图像分割模型训练装置或者是图像处理装置对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理，进而执行本申请提供的图像分割模型训练方法或者是图像处理方法对应的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器102可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解的是，图1所示的结构仅为示意，电子设备100还可以包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。

下面以图1所示的电子设备100作为示意性执行主体，对本申请提供的图像分割模型训练方法进行示例性说明。

请参阅图2，图2示出本申请提供的图像分割模型训练方法的一种示意性流程图，可以包括以下步骤：

步骤202，获得训练图像集以及训练图像集对应的训练标注信息；

步骤204，将两个训练图像输入图像分割模型，得到两个训练掩膜信息；

步骤206，根据两个训练掩膜信息、训练标注信息以及光流信息，更新图像分割模型的模型参数，直至图像分割模型达到设定的收敛条件。

在一实施例中，电子设备内存储有如图3所示的图像分割模型，该图像分割模型能够对输入的图像进行处理，并输出对应图像的掩膜信息；其中，该图像分割模型采用的网络结构可以是Unet网络、或者是Deeplabv3、SEGNET等分割网络，本申请对于该图像分割模型的网络结构不进行限定。

电子设备在对该图像分割模型进行训练时，可以先获得训练图像集以及训练图像集对应的训练标注信息，其中，训练图像集包括在时序上相邻的两个训练图像，比如图3中的I₀和I₁，以及这两个训练图像之间的光流信息，光流信息表征的是两个训练图像之间的运动线索，即I₀和I₁之间的关联性。

然后，如图3所示，电子设备可以将I₀和I₁两个训练图像输入图像分割模型，得到两个训练掩膜信息；比如在图3所示场景中，I₀对应的掩膜信息可以是图3中的Mask₀，I₁对应的掩膜信息可以是图3中的Mask₁。

最后，电子设备可以根据例如Mask₀和Mask₁两个训练掩膜信息、训练标注信息以及光流信息，采用例如反向传播算法(Backpropagation algorithm，BP算法)更新该图像分割模型的模型参数，直至该图像分割模型达到设定的收敛条件；其中，由于光流信息表征的是两个训练图像之间的运动信息，那么相应地，两个训练图像各自对应的掩膜信息，也应当具有该光流信息表征的运动信息；如此，在更新该图像分割模型的模型参数时，图像分割模型能够利用光流信息学习到两个训练图像之间的运动信息，使得该图像分割模型在提取目标图像的掩膜信息时，能够结合与目标图像相邻的其他图像的掩膜信息进行提取，从而保持相邻图像间的一致性。

可见，基于上述设计，本申请提供的一种图像分割模型训练方法，通过获得在时序上相邻的两个训练图像，以及该两个训练图像之间的光流信息作为训练图像集，并获得该训练图像集对应的训练标注信息；然后将这两个训练图像输入图像分割模型，得到两个训练掩膜信息；进而根据这两个训练掩膜信息、训练标注信息以及光流信息，更新图像分割模型的模型参数，直至图像分割模型达到设定的收敛条件；相比于现有技术，在训练图像分割模型时，能够使图像分割模型利用光流信息学习到图像间的运动信息，使得图像分割模型能够结合每一图像与相邻的其他图像之间的运动信息，提取对应图像的掩膜信息，使得在进行图像融合时，能够确保连续的图像之间具有一致性。

其中，需要说明的是，电子设备所获得的在时序上相邻的两个训练图像，包括了时序靠前的第一图像和时序靠后的第二图像，比如图3中的I₀可以作为第一图像，I₁可以作为第二图像。

相应地，图像分割模型输出的两个训练掩膜信息，即包括了第一图像对应的第一训练掩膜信息，以及第二图像对应的第二训练掩膜信息，比如图3中I₀对应的Mask₀可以作为第一训练掩膜信息，I₁对应的Mask₁可以作为第二训练掩膜信息。

另外，需要说明的是，光流是目标、场景或摄像机在连续两帧图像间运动时造成的目标的运动；光流信息是一个矢量信息，光流一般分为前向光流和后向光流，比如在图3所示的两帧图像间，图像I₀的时序在图像I₁之前，则对于图像I₁而言，图像I₀到图像I₁的光流信息即为后向光流，其记录的是图像I₀到图像I_t的运动方向和速率；图像I₁到图像I₀的光流信息即为前向光流，其记录的是图像I₁到图像I₀的运动方向和速率。

并且，上述仅为示意，将相邻的两个训练图像中，时序靠前的图像作为第一图像，时序靠后的作为第二图像；在本申请其他一些可能的实施例中，还可以将时序靠后的作为第一图像，时序靠前的作为第二图像；本申请对此不进行限定。

可选地，在一实施例中，电子设备获得的训练标注信息可以为第二图像的标注掩膜信息，即按照图3所示的场景，电子设备获得的是图像I₁的标注掩膜信息；相应地，电子设备获得的光流信息，可以是对于图像I₁而言的后向光流。

如此，在图2的基础上，请参阅图4，图4示出图2中步骤206的子步骤的一种示意性流程图，作为一种可能的实现方式，步骤206可以包括以下子步骤：

步骤206-1，根据标注掩膜信息、第二训练掩膜信息以及第二图像，获得图像分割模型的内容损失；

步骤206-2，根据光流信息、第一图像、第二图像、第一训练掩膜信息以及第二训练掩膜信息，获得图像分割模型的时序损失；

步骤206-3，基于内容损失和时序损失，更新图像分割模型的模型参数。

电子设备在执行步骤206以更新图像分割模型的模型参数时，可以将图像分割模型的损失函数分为内容损失和时序损失两部分。

比如，该图像分割模型的损失函数可以满足如下公式：

L＝Lc+Lst

式中，L表示图像分割模型总的损失，Lc表示内容损失，Lst表示时序损失。

其中，内容损失约束的是图像分割模型输出的第二训练掩膜信息与第二图像实际的掩膜信息，内容损失保证的是对分割结果的准确度。

如此，电子设备在执行步骤206时，可以根据标注掩膜信息、第二训练掩膜信息以及第二图像，获得该图像分割模型的内容损失，即计算第二训练掩膜信息与标注掩膜信息之间的差异。

比如，作为一种可能的实现方式，内容损失的计算公式可以满足如下：

式中，Lc表示内容损失，mask_gt表示标注掩膜信息，mask1_pre表示第二训练掩膜信息，I₁表示第二图像。

另一方面，时序损失约束的是两帧图像之间运动信息，确保两帧图像各自对应的掩膜信息在时序上能够保持一致。

如此，电子设备在执行步骤206时，根据光流信息、第一图像、第二图像、第一训练掩膜信息以及第二训练掩膜信息，获得图像分割模型的时序损失。

比如，作为一种可能的实现方式，时序损失的计算公式可以满足如下：

式中，Lst表示时序损失，α表示设定的参数，

I₀表示第一图像，warp₀₁表示光流信息，mask0_pre表示第一训练掩膜信息。

如此，电子设备基于上述获得的内容损失和时序损失，可以采用求和的方式，计算内容损失和时序损失两者的和作为图像分割模型总的损失，然后利用例如BP算法更新图像分割模型的模型参数；通过不停的迭代训练，直至图像分割模型达到设定的收敛条件。

需要说明的是，上述计算内容损失、时序损失以及图像分割模型总的损失的公式仅为示意，在本申请其他一些可能的实施例中，还可以采用例如其他的一些公式计算上述的各项损失。

另外，本申请提供的上述方案中，可以是先执行步骤206-1获得内容损失，再执行步骤206-2获得时序损失；也可以是先执行步骤206-2获得内容损失，再执行步骤206-1获得内容损失；本申请对于步骤206-1与步骤206-2两者执行的先后顺序不进行限定；比如在另一种可能的实现方式中，还可以是步骤206-1与步骤206-2一起执行。

并且，需要说明的是，光流是图像在平移过程中的二维矢量场，其通过二维图像来表示物体点在三维运动的速度场，反应的是微小时间间隔内由于运动形成的图像变化，以确定图像点上的运动方向和运动速率，使得光流可以被用于提供恢复图像运动的线索。

在训练图像分割模型时，可以通过在线提取的方式，获得两个训练图像间之间的光流信息，以减少训练图像分割模型时用户的工作量。

为此，在图2的基础上，请参阅图5，图5示出本申请提供的图像分割模型训练方法的另一种示意性流程图，在执行步骤202之前，该图像分割模型训练方法还可以包括以下步骤：

步骤201，提取两个训练图像之间的帧间光流，以获得光流信息。

在一实施例中，如图6所示，电子设备可以采用例如selflow算法提取两个训练图像之间的帧间光流，以获得光流信息。

比如，以上述将对于图像I₁而言的后向光流作为光流信息的示例中，电子设备可以将图像I₀和图像I₁作为输入，并采用selflow算法提取图像I₁的后向帧间光流，从而获得光流信息。

但需要说明的是，在利用上述的在线提取的方式获得光流信息的实施例中，由于需要执行在线提取光流信息的步骤，使得图像分割模型的训练时间被拉长；并且，在对图像分割模型进行迭代训练时，由于需要重复执行步骤201，可能会对同一组两个训练图像进行重复提取光流信息的操作。

因此，在另一实施例中，还可以采用离线提取的方式获得光流信息，即：可以先执行步骤201，再获得每一组中两个训练图像的光流信息后，再将每一组的两个训练图像和对应的光流信息作为图像分割模型的输入，进而执行对图像分割模型的训练过程；此时，在训练图像分割模型时，由于不需要再执行步骤201获得光流信息，可以减少图像分割模型的训练时间，以及避免对同一组两个训练图像进行重复提取光流信息的操作。

并且，需要说明的是，在实际的训练场景中，由于开源的数据较少，为了使训练图像分割模型的训练图像足够多，可以通过截取例如直播场景中的人像抠图数据集，并提取对应图像的掩膜信息作为标注掩膜信息，从而提升训练图像的数据量。

但是，需要说明的是，通过截取人像抠图数据集的方式依然需要用户手动操作，会增加用户训练图像分割模型的工作量。

为此，在图2的基础上，请参阅图7，图7示出本申请提供的图像分割模型训练方法的再一种示意性流程图，在执行步骤202之前，该图像分割模型训练方法还可以包括以下步骤：

步骤200，将获得两个对象信息分别与一背景信息进行融合，以生成两个训练图像。

在一实施例中，用户可以提取在时序上相邻的两个图像中的对象信息，并将这两个对象信息传输给电子设备；然后，电子设备可以将获得的这两个对象信息分别与一背景信息进行融合，以生成两个训练图像，即：一组训练图像集，从而增大训练图像的数据量。

当然，可以理解的是，上述仅以将获得的对象信息分别与一背景信息进行融合为例，说明生成两个训练图像的一种方式；当需要生成大量的训练图像时，电子设备可以将这两个训练图像均与不同的背景信息进行融合，从而生成多组训练图像集，且每一组训练图像集均包括两个训练图像。

另外，结合上述可知，在将抠图分离出的前景信息F与背景信息B进行融合的场景中，融合后的图像I可以表示为：I＝mF+(1-m)B。

在该表达式中，m表示前景信息F对应的掩膜信息。可见，基于该表达式，只要能够获得前景信息F对应的掩膜信息m，即能够将前景信息F与任一背景信息B进行融合。

如此，在本申请提供的上述图像分割模型训练方法的基础上，可以利用该图像分割模型训练方法训练至收敛的图像分割模型，用于比如直播场景中前景信息F与背景信息B的融合。

请参阅图8，图8示出本申请提供的图像处理方法的一种示意性流程图，可以包括以下步骤：

步骤302，接收待处理图像以及待融合背景；

步骤304，将待处理图像输入至利用图像分割模型训练方法训练至收敛的图像分割模型，得到待处理图像对应的目标掩膜信息；

步骤306，利用目标掩膜信息对待处理图像以及待融合背景进行处理，得到融合图像。

在一实施例中，比如在直播场景中，电子设备可以将接收的每一帧视频直播画面作为待处理图像，并接收一待融合背景，目的即为：将每一帧视频直播画面的背景信息替换为该待融合背景。

然后，以其中一帧视频直播画面作为待处理图像为例，电子设备可以将该待处理图像输入至利用本申请提供的上述图像分割模型训练方法训练至收敛的图像分割模型中，从而由于该图像分割模型输出该待处理图像对应的目标掩膜信息Mask_m。

最后，电子设备可以将获得的目标掩膜信息Mask_m作为上述融合公式中的参数m，并将待处理图像以及待融合背景代入该融合公式中，从而得到融合图像I，融合前后的效果可以如图9所示；可见，图像分割模型在利用光流信息学习到图像间的运动信息后，在进行图像融合时，能够结合每一图像与相邻的其他图像之间的运动信息，提取对应图像的掩膜信息，从而在进行图像融合时，能够确保连续的图像之间具有一致性。

另外，基于与本申请提供的上述图像分割模型训练方法相同的发明构思，请参阅图10，图10示出本申请提供的图像分割模型训练装置400的一种示意性结构框图，该图像分割模型训练装置400可以包括第一处理模块401及更新模块402。其中：

第一处理模块401，用于获得训练图像集以及训练图像集对应的训练标注信息；其中，训练图像集包括在时序上相邻的两个训练图像，以及该两个训练图像之间的光流信息；

第一处理模块401还用于，将两个训练图像输入图像分割模型，得到两个训练掩膜信息；

更新模块402，用于根据两个训练掩膜信息、训练标注信息以及光流信息，更新图像分割模型的模型参数，直至图像分割模型达到设定的收敛条件。

可选地，作为一种可能的实现方式，两个训练图像包括在时序靠前的第一图像和时序靠后的第二图像，训练标注信息为第二图像的标注掩膜信息；

两个训练掩膜信息包括第一图像对应的第一训练掩膜信息、以及第二图像对应的第二训练掩膜信息；

更新模块402在根据两个训练掩膜信息、训练标注信息以及光流信息，更新图像分割模型的模型参数时，具体用于：

根据标注掩膜信息、第二训练掩膜信息以及第二图像，获得图像分割模型的内容损失；

根据光流信息、第一图像、第二图像、第一训练掩膜信息以及第二训练掩膜信息，获得图像分割模型的时序损失；

基于内容损失和时序损失，更新图像分割模型的模型参数。

可选地，作为一种可能的实现方式，内容损失的计算公式满足如下：

式中，Lc表示内容损失，mask_gt表示标注掩膜信息，mask1_pre表示第二训练掩膜信息，I₁表示第二图像；

时序损失的计算公式满足如下：

式中，Lst表示时序损失，α表示设定的参数，

可选地，作为一种可能的实现方式，第一处理模块401在获得训练图像集以及训练图像集对应的训练标注信息之前，还用于：

提取两个训练图像之间的帧间光流，以获得光流信息。

将获得两个对象信息分别与一背景信息进行融合，以生成两个训练图像。

并且，基于与本申请提供的上述图像处理方法相同的发明构思，请参阅图11，图11示出本申请提供的图像处理装置500的一种示意性结构框图，该图像处理装置500可以包括接收模块501及第二处理模块502。其中：

接收模块501，用于接收待处理图像以及待融合背景；

第二处理模块502，用于将待处理图像输入至利用本申请提供的上述图像分割模型训练至收敛的图像分割模型，得到待处理图像对应的目标掩膜信息；

第二处理模块502还用于，利用目标掩膜信息对待处理图像以及待融合背景进行处理，得到融合图像。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的一些实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请的一些实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请的一些实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的部分实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种图像分割模型训练方法，其特征在于，所述方法包括：

获得训练图像集以及所述训练图像集对应的训练标注信息；其中，所述训练图像集包括在时序上相邻的两个训练图像，以及该两个训练图像之间的光流信息；

2.如权利要求1所述的方法，其特征在于，所述两个训练图像包括在时序靠前的第一图像和时序靠后的第二图像，所述训练标注信息为所述第二图像的标注掩膜信息；

所述两个训练掩膜信息包括所述第一图像对应的第一训练掩膜信息、以及所述第二图像对应的第二训练掩膜信息；

根据所述两个训练掩膜信息、所述训练标注信息以及所述光流信息，更新所述图像分割模型的模型参数的步骤，包括：

根据所述标注掩膜信息、所述第二训练掩膜信息以及所述第二图像，获得所述图像分割模型的内容损失；

根据所述光流信息、所述第一图像、所述第二图像、所述第一训练掩膜信息以及所述第二训练掩膜信息，获得所述图像分割模型的时序损失；

基于所述内容损失和所述时序损失，更新所述图像分割模型的模型参数。

3.如权利要求2所述的方法，其特征在于，所述内容损失的计算公式满足如下：

式中，Lc表示所述内容损失，mask_gt表示所述标注掩膜信息，mask1_pre表示所述第二训练掩膜信息，I₁表示所述第二图像；

所述时序损失的计算公式满足如下：

式中，Lst表示所述时序损失，α表示设定的参数，

I₀表示所述第一图像，warp₀₁表示所述光流信息，mask0_pre表示所述第一训练掩膜信息。

4.如权利要求1所述的方法，其特征在于，在获得训练图像集以及所述训练图像集对应的训练标注信息之前，所述方法还包括：

提取所述两个训练图像之间的帧间光流，以获得所述光流信息。

5.如权利要求1所述的方法，其特征在于，在获得训练图像集以及所述训练图像集对应的训练标注信息之前，所述方法还包括：

将获得两个对象信息分别与一背景信息进行融合，以生成所述两个训练图像。

6.一种图像处理方法，其特征在于，所述方法包括：

接收待处理图像以及待融合背景；

将所述待处理图像输入至利用如权利要求1-5中任一项所述的方法训练至收敛的图像分割模型，得到所述待处理图像对应的目标掩膜信息；

7.一种图像分割模型训练装置，其特征在于，所述装置包括：

8.一种图像处理装置，其特征在于，所述装置包括：

接收模块，用于接收待处理图像以及待融合背景；

第二处理模块，用于将所述待处理图像输入至利用如权利要求1-5中任一项所述的方法训练至收敛的图像分割模型，得到所述待处理图像对应的目标掩膜信息；

9.一种电子设备，其特征在于，包括：

存储器，用于存储一个或多个程序；

处理器；

当所述一个或多个程序被所述处理器执行时，实现如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。