CN112150471A

CN112150471A - 基于少样本的语义分割方法及装置、电子设备、存储介质

Info

Publication number: CN112150471A
Application number: CN202011012195.3A
Authority: CN
Inventors: 秦永强; 刘金露
Original assignee: Innovation Wisdom Shanghai Technology Co ltd
Current assignee: Innovation Wisdom Shanghai Technology Co ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-29
Anticipated expiration: 2040-09-23
Also published as: CN112150471B

Abstract

本申请提供一种基于少样本的语义分割方法及装置、电子设备、计算机可读存储介质，方法包括：将目标图像组合作为已训练的特征提取网络的输入，获得目标图像组合中每一图像的图像特征；其中，目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，支持图像携带与待识别目标类别对应的前景掩膜和背景掩膜；基于每一支持图像的图像特征、前景掩膜和背景掩膜，计算出对应于待识别目标类别的前景类原型和背景类原型；基于查询图像的图像特征、前景类原型和背景类原型，确定查询图像上与待识别目标类别对应的预测前景掩膜。本申请对于样本较少的待识别目标类别，可以借助以标注其它类别的样本图像训练的特征提取网络，实现语义分割。

Description

基于少样本的语义分割方法及装置、电子设备、存储介质

技术领域

本申请涉及零售管理技术领域，特别涉及一种基于少样本的语义分割方法及装置、电子设备、计算机可读存储介质。

背景技术

零售商品占比是指商品在分销渠道中所占比例。随着机器视觉技术的发展，深度学习的方法逐渐替代人工统计成为当前零售商获取零售商品占比的首选。在应用时，可以利用深度学习的方法计算商品在分销渠道的面积占比，来确定零售商品占比。比如：某品牌冰淇淋在放满冰淇淋的冰柜中的陈列面积，与冰柜内总面积的比值，可以认为是该品牌冰淇淋的零售商品占比。

语义分割(semantic segmentation)是当前计算商品占比的一项通用技术，语义分割是一种像素级的分类，指的是将图片中的每一个像素点都划分到具体的类别中，常用的语义分割网络包括FCN(Fully Convolutional Networks for Semantic Segmentation，用于语义分割的全卷积网络)，PSPNet (Pyramid Scene Parsing Network，金字塔场景解析网络)等。在基于语义分割计算商品面积占比时，可以提取分销渠道的场景图像的特征(feature)，并基于特征计算得到某一类别商品在图像中的分割结果，进而依据该分割结果确定该类别商品在整个图像中的面积占比。

然而，常用语义分割网络需要以大量样本图像进行训练。样本图像是分销渠道的场景图像，场景图像中每一像素都需要有对应的类标签，表示该像素所属的商品类别。为场景图像添加标签耗时耗力，需要大量人力成本。对于部分商品(比如：冷门商品、新品等)而言，可采集的包含商品的场景图像数量少。这导致对应于此类商品的样本图像较少，无法满足训练需求，使得语义分割网络的分割准确率不足。

发明内容

本申请实施例的目的在于提供一种基于少样本的语义分割方法及装置、电子设备、计算机可读存储介质，用于基于少量训练数据实现准确的语义分割结果。

一方面，本申请提供了一种基于少样本的语义分割方法，包括：

将目标图像组合作为已训练的特征提取网络的输入，获得所述特征提取网络输出的所述目标图像组合中每一图像的图像特征；其中，所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜；

基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的前景类原型和背景类原型；

基于所述查询图像的图像特征、所述前景类原型和所述背景类原型，确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜。

在一实施例中，所述基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的前景类原型和背景类原型，包括：

将每一支持图像的图像特征分别与对应的所述前景掩膜和所述背景掩膜相乘后求均值，获得所述支持图像对应的子前景类原型和子背景类原型；

对所有支持图像对应的子前景类原型进行均值化处理，得到所述前景类原型；

对所有支持图像对应的子背景类原型进行均值化处理，得到所述背景类原型。

在一实施例中，所述基于所述查询图像的图像特征、所述前景类原型和所述背景类原型，确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜，包括：

针对所述查询图像的图像特征，逐个像素与所述前景类原型计算余弦相似度，获得对应于前景的第一余弦相似度图；

针对所述查询图像的图像特征，逐个像素与所述背景类原型计算余弦相似度，获得对应于背景的第二余弦相似度图；

基于所述第一余弦相似度图和所述第二余弦相似度图，确定所述预测前景掩膜。

在一实施例中，所述目标图像组合中每一图像为分销渠道的场景图像，所述待识别目标类别为待识别商品类别；

在获得与所述待识别商品类别对应的预测前景掩膜后，所述方法还包括：

基于所述预测前景掩膜确定所述待识别商品类别在所述查询图像上的面积占比，将所述面积占比作为所述待识别商品类别对应的零售商品占比。

在一实施例中，所述特征提取网络通过如下方法训练得到：

将样本数据集中的样本图像组合作为深度神经网络的输入，获得所述深度神经网络输出的所述样本图像组合中每一图像的图像特征；其中，所述样本图像组合包括指定目标类别、若干样本支持图像和若干样本查询图像，所述样本支持图像携带与所述指定目标类别对应的前景掩膜和背景掩膜，所述样本查询图像携带与所述指定目标类别对应的前景掩膜；

基于每一样本支持图像的图像特征、与所述指定目标类别对应的前景掩膜和背景掩膜，计算出对应于所述指定目标类别的前景类原型和背景类原型；

根据对应于所述指定目标类别的前景类原型和背景类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，调整所述深度神经网络的网络参数；

重复上述过程，直至所述深度神经网络收敛，获得所述特征提取网络。

在一实施例中，所述基于每一样本支持图像的图像特征、与所述指定目标类别对应的前景掩膜和背景掩膜，计算出对应于所述指定目标类别的前景类原型和背景类原型，包括：

针对每一样本支持图像的图像特征，分别以所述指定目标类别对应的所述前景掩膜和所述背景掩膜相乘后求均值，获得对应于所述指定目标类别的子前景类原型和子背景类原型；

针对每一指定目标类别，将所有样本支持图像对应的子前景类原型进行均值化处理，得到所述前景类原型；

针对每一指定目标类别，将所有样本支持图像对应的子背景原类型进行均值化处理，得到所述背景类原型。

在一实施例中，所述根据对应于所述指定目标类别的前景类原型和背景类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，调整所述深度神经网络的网络参数，包括：

基于每一样本查询图像的图像特征、与所述指定目标类别对应的前景类原型和背景类原型，确定与所述指定目标类别对应的前景余弦相似度图和背景余弦相似度图；

根据所述前景余弦相似度图、所述背景余弦相似度图、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，计算交叉熵损失；

根据所述交叉熵损失调整所述深度神经网络的网络参数。

另一方面，本申请还提供了一种基于少样本的语义分割装置，包括：

提取模块，用于将目标图像组合作为已训练的特征提取网络的输入，获得所述特征提取网络输出的所述目标图像组合中每一图像的图像特征；其中，所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜；

计算模块，用于基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的前景类原型和背景类原型；

分割模块，用于基于所述查询图像的图像特征、所述前景类原型和所述背景类原型，确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜。

进一步的，本申请还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述基于少样本的语义分割方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述基于少样本的语义分割方法。

在本申请实施例中，对于样本较少的待识别目标类别，当对图像中待识别目标类别对应的目标执行语义分割时，可以以该图像作为查询图像，构建包括待识别目标类别、若干支持图像和查询图像的目标图像组合；将目标图像组合输入特征提取网络后，获得目标图像组合中每一图像的图像特征；根据每一支持图像的图像特征、前景掩膜和背景掩膜，可以计算出对应于待识别目标类别的前景类原型和背景类原型，并根据查询图像的图像特征、前景类原型和背景类原型，确定查询图像上与待识别目标类别对应的预测前景掩膜。在只有少量包含待识别目标类别对应目标的样本图像时，以少量样本图像作为支持图像，实现了对查询图像的语义分割。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的基于少样本的语义分割方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的基于少样本的语义分割方法的流程示意图；

图4为本申请一实施例提供的特征提取网络的训练方法的流程示意图；

图5为本申请一实施例提供的基于少样本的语义分割装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的基于少样本的语义分割方法的应用场景示意图。如图1所示，该应用场景包括服务端30和客户端20，客户端20可以是网络摄像机，或者与摄像机对接的主机，用于向服务端30发送需要进行语义分割的图像；服务端30可以是服务器、服务器集群或者云计算中心，服务端30可以对客户端20上传的图像执行语义分割。

如图2所示，本实施例提供一种电子设备1，包括：至少一个处理器 11和存储器12，图2中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器 11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是上述服务端30。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称 SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请提供的基于少样本的语义分割方法。

参见图3，为本申请一实施例提供的基于少样本的语义分割方法的流程示意图，如图3所示，该方法可以包括以下步骤310-步骤330。

步骤310：将目标图像组合作为已训练的特征提取网络的输入，获得特征提取网络输出的目标图像组合中每一图像的图像特征；其中，目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，支持图像携带与待识别目标类别对应的前景掩膜和背景掩膜。

特征提取网络用于为目标图像组合中每一图像提取图像特征。特征提取网络可以由VGG(Visual Geometry Group Network，视觉几何群网络)， GoogleNet，ResNet(Residual Neural Network，残差神经网络),WideResNet (Wide Residual Network，宽残差网络)等深度神经网络训练得到。

目标图像组合可以包括待识别目标类别(class)、若干支持图像(support image)和一个查询图像(query image)。待识别目标类别是需要被执行语义分割的目标的类别。查询图像是接受语义分割的图像，一般，查询图像包含待识别目标类别对应的目标。在对查询图像执行语义分割时，需借助支持图像的信息，支持图像内包含待识别目标类别对应的目标。

支持图像携带的与待识别目标类别对应的前景掩膜，表示待识别目标类别对应的目标在支持图像中所占的区域；背景掩膜表示除上述目标以外的区域。前景掩膜可以是与支持图像具有相同宽度和高度的二值图，二值图中的像素与支持图像中的像素一一对应；当二值图中任一像素的像素值为1，表示该像素在支持图像中对应的像素属于前景，也就是上述目标；当二值图中任一像素的像素值为0，表示该像素在支持图像中对应的像素属于背景。背景掩膜可以是与支持图像具有相同宽度和高度的二值图，二值图中的像素与支持图像中的像素一一对应；当二值图中任一像素的像素值为 1，表示该像素在支持图像中对应的像素属于背景；当二值图中任一像素的像素值为0，表示该像素在支持图像中对应的像素属于前景，也就是上述目标。可见，同一支持图像上同一待识别目标类别对应的前景掩膜和背景掩膜的像素值正好相反。

目标图像组合可记为<N-class K-supprot 1-query>，表示存在N种待识别目标类别、K个支持图像和1个查询图像。通常，N和K的数值较小。当存在至少两种待识别目标类别时，每一支持图像携带对应于每一种待识别目标类别的前景掩膜和背景掩膜。

示例性的，服务端在为分销渠道的场景图像执行针对A商品的语义分割时，可以根据预配置的包含A商品的支持图像、A商品对应的待识别目标类别、获取到的包含A商品且需接受语义分割的场景图像，构建目标图像组合。

服务端将目标图像组合输入特征提取网络后，可以通过特征提取网络从每一支持图像和查询图像中提取得到图像特征，该图像特征可以是特征图(feature map)。

步骤320：基于每一支持图像的图像特征、前景掩膜和背景掩膜，计算出对应于待识别目标类别的前景类原型和背景类原型。

其中，类原型(class prototype)是表征一种类别目标的代表性向量。

服务端可以基于每一支持图像的图像特征，以及与任一待识别目标类别对应的前景掩膜，计算得到该待识别目标类别的前景类原型。服务端可以基于每一支持图像的图像特征，以及与任一待识别目标类别对应的背景掩膜，计算得到该待识别目标类别对应的背景类原型。

示例性的，总共存在三种待识别目标类别，分别为A商品、B商品和 C商品，服务端基于每一商品对应的前景掩膜和背景掩膜，计算出三种前景类原型和三种背景类原型。

步骤330：基于查询图像的图像特征、前景类原型和背景类原型，确定查询图像上与待识别目标类别对应的预测前景掩膜。

预测前景掩膜是针对待识别目标类别在查询图像上获得的语义分割结果，表示查询图像上待识别目标类别对应的目标所占区域。预测前景掩膜可以是与查询图像具有相同宽度和高度的二值图，二值图中的像素与查询图像中的像素一一对应；当二值图中任一像素的像素值为1，表示该像素在查询图像中对应的像素属于前景，也就是待识别目标类别对应的目标；当二值图中任一像素的像素值为0，表示该像素在支持图像中对应的像素属于背景。

服务端可以基于查询图像的图像特征、对应于每一待识别目标类别的前景类原型和背景类原型，计算出与每一待识别目标类别对应的预测前景掩膜。

在一实施例中，服务端在计算前景类原型和背景类原型时，可以将每一支持图像的图像特征分别与对应的前景掩膜和背景掩膜相乘后求均值，获得支持图像对应的子前景类原型和子背景类原型。

在将图像特征与前景掩膜相乘时，针对每一通道的图像特征，服务端逐个像素将像素值与前景掩膜上对应的像素值相乘。由于前景掩膜上目标所在区域的像素值为1，背景区域的像素值为0，相乘之后，每一通道的图像特征只保留目标所在区域的像素值。

这里，默认特征提取网络提取到的图像特征与支持图像具有相同宽度和高度；如果图像特征与支持图像的宽度或高度不同，可以通过上采用、下采样、双线性插值等手段将图像特征调整至与支持图像的宽度和高度相同。

针对每一通道的图像特征，服务端可以计算像素值的平均值。此时，支持图像的多维度图像特征变成了子前景类原型。示例性的，支持图像的尺寸以“宽度*高度*通道数”的方式表示为512*512*3，对应的图像特征的尺寸为512*512*1024，在于前景掩膜相乘并对每一通道图像特征求均值后，获得尺寸为1*1*1024的子前景类原型。

服务端可以将图像特征与背景掩膜相乘后，针对每一通道的图像特征求均值，从而获得子背景类原型。

服务端可以对所有支持图像对应的子前景类原型进行均值化处理，得到前景类原型。如果目标图像组合中只有一个支持图像，则计算出该支持图像的子前景类原型后，即获得前景类原型。当目标图像组合中存在至少两个支持图像时，针对任一待识别目标类别计算出至少两个子前景类原型后，服务端可以计算子前景类原型每一维度的平均数，得到该待识别目标类别对应的前景类原型。示例性的，在这种情况下，多个尺寸为1*1*1024的子前景类原型经过均值化处理，得到尺寸为1*1*1024的前景类原型。

服务端可以对所有支持图像对应的子背景类原型进行均值化处理，得到背景类原型。如果目标图像组合中只有一个支持图像，则计算出该支持图像的子背景类原型后，即获得背景类原型。当目标图像组合中存在至少两个支持图像时，针对任一待识别目标类别计算出至少两个子背景类原型后，服务端可以计算子背景类原型每一维度的平均数，得到该待识别目标类别对应的背景类原型。

在一实施例中，服务端在计算与待识别目标类别对应的预测前景掩膜时，可以针对查询图像的图像特征，逐个像素与前景类原型计算余弦相似度，获得对应于前景的第一余弦相似度图(cosine similarity map)。这里，逐个像素计算余弦相似度，就是以每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，进而计算该多维向量与前景类原型之间的余弦相似度。计算完成后，可以获得与图像特征相同宽度和高度的第一余弦相似度图。

示例性的，图像特征的尺度“宽度*高度*通道数”的方式表示为 512*512*1024，以每一像素在1024个通道的图像特征上的像素值，可以构建512*512个尺度为1*1*1024的多维向量，逐个与前景类原型计算余弦相似度后，可以得到尺度为512*512*1的第一余弦相似度图。

针对查询图像的图像特征，服务端可以逐个像素与背景类原型计算余弦相似度，获得对应于背景的第二余弦相似度图。服务端以每一像素在多个通道图像特征上的像素值，构建对应于该像素的多维向量，进而计算该多维向量与背景类原型之间的余弦相似度。计算完成后，可以获得与图像特征相同宽度和高度的第二余弦相似度图。

服务端可以基于第一余弦相似度图和第二余弦相似度图，确定预测前景掩膜。服务端可以检查第一余弦相似度图与第二余弦相似度图同位置的像素值之间的大小，若第一余弦相似度图中任一像素的像素值大于第二余弦相似度图中同位置像素的像素值，可以确定预测前景掩膜中与该像素同位置像素的像素值为1；若第一余弦相似度图中任一像素的像素值不大于第二余弦相似度图中同位置像素的像素值，可以确定预测前景掩膜中与该像素同位置像素的像素值为0。

示例性的，第一余弦相似度图与第二余弦相似度图的尺寸均为 512*512*1，服务端确定第一余弦相似度图第3行第4列像素的像素值大于第二余弦相似度图第3行第4列像素的像素值，可以确定尺寸为512*512*1 的预测前景掩膜第3行第4列像素的像素值为1。

在确定出预测前景掩膜中每一像素的像素值后，获得预测前景掩膜。在一实施例中，如果图像特征与查询图像的宽度或高度不同，在计算第一余弦相似度图和第二余弦相似度图之前，可以通过上采用、下采样、双线性插值等手段将图像特征调整至与查询图像的宽度和高度相同，从而可以获得与查询图像具有相同宽度和高度的第一余弦相似度图和第二余弦相似度图。

在一实施例中，目标图像组合中每一图像为分销渠道的场景图像，待识别目标类别为待识别商品类别。在获得与待识别商品类别对应的预测前景掩膜后，服务端可以基于预测前景掩膜确定待识别商品类别在查询图像上的面积占比。服务端可以基于预测前景掩膜，确定属于待识别商品类别对应的商品的像素数量，将该像素数量与查询图像总像素数量之间的比值，确定为待识别商品类别在查询图像上的面积占比。服务端可以将该面积占比作为待识别商品类别对应的零售商品占比。

示例性的，待识别商品类别包括A品牌冰淇淋和B品牌冰淇淋，查询图像为卧式冰柜的商品陈列区域的图像。经过语义分割得到A品牌冰淇淋对应的预测前景掩膜和B品牌冰淇淋对应的预测前景掩膜后，服务端分别确定两者在查询图像上的面积占比，从而确定A品牌冰淇淋在卧式冰柜的零售商品占比，以及B品牌冰淇淋在卧式冰柜的零售商品占比。

在一实施例中，在执行上述语义分割方法之前，需训练出特征提取网络。参见图4，为本申请一实施例提供的特征提取网络的训练方法的流程示意图，如图4所示，该方法可以包括以下步骤410-步骤440。

步骤410：将样本数据集中的样本图像组合作为深度神经网络的输入，获得深度神经网络输出的样本图像组合中每一图像的图像特征；其中，样本图像组合包括指定目标类别、若干样本支持图像和若干样本查询图像，样本支持图像携带与指定目标类别对应的前景掩膜和背景掩膜，样本查询图像携带与指定目标类别对应的前景掩膜。

这里，深度神经网络可以是VGG，GoogleNet，ResNet,Wide ResNet 等网络中的任意一种。

指定目标类别是训练时为样本支持图像和样本查询图像上添加标注的目标类别。指定目标类别与执行语义分割方法时的待识别目标类别，可以是不同的。示例性的，在训练阶段以包含多个类别的商品的样本图像对深度神经网络进行训练，得到特征提取网络；后续可以基于特征提取网络对图像中新类别的商品执行语义分割。因此，本申请实施例可以在包含某类目标的样本图像较少的情况下，利用其它目标的样本图像训练得到的特征提取网络，实现对样本图像较少的目标的语义分割。

包含指定目标类别对应目标的样本图像数量较多，可满足训练需求。服务端可以将已标注前景掩膜和背景掩膜(在实际应用时，由于背景掩膜和前景掩膜的像素值恰好相反，可以仅标注其中一种掩膜)的样本图像，构建出多个样本图像组合。

样本图像组合可记为<N-class K-supprot Q-query>，表示存在N种待识别目标类别、K个样本支持图像和Q个样本查询图像。N、K、Q的数值较小；一般来说，样本图像组合中指定目标类别的数量可以大于目标图像组合中待识别目标类别的数量，可以在应用过程获得更好的语义分割效果。

服务端将样本数据集中已构建的样本图像组合输入深度神经网络后，可以通过深度神经网络从每一样本支持图像和每一样本查询图像中提取得到图像特征。

步骤420：基于每一样本支持图像的图像特征、与指定目标类别对应的前景掩膜和背景掩膜，计算出对应于指定目标类别的前景类原型和背景类原型。

服务端可以基于每一样本支持图像的图像特征，以及与任一指定目标类别对应的前景掩膜，计算得到该指定目标类别的前景类原型。服务端可以基于每一样本支持图像的图像特征，以及与任一制定个目标类别对应的背景掩膜，计算得到该指定目标类别对应的背景类原型。

在一实施例中，针对每一样本支持图像的图像特征，服务端可以分别以指定目标类别对应的前景掩膜和背景掩膜相乘后求均值，获得对应于该指定目标类别的子前景类原型和子背景类原型。

在将图像特征与前景掩膜相乘时，针对每一通道的图像特征，服务端逐个像素将像素值与前景掩膜上对应的像素值相乘。由于前景掩膜上目标所在区域的像素值为1，背景区域的像素值为0，相乘之后，每一通道的图像特征只保留目标所在区域的像素值。针对每一通道的图像特征，服务端可以计算像素值的平均值。此时，样本支持图像的多维度图像特征变成了子前景类原型。

服务端可以将样本支持图像的图像特征与背景掩膜相乘后，针对每一通道的图像特征求均值，从而获得子背景类原型。

针对每一指定目标类别，服务端可以将样本支持图像对应的子前景类原型进行均值化处理，得到前景类原型。如果样本图像组合中只有一个样本支持图像，则计算出该样本支持图像的子前景类原型后，即获得前景类原型。当样本图像组合中存在至少两个样本支持图像时，针对任一指定目标类别计算出至少两个子前景类原型后，服务端可以计算子前景类原型每一维度的平均数，得到该指定目标类别对应的前景类原型。

针对每一指定目标类别，服务端可以将样本支持图像对应的子背景类原型进行均值化处理，得到背景类原型。如果样本图像组合中只有一个样本支持图像，则计算出该样本支持图像的子背景类原型后，即获得背景类原型。当样本图像组合中存在至少两个样本支持图像时，针对任一指定目标类别计算出至少两个子背景类原型后，服务端可以计算子背景类原型每一维度的平均数，得到该指定目标类别对应的背景类原型。

步骤430：根据对应于指定目标类别的前景类原型和背景类原型、样本查询图像携带的与指定目标类别对应的前景掩膜，调整深度神经网络的网络参数。

步骤440：重复上述过程，直至深度神经网络收敛，获得特征提取网络。

服务端可以基于每一样本查询图像的图像特征、与指定目标类别对应的前景类原型和背景类原型，确定与指定目标类别对应的前景余弦相似度图和背景余弦相似度图。针对每一样本查询图像的图像特征，服务端可以逐个像素与前景类原型计算余弦相似度，从而获得与指定目标类别对应的前景余弦相似度图；服务端可以逐个像素与背景类原型计算余弦相似度，从而获得与指定目标类别对应的背景余弦相似度图。

服务端可以根据前景余弦相似度图、背景余弦相似度图、样本查询图像携带的与指定目标类别对应的前景掩膜，计算交叉熵损失。服务端可以根据前景余弦相似度图和背景余弦相似度图，确定样本查询图像上每一像素属于指定目标类别对应的前景的概率。可以通过如下公式(1)确定这个概率：

其中，i表示前景或背景的序号，score_i表示像素在前景余弦相似度图或背景余弦相似度图上的像素值，e为自然底数。

根据公式(1)的算法，如果样本查询图像的尺寸为512*512*3，对于第5行第6列的像素，其在前景余弦相似度图上对应的像素值为score₁，其在背景余弦相似度图上对应的像素值为score₂，e^score1除以e^score1与e^score2的和，可以得到该像素属于前景的概率。

获得样本查询图像上每一像素属于指定目标类别的概率后，基于样本查询图像上与指定目标类别对应的前景掩膜，可以计算交叉熵损失。服务端可以通过计算出的交叉熵损失评估深度神经网络的预测效果，进而调整深度神经网络的网络参数。

训练过程经多次迭代，直至交叉熵损失小于预设损失阈值，或者，交叉熵损失不再减小，此时认为深度神经网络收敛，得到特征提取网络。

参见图5，为本申请一实施例提供的基于少样本的语义分割装置的框图，如图5所示，该装置可以包括：提取模块510、计算模块520、分割模块530。

提取模块510，用于将目标图像组合作为已训练的特征提取网络的输入，获得所述特征提取网络输出的所述目标图像组合中每一图像的图像特征；其中，所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像，所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜。

计算模块520，用于基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的前景类原型和背景类原型。

分割模块530，用于基于所述查询图像的图像特征、所述前景类原型和所述背景类原型，确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜。

上述装置中各个模块的功能和作用的实现过程具体详见上述基于少样本的语义分割方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于少样本的语义分割方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜，计算出对应于所述待识别目标类别的前景类原型和背景类原型，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述查询图像的图像特征、所述前景类原型和所述背景类原型，确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜，包括：

4.根据权利要求1所述的方法，其特征在于，所述目标图像组合中每一图像为分销渠道的场景图像，所述待识别目标类别为待识别商品类别；

5.根据权利要求1所述的方法，其特征在于，所述特征提取网络通过如下方法训练得到：

6.根据权利要求5所述的方法，其特征在于，所述基于每一样本支持图像的图像特征、与所述指定目标类别对应的前景掩膜和背景掩膜，计算出对应于所述指定目标类别的前景类原型和背景类原型，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据对应于所述指定目标类别的前景类原型和背景类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜，调整所述深度神经网络的网络参数，包括：

根据所述交叉熵损失调整所述深度神经网络的网络参数。

8.一种基于少样本的语义分割装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的基于少样本的语义分割方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的基于少样本的语义分割方法。