CN112150471A - 基于少样本的语义分割方法及装置、电子设备、存储介质 - Google Patents

基于少样本的语义分割方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112150471A
CN112150471A CN202011012195.3A CN202011012195A CN112150471A CN 112150471 A CN112150471 A CN 112150471A CN 202011012195 A CN202011012195 A CN 202011012195A CN 112150471 A CN112150471 A CN 112150471A
Authority
CN
China
Prior art keywords
image
foreground
background
prototype
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011012195.3A
Other languages
English (en)
Other versions
CN112150471B (zh
Inventor
秦永强
刘金露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Innovation Wisdom Shanghai Technology Co ltd
Original Assignee
Innovation Wisdom Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Innovation Wisdom Shanghai Technology Co ltd filed Critical Innovation Wisdom Shanghai Technology Co ltd
Priority to CN202011012195.3A priority Critical patent/CN112150471B/zh
Publication of CN112150471A publication Critical patent/CN112150471A/zh
Application granted granted Critical
Publication of CN112150471B publication Critical patent/CN112150471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种基于少样本的语义分割方法及装置、电子设备、计算机可读存储介质,方法包括:将目标图像组合作为已训练的特征提取网络的输入,获得目标图像组合中每一图像的图像特征;其中,目标图像组合包括待识别目标类别、若干支持图像和一个查询图像,支持图像携带与待识别目标类别对应的前景掩膜和背景掩膜;基于每一支持图像的图像特征、前景掩膜和背景掩膜,计算出对应于待识别目标类别的前景类原型和背景类原型;基于查询图像的图像特征、前景类原型和背景类原型,确定查询图像上与待识别目标类别对应的预测前景掩膜。本申请对于样本较少的待识别目标类别,可以借助以标注其它类别的样本图像训练的特征提取网络,实现语义分割。

Description

基于少样本的语义分割方法及装置、电子设备、存储介质
技术领域
本申请涉及零售管理技术领域,特别涉及一种基于少样本的语义分割 方法及装置、电子设备、计算机可读存储介质。
背景技术
零售商品占比是指商品在分销渠道中所占比例。随着机器视觉技术的 发展,深度学习的方法逐渐替代人工统计成为当前零售商获取零售商品占 比的首选。在应用时,可以利用深度学习的方法计算商品在分销渠道的面 积占比,来确定零售商品占比。比如:某品牌冰淇淋在放满冰淇淋的冰柜 中的陈列面积,与冰柜内总面积的比值,可以认为是该品牌冰淇淋的零售 商品占比。
语义分割(semantic segmentation)是当前计算商品占比的一项通用技 术,语义分割是一种像素级的分类,指的是将图片中的每一个像素点都划 分到具体的类别中,常用的语义分割网络包括FCN(Fully Convolutional Networks for Semantic Segmentation,用于语义分割的全卷积网络),PSPNet (Pyramid Scene Parsing Network,金字塔场景解析网络)等。在基于语义 分割计算商品面积占比时,可以提取分销渠道的场景图像的特征(feature), 并基于特征计算得到某一类别商品在图像中的分割结果,进而依据该分割 结果确定该类别商品在整个图像中的面积占比。
然而,常用语义分割网络需要以大量样本图像进行训练。样本图像是 分销渠道的场景图像,场景图像中每一像素都需要有对应的类标签,表示 该像素所属的商品类别。为场景图像添加标签耗时耗力,需要大量人力成 本。对于部分商品(比如:冷门商品、新品等)而言,可采集的包含商品 的场景图像数量少。这导致对应于此类商品的样本图像较少,无法满足训 练需求,使得语义分割网络的分割准确率不足。
发明内容
本申请实施例的目的在于提供一种基于少样本的语义分割方法及装 置、电子设备、计算机可读存储介质,用于基于少量训练数据实现准确的 语义分割结果。
一方面,本申请提供了一种基于少样本的语义分割方法,包括:
将目标图像组合作为已训练的特征提取网络的输入,获得所述特征提 取网络输出的所述目标图像组合中每一图像的图像特征;其中,所述目标 图像组合包括待识别目标类别、若干支持图像和一个查询图像,所述支持 图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜;
基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜,计算 出对应于所述待识别目标类别的前景类原型和背景类原型;
基于所述查询图像的图像特征、所述前景类原型和所述背景类原型, 确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜。
在一实施例中,所述基于每一支持图像的图像特征、所述前景掩膜和 所述背景掩膜,计算出对应于所述待识别目标类别的前景类原型和背景类 原型,包括:
将每一支持图像的图像特征分别与对应的所述前景掩膜和所述背景掩 膜相乘后求均值,获得所述支持图像对应的子前景类原型和子背景类原型;
对所有支持图像对应的子前景类原型进行均值化处理,得到所述前景 类原型;
对所有支持图像对应的子背景类原型进行均值化处理,得到所述背景 类原型。
在一实施例中,所述基于所述查询图像的图像特征、所述前景类原型 和所述背景类原型,确定所述查询图像上与所述待识别目标类别对应的预 测前景掩膜,包括:
针对所述查询图像的图像特征,逐个像素与所述前景类原型计算余弦 相似度,获得对应于前景的第一余弦相似度图;
针对所述查询图像的图像特征,逐个像素与所述背景类原型计算余弦 相似度,获得对应于背景的第二余弦相似度图;
基于所述第一余弦相似度图和所述第二余弦相似度图,确定所述预测 前景掩膜。
在一实施例中,所述目标图像组合中每一图像为分销渠道的场景图像, 所述待识别目标类别为待识别商品类别;
在获得与所述待识别商品类别对应的预测前景掩膜后,所述方法还包 括:
基于所述预测前景掩膜确定所述待识别商品类别在所述查询图像上的 面积占比,将所述面积占比作为所述待识别商品类别对应的零售商品占比。
在一实施例中,所述特征提取网络通过如下方法训练得到:
将样本数据集中的样本图像组合作为深度神经网络的输入,获得所述 深度神经网络输出的所述样本图像组合中每一图像的图像特征;其中,所 述样本图像组合包括指定目标类别、若干样本支持图像和若干样本查询图 像,所述样本支持图像携带与所述指定目标类别对应的前景掩膜和背景掩 膜,所述样本查询图像携带与所述指定目标类别对应的前景掩膜;
基于每一样本支持图像的图像特征、与所述指定目标类别对应的前景 掩膜和背景掩膜,计算出对应于所述指定目标类别的前景类原型和背景类 原型;
根据对应于所述指定目标类别的前景类原型和背景类原型、所述样本 查询图像携带的与所述指定目标类别对应的前景掩膜,调整所述深度神经 网络的网络参数;
重复上述过程,直至所述深度神经网络收敛,获得所述特征提取网络。
在一实施例中,所述基于每一样本支持图像的图像特征、与所述指定 目标类别对应的前景掩膜和背景掩膜,计算出对应于所述指定目标类别的 前景类原型和背景类原型,包括:
针对每一样本支持图像的图像特征,分别以所述指定目标类别对应的 所述前景掩膜和所述背景掩膜相乘后求均值,获得对应于所述指定目标类 别的子前景类原型和子背景类原型;
针对每一指定目标类别,将所有样本支持图像对应的子前景类原型进 行均值化处理,得到所述前景类原型;
针对每一指定目标类别,将所有样本支持图像对应的子背景原类型进 行均值化处理,得到所述背景类原型。
在一实施例中,所述根据对应于所述指定目标类别的前景类原型和背 景类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜, 调整所述深度神经网络的网络参数,包括:
基于每一样本查询图像的图像特征、与所述指定目标类别对应的前景 类原型和背景类原型,确定与所述指定目标类别对应的前景余弦相似度图 和背景余弦相似度图;
根据所述前景余弦相似度图、所述背景余弦相似度图、所述样本查询 图像携带的与所述指定目标类别对应的前景掩膜,计算交叉熵损失;
根据所述交叉熵损失调整所述深度神经网络的网络参数。
另一方面,本申请还提供了一种基于少样本的语义分割装置,包括:
提取模块,用于将目标图像组合作为已训练的特征提取网络的输入, 获得所述特征提取网络输出的所述目标图像组合中每一图像的图像特征; 其中,所述目标图像组合包括待识别目标类别、若干支持图像和一个查询 图像,所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩 膜;
计算模块,用于基于每一支持图像的图像特征、所述前景掩膜和所述 背景掩膜,计算出对应于所述待识别目标类别的前景类原型和背景类原型;
分割模块,用于基于所述查询图像的图像特征、所述前景类原型和所 述背景类原型,确定所述查询图像上与所述待识别目标类别对应的预测前 景掩膜。
进一步的,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述基于少样本的语义分割方法。
另外,本申请还提供了一种计算机可读存储介质,所述存储介质存储 有计算机程序,所述计算机程序可由处理器执行以完成上述基于少样本的 语义分割方法。
在本申请实施例中,对于样本较少的待识别目标类别,当对图像中待 识别目标类别对应的目标执行语义分割时,可以以该图像作为查询图像, 构建包括待识别目标类别、若干支持图像和查询图像的目标图像组合;将 目标图像组合输入特征提取网络后,获得目标图像组合中每一图像的图像 特征;根据每一支持图像的图像特征、前景掩膜和背景掩膜,可以计算出 对应于待识别目标类别的前景类原型和背景类原型,并根据查询图像的图像特征、前景类原型和背景类原型,确定查询图像上与待识别目标类别对 应的预测前景掩膜。在只有少量包含待识别目标类别对应目标的样本图像 时,以少量样本图像作为支持图像,实现了对查询图像的语义分割。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例 中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的基于少样本的语义分割方法的应用场景 示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的基于少样本的语义分割方法的流程示意 图;
图4为本申请一实施例提供的特征提取网络的训练方法的流程示意图;
图5为本申请一实施例提供的基于少样本的语义分割装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进 行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在 一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。 同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能 理解为指示或暗示相对重要性。
图1为本申请实施例提供的基于少样本的语义分割方法的应用场景示 意图。如图1所示,该应用场景包括服务端30和客户端20,客户端20可 以是网络摄像机,或者与摄像机对接的主机,用于向服务端30发送需要进 行语义分割的图像;服务端30可以是服务器、服务器集群或者云计算中心, 服务端30可以对客户端20上传的图像执行语义分割。
如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器 11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过 总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器 11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。 在一实施例中,电子设备1可以是上述服务端30。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组 合实现,如静态随机存取存储器(Static Random Access Memory,简称 SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程 序,计算机程序可由处理器11执行以完成本申请提供的基于少样本的语义 分割方法。
参见图3,为本申请一实施例提供的基于少样本的语义分割方法的流程 示意图,如图3所示,该方法可以包括以下步骤310-步骤330。
步骤310:将目标图像组合作为已训练的特征提取网络的输入,获得特 征提取网络输出的目标图像组合中每一图像的图像特征;其中,目标图像 组合包括待识别目标类别、若干支持图像和一个查询图像,支持图像携带 与待识别目标类别对应的前景掩膜和背景掩膜。
特征提取网络用于为目标图像组合中每一图像提取图像特征。特征提 取网络可以由VGG(Visual Geometry Group Network,视觉几何群网络), GoogleNet,ResNet(Residual Neural Network,残差神经网络),WideResNet (Wide Residual Network,宽残差网络)等深度神经网络训练得到。
目标图像组合可以包括待识别目标类别(class)、若干支持图像(support image)和一个查询图像(query image)。待识别目标类别是需要被执行语 义分割的目标的类别。查询图像是接受语义分割的图像,一般,查询图像 包含待识别目标类别对应的目标。在对查询图像执行语义分割时,需借助 支持图像的信息,支持图像内包含待识别目标类别对应的目标。
支持图像携带的与待识别目标类别对应的前景掩膜,表示待识别目标 类别对应的目标在支持图像中所占的区域;背景掩膜表示除上述目标以外 的区域。前景掩膜可以是与支持图像具有相同宽度和高度的二值图,二值 图中的像素与支持图像中的像素一一对应;当二值图中任一像素的像素值 为1,表示该像素在支持图像中对应的像素属于前景,也就是上述目标;当 二值图中任一像素的像素值为0,表示该像素在支持图像中对应的像素属于 背景。背景掩膜可以是与支持图像具有相同宽度和高度的二值图,二值图 中的像素与支持图像中的像素一一对应;当二值图中任一像素的像素值为 1,表示该像素在支持图像中对应的像素属于背景;当二值图中任一像素的 像素值为0,表示该像素在支持图像中对应的像素属于前景,也就是上述目 标。可见,同一支持图像上同一待识别目标类别对应的前景掩膜和背景掩 膜的像素值正好相反。
目标图像组合可记为<N-class K-supprot 1-query>,表示存在N种待识 别目标类别、K个支持图像和1个查询图像。通常,N和K的数值较小。 当存在至少两种待识别目标类别时,每一支持图像携带对应于每一种待识 别目标类别的前景掩膜和背景掩膜。
示例性的,服务端在为分销渠道的场景图像执行针对A商品的语义分 割时,可以根据预配置的包含A商品的支持图像、A商品对应的待识别目 标类别、获取到的包含A商品且需接受语义分割的场景图像,构建目标图 像组合。
服务端将目标图像组合输入特征提取网络后,可以通过特征提取网络 从每一支持图像和查询图像中提取得到图像特征,该图像特征可以是特征 图(feature map)。
步骤320:基于每一支持图像的图像特征、前景掩膜和背景掩膜,计算 出对应于待识别目标类别的前景类原型和背景类原型。
其中,类原型(class prototype)是表征一种类别目标的代表性向量。
服务端可以基于每一支持图像的图像特征,以及与任一待识别目标类 别对应的前景掩膜,计算得到该待识别目标类别的前景类原型。服务端可 以基于每一支持图像的图像特征,以及与任一待识别目标类别对应的背景 掩膜,计算得到该待识别目标类别对应的背景类原型。
示例性的,总共存在三种待识别目标类别,分别为A商品、B商品和 C商品,服务端基于每一商品对应的前景掩膜和背景掩膜,计算出三种前 景类原型和三种背景类原型。
步骤330:基于查询图像的图像特征、前景类原型和背景类原型,确定 查询图像上与待识别目标类别对应的预测前景掩膜。
预测前景掩膜是针对待识别目标类别在查询图像上获得的语义分割结 果,表示查询图像上待识别目标类别对应的目标所占区域。预测前景掩膜 可以是与查询图像具有相同宽度和高度的二值图,二值图中的像素与查询 图像中的像素一一对应;当二值图中任一像素的像素值为1,表示该像素在 查询图像中对应的像素属于前景,也就是待识别目标类别对应的目标;当 二值图中任一像素的像素值为0,表示该像素在支持图像中对应的像素属于 背景。
服务端可以基于查询图像的图像特征、对应于每一待识别目标类别的 前景类原型和背景类原型,计算出与每一待识别目标类别对应的预测前景 掩膜。
在一实施例中,服务端在计算前景类原型和背景类原型时,可以将每 一支持图像的图像特征分别与对应的前景掩膜和背景掩膜相乘后求均值, 获得支持图像对应的子前景类原型和子背景类原型。
在将图像特征与前景掩膜相乘时,针对每一通道的图像特征,服务端 逐个像素将像素值与前景掩膜上对应的像素值相乘。由于前景掩膜上目标 所在区域的像素值为1,背景区域的像素值为0,相乘之后,每一通道的图 像特征只保留目标所在区域的像素值。
这里,默认特征提取网络提取到的图像特征与支持图像具有相同宽度 和高度;如果图像特征与支持图像的宽度或高度不同,可以通过上采用、 下采样、双线性插值等手段将图像特征调整至与支持图像的宽度和高度相 同。
针对每一通道的图像特征,服务端可以计算像素值的平均值。此时, 支持图像的多维度图像特征变成了子前景类原型。示例性的,支持图像的 尺寸以“宽度*高度*通道数”的方式表示为512*512*3,对应的图像特征的尺 寸为512*512*1024,在于前景掩膜相乘并对每一通道图像特征求均值后, 获得尺寸为1*1*1024的子前景类原型。
服务端可以将图像特征与背景掩膜相乘后,针对每一通道的图像特征 求均值,从而获得子背景类原型。
服务端可以对所有支持图像对应的子前景类原型进行均值化处理,得 到前景类原型。如果目标图像组合中只有一个支持图像,则计算出该支持 图像的子前景类原型后,即获得前景类原型。当目标图像组合中存在至少 两个支持图像时,针对任一待识别目标类别计算出至少两个子前景类原型 后,服务端可以计算子前景类原型每一维度的平均数,得到该待识别目标 类别对应的前景类原型。示例性的,在这种情况下,多个尺寸为1*1*1024的子前景类原型经过均值化处理,得到尺寸为1*1*1024的前景类原型。
服务端可以对所有支持图像对应的子背景类原型进行均值化处理,得 到背景类原型。如果目标图像组合中只有一个支持图像,则计算出该支持 图像的子背景类原型后,即获得背景类原型。当目标图像组合中存在至少 两个支持图像时,针对任一待识别目标类别计算出至少两个子背景类原型 后,服务端可以计算子背景类原型每一维度的平均数,得到该待识别目标 类别对应的背景类原型。
在一实施例中,服务端在计算与待识别目标类别对应的预测前景掩膜 时,可以针对查询图像的图像特征,逐个像素与前景类原型计算余弦相似 度,获得对应于前景的第一余弦相似度图(cosine similarity map)。这里, 逐个像素计算余弦相似度,就是以每一像素在多个通道图像特征上的像素 值,构建对应于该像素的多维向量,进而计算该多维向量与前景类原型之 间的余弦相似度。计算完成后,可以获得与图像特征相同宽度和高度的第一余弦相似度图。
示例性的,图像特征的尺度“宽度*高度*通道数”的方式表示为 512*512*1024,以每一像素在1024个通道的图像特征上的像素值,可以构 建512*512个尺度为1*1*1024的多维向量,逐个与前景类原型计算余弦相 似度后,可以得到尺度为512*512*1的第一余弦相似度图。
针对查询图像的图像特征,服务端可以逐个像素与背景类原型计算余 弦相似度,获得对应于背景的第二余弦相似度图。服务端以每一像素在多 个通道图像特征上的像素值,构建对应于该像素的多维向量,进而计算该 多维向量与背景类原型之间的余弦相似度。计算完成后,可以获得与图像 特征相同宽度和高度的第二余弦相似度图。
服务端可以基于第一余弦相似度图和第二余弦相似度图,确定预测前 景掩膜。服务端可以检查第一余弦相似度图与第二余弦相似度图同位置的 像素值之间的大小,若第一余弦相似度图中任一像素的像素值大于第二余 弦相似度图中同位置像素的像素值,可以确定预测前景掩膜中与该像素同 位置像素的像素值为1;若第一余弦相似度图中任一像素的像素值不大于第 二余弦相似度图中同位置像素的像素值,可以确定预测前景掩膜中与该像 素同位置像素的像素值为0。
示例性的,第一余弦相似度图与第二余弦相似度图的尺寸均为 512*512*1,服务端确定第一余弦相似度图第3行第4列像素的像素值大于 第二余弦相似度图第3行第4列像素的像素值,可以确定尺寸为512*512*1 的预测前景掩膜第3行第4列像素的像素值为1。
在确定出预测前景掩膜中每一像素的像素值后,获得预测前景掩膜。 在一实施例中,如果图像特征与查询图像的宽度或高度不同,在计算第一 余弦相似度图和第二余弦相似度图之前,可以通过上采用、下采样、双线 性插值等手段将图像特征调整至与查询图像的宽度和高度相同,从而可以 获得与查询图像具有相同宽度和高度的第一余弦相似度图和第二余弦相似 度图。
在一实施例中,目标图像组合中每一图像为分销渠道的场景图像,待 识别目标类别为待识别商品类别。在获得与待识别商品类别对应的预测前 景掩膜后,服务端可以基于预测前景掩膜确定待识别商品类别在查询图像 上的面积占比。服务端可以基于预测前景掩膜,确定属于待识别商品类别 对应的商品的像素数量,将该像素数量与查询图像总像素数量之间的比值, 确定为待识别商品类别在查询图像上的面积占比。服务端可以将该面积占 比作为待识别商品类别对应的零售商品占比。
示例性的,待识别商品类别包括A品牌冰淇淋和B品牌冰淇淋,查询 图像为卧式冰柜的商品陈列区域的图像。经过语义分割得到A品牌冰淇淋 对应的预测前景掩膜和B品牌冰淇淋对应的预测前景掩膜后,服务端分别 确定两者在查询图像上的面积占比,从而确定A品牌冰淇淋在卧式冰柜的 零售商品占比,以及B品牌冰淇淋在卧式冰柜的零售商品占比。
在一实施例中,在执行上述语义分割方法之前,需训练出特征提取网 络。参见图4,为本申请一实施例提供的特征提取网络的训练方法的流程示 意图,如图4所示,该方法可以包括以下步骤410-步骤440。
步骤410:将样本数据集中的样本图像组合作为深度神经网络的输入, 获得深度神经网络输出的样本图像组合中每一图像的图像特征;其中,样 本图像组合包括指定目标类别、若干样本支持图像和若干样本查询图像, 样本支持图像携带与指定目标类别对应的前景掩膜和背景掩膜,样本查询 图像携带与指定目标类别对应的前景掩膜。
这里,深度神经网络可以是VGG,GoogleNet,ResNet,Wide ResNet 等网络中的任意一种。
指定目标类别是训练时为样本支持图像和样本查询图像上添加标注的 目标类别。指定目标类别与执行语义分割方法时的待识别目标类别,可以 是不同的。示例性的,在训练阶段以包含多个类别的商品的样本图像对深 度神经网络进行训练,得到特征提取网络;后续可以基于特征提取网络对 图像中新类别的商品执行语义分割。因此,本申请实施例可以在包含某类 目标的样本图像较少的情况下,利用其它目标的样本图像训练得到的特征 提取网络,实现对样本图像较少的目标的语义分割。
包含指定目标类别对应目标的样本图像数量较多,可满足训练需求。 服务端可以将已标注前景掩膜和背景掩膜(在实际应用时,由于背景掩膜 和前景掩膜的像素值恰好相反,可以仅标注其中一种掩膜)的样本图像, 构建出多个样本图像组合。
样本图像组合可记为<N-class K-supprot Q-query>,表示存在N种待识 别目标类别、K个样本支持图像和Q个样本查询图像。N、K、Q的数值较 小;一般来说,样本图像组合中指定目标类别的数量可以大于目标图像组 合中待识别目标类别的数量,可以在应用过程获得更好的语义分割效果。
服务端将样本数据集中已构建的样本图像组合输入深度神经网络后, 可以通过深度神经网络从每一样本支持图像和每一样本查询图像中提取得 到图像特征。
步骤420:基于每一样本支持图像的图像特征、与指定目标类别对应的 前景掩膜和背景掩膜,计算出对应于指定目标类别的前景类原型和背景类 原型。
服务端可以基于每一样本支持图像的图像特征,以及与任一指定目标 类别对应的前景掩膜,计算得到该指定目标类别的前景类原型。服务端可 以基于每一样本支持图像的图像特征,以及与任一制定个目标类别对应的 背景掩膜,计算得到该指定目标类别对应的背景类原型。
在一实施例中,针对每一样本支持图像的图像特征,服务端可以分别 以指定目标类别对应的前景掩膜和背景掩膜相乘后求均值,获得对应于该 指定目标类别的子前景类原型和子背景类原型。
在将图像特征与前景掩膜相乘时,针对每一通道的图像特征,服务端 逐个像素将像素值与前景掩膜上对应的像素值相乘。由于前景掩膜上目标 所在区域的像素值为1,背景区域的像素值为0,相乘之后,每一通道的图 像特征只保留目标所在区域的像素值。针对每一通道的图像特征,服务端 可以计算像素值的平均值。此时,样本支持图像的多维度图像特征变成了 子前景类原型。
服务端可以将样本支持图像的图像特征与背景掩膜相乘后,针对每一 通道的图像特征求均值,从而获得子背景类原型。
针对每一指定目标类别,服务端可以将样本支持图像对应的子前景类 原型进行均值化处理,得到前景类原型。如果样本图像组合中只有一个样 本支持图像,则计算出该样本支持图像的子前景类原型后,即获得前景类 原型。当样本图像组合中存在至少两个样本支持图像时,针对任一指定目 标类别计算出至少两个子前景类原型后,服务端可以计算子前景类原型每 一维度的平均数,得到该指定目标类别对应的前景类原型。
针对每一指定目标类别,服务端可以将样本支持图像对应的子背景类 原型进行均值化处理,得到背景类原型。如果样本图像组合中只有一个样 本支持图像,则计算出该样本支持图像的子背景类原型后,即获得背景类 原型。当样本图像组合中存在至少两个样本支持图像时,针对任一指定目 标类别计算出至少两个子背景类原型后,服务端可以计算子背景类原型每 一维度的平均数,得到该指定目标类别对应的背景类原型。
步骤430:根据对应于指定目标类别的前景类原型和背景类原型、样本 查询图像携带的与指定目标类别对应的前景掩膜,调整深度神经网络的网 络参数。
步骤440:重复上述过程,直至深度神经网络收敛,获得特征提取网络。
服务端可以基于每一样本查询图像的图像特征、与指定目标类别对应 的前景类原型和背景类原型,确定与指定目标类别对应的前景余弦相似度 图和背景余弦相似度图。针对每一样本查询图像的图像特征,服务端可以 逐个像素与前景类原型计算余弦相似度,从而获得与指定目标类别对应的 前景余弦相似度图;服务端可以逐个像素与背景类原型计算余弦相似度, 从而获得与指定目标类别对应的背景余弦相似度图。
服务端可以根据前景余弦相似度图、背景余弦相似度图、样本查询图 像携带的与指定目标类别对应的前景掩膜,计算交叉熵损失。服务端可以 根据前景余弦相似度图和背景余弦相似度图,确定样本查询图像上每一像 素属于指定目标类别对应的前景的概率。可以通过如下公式(1)确定这个 概率:
Figure RE-GDA0002741860390000171
其中,i表示前景或背景的序号,scorei表示像素在前景余弦相似度图 或背景余弦相似度图上的像素值,e为自然底数。
根据公式(1)的算法,如果样本查询图像的尺寸为512*512*3,对于 第5行第6列的像素,其在前景余弦相似度图上对应的像素值为score1,其 在背景余弦相似度图上对应的像素值为score2,escore1除以escore1与escore2的 和,可以得到该像素属于前景的概率。
获得样本查询图像上每一像素属于指定目标类别的概率后,基于样本 查询图像上与指定目标类别对应的前景掩膜,可以计算交叉熵损失。服务 端可以通过计算出的交叉熵损失评估深度神经网络的预测效果,进而调整 深度神经网络的网络参数。
训练过程经多次迭代,直至交叉熵损失小于预设损失阈值,或者,交 叉熵损失不再减小,此时认为深度神经网络收敛,得到特征提取网络。
参见图5,为本申请一实施例提供的基于少样本的语义分割装置的框 图,如图5所示,该装置可以包括:提取模块510、计算模块520、分割模 块530。
提取模块510,用于将目标图像组合作为已训练的特征提取网络的输 入,获得所述特征提取网络输出的所述目标图像组合中每一图像的图像特 征;其中,所述目标图像组合包括待识别目标类别、若干支持图像和一个 查询图像,所述支持图像携带与所述待识别目标类别对应的前景掩膜和背 景掩膜。
计算模块520,用于基于每一支持图像的图像特征、所述前景掩膜和所 述背景掩膜,计算出对应于所述待识别目标类别的前景类原型和背景类原 型。
分割模块530,用于基于所述查询图像的图像特征、所述前景类原型和 所述背景类原型,确定所述查询图像上与所述待识别目标类别对应的预测 前景掩膜。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于少样 本的语义分割方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过 其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图 中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机 程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图 中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段 或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。 在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图 中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行, 它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的 是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合, 可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以 用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请 的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部 分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介 质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务 器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光 盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于少样本的语义分割方法,其特征在于,包括:
将目标图像组合作为已训练的特征提取网络的输入,获得所述特征提取网络输出的所述目标图像组合中每一图像的图像特征;其中,所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像,所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜;
基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜,计算出对应于所述待识别目标类别的前景类原型和背景类原型;
基于所述查询图像的图像特征、所述前景类原型和所述背景类原型,确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜。
2.根据权利要求1所述的方法,其特征在于,所述基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜,计算出对应于所述待识别目标类别的前景类原型和背景类原型,包括:
将每一支持图像的图像特征分别与对应的所述前景掩膜和所述背景掩膜相乘后求均值,获得所述支持图像对应的子前景类原型和子背景类原型;
对所有支持图像对应的子前景类原型进行均值化处理,得到所述前景类原型;
对所有支持图像对应的子背景类原型进行均值化处理,得到所述背景类原型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述查询图像的图像特征、所述前景类原型和所述背景类原型,确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜,包括:
针对所述查询图像的图像特征,逐个像素与所述前景类原型计算余弦相似度,获得对应于前景的第一余弦相似度图;
针对所述查询图像的图像特征,逐个像素与所述背景类原型计算余弦相似度,获得对应于背景的第二余弦相似度图;
基于所述第一余弦相似度图和所述第二余弦相似度图,确定所述预测前景掩膜。
4.根据权利要求1所述的方法,其特征在于,所述目标图像组合中每一图像为分销渠道的场景图像,所述待识别目标类别为待识别商品类别;
在获得与所述待识别商品类别对应的预测前景掩膜后,所述方法还包括:
基于所述预测前景掩膜确定所述待识别商品类别在所述查询图像上的面积占比,将所述面积占比作为所述待识别商品类别对应的零售商品占比。
5.根据权利要求1所述的方法,其特征在于,所述特征提取网络通过如下方法训练得到:
将样本数据集中的样本图像组合作为深度神经网络的输入,获得所述深度神经网络输出的所述样本图像组合中每一图像的图像特征;其中,所述样本图像组合包括指定目标类别、若干样本支持图像和若干样本查询图像,所述样本支持图像携带与所述指定目标类别对应的前景掩膜和背景掩膜,所述样本查询图像携带与所述指定目标类别对应的前景掩膜;
基于每一样本支持图像的图像特征、与所述指定目标类别对应的前景掩膜和背景掩膜,计算出对应于所述指定目标类别的前景类原型和背景类原型;
根据对应于所述指定目标类别的前景类原型和背景类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜,调整所述深度神经网络的网络参数;
重复上述过程,直至所述深度神经网络收敛,获得所述特征提取网络。
6.根据权利要求5所述的方法,其特征在于,所述基于每一样本支持图像的图像特征、与所述指定目标类别对应的前景掩膜和背景掩膜,计算出对应于所述指定目标类别的前景类原型和背景类原型,包括:
针对每一样本支持图像的图像特征,分别以所述指定目标类别对应的所述前景掩膜和所述背景掩膜相乘后求均值,获得对应于所述指定目标类别的子前景类原型和子背景类原型;
针对每一指定目标类别,将所有样本支持图像对应的子前景类原型进行均值化处理,得到所述前景类原型;
针对每一指定目标类别,将所有样本支持图像对应的子背景原类型进行均值化处理,得到所述背景类原型。
7.根据权利要求5所述的方法,其特征在于,所述根据对应于所述指定目标类别的前景类原型和背景类原型、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜,调整所述深度神经网络的网络参数,包括:
基于每一样本查询图像的图像特征、与所述指定目标类别对应的前景类原型和背景类原型,确定与所述指定目标类别对应的前景余弦相似度图和背景余弦相似度图;
根据所述前景余弦相似度图、所述背景余弦相似度图、所述样本查询图像携带的与所述指定目标类别对应的前景掩膜,计算交叉熵损失;
根据所述交叉熵损失调整所述深度神经网络的网络参数。
8.一种基于少样本的语义分割装置,其特征在于,包括:
提取模块,用于将目标图像组合作为已训练的特征提取网络的输入,获得所述特征提取网络输出的所述目标图像组合中每一图像的图像特征;其中,所述目标图像组合包括待识别目标类别、若干支持图像和一个查询图像,所述支持图像携带与所述待识别目标类别对应的前景掩膜和背景掩膜;
计算模块,用于基于每一支持图像的图像特征、所述前景掩膜和所述背景掩膜,计算出对应于所述待识别目标类别的前景类原型和背景类原型;
分割模块,用于基于所述查询图像的图像特征、所述前景类原型和所述背景类原型,确定所述查询图像上与所述待识别目标类别对应的预测前景掩膜。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的基于少样本的语义分割方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的基于少样本的语义分割方法。
CN202011012195.3A 2020-09-23 2020-09-23 基于少样本的语义分割方法及装置、电子设备、存储介质 Active CN112150471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011012195.3A CN112150471B (zh) 2020-09-23 2020-09-23 基于少样本的语义分割方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011012195.3A CN112150471B (zh) 2020-09-23 2020-09-23 基于少样本的语义分割方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112150471A true CN112150471A (zh) 2020-12-29
CN112150471B CN112150471B (zh) 2023-09-05

Family

ID=73896460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011012195.3A Active CN112150471B (zh) 2020-09-23 2020-09-23 基于少样本的语义分割方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112150471B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052209A (zh) * 2021-03-10 2021-06-29 天津城建大学 融合胶囊相似性的单样本语义分割方法
CN114943834A (zh) * 2022-04-14 2022-08-26 西北工业大学 一种少标注样本下基于原型队列学习的全场景语义分割方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019013711A1 (en) * 2017-07-12 2019-01-17 Mastercard Asia/Pacific Pte. Ltd. MOBILE DEVICE PLATFORM FOR AUTOMATED VISUAL RECOGNITION OF RETAIL PRODUCTS
CN110288024A (zh) * 2019-06-26 2019-09-27 山东大学 一种基于原型网络少样本学习的图像分类器构建、图像识别方法及***
KR102043142B1 (ko) * 2018-12-31 2019-11-12 호서대학교 산학협력단 Agv 주행제어를 위한 인공신경망 학습 방법 및 장치
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
CN111046880A (zh) * 2019-11-28 2020-04-21 中国船舶重工集团公司第七一七研究所 一种红外目标图像分割方法、***、电子设备及存储介质
CN111046910A (zh) * 2019-11-12 2020-04-21 北京三快在线科技有限公司 图像分类、关系网络模型训练、图像标注方法及装置
CN111192269A (zh) * 2020-01-02 2020-05-22 腾讯科技(深圳)有限公司 模型训练、医学影像分割方法和装置
CN111583284A (zh) * 2020-04-22 2020-08-25 中国科学院大学 一种基于混合模型的小样本图像语义分割方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019013711A1 (en) * 2017-07-12 2019-01-17 Mastercard Asia/Pacific Pte. Ltd. MOBILE DEVICE PLATFORM FOR AUTOMATED VISUAL RECOGNITION OF RETAIL PRODUCTS
KR102043142B1 (ko) * 2018-12-31 2019-11-12 호서대학교 산학협력단 Agv 주행제어를 위한 인공신경망 학습 방법 및 장치
CN110288024A (zh) * 2019-06-26 2019-09-27 山东大学 一种基于原型网络少样本学习的图像分类器构建、图像识别方法及***
CN110555475A (zh) * 2019-08-29 2019-12-10 华南理工大学 一种基于语义信息融合的少样本目标检测方法
CN111046910A (zh) * 2019-11-12 2020-04-21 北京三快在线科技有限公司 图像分类、关系网络模型训练、图像标注方法及装置
CN111046880A (zh) * 2019-11-28 2020-04-21 中国船舶重工集团公司第七一七研究所 一种红外目标图像分割方法、***、电子设备及存储介质
CN111192269A (zh) * 2020-01-02 2020-05-22 腾讯科技(深圳)有限公司 模型训练、医学影像分割方法和装置
CN111583284A (zh) * 2020-04-22 2020-08-25 中国科学院大学 一种基于混合模型的小样本图像语义分割方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAIXIN WANG等: ""PANet Few-Shot Image Semantic Segmentation With Prototype Alignment"", 《ARXIV》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052209A (zh) * 2021-03-10 2021-06-29 天津城建大学 融合胶囊相似性的单样本语义分割方法
CN114943834A (zh) * 2022-04-14 2022-08-26 西北工业大学 一种少标注样本下基于原型队列学习的全场景语义分割方法
CN114943834B (zh) * 2022-04-14 2024-02-23 西北工业大学 一种少标注样本下基于原型队列学习的全场景语义分割方法

Also Published As

Publication number Publication date
CN112150471B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
US11151725B2 (en) Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
CN110047069B (zh) 一种图像检测装置
WO2020098250A1 (zh) 字符识别方法、服务器及计算机可读存储介质
CN112464943B (zh) 基于少样本的语义分割方法及装置、电子设备、存储介质
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN111667001B (zh) 目标重识别方法、装置、计算机设备和存储介质
CN111680678B (zh) 目标区域识别方法、装置、设备及可读存储介质
CN111310706B (zh) 一种商品价签识别方法及装置、电子设备、存储介质
CN108875931B (zh) 神经网络训练及图像处理方法、装置、***
CN107506792B (zh) 一种半监督的显著对象检测方法
CN112150471B (zh) 基于少样本的语义分割方法及装置、电子设备、存储介质
CN110210480B (zh) 文字识别方法、装置、电子设备和计算机可读存储介质
CN110610149B (zh) 一种信息处理方法、装置及计算机存储介质
CN108229289B (zh) 目标检索方法、装置和电子设备
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
CN110196917A (zh) 个性化logo版式定制方法、***和存储介质
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
CN113762251B (zh) 一种基于注意力机制的目标分类方法及***
CN114861842A (zh) 少样本目标检测方法、装置和电子设备
CN113657370B (zh) 一种文字识别方法及其相关设备
CN111292333A (zh) 用于分割图像的方法和装置
Ferianc et al. ComBiNet: Compact convolutional Bayesian neural network for image segmentation
CN116310308A (zh) 图像分割方法、装置、计算机设备和存储介质
CN114677578A (zh) 确定训练样本数据的方法和装置
CN113408665A (zh) 对象识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant