CN111612010A

CN111612010A - 图像处理方法、装置、设备以及计算机可读存储介质

Info

Publication number: CN111612010A
Application number: CN202010438187.9A
Authority: CN
Inventors: 冯洁; 穆亚东; 王帅; 田贵宇; 白一鸣; 魏祥野; 欧歌; 吴琼
Original assignee: Peking University; BOE Technology Group Co Ltd
Current assignee: Peking University; BOE Technology Group Co Ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01
Anticipated expiration: 2040-05-21
Also published as: US20220292805A1; WO2021233031A1

Abstract

本公开提供了一种图像处理方法、装置、设备以及计算机可读存储介质。该方法包括：获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本；利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。通过上述方法，可以节省大量的人工费用和时间。

Description

图像处理方法、装置、设备以及计算机可读存储介质

技术领域

本申请涉及一种图像处理方法、装置、设备、计算机可读存储介质以及图像分割方法。

背景技术

图像分割(image segmentation)技术是计算机视觉领域的核心问题之一。该技术旨在对图像进行像素级别的语义标注。图像分割模型的输入一般为一张普通的图像或者视频帧，输出为每个像素的语义标签(标签的类别通常事先已经被指定)。

在标准的图像分割技术中，图像分割模型的获取是通过事先搜集大量的训练图像，并进行像素级别的语义标注，再通过机器学习的方式来获取模型的最优参数。图像分割任务中的语义标注非常耗费人力，严重制约了该任务的训练数据的规模。当将图像分割模型部署到新的应用场景时，通常会遇到新的未知类别(unseen class)(或者称为小样本(low-shot))。这些未知类别的语义标注是极为稀有的，在某些情况下可能完全缺失。小样本图像分割任务(或称为未知类别图像分割任务)旨在从小样本(或零样本)数据中获取能够处理新类别的图像分割模型。

发明内容

鉴于上述问题而提出了本公开。本公开提供了一种图像处理方法、装置、设备、计算机可读存储介质以及图像分割方法。

根据本公开的一个方面，提供了一种图像处理方法，包括：获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本；利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。

根据本公开的一个示例，所述未知类别获取模型包含局部分支、半全局分支和全局分支，其中，所述局部分支被配置为基于已知类别的标注信息生成所述图像中每个像素来自所述未知类别的概率，所述全局分支被配置为基于所述伴随文本生成所述未知类别存在于所述图像中的概率，所述半全局分支被配置为基于所述标注信息和所述伴随文本，生成将图像细分为多个区域后的分区概率。

根据本公开的一个示例，所述全局分支基于所述伴随文本，利用文本语义提取模型生成所述未知类别存在于所述图像中的概率。

根据本公开的一个示例，所述文本语义提取模型为来自变换器的双向编码表示BERT模型，其中，利用BERT模型生成所述未知类别存在于所述图像中的概率表示为：

S_x,c＝sigmoid(H_o(φ(caption(x)；[EOS]；description(c))))

其中，H_o(·)表示自由定义的函数，其输出是未经过sigmoid函数处理的、未知类别出现在图像中的概率，φ表示BERT模型，caption(x)表示图像的伴随文本，EOS为自然语言处理中的语句休止符，c表示未知类别，description(c)表示所述未知类别c的关键字或者文字描述。

根据本公开的一个示例，所述局部分支利用第一模型来生成所述图像中每个像素来自所述未知类别的概率，其中所述第一模型是通过所述标注信息训练获得的。

根据本公开的一个示例，所述标注信息包含已知类别的像素的坐标，所述第一模型通过以下方式进行训练：选择所述图像数据集中一个图像中多个已知类别中的一个已知类别的像素作为验证集中的一个验证数据；选择所述多个已知类别中的其他类别的像素作为训练集中的一个训练数据；以及基于所述验证集和所述训练集中的已知类别的像素的坐标，训练所述第一模型。

根据本公开的一个示例，所述半全局分支利用第二模型生成所述分区概率，所述第二模型是通过所述伴随文本和所述标注信息训练获得的。

根据本公开的一个示例，所述分区概率包括将图像细分为多个区域后生成的所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第一概率分布以及所述未知类别存在于所述每个图像细分区域中的第二概率分布。

根据本公开的一个示例，所述第二模型通过以下方式进行训练：沿垂直方向或水平方向将所述图像细分为多个区域；基于所述伴随本文，生成所述未知类别存在于所述每个图像细分区域中的第一训练概率分布；基于所述标注信息，生成所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第二训练概率分布；根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数；通过所述损失函数来训练所述第二模型。

根据本公开的一个示例，所述根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数包括：基于所述第一训练概率分布和所述第二训练概率分布之间的欧式距离来构建损失函数图像处理。

根据本公开的一个示例，所述伴随文本包括用户评论和/或图像标题。

根据本公开的一个方面，提供了一种图像分割方法，包括：获取第一图像；利用图像分割模型处理所述第一图像以生成分割后的第二图像，其中，所述图像分割模型是利用第一训练集对原始图像分割网络训练得到的，所述第一训练集包含利用上述图像处理方法得到的未知类别的概率和/或分布，其中所述第二图像包含对应不同类别的多个区域。

根据本公开的一个方面，提供了一种图像处理装置，包括：获取单元，用于获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本；生成单元，用于利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。

根据本公开的一个方面，提供了一种图像处理设备，包括：处理器；以及存储器，其中存储计算机可读指令，其中，在所述计算机可读指令被所述处理器运行时执行图像处理方法，所述方法包括：获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本；利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。

根据本公开的一个方面，提供了一种用于存储计算机可读程序的计算机可读存储介质，所述程序使得计算机执行上述图像处理方法。

在本公开的上述方面中，提出了一种图像处理处理方法，具体地，本公开利用未知类别获取模型图像处理生成未知类别的概率和/或分布，利用该未知类别的概率和/或分布作为训练数据训练图像分割网络，可以实现在没有提供该未知类别的像素级语义标注的情况下自动标注出图像中未知类别，从而节省大量的人工费用和时间。进一步，本公开通过最大化利用所有已收集数据中的信息，达到对于相同的标注成本提升图像处理模型的效果，或者对于相同的图像处理模型效果，降低标注成本并加快开发周期的效果。

要理解的是，前面的一般描述和下面的详细描述两者都是示例性的，并且意图在于提供要求保护的技术的进一步说明。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了根据本公开实施例的图像处理方法的流程图；

图2示出了根据本公开实施例的图像伴随文本的示例的示意图；

图3示出了根据本公开实施例的未知类别标注方法的示意图；

图4示出了根据本公开实施例的训练第一模型的操作的流程图；

图5示出了根据本公开实施例的训练第二模型的操作的流程图；

图6示出了根据本公开实施例的半全局分支的效果示意图；

图7示出了根据本公开实施例的图像分割方法的流程图；

图8示出了根据本公开实施例图像分割模型生成分割后的图像的示意图；

图9示出了根据本公开实施例的小样本图像分割方法的示意图；

图10示出了根据本公开实施例的图像处理装置的框图；

图11示出了根据本公开实施例的图像处理设备的框图；以及

图12示出了根据本公开实施例的存储介质的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

本申请中使用了流程图用来说明根据本申请的实施例的方法的步骤。应当理解的是，前面或后面的步骤不一定按照顺序来精确的进行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步。

现有的图像分割模型通常基于机器学习的方式获得，严重依赖于像素级别的语义标注，需要消耗大量人力。当在特定数据集训练后的图像分割模型在新的应用场景中使用时，需要对于场景中的新的未知类别重新进行像素级别的语义标注。

本公开提供了一种图像处理处理方法，其利用包含局部分支、半全局分支和全局分支的未知类别获取模型生成未知类别的概率和/或分布，并利用该未知类别的概率和/或分布作为训练数据训练图像分割网络，从而实现在没有提供该未知类别的像素级语义标注的情况下利用图像分割网络自动标注出图像中的未知类别，从而节省大量的人工费用和时间。

下面结合附图对本公开的实施例及其示例进行详细说明。

本公开的至少一个实施例提供了一种图像处理方法、图像处理装置、图像处理设备和计算机可读存储介质。下面通过几个示例和实施例对根据本公开的至少一个实施例提供的图像处理方法进行非限制性说明，如下面所描述的，在不相互抵触的情况下，这些具体示例和实施例中不同特征可以相互组合，从而得到新的示例和实施例，这些新的示例和实施例也都属于本公开保护的范围。

下面参照图1-6描述根据本公开实施例的图像处理方法。首先，参照图1来描述根据本公开实施例的图像处理方法。该方法可以由计算机等自动完成。例如，该图像处理方法可以以软件、硬件、固件或其任意组合的方式实现，由例如手机、平板电脑、笔记本电脑、桌面电脑、网络服务器等设备中的处理器加载并执行。

例如，该图像处理方法适用于一计算装置，该计算装置是包括具有计算功能的任何电子设备，例如可以为手机、笔记本电脑、平板电脑、台式计算机、网络服务器等，可以加载并执行该图像处理方法，本公开的实施例对此不作限制。例如，该计算装置可以包括中央处理单元(Central Processing Unit，CPU)或图形处理单元(Graphics Processing Unit，GPU)等具有数据处理能力和/或指令执行能力的其它形式的处理单元、存储单元等，该计算装置上还安装有操作***、应用程序编程接口(例如，OpenGL(Open Graphics Library)、Metal等)等，通过运行代码或指令的方式实现本公开实施例提供的图像处理方法。例如，该计算装置还可以包括显示部件，该显示部件例如为液晶显示屏(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light Emitting Diode，OLED)显示屏、量子点发光二极管(Quantum Dot Light Emitting Diode，QLED)显示屏、投影部件、VR头戴式显示设备(例如VR头盔、VR眼镜)等，本公开的实施例对此不作限制。例如，该显示部件可以显示待显示对象。

如图1所示，该图像处理方法包括以下的步骤S101-步骤S102。

在步骤S101，获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本。

在步骤S102，利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率图像处理。

本公开所述的图像处理可以包括图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等，这里不做限制。接下来，本公开以图像分割为例进行说明。

对于步骤S101，例如，图像数据集通常包含某种伴随文本，例如社交网站图像下的用户评论、图像标题等。本公开所描述的方法中的伴随文本以图像标题(caption)为例，来展示伴随文本对于小样本图像处理的用途。应当理解，本公开的可以包含其它形式的图像伴随文本，这里不做限制。

例如，当未知类别为吉他时，图像标题“穿黑色短袖的人在玩吉他”与该未知类别“吉他”有关，图像标题“穿黑色短袖的人在玩钢琴”则与该未知类别“吉他”无关，图像标题“穿黑色短袖的人在玩乐器”则可能与该未知类别“吉他”有关。

图2示出了一些图像标题的示例。图像标题通常为描述图像中最关键的语义内容的句子。当需要处理某些未知类别的图像处理时，图像标题中在如下情况中是有用的：1)标题中直接包含未知类别的关键字；2)标题中可以隐式地推出该未知类别存在于该图像中的概率。

对于步骤S102，例如，未知类别获取模型可以包含局部分支、半全局分支和全局分支。局部分支、半全局分支和全局分支可以对应于不同的模块。

例如，所述局部分支可以被配置为基于已知类别的标注信息生成所述图像中每个像素来自所述未知类别的概率，所述全局分支可以被配置为基于所述伴随文本生成所述未知类别存在于所述图像中的概率，所述半全局分支可以被配置为基于所述标注信息和所述伴随文本，生成将图像细分为多个区域后的分区概率。

图3所示为根据本公开实施例的未知类别标注方法的示意图。如图3所示，本公开的图像处理方法通过复用现有的已知类别的标注信息31，同时使用图像的伴随文本32，利用包含局部分支33、半全局分支34和全局分支35的图像处理模型来生成不同级别(例如，像素级别、图像细分区域级别、图像全局)的未知类别存在的概率。例如，如图3所示，局部分支33基于已知类别的标注信息31生成所述图像中每个像素来自所述未知类别的概率(像素级别概率34)，全局分支37基于伴随文本32生成所述未知类别存在于所述图像中的概率(图像全局概率38)，所述半全局分支35基于所述标注信息31和所述伴随文本32，生成将图像细分为多个区域后的分区概率36。

下面参照图4-5详细描述根据公开实施例的未知类别标注方法。

首先，将描述根据本公开实施例的全局分支(图3中的全局分支37)的操作。

例如，全局分支可以基于伴随本文，利用文本语义提取模型生成所述未知类别存在于所述图像中的概率。

例如，可以采用上下文敏感的预训练文本语义提取模型，如来自变换器的双向编码表示(bidirectional encoder representations from transformers，BERT)，来处理伴随文本中的下列上下文蕴含问题(contextual entailment question,CEQ)：

CEQ(x,c):caption(x)；[EOS]；description(c).

在上述CEQ中，x代表特定图像。caption(x)表示该图像的文本标题。EOS为自然语言处理中的语句休止符(end of sentence)。c表示未知类别。description(c)表示该未知类别c的关键字或者文字描述。

BERT模型的训练过程中包含了基于上下文的句子间的蕴含(entailment)关系的相关任务。因此，将上述CEQ送入BERT等深度网络模型后，其高层输出包含了对于蕴含关系的判断。

例如，可以将一对前提和假设句子分为三类：矛盾(contradiction)、中立(neutral)和蕴含(entailment)。例如，“一场有多名男子参加的足球比赛”意味着“有些男子正在参加一项运动”，而与“没有男子在图像中移动”相矛盾。上述CEQ的目标为预测前提和假设之间的关系，其既可以是蕴含关系也可以是矛盾关系。如果判断为高度蕴含关系，则表示未知类别c与图像标题的语义一致。

此外，上述蕴含关系的判断可以引入参数进行控制，例如，在BERT模型中，我们可以将高层神经网络层输出的特征向量进行平均或最大池化，得到单一的特征向量，并通过额外的参数化网络层(如全连接层)来获得最终的蕴含关系的概率。

特别地，可以将CEQ的范围放宽到[0，1]之间，通过将其转换为置信度调制的二进制分类来预测前提和假设之间的关系。可以通过在BERT模型的主干之上附加一个完全相连的头部(表示为H_o(·))来实现此目的，设s_x,c为未知类别c出现在图像x中的概率，其计算等式为：

S_x,c＝sigmoid(H_o(φ(caption(x)；[EOS]；description(c)))) (1)

其中，H_o(·)表示自由定义的函数，这里不做限定，其输出是(未经过sigmoid的)特定类别出现在图像中的概率，φ表示BERT模型。Sigmoid()函数的输出位于[0,1]区间，作为概率输出，x表示BERT模型的输入图像。

例如，可以在已知类别S的基础上采用二进制交叉熵损失来优化头部H_o和φ，如下所示：

L_o＝∑_x∑_c∈S-[I(c∈y(x))·log(s_x,c)+(1-I(c∈y(x))·log(1-s_x,c))] (2)

其中y(x)是图像x的标签，S表示已知类别。如果未知类别c出现在该特定图像x中，则指示符函数I(c∈y(x)))返回1，否则返回0。

例如，在利用上述损失函数(2)训练BERT模型的过程中，可以随机选择一个已知类别模拟为未知类别作为验证集中的一个验证数据，选择已知类别中的其他类别作为训练集中的一个训练数据，基于所述验证集和所述训练集中的已知类别，训练该BERT模型。

通过上述模型，可以生成未知类别存在于所述图像中的概率。此外，可以通过等式(2)的损失函数训练神经网络得到基于BERT的神经网络模型，通过该神经网络模型可以得到未知类别出现在图像中的概率。应当认识到，上述BERT模型仅仅是一个示例，本公开还可以采用其他合适的文本语义提取模型，这里不做限制。

在描述完根据本公开实施例的全局分支的操作后，接下来，本公开将描述根据本公开实施例的局部分支(图3中的局部分支33)的操作。

例如，局部分支可以利用第一模型来生成所述图像中每个像素来自所述未知类别的概率，其中所述第一模型是通过所述标注信息训练获得的。

例如，不同语义类别之间可能存在语义相关性，例如“沙滩”和“海水”、“蓝天”和“白云”等。对于未知类别的标注，应当使用一切有用的信息来克服标注量的缺乏。本公开提出的第一模型例如可以实现为多层感知器网络，其可以通过标注信息进行训练获得。

例如，该第一模型的具体描述如下：(1)训练集中包含一定数目的已知类别。这些类别大多数具有充足的像素级语义标注，可以采用标准的机器学习模型(如基于卷积和池化操作的编码-解码网络等)来获得高质量的图像处理模型。换句话说，对于给定的某张图像，可以对其中每个像素提供高可信度的已知类别的概率。(2)通过采用词嵌入技术(如word2vec)，可以将每个类别的关键字进行特征向量化。(3)可以利用已知类别的标注信息训练第一模型来生成所述图像中每个像素来自所述未知类别的概率。

图4为根据本公开实施例的训练第一模型的操作200的流程图。该训练第一模型的操作包括以下的步骤S201-步骤S203。

在步骤S201，选择所述图像数据集中一个图像中多个已知类别中的一个已知类别的像素作为验证集中的一个验证数据。

在步骤S202，选择所述多个已知类别中的其他类别的像素作为训练集中的一个训练数据。

在步骤S203，基于所述验证集和所述训练集中的已知类别的像素的坐标，训练所述第一模型。

例如，所述标注信息包含已知类别的像素的坐标。可以通过以下第一模型M来生成所述图像中每个像素来自未知类别的概率：

给定图像x，本公开的像素级别第一模型M从所有已知类别的已标记的像素x′和未标记的目标像素t采样已知类别的源像素s，其中c_s∈S，c_s表示源像素s的类别，S表示已知类别，U表示未知类别。那么，未标记的目标像素t的类别属于未知类别(c_t＝u∈U)的概率为：

其中position(p)表示像素p的二维坐标，其大小为[0，1]。w_c∈R^d是与类别c相关的word2vec嵌入(即，经过word2vec之后的特征化向量)。

进一步，未知类别u的空间分布可以通过将从所有已标记的像素中得到的预测结果进行积分得到：

其中|x′|是已标记的像素数，其可以作为重新缩放因子。通过这种方式，可以利用已知类别的像素级标注来生成某些未知类别的空间分布。

例如，该第一模型M可以通过已知类别的标注信息进行训练。例如，在每次迭代中，可以随机选择一个已知类别的像素来模拟为未知类别的像素作为验证集中的一个验证数据，选择已知类别中的其他类别的像素作为训练集中的一个训练数据，基于所述验证集和所述训练集中的已知类别的像素的坐标，训练该第一模型M。

通过上述第一模型M，可以生成所述图像中每个像素来自所述未知类别的概率。应当认识到，上述第一模型M仅仅是一个示例，本公开还可以采用其他合适的第一模型，这里不做限制。

在描述完根据本公开实施例的全局分支和局部分支的操作后，接下来，本公开将描述根据本公开实施例的半全局分支(图3中的局部分支36)的操作。

不同对象的空间排列对于图像处理至关重要。例如，至少可以使用两个提示来猜测图像中某个对象的位置。第一个提示是对象间的结构安排。例如，通常在“办公桌”前观察“人”，而很少看到“长颈鹿”在这样做。其次，某些对象或概念往往具有集中的空间分布，例如在图像的顶部区域更经常看到“天空”。

如上所述，全局分支中的预训练文本语义提取模型中的上下文蕴含将图像的伴随文本(其中包含全局语义信息)作为输入，而局部分支中的像素级第一模型，则将已知类别的像素级标注(其中包含局部类别信息)作为输入。为了使两种信息在不同的方式和不同的规模上能够相互补充，本公开提出了利用一致性损失来联合训练全局分支和局部分支。

如上所述，半全局分支被配置为基于所述标注信息和所述伴随文本，生成将图像细分为多个区域后的分区概率。

例如，所述半全局分支可以利用第二模型生成所述分区概率，所述第二模型是通过所述伴随文本和所述标注信息训练获得的。

例如，分区概率包括将图像细分为多个区域后生成的所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第一概率分布以及所述未知类别存在于所述每个图像细分区域中的第二概率分布。

图5是根据本公开实施例的训练第二模型的操作300的流程图。该训练第二模型的操作包括以下的步骤S301-步骤S305。

在步骤S301，沿垂直方向或水平方向将所述图像细分为多个区域。

在步骤S302，基于所述伴随本文，生成所述未知类别存在于所述每个图像细分区域中的第一训练概率分布。

在步骤S303，基于所述标注信息，生成所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第二训练概率分布。

在步骤S304，根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数。

在步骤S305，通过所述损失函数来训练所述第二模型。

对于步骤S302，可以基于以下模型生成第一训练概率分布。

例如，本公开可以从图像标题中生成特定于图像类别的空间分布。假设标题中的复杂上下文可以大致分辨出对象的位置。这个想法的实现仍然基于BERT模型的定制。在大多数情况下，图像及其垂直翻转的版本可以用相同的标题描述，但是这可能会复杂化对象的水平位置的预测。因此，优选地，本公开的模型仅专注于垂直定位图像中的某些对象。特别地，所有图像都将被分割成等长的垂直区域。应当理解，也可以将图像细分为大小不等的多个区域，这里不做限制。

例如，对于图像x，假设沿垂直方向将图像x细分为相等间隔的K个区域，令

为第k(k＝1…K)区域中被分类为未知类别c的图像像素数，从而可以得到所有细分区域上的未知类别c的分布V_x,c，即

其中，

是归一化的

此外，可以将另一个头部H_s(·)附加到BERT模型的主干上，并在BERT模型的末端放入一个K输出的softmax，从而可以将该BERT模型设计用于估计图像x中某个未知类别c的空间分布(即通过BERT模型处理图像伴随文本得到的细分区域上的分布)，也称为第一训练概率分布：

其中，H_s(·)表示自由定义的函数，这里不做限制。

此外，可以通过以下损失函数L训练BERT模型。例如，通过对BERT模型进行微调，以统一的优化目标L来追求图像特定的类别视觉事件和空间分布：

L＝L_o+L_s (7)

其中，在训练过程中，通过最小化已知类别中所有已知类别的对应对V_x,c和

之间的分布差异(通过构造损失函数L_s)，来迭代优化H_s(·)。例如，可以通过信息熵目标实现损失函数L_s：

这里，由L_o+L_s控制的H_o(·)、H_s(·)彼此互补。

应当认识到，上述基于所述伴随本文，生成所述未知类别存在于所述每个图像细分区域中的第一训练概率分布的模型不限于此，可以采用其他合适的模型来生成第一训练概率分布，这里不做限制。

对于步骤S303，可以基于以下模型生成第二训练概率分布。

例如，对于某个未知类别u，通过等式(4)推断出基于第一模型M给出的未知类别u的空间分布，那么，接下来，可以对每个垂直细分区域中的像素求平均(例如，可以在第一模型的末端放入一个K输出的softmax函数)，以获得第二训练概率分布

表示第k个垂直细分区域的未知类别u的空间分布，strip(k)表示第k个垂直细分区域，k＝1…K。

对于步骤S304，例如，可以根据上述第一训练概率分布

(等式(6))和第二训练概率分布

(等式(9))之间的L2距离(欧式距离，Euclidean distance)来构建以下的损失函数：

最后，在步骤S305中，通过上述损失函数来训练构建的第二模型。

应当认识到，上述基于所述标注信息，生成所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第二训练概率分布的模型不限于此，可以采用其他合适的模型来生成第二训练概率分布，这里不做限制。

如图6所示为根据本公开实施例的半全局分支的效果示意图。

图6示出了在根据上述第二模型将所有图像都将被分割成等长的垂直区域后，得到的图像中不同类别的空间分布。可以看出，对于相同的类别飞盘，本公开的第二模型根据不同的图像标题可以得到不同的结果。

如图6所示，图6左侧的两个图像延垂直方向分为了5个区域，图6右侧的分布图表示每个图像被细分为5个区域后对应的空间分布。可以看出，对于相同的类别飞盘，针对图6左上侧的图像，其对应的空间分布(图6右上侧)显示了飞盘处于下边区域的概率更大；针对图6左下侧的图，其对应的空间分布(图6右下侧)显示了飞盘处于上边区域的概率更大。

容易理解的是，根据本公开实施例的第一模型和第二模型可以采用不同的神经网络结构，包括但不限于卷积神经网络、循环神经网络(RNN)等。所述卷积神经网络包括但不限于U-Net神经网络、ResNet、DenseNet等。

以上详细描述了利用包含局部分支、半全局分支和全局分支的未知类别获取模型生成未知类别的概率和/或分布，通过该方法，可以获得每张图像包含未知类别的概率，包括像素级别、图像细分区域级别以及全局概率。

进一步，可以将上述不同级别的概率信息作为训练集，通过采用诸如U-Net之类的深度网络作为模型主体，构建未知类别的图像分割模型的优化目标函数，从而通过训练图像分割模型来进行图像分割，由此得到分割后的图像。

图7示出了根据本公开实施例的图像分割方法的流程图。如图7所示，该图像分割方法包括以下的步骤S401-步骤S402。

在步骤S401，获取第一图像。

在步骤S402，利用图像分割模型处理所述第一图像以生成分割后的第二图像。

例如，该第一图像是图像分割模型的输入图像。

例如，图像分割模型可以是利用第一训练集对原始图像分割网络训练得到的，所述第一训练集包含利用上述图1所示的图像处理方法得到的未知类别的概率和/或分布，其中所述第二图像包含对应不同类别的多个区域。

例如，本公开的图像分割模型可以是卷积神经网络、循环神经网络(RNN)等，其可以通过构建损失函数L进行训练：

L＝L_SEG+λL_RS (11)

其中L是该图像分割模型的损失函数，λ是权重因子，用于平衡已知类别的损失函数L_SEG和未知类别的损失函数L_RS。例如，未知类别的损失函数L_SEG可以通过目前已知的技术得到，这里不再详细说明。

对于未知类别的损失函数L_RS，例如，可以基于上述半全局分支和全局分支得到的未知类别的概率来构建。

例如，本公开可以采用成对排名损失(pair-wise ranking loss)来利用未知类别的概率信息。给定图像x∈X，假定典型的此类网络的倒数第二层会生成特征图f＝ψ(x)，其中ψ(·)封装了所有涉及的神经操作。令f∈R^h×w×d，其中h×w定义空间分辨率，d是提取的特征长度，图像分割任务中的预测以逐像素方式执行。对于图像x，由于可以访问真值标签图y，该真值标签图当然只包含已知类别S中的像素级注释，因此假设未知类别只会出现在未标记的部分中。对于特征图中的像素(i,j)，可以将Y表示为未标记像素位置的集合：

给定一对图像x1、x2，可以使用CNN模型

获得编码特征图f₁、f₂。并且可以使用标题注释t₁、t₂通过本公开的未知类别获取模型来生成特定类别s_1,c、s_2,c的出现概率。如果

可以认为图像x1比图像x2更可能包含类别c。也就是说，x1的未标记部分Y1比x2的未标注部分Y2更有可能包含未知类别c_u。因此，排名损失可以写成：

其中I(s_1,c,s_2,c)具有指示符功能。如果s_1,c>s_2,c，则I(s_1,c,s_2,c)＝1，否则为-1。

是与类别c∈S∪U相关的固定word2vec嵌入(S表示已知类别，U表示未知类别)，c_u表示u的类别。

如上所述，还可以从标题中生成出某个类别的空间分布(即将图像细分为多个区域后的分区概率)。直观地讲，此类信息可用于修剪类别出现的区域。通过将空间分布视为每个划分区域的权重，可以将其细化为：

其中，k∈(1,2,…,N)是沿垂直方向划分的区域的索引。

是类别c_u的预测空间分布(即通过上述本全局分支得到的分区概率)。

可替代地，例如，可以基于上述局部分支、半全局分支和全局分支得到的未知类别的概率构建未知类别的损失函数，这里不做限制。

例如，上述图像分割模型可以在服务器端进行训练。在部署阶段，需要将训练后的模型部署至客户端即可使用。神经网络模型进行训练所需的数据集，仅需在服务器端存储和使用，而无需在客户端进行部署。

容易理解的是，根据本公开实施例的神经网络模型可以采用不同的网络结构，包括但不限于卷积神经网络、循环神经网络(RNN)等。所述卷积神经网络包括但不限于U-Net神经网络、ResNet、DenseNet等。

图8示意性地描述根据本公开实施例的图像分割模型生成的分割后图像的示意图。

如图8所示，输入图像为图8第一行的五个图，每个图都包含不同的类别(例如，对于第一幅图，其包含有狗、飞盘、草地等类别)。真值图像是利用人工标记进行图像分割后得到的分割后图像，分割后的图像包含由对应不同类别的多个颜色表示区域。可以看出，通过本公开的图像分割模型生成的分割后的图像(图8的最后一行)与其他类型(例如，SPNet)，相比，本公开生成的分割后的图像更接近真值图像，且噪声更小。

图9所示为根据本公开实施例的小样本图像分割方法的示意图。如图9所示，本公开利用未知类别获取模型生成未知类别的概率和/或分布51。所述未知类别的概率和/或分布包括基于已知类别的标注信息53生成的图像中每个像素来自所述未知类别的概率、基于所述伴随文本(图像数据集55中包含的)生成的未知类别存在于所述图像中的概率、以及基于所述标注信息53和所述伴随文本(图像数据集55中包含的)生成的将图像细分为多个区域后的分区概率。在本公开中，没有对未知类别54进行标注。利用该未知类别的概率和/或分布作为训练数据训练图像分割网络，就可以得到图像分割模型52，该图像分割模型52可以用于分割输入的图像。

本公开利用包含局部分支、半全局分支和全局分支的未知类别获取模型生成未知类别的概率和/或分布，利用该未知类别的概率和/或分布作为训练数据训练图像分割网络，可以实现在没有提供该未知类别的像素级语义标注的情况下自动标注出图像中未知类别，降低标注成本并加快开发周期的效果，从而节省大量的人工费用和时间。

以上，参照附图描述了根据本发明实施例的图像处理方法。以下，将描述根据本公开实施例的图像处理装置。

图10是图示根据本公开实施例的图像处理装置的功能框图。如图10所示，根据本公开实施例的图像处理装置1000包括获取单元1001和生成单元1002。上述各模块可以分别执行如上参照图1到图9描述的根据本公开的实施例的图像处理方法的各个步骤。本领域的技术人员理解：这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现，并且本公开不限于它们的任何一个。例如，可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。

例如，获取单元1001用于获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本。

例如，生成单元1002，用于利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。

例如，图像数据集通常包含某种伴随文本，例如社交网站图像下的用户评论、图像标题等。本公开所描述的方法中的伴随文本以图像标题(caption)为例，来展示伴随文本对于小样本图像处理的用途。应当理解，本公开的可以包含其它形式的图像伴随文本，这里不做限制。

例如，未知类别获取模型可以包含局部分支、半全局分支和全局分支。例如，所述局部分支可以被配置为基于已知类别的标注信息生成所述图像中每个像素来自所述未知类别的概率，所述全局分支可以被配置为基于所述伴随文本生成所述未知类别存在于所述图像中的概率，所述半全局分支可以被配置为基于所述标注信息和所述伴随文本，生成将图像细分为多个区域后的分区概率。

例如，全局分支可以基于所述伴随本文，利用文本语义提取模型生成所述未知类别存在于所述图像中的概率。

例如，所述文本语义提取模型为来自变换器的双向编码表示BERT模型，其中，利用BERT模型生成所述未知类别存在于所述图像中的概率表示为：

S_x,c＝sigmoid(H_o(φ(caption(x)；[EOS]；description(c)))) (18)

其中，H_o(·)表示自由定义的函数，其输出是未经过sigmoid函数处理的、未知类别出现在图像中的概率，φ表示BERT模型，x表示BERT模型的输入图像，caption(x)表示图像的伴随文本，EOS为自然语言处理中的语句休止符，c表示未知类别，description(c)表示所述未知类别c的关键字或者文字描述。

例如，所述局部分支可以利用第一模型来生成所述图像中每个像素来自所述未知类别的概率，其中所述第一模型是通过所述标注信息训练获得的。

例如，所述标注信息包含已知类别的像素的坐标，所述第一模型可以通过以下方式进行训练：选择所述图像数据集中一个图像中多个已知类别中的一个已知类别的像素作为验证集中的一个验证数据；选择所述多个已知类别中的其他类别的像素作为训练集中的一个训练数据；以及基于所述验证集和所述训练集中的已知类别的像素的坐标，训练所述第一模型。

例如，可以通过以下第一模型M来生成所述图像中每个像素来自未知类别的概率：

其中|x′|是已标记的像素数，其可以作为重新缩放因子。实际上，通过这种方式，可以利用已知类别的像素级标注来生成某些未知类别的空间分布。

例如，所述分区概率可以包括将图像细分为多个区域后生成的所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第一概率分布以及所述未知类别存在于所述每个图像细分区域中的第二概率分布。

例如，所述第二模型可以通过以下方式进行训练：沿垂直方向或水平方向将所述图像细分为多个区域；基于所述伴随本文，生成所述未知类别存在于所述每个图像细分区域中的第一训练概率分布；基于所述标注信息，生成所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第二训练概率分布；根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数；以及通过所述损失函数来训练所述第二模型。

例如，所述根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数包括：基于所述第一训练概率分布和所述第二训练概率分布之间的欧式距离来构建损失函数。

下面将参照图11描述根据本公开实施例的图像处理设备。图11是根据本公开实施例的图像处理设备2000的示意图。由于本实施例的图像处理设备与在上文中参照图1描述的方法的细节相同，因此在这里为了简单起见，省略对相同内容的详细描述。

如图11所示，该图像处理设备2000包括处理器210、存储器220以及一个或多个计算机程序模块221。

例如，处理器210与存储器220通过总线***230连接。例如，一个或多个计算机程序模块221被存储在存储器220中。例如，一个或多个计算机程序模块221包括用于执行本公开任一实施例提供的图像处理方法的指令。例如，一个或多个计算机程序模块221中的指令可以由处理器210执行。例如，总线***230可以是常用的串行、并行通信总线等，本公开的实施例对此不作限制。

例如，该处理器210可以是中央处理单元(CPU)、数字信号处理器(DSP)、图像处理器(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，可以为通用处理器或专用处理器，并且可以控制图像处理设备2000中的其它组件以执行期望的功能。

存储器220可以包括一个或多个计算机程序产品，该计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器210可以运行该程序指令，以实现本公开实施例中(由处理器210实现)的功能以及/或者其它期望的功能，例如图像处理方法等。在该计算机可读存储介质中还可以存储各种应用程序和各种数据，例如图像数据集的元素特征、第一模型以及应用程序使用和/或产生的各种数据等。

需要说明的是，为表示清楚、简洁，本公开实施例并没有给出该图像处理设备2000的全部组成单元。为实现图像处理设备2000的必要功能，本领域技术人员可以根据具体需要提供、设置其他未示出的组成单元，本公开的实施例对此不作限制。

关于不同实施例中的图像处理装置1000和图像处理设备2000的技术效果可以参考本公开的实施例中提供的图像处理方法的技术效果，这里不再赘述。

图像处理装置1000和图像处理设备2000可以用于各种适当的电子设备。

本公开至少一实施例还提供一种用于存储计算机可读程序的计算机可读存储介质。图12为本公开至少一实施例提供的一种存储介质的示意图。例如，如图12所示，该存储介质400非暂时性地存储计算机可读指令401，当非暂时性计算机可读指令由计算机(包括处理器)执行时可以执行本公开任一实施例提供的图像处理方法。

例如，该存储介质可以是一个或多个计算机可读存储介质的任意组合。例如，当该程序代码由计算机读取时，计算机可以执行该计算机存储介质中存储的程序代码，执行例如本公开任一实施例提供的图像处理方法。

例如，存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。

本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“***”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

除非另有定义，这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解，诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

以上是对本公开的说明，而不应被认为是对其的限制。尽管描述了本公开的若干示例性实施例，但本领域技术人员将容易地理解，在不背离本公开的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此，所有这些修改都意图包含在权利要求书所限定的本公开范围内。应当理解，上面是对本公开的说明，而不应被认为是限于所公开的特定实施例，并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本公开由权利要求书及其等效物限定。

Claims

1.一种图像处理方法，包括：

获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本；

利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。

2.根据权利要求1所述的方法，其中，

所述未知类别获取模型包含局部分支、半全局分支和全局分支，

其中，所述局部分支被配置为基于已知类别的标注信息生成所述图像中每个像素来自所述未知类别的概率，所述全局分支被配置为基于所述伴随文本生成所述未知类别存在于所述图像中的概率，所述半全局分支被配置为基于所述标注信息和所述伴随文本，生成将图像细分为多个区域后的分区概率。

3.根据权利要求2所述的方法，其中，

所述全局分支基于所述伴随文本，利用文本语义提取模型生成所述未知类别存在于所述图像中的概率。

4.根据权利要求3所述的方法，其中，所述文本语义提取模型为来自变换器的双向编码表示BERT模型，其中，利用BERT模型生成所述未知类别存在于所述图像中的概率表示为：

s_x，c＝sigmoid(H_o(φ(caption(x)；[EOS]；description(c))))

其中，H_o(·)表示自由定义的函数，其输出是未经过sigmoid函数处理的、未知类别出现在图像中的概率，中表示BERT模型，x表示BERT模型的输入图像，caption(x)表示图像的伴随文本，EOS为自然语言处理中的语句休止符，c表示未知类别，description(c)表示所述未知类别c的关键字或者文字描述。

5.根据权利要求2所述的方法，其中，

所述局部分支利用第一模型来生成所述图像中每个像素来自所述未知类别的概率，其中所述第一模型是通过所述标注信息训练获得的。

6.根据权利要求5所述的方法，其中，所述标注信息包含已知类别的像素的坐标，所述第一模型通过以下方式进行训练：

选择所述图像数据集中一个图像中多个已知类别中的一个已知类别的像素作为验证集中的一个验证数据；

选择所述多个已知类别中的其他类别的像素作为训练集中的一个训练数据；以及

基于所述验证集和所述训练集中的已知类别的像素的坐标，训练所述第一模型。

7.根据权利要求2所述的方法，其中，所述半全局分支利用第二模型生成所述分区概率，所述第二模型是通过所述伴随文本和所述标注信息训练获得的。

8.根据权利要求7所述的方法，其中，所述分区概率包括将图像细分为多个区域后生成的所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第一概率分布以及所述未知类别存在于所述每个图像细分区域中的第二概率分布。

9.根据权利要求8所述的方法，其中，所述第二模型通过以下方式进行训练：

沿垂直方向或水平方向将所述图像细分为多个区域；

基于所述伴随本文，生成所述未知类别存在于所述每个图像细分区域中的第一训练概率分布；

基于所述标注信息，生成所述多个图像细分区域中的每个图像细分区域中每个像素来自所述未知类别的第二训练概率分布；

根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数；

通过所述损失函数来训练所述第二模型。

10.根据权利要求9所述的方法，其中，所述根据所述第一训练概率分布和所述第二训练概率分布来构建损失函数包括：

基于所述第一训练概率分布和所述第二训练概率分布之间的欧式距离来构建损失函数。

11.根据权利要求1-10任一项所述的方法，其中，所述伴随文本包括用户评论和/或图像标题。

12.一种图像分割方法，包括：

获取第一图像；

利用图像分割模型处理所述第一图像以生成分割后的第二图像，

其中，所述图像分割模型是利用第一训练集对原始图像分割网络训练得到的，所述第一训练集包含利用权利要求1所述的方法得到的未知类别的概率和/或分布，其中所述第二图像包含对应不同类别的多个区域。

13.一种图像处理装置，包括：

获取单元，用于获取图像数据集，所述图像数据集包含图像以及与所述图像中的未知类别有关的伴随文本；

生成单元，用于利用未知类别获取模型生成未知类别的概率和/或分布，所述未知类别的概率和/或分布包括所述图像中每个像素来自所述未知类别的概率、所述未知类别存在于所述图像中的概率、以及将图像细分为多个区域后的分区概率。

14.根据权利要求13所述的装置，其中，

15.一种图像处理设备，包括：

处理器；以及

存储器，其中存储计算机可读指令，

其中，在所述计算机可读指令被所述处理器运行时执行图像处理方法，所述方法包括：

16.一种用于存储计算机可读程序的计算机可读存储介质，所述程序使得计算机执行如权利要求1-11任一项所述的图像处理方法。