CN111898613B

CN111898613B - 半监督语义分割模型训练方法、识别方法和装置

Info

Publication number: CN111898613B
Application number: CN202011054144.7A
Authority: CN
Inventors: 劳江微; 王剑; 陈景东; 褚崴; 汪佳; 顾欣欣; 孙剑哲; 甘利民; 余泉; 孙晓冬
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-25
Anticipated expiration: 2040-09-30
Also published as: CN111898613A

Abstract

本说明书实施例提供了半监督语义分割模型训练方法、识别方法和装置，根据实施例的半监督语义分割模型训练方法，首先通过获取人工对第一图像中的待标注对象进行标注后得到的第一监督数据，进而通过第一监督数据训练得到对待标注对象的识别率相对较高的全监督语义分割模型。利用全监督语义分割模型对未经过人工标注的第二图像中的待标注对象进行标注，得到第二监督数据。再利用经过人工标注得到的第一监督数据和经过全监督语义分割模型标注得到的第二监督数据训练半监督语义分割模型，并利用半监督语义分割模型对第一图像、第二图像和随机扰动项进行识别，得到第三监督数据。最后通过第一、第二和第三监督数据对半监督语义分割模型再次训练。

Description

半监督语义分割模型训练方法、识别方法和装置

技术领域

本说明书一个或多个实施例涉及图像处理技术领域，尤其涉及半监督语义分割模型训练方法、识别方法和装置。

背景技术

图像识别是指利用计算机对图像进行分析和理解，以识别各种不同模式的目标和对象的技术。图像识别技术目前已被应用于遥感图像识别、通讯、图片档案修复等领域，为人们的生活提供便利。

目前，用于图像识别的模型通常是经过训练数据训练后得到的，而训练数据是通过人工处理后得到的数据，这就导致模型的泛化能力不足，影响图像识别的准确度。因此，针对以上不足，需要提供准确度更高地图像识别模型。

发明内容

本说明书一个或多个实施例描述了半监督语义分割模型训练方法、识别方法和装置，能够提高图像识别的准确度。

根据第一方面，提供了半监督语义分割模型训练方法，所述半监督语义分割模型用于对图像中的待标注对象进行标注；包括：

获得每一张第一图像的第一监督数据；每一张第一图像的第一监督数据为针对该第一图像中的待标注对象进行人工标注后得到的数据；

利用各第一监督数据训练全监督语义分割模型；

将至少一张第二图像输入所述全监督语义分割模型；其中，每一张第二图像中包括待标注对象；

由所述全监督语义分割模型对每一张第二图像中的待标注对象进行标注，获得每一张第二图像的第二监督数据；

利用各第一监督数据和各第二监督数据训练所述半监督语义分割模型；

生成随机扰动项；

将至少一张所述第一图像、至少一张所述第二图像和所述随机扰动项输入所述半监督语义分割模型，获得每一张图像的第三监督数据；所述每一张图像的第三监督数据为由所述半监督语义分割模型对该图像中的待标注对象进行标注后得到的数据；

利用各第三监督数据、各第一监督数据和各第二监督数据，对所述半监督语义分割模型进行训练。

在一个实施例中，其中，所述随机扰动项的个数为至少两个；

所述将至少一张所述第一图像、至少一张所述第二图像和所述随机扰动项输入所述半监督语义分割模型，获得每一张图像的第三监督数据，包括：

针对每一个随机扰动项，将至少一张所述第一图像、至少一张所述第二图像和该随机扰动项输入所述半监督语义分割模型，获得在输入该随机扰动项时至少一张所述第一图像和至少一张所述第二图像中的每一张图像的第三监督数据；

所述利用各第三监督数据、各第一监督数据和各第二监督数据，对所述半监督语义分割模型进行训练，包括：

针对所述每一张图像，计算在输入不同随机扰动项时所获得的不同的第三监督数据之间的差异，得到该图像的第一监督损失；

针对每一张第一图像，计算该第一图像的第三监督数据与该第一图像的第一监督数据之间的差异，得到该第一图像的第二监督损失；

针对每一张第二图像，计算该第二图像的第三监督数据与该第二图像的第二监督数据之间的差异，得到该第二图像的第二监督损失；

利用得到的各第一监督损失和各第二监督损失，对所述半监督语义分割模型进行训练。

在一个实施例中，其中，所述获得每一张第一图像的第一监督数据，包括：

对人工标注后的每一张第一图像进行切分，得到该第一图像对应的至少两张切分图像，其中，相邻的两张所述切分图像存在重叠区域；

分别对每一张所述切分图像进行去差异化处理，从去差异化处理后得到的两张切分图像中得到该第一图像的第一监督数据。

在一个实施例中，其中，所述分别对每一张所述切分图像进行去差异化处理，包括：

针对每一张所述切分图像，确定该切分图像的至少两个图像通道分别对应的至少两个第一图像通道属性值以及对该至少两个第一图像通道属性值进行求平均值计算，得到该切分图像对应的第一平均值；

对各切分图像对应的各第一平均值进行求平均值计算，得到第二平均值；

针对每一张所述切分图像，利用该切分图像的至少两个第一图像通道属性值和所述第二平均值，计算该切分图像对应的方差；

计算各切分图像对应的各方差的第三平均值；

将每一张所述切分图像的每一个图像通道对应的图像通道属性值从第一图像通道属性值更新为第二图像通道属性值；其中，所述第二图像通道属性值根据下述公式计算：

其中，

用于表征切分图像的第i个图像通道对应的第二图像通道属性值，

用于表征该切分图像的第i个图像通道对应的第一图像通道属性值，A用于表征所述第二平均值，V用于表征所述第三平均值。

在一个实施例中，其中，所述利用各第一监督数据训练全监督语义分割模型，包括：

利用多通道语义分割模型对所述第一监督数据进行训练，得到全监督语义分割模型；其中，所述多通道语义分割模型包括高分辨率网络HRNet模型、光学字符识别OCR模型和DeepLabV3+模型中的至少一个。

在一个实施例中，所述利用各第一监督数据和各第二监督数据训练半监督语义分割模型，包括：

利用所述多通道语义分割模型对所述各第一监督数据和所述各第二监督数据训练，获得半监督语义分割模型；

其中，所述多通道语义分割模型包括高分辨率网络HRNet模型、光学字符识别OCR模型和DeepLabV3+模型中的至少一个。

根据第二方面，提供了图像识别方法，包括：

利用第一方面中任一项所述的半监督语义分割模型训练方法，训练出半监督语义分割模型；

利用所述半监督语义分割模型对待识别图像中的待标注对象进行标注。

根据第三方面，提供了半监督语义分割模型训练装置，包括：

第一监督数据获取模块，配置为获得每一张第一图像的第一监督数据；每一张第一图像的第一监督数据为针对该第一图像中的待标注对象进行人工标注后得到的数据；并生成随机扰动项；

全监督训练模块，配置为利用所述第一监督数据获取模块获取的各第一监督数据训练全监督语义分割模型；

数据输入模块，配置为将至少一张第二图像输入所述全监督训练模块训练的所述全监督语义分割模型；其中，每一张第二图像中包括待标注对象；

第二监督数据获取模块，配置为利用所述全监督语义分割模型对所述数据输入模块输入的每一张第二图像中的待标注对象进行标注，获得每一张第二图像的第二监督数据；

半监督训练模块，配置为利用各第一监督数据和各第二监督数据训练所述半监督语义分割模型；利用所述数据输入模块将至少一张所述第一图像、至少一张所述第二图像和所述随机扰动项输入所述半监督语义分割模型，获得每一张图像的第三监督数据；所述每一张图像的第三监督数据为由所述半监督语义分割模型对该图像中的待标注对象进行标注后得到的数据；利用各第三监督数据、各第一监督数据和各第二监督数据，对所述半监督语义分割模型进行训练。

所述半监督训练模块包括：

输入子单元，配置为针对每一个随机扰动项，将至少一张所述第一图像、至少一张所述第二图像和该随机扰动项输入所述半监督语义分割模型，获得在输入该随机扰动项时至少一张所述第一图像和至少一张所述第二图像中的每一张图像的第三监督数据；

第一监督损失获取单元，配置为针对所述每一张图像，计算在输入不同随机扰动项时所获得的不同的第三监督数据之间的差异，得到该图像的第一监督损失；

第二监督损失获取单元，配置为针对每一张第一图像，计算该第一图像的第三监督数据与该第一图像的第一监督数据之间的差异，得到该第一图像的第二监督损失；针对每一张第二图像，计算该第二图像的第三监督数据与该第二图像的第二监督数据之间的差异，得到该第二图像的第二监督损失；

模型训练单元，配置为利用得到的各第一监督损失和各第二监督损失，对所述半监督语义分割模型进行训练。

在一个实施例中，其中，所述第一监督数据获取模块，包括：

图像切分单元，配置为对人工标注后的每一张第一图像进行切分，得到该第一图像对应的至少两张切分图像，其中，相邻的两张所述切分图像存在重叠区域；

去差异化处理单元，配置为分别对每一张所述切分图像进行去差异化处理，从去差异化处理后得到的两张切分图像中得到该第一图像的第一监督数据。

在一个实施例中，其中，所述去差异化处理单元，包括：

均值计算子单元，配置为针对每一张所述切分图像，确定该切分图像的至少两个图像通道分别对应的至少两个第一图像通道属性值以及对该至少两个第一图像通道属性值进行求平均值计算，得到该切分图像对应的第一平均值；对各切分图像对应的各第一平均值进行求平均值计算，得到第二平均值；

方差计算子单元，配置为针对每一张所述切分图像，利用该切分图像的至少两个第一图像通道属性值和所述第二平均值，计算该切分图像对应的方差；计算各切分图像对应的各方差的第三平均值；

图像通道调节子单元，配置为将每一张所述切分图像的每一个图像通道对应的图像通道属性值从第一图像通道属性值更新为第二图像通道属性值；其中，所述第二图像通道属性值根据下述公式计算：

其中，

在一个实施例中，其中，所述全监督训练模块，配置为利用多通道语义分割模型对所述第一监督数据进行训练，得到全监督语义分割模型；其中，所述多通道语义分割模型包括高分辨率网络HRNet模型、光学字符识别OCR模型和DeepLab V3+模型中的至少一个。

在一个实施例中，所述半监督训练模块，配置为利用所述多通道语义分割模型对所述各第一监督数据和所述各第二监督数据训练，获得半监督语义分割模型；

其中，所述多通道语义分割模型包括高分辨率网络HRNet模型、光学字符识别OCR模型和DeepLab V3+模型中的至少一个。

根据第四方面，提供了图像识别装置，包括：

如第三方面中任一项所述的半监督语义分割模型训练装置；

图像识别模块，配置为利用所述半监督语义分割模型训练装置训练出的半监督语义分割模型，对待识别图像中的待标注对象进行标注。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述任一项所述的方法。

根据第六方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现执行上述任一项所述的方法。

根据说明书实施例提供的方法和设备，通过人工对每一张第一图像中的待标注对象进行标注，可以得到针对每一张第一图像对应的第一监督数据。由于第一监督数据是经过人工标注后获得的，所以对于第一图像中待标注对象识别的准确度相对较高，利用该第一监督数据可以训练出识别准确度相对较高但泛化能力相对较差的全监督语义分割模型。利用该全监督语义分割模型对每一张第二图像中的待标注对象进行标注，可以得到每一张第二图像的第二监督数据。最后利用经过人工标注后得到的第一监督数据和经过模型标注后得到的第二监督数据训练半监督语义分割模型，既可以降低人工标注获得大量模型训练数据的难度，又可以提升半监督语义分割模型的泛化能力。为了进一步提高半监督语义分割模型的图像识别能力，可将利用半监督语义分割模型对随机扰动项、第一图像和第二图像进行识别，得到第三监督数据，利用第一监督数据、第二监督数据和第三监督数据对半监督语义分割模型再次训练，以进一步提高半监督语义分割模型的泛化能力，进而提高半监督语义分割模型的图像识别的准确度。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书一个实施例提供的半监督语义分割模型训练方法的流程图；

图2是本说明书一个实施例提供的半监督语义分割模型训练方法的示意图；

图3是本说明书一个实施例提供的图像识别方法的流程图；

图4是本说明书另一个实施例提供的半监督语义分割模型训练装置的示意图；

图5是本说明书又一个实施例提供的图像识别装置的示意图。

具体实施方式

如前所述，为了识别图像中的待标注对象，需要训练出一个能够自动识别图像中待标注对象的机器模型。而训练该机器模型所使用的数据，目前是通过人工标注方式获得的。比如，如果需要训练识别遥感图像中农作物的种类及种植的地域范围时，现有技术是先通过人工方式对图像中的待标注对象即农作物种植的地域范围和农作物的种类，进行标注，然后利用人工标注后的数据作为训练该机器模型的数据。

但是，人工标注图像的能力有限，这会导致用于训练模型的数据量较少，无法产生海量的用于训练模型的数据，因此会导致模型的准确性较低。比如，训练出的模型通常只适用于与人工标注的图像相类似的图像，对于与人工标注的图像相差较大的图像，则表现出识别准确度低的情况，使得模型泛化能力不足。并且，通过人工标注图像获得模型的训练数据，需要投入大量的人力和物力，这也会增加了模型的训练难度。

为此，考虑到人工标注方式具有的准确性的特点，以及机器标注方式具有的强大的海量数据处理能力，本说明书实施例能够将人工标注得到的数据与机器标注得到的数据共同作为训练模型的训练数据，从而既能利用训练数据准确性高的特点，又能利用训练数据可以是海量数据的特点来训练模型，因此能够得到识别度更高的模型。

下面介绍本说明书实施例构思的实现方式。如图1所示，本说明书实施例提供了半监督语义分割模型训练方法，该半监督语义分割模型用于对图像中的待标注对象进行标注，具体可以包括以下步骤：

步骤101：获得每一张第一图像的第一监督数据；每一张第一图像的第一监督数据为针对该第一图像中的待标注对象进行人工标注后得到的数据；

步骤103：利用各第一监督数据训练全监督语义分割模型；

步骤105：将至少一张第二图像输入所述全监督语义分割模型；其中，每一张第二图像中包括待标注对象；

步骤107：由所述全监督语义分割模型对每一张第二图像中的待标注对象进行标注，获得每一张第二图像的第二监督数据；

步骤109：利用各第一监督数据和各第二监督数据训练所述半监督语义分割模型；

步骤111：生成随机扰动项；

步骤113：将至少一张所述第一图像、至少一张所述第二图像和所述随机扰动项输入所述半监督语义分割模型，获得每一张图像的第三监督数据；所述每一张图像的第三监督数据为由所述半监督语义分割模型对该图像中的待标注对象进行标注后得到的数据；

步骤115：利用各第三监督数据、各第一监督数据和各第二监督数据，对所述半监督语义分割模型进行训练。

在该实施例中，通过人工对每一张第一图像中的待标注对象进行标注，可以得到针对每一张第一图像对应的第一监督数据。由于第一监督数据是经过人工标注后获得的，所以对于第一图像中待标注对象识别的准确度相对较高，利用该第一监督数据可以训练出识别准确度相对较高但泛化能力相对较差的全监督语义分割模型。利用该全监督语义分割模型对每一张第二图像中的待标注对象进行标注，可以得到每一张第二图像的第二监督数据。最后利用经过人工标注后得到的第一监督数据和经过模型标注后得到的第二监督数据训练半监督语义分割模型，既可以降低人工标注获得大量模型训练数据的难度，又可以提升半监督语义分割模型的泛化能力。

为了进一步提高半监督语义分割模型的图像识别能力，可将未经过人工标注的第一图像和未经过全监督语义分割模型标注的第二图像输入至半监督语义分割模型中。由半监督语义分割模型对输入的每一张图像中的待标注对象进行标注，得到标注后的第三监督数据。由于半监督语义分割模型是利用经过人工标注后的第一监督数据和经过模型标注后的第二监督数据训练而得到的，所以此时的半监督语义分割模型对于图像中待标注对象识别的准确率不高。因此，此时可针对待识别对象的类别、颜色以及所在的区域等特征生成随机扰动项。该随机扰动项能够对半监督语义分割模型所要标注的图像中的指定特征进行干扰，从而增加半监督语义分割模型标注图像中待标注对象的难度。将未经过标注的第一图像、未经标注的第二图像以及随机扰动项输入到半监督语义分割模型，利用半监督语义分割模型可以对经过随机扰动项干扰后的每一张图像中的待标注对象进行识别、标注，得到对每一张图像中的待标注对象标注后的第三监督数据。再利用该第三监督数据、第二监督数据和第一监督数据对半监督语义分割模型再次进行训练，可以提高半监督语义分割模型的抗干扰能力，从而提高半监督语义分割模型的泛化能力。

在具体的应用场景中，可以利用卫星遥感技术、摄像机、录像机以及照相机等能够记录对象的影像的装置，采集待标注对象的多张图像。待标注对象可以是水稻、玉米、棉花以及花生等农作物。对于利用采集到的多张图像训练全监督语义分割模型的方式有如下两种；

第一种方式为：将采集到的多张图像分为两部分，一部分作为第一图像，剩余部分作为第二图像。

第二种方式为：采集到的多张既作为第一图像又作为第二图像。

针对第一种方式：

可以先通过人工对第一图像中的待标注对象进行标注，获得每张第一图像的第一监督数据。然后利用经过人工标注后得到的第一监督数据训练得到全监督语义分割模型。由于全监督语义分割模型是利用人工标注的数据训练而成，所以该全监督语义分割模型图像识别的准确度相对较高。再利用全监督语义分割模型对未经过人工标注过的第二图像中的待标注对象进行识别、标注，得到每张第二图像的第二监督数据。最后利用经过人工标注的第一监督数据和经过模型标注的第二监督数据训练出泛化能力更高地半监督语义分割模型。

针对第二种方式：

可以先通过人工对采集到的每一张图像中的待标注对象进行标注，获得每张图像的第一监督数据。然后利用获得的各第一监督数据训练得到全监督语义分割模型。再利用该全监督语义分割模型对采集到的每一张图像中的待标注对象进行识别、标注，得到每张图像的第二监督数据。最后利用经过模型标注的第二监督数据和经过人工标注的第一监督数据训练得到半监督语义分割模型。

为了训练全监督语义分割模型，在本说明书另一个实施例中，步骤101包括：

对于尺寸较大的图像，例如，遥感影像图，为了更好地保证模型能够处理该大尺寸图像，可先将用于训练全监督语义分割模型的第一图像切分为多个尺寸相对较小的切分图像。为了更好地避免切分后的切分图像的边缘丧失图像中的局部语义信息，相邻的两张切分图像中存在重叠区域。为了去除图像之间的差异，可对每张切分图像进行去差异化处理，便于利用去差异化处理后的图像生成第一监督数据。

具体地，为了避免第一图像中存在过多影响图像标注的干扰因素，在人工对第一图像中的待标注对象进行标注前，可先对每一个波段下得到的包含待标注对象的图像进行大气校正处理，以降低大气层对待标注对象标注过程的干扰。然后再将各波段的图像进行融合，形成能够供人工对待标注对象进行标注的第一图像。

为了训练全监督语义分割模型，在本说明书另一个实施例中，每一个切分图像均有至少两个图像通道，例如，RGB色彩模式下的图像有3个指示颜色的图像通道，印刷四色模式下的图像有4个指示颜色的图像通道，而灰度图有一个指示颜色的图像通道。每一个图像通道有用于表征该图像通道的属性的属性值。通过对每一张切分图像的各个图像通道的初始图像通道属性值记为第一图像通道属性值求平均，得到用于表征每一张切分图像的图像通道的共性的第一平均值。然后对各个切分图像的第一平均值再次求平均，得到用于表征各切分图像的图像通道的共性的第二平均值。然后根据每张切分图像的第一图像通道属性值和第二平均值求方差计算，得到每张切分图像的方差，再对得到的各方差求平均得到第三平均值。然后将每张切分图像每个图像通道的第一图像通道属性值减去第二平均值，再除以方差。以将每个图像的图像通道的属性值由第一图像通道属性值更新至第二图像通道属性值，完成图像的标准化处理。

具体地，为了得到识别率更高的全监督语义分割模型，在对第一图像进行切分之前，可先对第一图像进行去云处理，即，将第一图像中带有云团的区域抹除，并将云层投影到地面所产生的阴影从第一图像中抹除。

为了进一步提高半监督语义分割模型的图像识别的准确度，如图2所示，在本说明书另一个实施例中，步骤113包括：随机扰动项的个数为至少两个。将第一图像、第二图像和随机扰动项输入至半监督语义分割模型后，可以形成多个随机扰动分支。每一个随机扰动分支均包括输入的第一图像、第二图像以及至少一个随机扰动项，一个随机扰动分支内的随机扰动项可以对该分支内的第一图像和第二图像中的指定特征进行干扰，利用半监督语义分割模型对经过干扰后的每一随机扰动分支中的第一图像和第二图像进行识别，可以得到针对该随机扰动分支中的第一图像的第三监督数据和第二图像的第三监督数据。然后计算不同随机扰动分支中的两两图像分别对应的第三监督数据之间差异，得到第一监督损失，并计算每一张第一图像的第三监督数据与该第一图像对应的第一监督数据之间的差异，得到该第一图像的第二监督损失，再计算每一张第二图像的第三监督数据与该第二图像对应的第二监督数据之间的差异，得到该第二图像的第二监督损失。最后利用第一监督损失和第二监督损失可以对半监督语义分割模型进行再次训练，提高其图像识别的准确度。

例如，基于第一图像q、第二图像w中的待标注对象所在的区域，以及待标注对象所属的类别等特征，可以生成随机扰动项a和随机扰动项b，其中，随机扰动项a为“遮挡图像左上角面积为10cm*10cm的区域”，随机扰动项b为“加深图像中右下角面积为20cm*10cm的区域的颜色”。

针对随机扰动项a，通过随机扰动项a分别将输入至半监督语义分割模型中的第一图像q和第二图像w的左上角面积为10cm*10cm的区域遮挡住，利用半监督语义分割模型对遮挡后的第一图像q和第二图像w中的待标注对象进行识别、标注，得到针对随机扰动项a的第一图像q和第二图像w的第三监督数据。

针对随机扰动项b，通过随机扰动项b分别将输入至半监督语义分割模型中的第一图像q和第二图像w的右下角面积为20cm*10cm的区域的颜色加深，利用半监督语义分割模型对加深颜色后的第一图像q和第二图像w中的待标注对象进行识别、标注，得到针对随机扰动项b的第一图像q和第二图像w的第三监督数据。

计算第一图像q和第二图像w针对随机扰动项a的第三监督数据之间的差异，得到第一图像q和第二图像w针对随机扰动项a的第一监督损失。并计算第二图像q和第二图像w针对随机扰动项b的第三监督数据之间的差异，得到第一图像q和第二图像w针对随机扰动项b的第一监督损失。

计算第一图像q的第三监督数据与第一图像q的第一监督数据之间的差异，得到第一图像q的第二监督损失，计算第二图像w的第三监督数据与第二图像w的第二监督数据之间的差异，得到第二图像w的第二监督损失。

在本说明书另一个实施例中，步骤103可以包括：将经过人工标注的第一监督数据输入至由HRNet模型、OCR模型和DeepLab V3+模型中的至少一个组成的多通道语义分割模型中，对该多通道语义分割模型进行训练，由于第一监督数据是由人工逐个标注的，所以待标注对象的识别准确度相对较高，因此可以得到识别准确度相对较高的全监督语义分割模型。

同样地，在本说明书另一个实施例中，步骤109可以包括：将经过人工标注的第一监督数据和进过模型标注的第二监督数据输入至由HRNet模型、光学字符识别OCR模型和DeepLab V3+模型中的至少一个组成的多通道语义分割模型中，对该多通道语义分割模型进行训练，得到半监督语义分割模型。

具体地，为了提升全监督语义分割模型和/或半监督语义分割模型的图像识别性能，在多通道语义分割模型中还可以添加人体姿态识别HRNet+、数据通信网络DCN、空洞空间卷积池化金字塔ASPP-OCR、Eage-Attention 、PointRender中的任意一个或多个组件。

具体地，获得每一张第二图像的第二监督数据的方式包括：对将至少一张第二图像输入全监督语义分割模型，针对每一张第二图像，由该全监督语义分割模型对该第二图像中的待标注对象进行标注，得到用于指示该第二图像中所标注的待标注对象的伪标签和该伪标签的置信度。由于伪标签是由模型标注得到的，所以伪标签会存在一定误差，那么就需要基于置信度对伪标签进行筛选，将置信度低于预设的第一阈值的伪标签删除，并删除对应的第二图像以及该第二图像对应的第二监督数据，完成对伪标签的去噪声处理。

对于置信度高于第一阈值的每一个伪标签，需要确定该伪标签的边界是否与用于对非标注对象进行标注的背景标签相接触，若接触，确定伪标签与背景标签相接触的区域，确定相接触的区域中的每一个对象的第一识别概率和第二识别概率，其中，第一识别概率用于描述该对象属于该相接触区域中的背景标签的概率，第二识别概率用于描述该对象属于该相接触区域中的伪标签的概率。判断第一识别概率与第二识别概率的差值的绝对值是否大于预设的第二阈值，如果是，则该对象属于数值较大的识别概率，反之，该对象既可以作为非标注对象也可以作为待标注对象。

例如，对象x的属于非标注对象的第一识别概率为80%，属于待标注对象的第二识别概率为30%，那么第一识别概率与第二识别概率的差值的绝对值等于50%，若预先设置的第二阈值为40%，则对象x可以作为非标注对象。若对象x原本是被伪标签所标识的对象，则从伪标签中删除对象x。若对象x原本是伪标签之外的对象，则将对象x加入到伪标签中。

本说明书一个实施例提供了图像识别方法，如图3所示，包括：

步骤301：利用本说明书任一实施例中所述的半监督语义分割模型训练方法，训练出半监督语义分割模型；

步骤303：利用所述半监督语义分割模型对待识别图像中的待标注对象进行标注。

在本实施例中，由于半监督语义分割模型是经过第一监督数据和第二第一监督数据训练得到的模型，而第一监督数据是经过人工对待标注对象进行标注后的数据，第二监督数据是利用第一监督数据训练得到的模型对待标注对象标注后的数据，所以该第二监督数据对于指定区域内的待标注对象识别的准确度相对较高，用两组数据对半监督语义分割模型进行训练，可以使模型的泛化能力得以提升，从而使得半监督语义分割模型对于不同区域内的待标注对象识别的准确度更高。

在具体的应用场景中，可以是利用卫星遥感技术来拍摄农田中种植的农作物的图像，并利用本说明书任一实施例的图像识别方法对该图像进行识别，以获取农户的种植信息。后续，则可以为农户设置专属的授信策略，赋予适宜的信贷额度。

本说明书一个实施例提供了半监督语义分割模型训练装置，如图4所示，包括：

第一监督数据获取模块41，配置为获得每一张第一图像的第一监督数据；每一张第一图像的第一监督数据为针对该第一图像中的待标注对象进行人工标注后得到的数据；并生成随机扰动项；

全监督训练模块42，配置为利用所述第一监督数据获取模块41获取的各第一监督数据训练全监督语义分割模型；

数据输入模块43，配置为将至少一张第二图像输入所述全监督训练模块42训练的所述全监督语义分割模型；其中，每一张第二图像中包括待标注对象；

第二监督数据获取模块44，配置为利用所述数据输入模块43输入所述第二图像后的所述全监督语义分割模型对所述数据输入模块42输入的每一张第二图像中的待标注对象进行标注，获得每一张第二图像的第二监督数据；

半监督训练模块45，配置为利用所述第一监督数据获取模块41各第一监督数据和所述第二监督数据获取模块44各第二监督数据训练所述半监督语义分割模型；利用所述数据输入模块43将至少一张所述第一图像、至少一张所述第二图像和所述随机扰动项输入所述半监督语义分割模型，获得每一张图像的第三监督数据；所述每一张图像的第三监督数据为由所述半监督语义分割模型对该图像中的待标注对象进行标注后得到的数据；利用各第三监督数据、各第一监督数据和各第二监督数据，对所述半监督语义分割模型进行训练

在本说明书另一个实施例中，所述随机扰动项的个数为至少两个；

所述半监督训练模块44，包括：

在本说明书另一个实施例中，所述第一监督数据获取模块41，包括：

在本说明书另一个实施例中，所述去差异化处理单元，包括：

其中，

在本说明书另一个实施例中，所述全监督训练模块42，配置为利用多通道语义分割模型对所述第一监督数据进行训练，得到全监督语义分割模型；其中，所述多通道语义分割模型包括高分辨率网络HRNet模型、光学字符识别OCR模型和DeepLab V3+模型中的至少一个。

在本说明书另一个实施例中，所述半监督训练模块44，配置为利用所述多通道语义分割模型对所述各第一监督数据和所述各第二监督数据训练，获得半监督语义分割模型；

本说明书一个实施例提供了图像识别装置，如图5所示，包括：

本说明书任一实施例提供的半监督语义分割模型训练装置51；以及

图像识别模块52，配置为利用所述半监督语义分割模型训练装置51训练出的半监督语义分割模型，对待识别图像中的待标注对象进行标注。

本说明书一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行说明书中任一个实施例中的方法。

本说明书一个实施例提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现执行说明书中任一个实施例中的方法。

可以理解的是，本说明书实施例示意的结构并不构成对半监督语义分割模型训练装置和图像识别装置的具体限定。在说明书的另一些实施例中，半监督语义分割模型训练装置和图像识别装置可以包括比图示更多或者更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本说明书方法实施例基于同一构思，具体内容可参见本说明书方法实施例中的叙述，此处不再赘述。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种半监督语义分割模型训练方法，所述半监督语义分割模型用于对图像中的待标注对象进行标注；包括：

利用各第一监督数据训练全监督语义分割模型；

生成随机扰动项；

利用各第三监督数据、各第一监督数据和各第二监督数据，对所述半监督语义分割模型进行训练；

其中，所述获得每一张第一图像的第一监督数据，包括：

2.根据权利要求1所述的方法，其中，所述随机扰动项的个数为至少两个；

3.根据权利要求1所述的方法，其中，所述分别对每一张所述切分图像进行去差异化处理，包括：

计算各切分图像对应的各方差的第三平均值；

其中，

4.根据权利要求1至3中任一所述的方法，其中，所述利用各第一监督数据训练全监督语义分割模型，包括：

利用多通道语义分割模型对所述第一监督数据进行训练，得到全监督语义分割模型；

或，

所述利用各第一监督数据和各第二监督数据训练半监督语义分割模型，包括：

5.一种图像识别方法，包括：

利用权利要求1至4中任一项所述的半监督语义分割模型训练方法，训练出半监督语义分割模型；

6.一种半监督语义分割模型训练装置，包括：

半监督训练模块，配置为利用各第一监督数据和各第二监督数据训练所述半监督语义分割模型；利用所述数据输入模块将至少一张所述第一图像、至少一张所述第二图像和所述随机扰动项输入所述半监督语义分割模型，获得每一张图像的第三监督数据；所述每一张图像的第三监督数据为由所述半监督语义分割模型对该图像中的待标注对象进行标注后得到的数据；利用各第三监督数据、各第一监督数据和各第二监督数据，对所述半监督语义分割模型进行训练；

其中，

所述第一监督数据获取模块，包括：

7.根据权利要求6所述的装置，其中，所述随机扰动项的个数为至少两个；

所述半监督训练模块包括：

8.根据权利要求6所述的装置，其中，

所述去差异化处理单元，包括：

其中，

9.根据权利要求6至8中任一所述的装置，其中，

所述全监督训练模块，配置为利用多通道语义分割模型对所述第一监督数据进行训练，得到全监督语义分割模型；

或，

所述半监督训练模块，配置为利用所述多通道语义分割模型对所述各第一监督数据和所述各第二监督数据训练，获得半监督语义分割模型；

10.一种图像识别装置，包括：

如权利要求6至9中任一项所述的半监督语义分割模型训练装置；以及

11.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-5中任一项所述的方法。

12.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-5中任一项所述的方法。