CN111783811B

CN111783811B - 伪标签生成方法和装置

Info

Publication number: CN111783811B
Application number: CN201911044947.1A
Authority: CN
Inventors: 申童; 张炜; 梅涛
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2024-06-21
Anticipated expiration: 2039-10-30
Also published as: CN111783811A

Abstract

本公开提供一种伪标签生成方法和装置。伪标签生成装置利用深度学习模型对待处理图像集进行处理，以便输出层输出第一特征，中间层输出第二特征；利用语义分类器对第一特征进行处理，以得到类别概率图，根据第一类别概率图生成相应的第一分类置信图；分别利用第一鉴别器和第二鉴别器对第一特征和第二特征进行处理以生成相应的对抗置信图；利用对抗置信图在第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图；利用第二分类置信图确定各类别所对应的门限，并利用所确定的门限对类别概率图中的像素进行概率调整；利用各像素调整后的概率确定各像素的伪标签。本公开能够有效提升所生成伪标签的准确度。

Description

伪标签生成方法和装置

技术领域

本公开涉及信息处理领域，特别涉及一种伪标签生成方法和装置。

背景技术

图像语义分割是计算机图形领域的一个重要课题，目的是将一个输入图片在像素级分割成不同的语义区域。这样就可以对整个图像在语义层面进行理解，并且可以为后续其他技术提供输入信息。图像分割对于多种领域都有重要应用，例如自动驾驶中的场景解析。

由于训练一个语义分割模型需要大量像素级的数据标签，因此需要考虑如何减轻数据标注的成本。目前所采用的方案是通过用计算机生成的CG(Computer Graphics)来做训练，由于CG图像由3D模型渲染产生，本身就包含了语义信息，所以可以几乎无成本的产生大量标记的数据做训练。

发明内容

发明人通过研究发现，由于数据的不同域之间存在差异，利用虚拟数据训练的模型无法有效应用于真实场景，无法准确生成伪标签。

为此，本公开提供一种准确生成伪标签的方案。

根据本公开实施例的第一方面，提供一种伪标签生成方法，包括：利用深度学习模型对待处理图像集进行处理，以便所述深度学习模型的输出层输出第一特征，所述深度学习模型的中间层输出第二特征；利用经过训练的语义分类器对所述第一特征进行处理，以得到第一类别概率图，根据所述第一类别概率图生成相应的第一分类置信图；利用经过训练的第一鉴别器对所述第一特征进行处理，以得到第一结果，利用经过训练的第二鉴别器对所述第二特征进行处理，以得到第二结果，根据所述第一结果和所述第二结果生成相应的对抗置信图；利用所述对抗置信图在所述第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图；利用所述第二分类置信图确定各类别所对应的门限，并利用所确定的门限对所述第一类别概率图中的像素进行概率调整；利用所述第一类别概率图中各像素调整后的概率确定各像素的伪标签。

在一些实施例中，利用所述对抗置信图在所述第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图包括：在所述对抗置信图中，若第n个图像中第j个像素的置信度大于第一门限t₁，则将所述第n个图像中第j个像素在所述第一分类置信图中的对应区域保留；若第n个图像中第j个像素的置信度不大于第一门限t₁，则将所述第n个图像中第j个像素在所述第一分类置信图中的对应区域置零，以生成第二分类置信图，其中1≤n≤N，N为图像个数，1≤j≤J，J为像素个数。

在一些实施例中，在所述对抗置信图中，将全部像素的置信度排序，按照置信度从大到小的顺序根据预设比例选择出p1个像素，并将第p1个像素的置信度作为第一门限t₁。

在一些实施例中，利用所确定的门限对所述第一类别概率图中的像素进行概率调整包括：在所述第一类别概率图中，将第n个图像中第j个像素相对第l个类别的概率除以相应的第二门限/>的结果，作为第n个图像中第j个像素相对第l个类别调整后的概率，其中1≤n≤N，N为图像个数，1≤j≤J，J为像素个数，1≤l≤K，K为类别数量。

在一些实施例中，在所述第二分类置信图中，将全部像素相对第l个类别的概率排序，按照概率从大到小的顺序根据预设比例选择出p2个像素，并将第p2个像素的概率值作为第二门限

在一些实施例中，利用所述第一类别概率图中各像素调整后的概率确定各像素的伪标签包括：在所述第一类别概率图中，若第n个图像中第j个像素相对第l个类别满足：则将第n个图像中第j个像素相对第l个类别的伪标签设置为1。

在一些实施例中，利用深度学习模型对具有标签的第一样本图像集进行处理，以便所述深度学习模型的输出层输出第一训练特征，所述深度学习模型的中间层输出第二训练特征；利用深度学习模型对不具有标签的第二样本图像集进行处理，以便所述深度学习模型的输出层输出第三训练特征，所述深度学习模型的中间层输出第四训练特征；利用所述第一训练特征和对应的监督标签对语义分类器进行有监督训练，利用所述第一训练特征和所述第三训练特征对第一鉴别器进行对抗训练，利用所述第二训练特征和所述第四训练特征对第二鉴别器进行对抗训练。

根据本公开实施例的第二方面，提供一种伪标签生成装置，包括：第一处理模块，被配置为利用深度学习模型对待处理图像集进行处理，以便所述深度学习模型的输出层输出第一特征，所述深度学习模型的中间层输出第二特征；第二处理模块，被配置为利用经过训练的语义分类器对所述第一特征进行处理，以得到第一类别概率图，根据所述第一类别概率图生成相应的第一分类置信图；第三处理模块，被配置为利用经过训练的第一鉴别器对所述第一特征进行处理，以得到第一结果，利用经过训练的第二鉴别器对所述第二特征进行处理，以得到第二结果，根据所述第一结果和所述第二结果生成相应的对抗置信图；第四处理模块，被配置为利用所述对抗置信图在所述第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图；第五处理模块，被配置为利用所述第二分类置信图确定各类别所对应的门限，并利用所确定的门限对所述第一类别概率图中的像素进行概率调整；伪标签生成模块，被配置为利用所述第一类别概率图中各像素调整后的概率确定各像素的伪标签。

根据本公开实施例的第三方面，提供一种伪标签生成装置，包括：存储器，被配置为存储指令；处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如上述任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如上述任一实施例涉及的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开一个实施例的伪标签生成方法的流程示意图；

图2为本公开一个实施例的训练模型的结构示意图；

图3为本公开一个实施例的伪标签生成装置的结构示意图；

图4为本公开另一个实施例的伪标签生成装置的结构示意图；

图5为本公开又一个实施例的伪标签生成装置的结构示意图；

图6为本公开一个实施例的伪标签生成模型的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本公开一个实施例的伪标签生成方法的流程示意图。在一些实施例中，下列的伪标签生成方法步骤由伪标签生成装置执行。

在步骤101，利用深度学习模型对待处理图像集进行处理，以便深度学习模型的输出层输出第一特征，深度学习模型的中间层输出第二特征。

在步骤102，利用经过训练的语义分类器对第一特征进行处理，以得到第一类别概率图，根据第一类别概率图生成相应的第一分类置信图。

这里需要说明的是，第一类别概率图用于表示各图像中的每个像素属于每个类别的概率。第一分类置信图用于表示每个像素所对应的类别中的最大概率。

在步骤103，利用经过训练的第一鉴别器对第一特征进行处理，以得到第一结果，利用经过训练的第二鉴别器对第二特征进行处理，以得到第二结果，根据第一结果和第二结果生成相应的对抗置信图。

由于第一特征和第二特征来自深度学习模型的不同层，因此可有助于第一鉴别器和第二鉴别器从不同角度对待处理图像集进行鉴别处理。

在步骤104，利用对抗置信图在第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图。

在一些实施例中，在对抗置信图中，若第n个图像中第j个像素的置信度大于第一门限t₁，即A^(n,j)>t₁，则将第n个图像中第j个像素在第一分类置信图中的对应区域保留。相反，若第n个图像中第j个像素的置信度不大于第一门限t₁，即A^(n,j)≤t₁，则将第n个图像中第j个像素在第一分类置信图中的对应区域置零，由此生成第二分类置信图。其中1≤n≤N，N为图像个数，1≤j≤J，J为像素个数。

由此，通过排除置信度较低的区域，以便使得在生成伪标签时更加关注高置信度的区域。

在一些实施例中，为了确定第一门限t₁，在对抗置信图中将全部像素的置信度排序，按照置信度从大到小的顺序根据预设比例选择出p1个像素，并将第p1个像素的置信度作为第一门限t₁。

例如，在将对抗置信图中的全部像素的置信度按照从大到小的顺序进行排序，若预设比例为20％，也就意味着要选择前20％的像素进行后续处理，则将前20％中的最后一个像素(即在所选择范围内的置信度最小的像素)的置信度作为第一门限t₁。

在步骤105，利用第二分类置信图确定各类别所对应的门限，并利用所确定的门限对第一类别概率图中的像素进行概率调整。

在一些实施例中，为每个类别l确定一个对应的门限在第一类别概率图中，将第n个图像中第j个像素相对第l个类别的概率/>除以相应的第二门限/>的结果，作为第n个图像中第j个像素相对第l个类别调整后的概率。其中1≤n≤N，N为图像个数，1≤j≤J，J为像素个数，1≤l≤K，K为类别数量。

在一些实施例中，在第二分类置信图中，将全部像素相对第l个类别的概率排序，按照概率从大到小的顺序根据预设比例选择出p2个像素，并将第p2个像素的概率值作为第二门限

例如，在第二分类置信图中，将全部像素相对第l个类别的概率按照从大到小的顺序进行排序，若预设比例为20％，也就意味着要选择前20％的像素进行后续处理，则将前20％中的最后一个像素(即在所选择范围内的置信度最小的像素)的概率值作为第二门限

例如，第1个类别为道路，各像素按照相对于道路的概率从大到小进行排序，并按照预设比例确定相应的门限为0.85。第2个类别为自行车，各像素按照相对于自行车的概率从大到小进行排序，并按照预设比例确定相应的门限/>为0.45。

这里需要说明的是，由于各像素相对不同类别的概率并不完全相同。若不同类别采用相同的门限，会使得某些类别无法被关注到。为了解决这一问题，分别针对不同类别设置相应的门限，从而使得概率较小的类别也能被关注到，增强了不同类别之间的平衡，以增强伪标签的准确度。

在步骤106，利用第一类别概率图中各像素调整后的概率确定各像素的伪标签。

在一些实施例中，若在第一类别概率图中的第n个图像中第j个像素相对第l个类别满足：

则将第n个图像中第j个像素相对第l个类别的伪标签设置为1。否则，将伪标签/>设置为0。

在本公开上述实施例提供的伪标签生成方法中，通过利用鉴别器进行特征对齐处理，使得特征具有域不变特性。通过利用对抗置信图可筛选出置信度更高的区域。通过调节类别概率图中各像素相对不同类别的概率，以便增强不同类别之间的平衡。由此可得到精确度更高的伪标签。

图2为本公开一个实施例的训练模型的结构示意图。

如图2所示，利用深度学习模型23对具有标签的第一样本图像集21进行处理，以便深度学习模型23的输出层输出第一训练特征，深度学习模型23的中间层输出第二训练特征。利用深度学习模型23对不具有标签的第二样本图像集22进行处理，以便深度学习模型23的输出层输出第三训练特征，深度学习模型23的中间层输出第四训练特征。利用第一训练特征和相应的监督标签27对语义分类器24进行训练。利用第一训练特征和第三训练特征对第一鉴别器25进行对抗训练，利用第二训练特征和第四训练特征对第二鉴别器26进行对抗训练。

需要说明的是，在图2中，由深度学习模型23延伸出的实线代表对第一样本图像集21处理后所得到的第一训练特征和第二训练特征，虚线代表对第二样本图像集22处理后所得到的第三训练特征和第四训练特征。

图3为本公开一个实施例的伪标签生成装置的结构示意图。伪标签生成装置包括第一处理模块31、第二处理模块32、第三处理模块33、第四处理模块34、第五处理模块35和伪标签生成模块36。

第一处理模块31被配置为利用深度学习模型对待处理图像集进行处理，以便深度学习模型的输出层输出第一特征，深度学习模型的中间层输出第二特征。

第二处理模块32被配置为利用经过训练的语义分类器对第一特征进行处理，以得到第一类别概率图，根据第一类别概率图生成相应的第一分类置信图。

第三处理模块33被配置为利用经过训练的第一鉴别器对第一特征进行处理，以得到第一结果，利用经过训练的第二鉴别器对第二特征进行处理，以得到第二结果，根据第一结果和第二结果生成相应的对抗置信图。

第四处理模块34被配置为利用对抗置信图在第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图。

第五处理模块35被配置为利用第二分类置信图确定各类别所对应的门限，并利用所确定的门限对第一类别概率图中的像素进行概率调整。

伪标签生成模块36被配置为利用第一类别概率图中各像素调整后的概率确定各像素的伪标签。

在本公开上述实施例提供的伪标签生成装置中，通过利用鉴别器进行特征对齐处理，使得特征具有域不变特性。通过利用对抗置信图可筛选出置信度更高的区域。通过调节类别概率图中各像素相对不同类别的概率，以便增强不同类别之间的平衡。由此可得到精确度更高的伪标签。

图4为本公开另一个实施例的伪标签生成装置的结构示意图。图4与图3的不同之处在于，在图4所示实施例中，伪标签生成装置还包括训练模块37。

训练模块37利用深度学习模型对具有标签的第一样本图像集进行处理，以便深度学习模型的输出层输出第一训练特征，深度学习模型的中间层输出第二训练特征。利用深度学习模型对不具有标签的第二样本图像集进行处理，以便深度学习模型的输出层输出第三训练特征，深度学习模型的中间层输出第四训练特征。利用第一训练特征和相应的监督标签对语义分类器进行训练。利用第一训练特征和第三训练特征对第一鉴别器进行对抗训练，利用第二训练特征和第四训练特征对第二鉴别器进行对抗训练。

图5为本公开又一个实施例的伪标签生成装置的结构示意图。如图5所示，伪标签生成装置包括存储器51和处理器52。

存储器51用于存储指令，处理器52耦合到存储器51，处理器52被配置为基于存储器存储的指令执行实现如图1中任一实施例涉及的方法。

如图5所示，该装置还包括通信接口53，用于与其它设备进行信息交互。同时，该装置还包括总线54，处理器52、通信接口53、以及存储器51通过总线54完成相互间的通信。

存储器51可以包含高速RAM存储器，也可还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器51也可以是存储器阵列。存储器51还可能被分块，并且块可按一定的规则组合成虚拟卷。

此外处理器52可以是一个中央处理器CPU，或者可以是专用集成电路ASIC，或是被配置成实施本公开实施例的一个或多个集成电路。

本公开同时还涉及一种计算机可读存储介质，其中计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如图1中任一实施例涉及的方法。

图6为本公开一个实施例的伪标签生成模型的结构示意图。

如图6所示，利用深度学习模型对待处理图像集进行处理，以便深度学习模型的输出层输出第一特征，深度学习模型的中间层输出第二特征。利用语义分类器61对第一特征进行处理，以得到第一类别概率图64，根据第一类别概率图64生成相应的第一分类置信图65。

利用第一鉴别器62对第一特征进行处理，以得到第一结果66，利用第二鉴别器63对第二特征进行处理，以得到第二结果67，根据第一结果66和第二结果67生成相应的对抗置信图68。

在分类置信图处理模块69中，利用对抗置信图68在第一分类置信图65中选择置信度大于预设条件的部分，以生成第二分类置信图610。

在概率图处理模块611中，利用第二分类置信图610确定各类别所对应的门限，并利用所确定的门限对第一类别概率图64中的像素进行概率调整，以得到第二类别概率图612。

接下来，通过利用第二类别概率图612中各像素的概率确定各像素的伪标签613。

在一些实施例中，在上面所描述的功能单元模块可以实现为用于执行本公开所描述功能的通用处理器、可编程逻辑控制器(Programmable Logic Controller，简称：PLC)、数字信号处理器(Digital Signal Processor，简称：DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，简称：ASIC)、现场可编程门阵列(Field-ProgrammableGate Array，简称：FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种伪标签生成方法，包括：

利用深度学习模型对待处理图像集进行处理，以便所述深度学习模型的输出层输出第一特征，所述深度学习模型的中间层输出第二特征；

利用经过训练的语义分类器对所述第一特征进行处理，以得到第一类别概率图，根据所述第一类别概率图生成相应的第一分类置信图；

利用经过训练的第一鉴别器对所述第一特征进行处理，以得到第一结果，利用经过训练的第二鉴别器对所述第二特征进行处理，以得到第二结果，根据所述第一结果和所述第二结果生成相应的对抗置信图；

利用所述对抗置信图在所述第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图；

利用所述第二分类置信图确定各类别所对应的门限，并利用所确定的门限对所述第一类别概率图中的像素进行概率调整；

利用所述第一类别概率图中各像素调整后的概率确定各像素的伪标签；

其中，在所述第一类别概率图中，若第n个图像中第j个像素相对第l个类别满足：

则将第n个图像中第j个像素相对第l个类别的伪标签设置为1，其中1≤n≤N，N为图像个数，1≤j≤J，J为像素个数，1≤l≤K，K为类别数量，其中为第n个图像中第j个像素相对第l个类别的概率，/>为第二门限。

2.根据权利要求1所述的方法，其中，利用所述对抗置信图在所述第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图包括：

在所述对抗置信图中，若第n个图像中第j个像素的置信度大于第一门限t₁，则将所述第n个图像中第j个像素在所述第一分类置信图中的对应区域保留；若第n个图像中第j个像素的置信度不大于第一门限t₁，则将所述第n个图像中第j个像素在所述第一分类置信图中的对应区域置零，以生成第二分类置信图。

3.根据权利要求2所述的方法，其中，

在所述对抗置信图中，将全部像素的置信度排序，按照置信度从大到小的顺序根据预设比例选择出p1个像素，并将第p1个像素的置信度作为第一门限t₁。

4.根据权利要求1所述的方法，其中，利用所确定的门限对所述第一类别概率图中的像素进行概率调整包括：

在所述第一类别概率图中，将第n个图像中第j个像素相对第l个类别的概率除以相应的第二门限/>的结果，作为第n个图像中第j个像素相对第l个类别调整后的概率。

5.根据权利要求4所述的方法，其中，

在所述第二分类置信图中，将全部像素相对第l个类别的概率排序，按照概率从大到小的顺序根据预设比例选择出p2个像素，并将第p2个像素的概率值作为第二门限

6.根据权利要求1-5中任一项所述的方法，其中：

利用深度学习模型对具有标签的第一样本图像集进行处理，以便所述深度学习模型的输出层输出第一训练特征，所述深度学习模型的中间层输出第二训练特征；

利用深度学习模型对不具有标签的第二样本图像集进行处理，以便所述深度学习模型的输出层输出第三训练特征，所述深度学习模型的中间层输出第四训练特征；

利用所述第一训练特征和对应的监督标签对语义分类器进行有监督训练，利用所述第一训练特征和所述第三训练特征对第一鉴别器进行对抗训练，利用所述第二训练特征和所述第四训练特征对第二鉴别器进行对抗训练。

7.一种伪标签生成装置，包括：

第一处理模块，被配置为利用深度学习模型对待处理图像集进行处理，以便所述深度学习模型的输出层输出第一特征，所述深度学习模型的中间层输出第二特征；

第二处理模块，被配置为利用经过训练的语义分类器对所述第一特征进行处理，以得到第一类别概率图，根据所述第一类别概率图生成相应的第一分类置信图；

第三处理模块，被配置为利用经过训练的第一鉴别器对所述第一特征进行处理，以得到第一结果，利用经过训练的第二鉴别器对所述第二特征进行处理，以得到第二结果，根据所述第一结果和所述第二结果生成相应的对抗置信图；

第四处理模块，被配置为利用所述对抗置信图在所述第一分类置信图中选择置信度大于预设条件的部分，以生成第二分类置信图；

第五处理模块，被配置为利用所述第二分类置信图确定各类别所对应的门限，并利用所确定的门限对所述第一类别概率图中的像素进行概率调整；

伪标签生成模块，被配置为利用所述第一类别概率图中各像素调整后的概率确定各像素的伪标签，其中在所述第一类别概率图中，若第n个图像中第j个像素相对第l个类别满足：

8.一种伪标签生成装置，包括：

存储器，被配置为存储指令；

处理器，耦合到存储器，处理器被配置为基于存储器存储的指令执行实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其中，计算机可读存储介质存储有计算机指令，指令被处理器执行时实现如权利要求1-6中任一项所述的方法。