CN116821852A

CN116821852A - 一种噪声标签处理方法、***、设备及存储介质

Info

Publication number: CN116821852A
Application number: CN202310798564.3A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Chengdu Shuzhilian Technology Co Ltd
Current assignee: Chengdu Shuzhilian Technology Co Ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-09-29

Abstract

本发明提供一种噪声标签处理方法、***、设备及存储介质，涉及数据去噪领域，所述方法包括迭代进行的标签聚合阶段和标签矫正阶段；在标签聚合阶段，采用权重投票的方式对样本数据的噪声标签进行聚类处理，以得到样本数据的聚类标签；在标签矫正阶段，采用引入真实标签的方式对样本数据的聚类标签进行去噪处理，以得到优化的分类器模型以及样本数据的矫正标签。本发明通过使用一种加权衡量方式来筛选出低质量的对模型的贡献较小的样本，并且权衡不同标注人员对于标注的贡献，借助于少量的专家标注来对带有噪声的数据进行引导矫正，从而最大程度的将标注数据利用起来，能够有效减少错标、噪声数据的影响。

Description

一种噪声标签处理方法、***、设备及存储介质

技术领域

本发明涉及数据去噪领域，具体而言，涉及一种噪声标签处理方法、***、设备及存储介质。

背景技术

深度神经网络模型的训练通常需要大量的干净样本，但在真实的场景下，公司通常会准备数名标注人员对海量的未标记样本进行标注，由于每位标注人员的标注能力参差不齐以及标注错误等原因，导致在花费了大量的标注劳动力和时间开销下得到一个存在噪声的标注数据集，除此之外，每张样本对于模型学习的贡献并不是一致的，有些样本属于比较典型的常见样本，数量比较多；而有些样本为一些极端情况下的样本，数量就比较少，这类样本就称为难样本；由于有些样本质量本身不佳，或者是人为标注错误导致标签混乱的这类样本可以称为噪声样本。

在深度神经网络模型的训练过程中，如果不对噪声样本进行有效的处理，则会因为噪声样本影响模型预测的准确性。

发明内容

本发明提供一种噪声标签处理方法、***、设备及存储介质，解决现有技术中由于样本数据集中噪声样本过多导致模型预测准确性差的问题。

在第一方面，本发明实施例中提供一种噪声标签处理方法，所述方法包括迭代进行的标签聚合阶段和标签矫正阶段；

在标签聚合阶段，采用权重投票的方式对样本数据的噪声标签进行聚类处理，以得到样本数据的聚类标签；其中，样本数据的噪声标签为多源获取；

在标签矫正阶段，采用引入真实标签的方式对样本数据的聚类标签进行去噪处理，以得到优化的分类器模型以及样本数据的矫正标签。

于上述实施例中，通过合理的将不同标注人员标注的多源噪声标签进行聚合，筛选出低质量且对模型的贡献较小的样本，权衡不同标注人员对于标注的贡献，同时引入小部分的专家标注的真实标签对带有噪声的聚类标签进行引导矫正，并且通过迭代更新，可以逐步的减少噪声数据的影响，保持数据的干净。

作为本申请一些可选实施方式，采用权重投票的方式对样本数据的噪声标签进行聚类处理的流程如下：

基于样本数据的矫正标签对样本数据的噪声标签进行加权学习，以得到噪声标签的学习权重；

基于噪声标签的学习权重对样本数据的噪声标签进行聚类处理，以得到样本数据的聚类标签。

于上述实施例中，通过样本数据的矫正标签和噪声标签的迭代加权学习，可以筛选出低质量且对分类器模型的贡献比较小的样本，权衡不同标注人员的对于标注的贡献。

作为本申请一些可选实施方式，采用引入真实标签的方式对样本数据的聚类标签进行去噪处理的流程如下：

引入真实标签，并且对真实标签和聚类标签进行标签置信度估计，以得到标签置信度；

基于标签置信度对分类器模型进行优化处理，以得到优化的分类器，并且通过优化的分类器输出样本数据的矫正标签。

于上述实施例中，通过借助于少量的专家标注来对带有噪声的数据进行引导矫正，从而最大程度的将标注数据利用起来，能够有效减少错标、噪声数据的影响。

作为本申请一些可选实施方式，在引入真实标签之后，采用均值聚类算法对真实标签和聚类标签进行标签置信度估计，以得到标签置信度。

作为本申请一些可选实施方式，引入真实标签占比小于0.1％。

在第二方面，本发明提供一种噪声标签处理***，所述***包括迭代更新的标签聚合单元和标签矫正单元；

所述标签聚合单元用于在标签聚合阶段，采用权重投票的方式对样本数据的噪声标签进行聚类处理，以得到样本数据的聚类标签；其中，样本数据的噪声标签为多源获取；

所述标签矫正单元用于在标签矫正阶段，采用引入真实标签的方式对样本数据的聚类标签进行去噪处理，以得到优化的分类器模型以及样本数据的矫正标签。

作为本申请一些可选实施方式，所述标签聚合单元采用权重投票的方式对样本数据的噪声标签进行聚类处理的流程如下：

作为本申请一些可选实施方式，所述标签矫正单元采用引入真实标签的方式对样本数据的聚类标签进行去噪处理的流程如下：

引入真实标签，并且基于样本数据的真实标签和聚类标签进行标签置信度估计，以得到标签置信度；

作为本申请一些可选实施方式，所述标签矫正单元在引入真实标签之后，采用均值聚类算法对样本数据的真实标签和聚类标签进行标签置信度估计，以得到标签置信度。

作为本申请一些可选实施方式，所述标签矫正单元引入真实标签占比小于0.1％。

在第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行计算机程序时实现所述一种噪声标签处理方法。

在第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述一种噪声标签处理方法。

本发明的有益效果如下：本发明通过使用一种加权衡量方式来筛选出低质量的对模型的贡献较小的样本，并且权衡不同标注人员对于标注的贡献，借助于少量的专家标注来对带有噪声的数据进行引导矫正，从而最大程度的将标注数据利用起来，能够有效减少错标、噪声数据的影响。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是根据本发明的实施例所述硬件运行环境的计算机设备结构示意图；

图2是根据本发明的实施例所述噪声标签处理方法的初步流程图；

图3是根据本发明的实施例所述噪声标签处理方法的详细流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

多源的噪声标签是指样本数据本身不佳或者在样本数据标注过程中，由于不同标注人员的标注水平或者错误带来的噪声，这些噪声标签会影响模型预测的准确性，因此为了减少噪声标签的影响，本申请提供了一种噪声标签处理方法、***、设备及存储介质，在介绍本申请的具体技术方案之前，先介绍下本申请实施例方案涉及的硬件运行环境。

请参阅图1，图1为本申请实施例方案涉及的硬件运行环境的计算机设备结构示意图。

如图1所示，该计算机设备可以包括：处理器，例如中央处理器(CentralProcessing Unit，CPU)，通信总线、用户接口，网络接口，存储器。其中，通信总线用于实现这些组件之间的连接通信。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，用户接口可选的可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如无线保真接口)。存储器可以是高速的随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的非易失性存储(Non-VolatileMemory，NVM)，例如磁盘存储器，存储器可选的还可以是独立于前述处理器的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器中可以包括操作***、数据存储模块、网络通信模块、用户接口模块以及电子程序。

在图1所示的计算机设备中，网络接口主要用于与网络服务器进行数据通信；用户接口主要用于与用户进行数据交互；本申请计算机设备中的处理器、存储器可以设置在计算机设备中，所述计算机设备通过处理器调用存储器中存储的噪声标签处理***，并执行本申请实施例提供的噪声标签处理方法。

请参阅图2，基于前述实施例的硬件环境，本申请的实施例提供了一种噪声标签处理方法，所述方法包括迭代进行的标签聚合阶段和标签矫正阶段。

请参阅图3，在标签聚合阶段，主要考虑的是如何合理的将不同标注人员的标注信息进行融合；在标签矫正阶段主要考虑的是如何利用一小部分的真实标签(即专家或者熟练人员标注的标签)对标签聚合阶段的标签信息进行修正。

假设对于N个样本数据每个样本数据都是有真实标签这里的0,1,2,3,4,...指的是不同类别，对于每个样本数据如果存在K个标注人员，因此对于样本数据可以收集到K个，但是有噪声的标签/>

(1)在标签聚合阶段，采用权重投票的方式对样本数据的噪声标签进行聚类处理，以得到样本数据的聚类标签；即对于某个样本数据n而言，可能第k个标注人员在标注1,2类别时准确率较高，但在标注3,4类别时准确率较低，因此第k个标注人员标注的1,2类别应该给出更高的权重，3,4类别应该给出更低的权重。

具体的，即首先基于样本数据的矫正标签/>对样本数据的噪声标签/>进行加权学习，以得到噪声标签/>的学习权重v_k,n；

具体的，学习权重v_k,n的公式如下：

其中，是来自于标签矫正阶段(两个阶段互为迭代过程)，是对真实标签/>的估计，会随着训练迭代的过程变得越来越精确。

然后采用权重投票的方式基于噪声标签的学习权重v_k,n对样本数据的噪声标签/>进行聚类处理，以得到聚类标签y_i；

其中，sgn(f(x))为分类器模型，K指标注人员的总数，k指标注人员的序列数，N指样本数据的总数，i指样本数据的序列数，n指代标签的类别；聚类标签y_i得到的是一个类别分布概率的标签，表示标签类别为n时，其值设置为1。

(2)在标签矫正阶段，采用引入真实标签的方式对样本数据的聚类标签进行去噪处理，以得到优化的分类器模型以及样本数据的矫正标签；虽然在第一阶段学习到了对多个标记人员的标签进行权重投票，但是最后得到标签依然还是有噪声的，此时需要花费一小部分成本(比如请相关专家进行打标)等一小部分(可能占比不到0.1％)的确定的真实标签，这部分标签可能帮助更好的对融合之后的标签进一步去噪。

具体的，采用引入真实标签的方式对样本数据的聚类标签进行去噪处理的流程如下：

(2.1)引入真实标签，并且基于样本数据的真实标签和聚类标签进行标签置信度估计，以得到标签置信度β(x_i,y_i)；

将公式(3)分解为两个部分理解，对于第一部分即先假设有相似特征的样本数据x应该有相似的真实标签y，如何定义相似特征，这里可以采用无监督的均值聚类算法(k-means)对相关样本数据进行聚类，进而可以将公式(3)近似为以下公式：

其中，分母是先把和当前样本数据相似的那些样本找出来，即对应得到对应样本数据X，然后统计一下其中聚合标签也为当前样本聚合标签Y所占的比例；分子则是对于专家标记的真实标签，即把和当前样本像的找出来，统计一下其中真实标签Z和当前样本聚合标签相同所占的比例；如果分母很大，分子很小，则说明聚合标签大概有问题，对于当前样本数据，甚至是这一类相似的样本，都应该赋予比较小的权重，C_x表示样本数据的集合。

对于第二部分，比较了真实标签和聚合标签的分布，如果当前样本数据的聚合标签是1，而且大部分聚合标签都是1，那么分布会比较大；但是如果大部分聚合标签都估计错了，则公式(5)就会变得很小。

其中，M为真实标签的总数，N为样本数据的总数。

(2.2)基于标签置信度对分类器模型进行优化处理，以得到优化的分类器，并且通过优化的分类器输出样本数据的矫正标签；

即计算分类器模型的损失函数：

上述公式中的l(f(x_i),y_i)表示模型输出的矫正标签和通过多个标注人员的聚合标签进行损失计算，可以是常用的交叉熵损失，本过程关键在于标签置信度β(x_i,y_i)的计算，它将对每个样本数据的学习进行加权，如果当前样本x_i得到的聚合标签y_i比较准确，那么标签置信度β(x_i,y_i)就会相对大一些，反之如果得到的y_i不准确，那么就应该会更小些。

总的而言，对于多源的噪声标签(来自于不同标记人员的标注)，采用标签矫正阶段学习到的模型对样本数据进行预测，得到并且利用这些预测标签来学习如何对噪声标签进行加权投票，在加权投票之后得到聚合标签，并且通过利用额外的一小部分真实标签，通过置信度β(x_i,y_i)计算一个加权的损失函数，其中β(x_i,y_i)的计算可以通过K-MEANS聚类算法在条件概率的计算过程中得到近似。这样的话，本方法又能得到一个更精确的模型，从而产生更加精确的预测标签/>并且通过迭代这两个步骤来提升模型的检测效果。

此外，在一种实施例中，基于与前述实施例相同的发明思路，本发明实施例提供了一种噪声标签处理***，所述***与实施例1的所述方法一一对应，所述***包括迭代更新的标签聚合单元和标签矫正单元。

所述标签聚合单元用于在标签聚合阶段，采用权重投票的方式对样本数据的噪声标签进行聚类处理，以得到样本数据的聚类标签；其中，样本数据的噪声标签是通过多源获取。

于本发明实施例中，所述标签聚合单元采用权重投票的方式对样本数据的噪声标签进行聚类处理的流程如下：

基于样本数据的矫正标签对样本数据的噪声标签进行加权学习，以得到噪声标签的学习权重。

于本发明实施例中，所述标签矫正单元采用引入真实标签的方式对样本数据的聚类标签进行去噪处理的流程如下：

引入真实标签，并且对真实标签和聚类标签进行标签置信度估计，以得到标签置信度，所述标签矫正单元引入的真实标签占比小于0.1％。

其中，所述标签矫正单元在引入真实标签之后，采用均值聚类算法对真实标签和聚类标签进行标签置信度估计，以得到标签置信度。

需要说明的是，本实施例中噪声标签处理***中各单元是与前述实施例中的噪声标签处理方法中的各步骤一一对应，因此，本实施例的具体实施方式和达到的技术效果可参照前述噪声标签处理方法的实施方式，这里不再赘述。

此外，在一种实施例中，本申请还提供一种计算机设备，所述计算机设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法。

此外，在一种实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，HyperTextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台多媒体终端设备(可以是手机，计算机，电视接收机，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种噪声标签处理方法，其特征在于，所述方法包括迭代进行的标签聚合阶段和标签矫正阶段；

在标签聚合阶段，采用权重投票的方式对样本数据的噪声标签进行聚类处理，以得到样本数据的聚类标签；其中，样本数据的噪声标签通过多源获取；

2.根据权利要求1所述的一种噪声标签处理方法，其特征在于，采用权重投票的方式对样本数据的噪声标签进行聚类处理的流程如下：

3.根据权利要求1所述的一种噪声标签处理方法，其特征在于，采用引入真实标签的方式对样本数据的聚类标签进行去噪处理的流程如下：

4.根据权利要求3所述的一种噪声标签处理方法，其特征在于，在引入真实标签之后，采用均值聚类算法对样本数据的真实标签和聚类标签进行标签置信度估计，以得到标签置信度。

5.根据权利要求3所述的一种噪声标签处理方法，其特征在于，引入真实标签占比小于0.1％。

6.一种噪声标签处理***，其特征在于，所述***包括迭代更新的标签聚合单元和标签矫正单元；

7.根据权利要求6所述的一种噪声标签处理***，其特征在于，所述标签聚合单元采用权重投票的方式对样本数据的噪声标签进行聚类处理的流程如下：

8.根据权利要求6所述的一种噪声标签处理***，其特征在于，所述标签矫正单元采用引入真实标签的方式对样本数据的聚类标签进行去噪处理的流程如下：

9.根据权利要求8所述的一种噪声标签处理***，其特征在于，所述标签矫正单元在引入真实标签之后，采用均值聚类算法对样本数据的真实标签和聚类标签进行标签置信度估计，以得到标签置信度。

10.根据权利要求8所述的一种噪声标签处理***，其特征在于，引入真实标签占比小于0.1％。

11.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于：所述处理器执行计算机程序时实现权利要求1-5中任一项所述一种噪声标签处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5中任一项所述一种噪声标签处理方法。