CN114037011B

CN114037011B - 一种中医舌色噪声标注样本的自动识别与清洗方法

Info

Publication number: CN114037011B
Application number: CN202111316442.3A
Authority: CN
Inventors: 卓力; 李艳萍; 孙亮亮; 张雷; 张菁; 李晓光; 张辉
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2024-05-28
Anticipated expiration: 2041-11-08
Also published as: CN114037011A

Abstract

本发明公开了一种中医舌色噪声标注样本的自动识别与清洗方法，通过对比预测标签与人工标注标签的概率关系，采用两种不同的筛选策略，实现对舌色噪声标注数据的准确、自动识别与清洗。本发明将人工标注标签称为硬标签，将通过模型得到的标签预测概率称为软标签，将预测概率最大值对应的标签称为伪标签。本发明利用深度网络模型进行样本标签的预测，进而进行噪声样本的自动识别和筛选，结果更加客观、准确。另外，整个过程没有专家的参与，不需要耗费人力，同时降低了人为带来噪声的可能性，提高了噪声标注样本识别的准确率；在模型训练前进行数据集的处理，使得处理后的数据集可以适用于其他分类模型。

Description

一种中医舌色噪声标注样本的自动识别与清洗方法

技术领域

本发明属于计算机视觉和中医诊断学领域，具体涉及计算机图像处理、深度学习、中医舌诊等技术。

背景技术

中医“四诊”中，以“望”为先，所谓“望而知之谓之神”。而舌诊是望诊的重要组成部分。舌诊，是通过观察舌象的变化，了解人体生理功能和病理变化的诊察方法。医者通过观察舌质和舌苔等的各种表现，主要包括舌色、苔色、厚度、质地、湿度、舌形、舌态等来诊察病症。其中舌色是中医诊疗中最为直观且最重要的一种诊察特征，中医舌色可以分为淡红、红、绛红、紫等4类。

在利用计算机进行中医舌色的自动分析时，往往将其看作是分类问题，采用机器学***、思维方式及诊断经验的限制，也因为光线、温度等外界客观因素的影响，医生的标注样本中经常会出现错误，导致标注的样本数据中存在着一定的噪声，对舌色分类模型的训练造成影响，导致舌色分类的精度不高。

本发明提出一种中医舌色噪声标注样本的自动识别和清洗方法。采用这种方法对标注样本数据进行处理，能够实现对噪声标注样本的自动筛选，提高了样本标注的一致性。经过处理后的数据集可以获得更高的识别准确率。

发明内容

本发明的技术目的在于提出了一种中医舌色噪声标注样本的自动识别与清洗方法，通过对比预测标签与人工标注标签的概率关系，采用两种不同的筛选策略，实现对舌色噪声标注数据的准确、自动识别与清洗。

为了达到上述目标，本发明采用的技术方案为一种中医舌色噪声标注样本的自动识别与清洗方法，包括估计样本标签的联合概率分布、噪声样本筛选和样本标签校正等几个步骤。下面详细介绍每一个步骤。本发明将人工标注标签称为硬标签，将通过模型得到的标签预测概率称为软标签，将预测概率最大值对应的标签称为伪标签。

步骤1：估计样本标签的联合概率分布

步骤1.1以交叉验证方式进行舌色分类模型的训练和样本伪标签的确定

以ResNet18作为主干网络，将通道注意力机制、ACON(Activate Or Not)激活函数应用到网络中，构建一个分类网络模型。将标注过的舌色样本数据划成训练集和测试集，训练集用于训练该分类网络模型，训练出来的模型用于确定测试集各个样本的伪标签。为了提升分类结果的鲁棒性和可靠性，本发明采用了集成学习策略，对多个分类网络模型进行集成，提升预测的鲁棒性和稳定性。利用集成网络模型进行交叉验证，直到所有样本均被预测且只被预测过一次。经过这样的循环估计处理，即可得到每个样本标签的预测概率，形成概率矩阵。

步骤1.2样本标签的联合概率分布估计

首先，将噪声样本从所有样本中筛选出来。将伪标签与硬标签不一致的，作为噪声样本。根据样本标签的预测概率，将最大概率对应的类别作为样本的伪标签。判断伪标签与硬标签是否一致，将不一致的样本判别为噪声样本。

噪声样本包含不正确标签样本和不一致标签样本两种。其中不一致标签样本指的是由于本身包含了不同类别的信息，导致类别的界限模糊的样本。这类样本的存在导致训练过程过度拟合，模型优化的早期不收敛，性能变差。而不正确标签样本则是由于人为失误造成的。接下来，将区分不正确标签样本和不一致标签样本。通过分析样本标签的概率分布情况发现，不一致标签样本软标签的最大值普遍偏低，且与次大值之间的差值比较小；而干净样本和不正确标签样本的软标签最大值普遍比较高。因此，本发明利用这一特点设定了置信度阈值，若样本软标签中的最大值大于预设的置信度阈值，且该样本的伪标签与硬标签不一致，则将该样本判别为不正确标签样本。采样这样的方式可以将不正确标签样本从噪声样本中区分出来。

最后构建计数矩阵，通过一系列的计算，得到样本的伪标签和硬标签的联合概率分布。联合概率分布可以充分反映伪标签和人工标注硬标签之间的关联关系，呈现除不一致标签样本外的样本数目分布情况，为后续样本清洗时提供依据。

步骤2：噪声样本的筛选和校正

本发明利用样本标签的联合概率分布，分别提出了两种噪声样本筛选策略，策略一用于将噪声样本识别出来，策略二用于将不正确标签样本区分出来。

对于不正确标签样本，本发明将其标签校正为伪标签，用于分类模型的训练。而对于不一致标签样本，则不再用于分类模型的训练，直接清除。在对噪声样本进行清洗后，会得到干净的样本，用于训练舌色分类模型。

与现有技术相比，本发明具有以下明显的优势和有益效果：

1、识别准确性高。与传统的人工清洗方法相比，本发明利用深度网络模型进行样本标签的预测，进而进行噪声样本的自动识别和筛选，结果更加客观、准确。另外，整个过程没有专家的参与，不需要耗费人力，同时降低了人为带来噪声的可能性，提高了噪声标注样本识别的准确率；

2、样本利用率高。本发明提出的方法可以区分不正确标签样本和不一致标签样本，并分别采用不同的方式进行处理。这样可以充分利用每个样本，提高了样本的利用率。

3、灵活度和适配度高。本发明摆脱了针对个别数据集设计算法和模型的有噪样本学习方式，仅在模型训练前进行数据集的处理，使得处理后的数据集可以适用于其他分类模型。

附图说明

图1用于交叉验证的深度神经网络结构图。

图2计数矩阵和联合概率分布矩阵示例。

图3识别与清洗方法的整体框架图。

具体实施方式

以下结合附图和实施例对本发明进行详细说明。

一种中医舌色噪声标注样本的自动识别与清洗方法，该方法包括如下步骤，步骤1：估计样本标签的联合概率分布

假设含有噪声样本的专家标注标签为硬标签y，通过舌色分类模型预测得到伪标签y^*。设样本总数为n，类标签集合为{1,2,…,m}，记作[m]。设样本集合为表示硬标签为j，伪标签为k的样本集合，其中j,k∈[m]。

设原始数据集为其中x_i表示数据集中第i个样本，/> y_i表示数据集中第i个样本的硬标签，/>表示数据集中第i个样本的伪标签，

S1.1以交叉验证方式进行舌色分类模型的训练和样本伪标签的确定

本发明针对整个数据集进行噪声标注标签的识别，采用交叉验证的方法，计算第i个样本在第j个类别下的概率P[i][j]。经过循环估计处理，即可得到每个样本的预测标签概率矩阵。针对舌象数据集样本较少的特点，本发明采用较大的折数，使训练集的样本数量更多，这样更利于模型训练，保证结果更加准确。

针对舌象数据集样本较少、类别不均衡等特点，本发明设计了一种基于集成学习的深度分类网络模型用于交叉验证。模型以ResNet18为主干网络，并在其中加入了通道注意力机制和ACON激活函数，构建了“ResNet18+CA+ACON”网络结构，结构如图1所示。同时，采用模型集成的方式对网络进行训练，保证预测的标签更加准确和稳定。相比于其他网络模型，该网络解决了模型退化问题，在舌色分类问题上表现更优越；而且，ResNet18的参数规模较小，在小样本问题中不容易发生过拟合现象。

(1)通道注意力机制

注意力机制是聚焦于局部信息的机制，随着任务的变化，注意力区域往往会发生变化。本发明在ResNet18模型的最后一层加入通道注意力机制，它通过建模各个特征通道的重要程度，针对舌色分类任务增强或抑制不同的通道，以学习到不同通道的重要性。虽然增加了少量的计算量，但可以有效提升特征的表达能力，从而获得更优的分类性能。

(2)ACON激活函数

ACON激活函数可以自适应选择是否激活神经元，通过替换原网络的激活层，能在一定程度上提升分类精度。这种激活行为有助于提高网络的泛化能力和性能。考虑到舌图像的颜色特征主要包含在网络的浅层中，因此，本发明将网络第一层中的Relu激活函数替换成ACON激活函数。

(3)模型集成策略

集成学***均，作为标签的预测概率，如图1所示。

S1.2样本标签的联合概率分布估计

本发明将每个人工标定类别j下的平均概率t_j，设定为置信度阈值，用公式(1)表示：

其中，表示硬标签为j时，样本x在模型参数为θ时的预测概率，|X_y＝j|表示类别j的样本数量。

将软标签最大值大于置信度阈值的样本筛选出来，用公式(2)表示：

其中，l∈[m]表示任一类标签，k表示经过分类模型预测得到的伪标签。

根据每个样本硬标签和伪标签的关系，将上面筛选出来的样本进行划分并统计出来，构建计数矩阵。计数矩阵对角线处对应的是硬标签和伪标签一致的干净样本数目；非对角线处对应的是硬标签和伪标签不一致的噪声标注样本数目。计数矩阵用公式(3)表示：

对计数矩阵进行处理，首先将计数矩阵的计数总和比例扩充至原数据样本的总数，然后进行归一化计算，得到硬标签和伪标签的联合概率分布估计联合概率分布可以充分反映伪标签和硬标签之间的关联关系，重要的是呈现了噪声标注样本在所有样本中的分布情况，为后续样本清洗时提供依据。/>的计算公式如下：

其中|X_y＝j|表示人工标注标签为j时的样本总个数。

为了更直观的表达计数矩阵和联合概率分布矩阵，通过一个具体的示例展现。如舌色分类问题共有4类，以0、1、2、3表示，假设样本数目为415个。经过预测概率等一系列计算后，满足样本软标签最大值大于置信度阈值的样本共有400个，这其中包含了大量的硬标签与伪标签一致的干净样本和少部分硬标签和伪标签不一致的不正确标签样本。得到的计数矩阵和联合概率分布矩阵如图2所示。

步骤2：噪声样本的筛选和校正

本发明利用伪标签和人工标注硬标签之间的联合概率分布，得到此数据集的噪声分布情况，提出了噪声样本筛选策略，可以将噪声样本识别出来。噪声样本包含不正确标签样本和不一致标签样本两种，本发明分别提出了2种策略，可以分别筛选出不正确标签样本和不一致标签样本。噪声样本筛选的整体框架如图3所示。

策略一：将硬标签与伪标签不一致的样本筛选出来，构成噪声样本集合该策略可以将标注数据中的不正确标签样本和不一致标签样本同时筛选出来。经策略一清洗后的数据集表示为S'，S'＝S-N。

策略二：筛选出不正确标签样本。经过步骤1的计算和估计，可知联合概率分布中非对角单元的样本分布就是需要筛选出的不正确标签样本分布，因此，接下来将从原数据集中筛选出同等比例分布的样本数量。由于样本预测概率中对应硬标签类别的值越大，硬标签越有可能判定为伪标签；概率值越小，硬标签越不可能与伪标签一致，样本越可能是不正确标签样本。为此，本发明提出了一种不正确标签样本筛选策略，具体实现方式为：

在每个人工标注类别下，将样本按照该类别下的概率进行由低到高排序，选取该类别下联合概率分布中非对角单元的样本分布数目，即个样本进行筛选。该策略可以对联合概率分布中的非对角单元样本，即不正确标签样本进行清洗，构成不正确标签样本集合E。经策略二清洗后的数据集表示为S″，S″＝S-E。

从策略一筛选出的样本中去除策略二筛选出的样本，剩余的就是不一致标签样本，即不一致标签样本集合为U＝S'-S″。

对于不正确标签的样本，则对其进行校正。即，将伪标签作为其标签，替换原有的标签。校正后的样本可以用于分类模型的训练。而对于不一致标签样本，则直接清除，不再用于分类模型的训练。在对噪声样本进行清洗后，则会得到干净的样本，用于训练舌色分类模型。

本发明提出了一种中医舌色噪声标注样本的自动识别和清洗方法，采用这种方法对标注样本数据进行处理，能够实现对噪声标注样本的自动筛选，提高了样本标注的一致性，从而可以提升分类模型的精度。相较于传统的人工手动清洗数据，不仅在节省人力物力的同时，提高了识别和清洗准确率，还提高了样本的利用率，方法具有很好的灵活度。

Claims

1.一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：该方法包括如下步骤，

步骤1：估计样本标签的联合概率分布；

步骤1.1以交叉验证方式进行舌色分类模型的训练和样本伪标签的确定；

以ResNet18作为主干网络，将通道注意力机制、ACON激活函数应用到网络中，构建一个分类网络模型；将标注过的舌色样本数据划成训练集和测试集，训练集用于训练该分类网络模型，训练出来的模型用于确定测试集各个样本的伪标签；采用集成学习策略，对多个分类网络模型进行集成，提升预测的鲁棒性和稳定性；利用集成网络模型进行交叉验证，直到所有样本均被预测且只被预测过一次；经过循环估计处理，得到每个样本标签的预测概率，形成概率矩阵；

步骤1.2样本标签的联合概率分布估计；

首先，将噪声样本从所有样本中筛选出来；将伪标签与硬标签不一致的，作为噪声样本；根据样本标签的预测概率，将最大概率对应的类别作为样本的伪标签；判断伪标签与硬标签是否一致，将不一致的样本判别为噪声样本；

噪声样本包含不正确标签样本和不一致标签样本两种；不一致标签样本指的是由于本身包含了不同类别的信息，导致类别的界限模糊的样本；将区分不正确标签样本和不一致标签样本；通过分析样本标签的概率分布情况发现，不一致标签样本软标签的最大值普遍偏低，且与次大值之间的差值比较小；而干净样本和不正确标签样本的软标签最大值普遍比较高；设定置信度阈值，若样本软标签中的最大值大于预设的置信度阈值，且样本的伪标签与硬标签不一致，则将样本判别为不正确标签样本；将不正确标签样本从噪声样本中区分出来；

最后构建计数矩阵，通过一系列的计算，得到样本的伪标签和硬标签的联合概率分布；联合概率分布充分反映伪标签和人工标注硬标签之间的关联关系，呈现除不一致标签样本外的样本数目分布情况，为后续样本清洗时提供依据；

步骤2：噪声样本的筛选和校正

利用样本标签的联合概率分布，分别提出了两种噪声样本筛选策略，策略一用于将噪声样本识别出来，策略二用于将不正确标签样本区分出来；

对于不正确标签样本，将其标签校正为伪标签，用于分类模型的训练；而对于不一致标签样本，则不再用于分类模型的训练，直接清除；在对噪声样本进行清洗后，会得到干净的样本，用于训练舌色分类模型。

2.根据权利要求1所述的一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：步骤1中，假设含有噪声样本的专家标注标签为硬标签y，通过舌色分类模型预测得到伪标签y^*；设样本总数为n，类标签集合为{1，2，...，m}，记作[m]；设样本集合为表示硬标签为j，伪标签为k的样本集合，其中j，k∈[m]；

设原始数据集为其中x_i表示数据集中第i个样本，x_i∈/>y_i表示数据集中第i个样本的硬标签，/>表示数据集中第i个样本的伪标签，/>

3.根据权利要求2所述的一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：针对整个数据集进行噪声标注标签的识别，采用交叉验证的方法，计算第i个样本在第j个类别下的概率P[i][j]；经过循环估计处理，即可得到每个样本的预测标签概率矩阵；

以ResNet18为主干网络，并在其中加入了通道注意力机制和ACON激活函数，构建“ResNet18+CA+ACON”网络结构，采用模型集成的方式对网络进行训练，保证预测的标签更加准确和稳定。

4.根据权利要求3所述的一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：注意力机制是聚焦于局部信息的机制，随着任务的变化，注意力区域往往会发生变化；在ResNet18模型的最后一层加入通道注意力机制，它通过建模各个特征通道的重要程度，针对舌色分类任务增强或抑制不同的通道，以学习到不同通道的重要性；虽然增加了少量的计算量，但可以有效提升特征的表达能力，从而获得更优的分类性能。

5.根据权利要求3所述的一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：ACON激活函数可以自适应选择是否激活神经元，通过替换原网络的激活层，能在一定程度上提升分类精度；这种激活行为有助于提高网络的泛化能力和性能；考虑到舌图像的颜色特征包含在网络的浅层中，将网络第一层中的Relu激活函数替换成ACON激活函数。

6.根据权利要求3所述的一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：采用10个模型集成的方式，将多个模型的预测概率求平均，作为标签的预测概率；

将每个人工标定类别j下的平均概率t_j，设定为置信度阈值，用公式(1)表示：

其中，表示硬标签为j时，样本x在模型参数为θ时的预测概率，|X_y＝j|表示类别j的样本数量；

其中，l∈[m]表示任一类标签，k表示经过分类模型预测得到的伪标签；

根据每个样本硬标签和伪标签的关系，将上面筛选出来的样本进行划分并统计出来，构建计数矩阵；计数矩阵对角线处对应的是硬标签和伪标签一致的干净样本数目；非对角线处对应的是硬标签和伪标签不一致的噪声标注样本数目；计数矩阵用公式(3)表示：

对计数矩阵进行处理，首先将计数矩阵的计数总和比例扩充至原数据样本的总数，然后进行归一化计算，得到硬标签和伪标签的联合概率分布估计联合概率分布充分反映伪标签和硬标签之间的关联关系，重要的是呈现了噪声标注样本在所有样本中的分布情况，为后续样本清洗时提供依据；/>的计算公式如下：

其中|X_y＝j|表示人工标注标签为j时的样本总个数；

为了更直观的表达计数矩阵和联合概率分布矩阵，通过一个具体的示例展现；如舌色分类问题共有4类，以0、1、2、3表示，假设样本数目为415个；经过预测概率一系列计算后，满足样本软标签最大值大于置信度阈值的样本共有400个，包含硬标签与伪标签一致的干净样本和少部分硬标签和伪标签不一致的不正确标签样本；得到的计数矩阵和联合概率分布矩阵。

7.根据权利要求1所述的一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：利用伪标签和人工标注硬标签之间的联合概率分布，得到此数据集的噪声分布情况，提出了噪声样本筛选策略，将噪声样本识别出来；噪声样本包含不正确标签样本和不一致标签样本两种，分别提出了2种策略，分别筛选出不正确标签样本和不一致标签样本；

策略一：将硬标签与伪标签不一致的样本筛选出来，构成噪声样本集合将标注数据中的不正确标签样本和不一致标签样本同时筛选出来；经策略一清洗后的数据集表示为S′，S′＝S-N；

策略二：筛选出不正确标签样本；经过步骤1的计算和估计，可知联合概率分布中非对角单元的样本分布就是需要筛选出的不正确标签样本分布，将从原数据集中筛选出同等比例分布的样本数量；选择不正确标签样本筛选策略进行处理。

8.根据权利要求7所述的一种中医舌色噪声标注样本的自动识别与清洗方法，其特征在于：不正确标签样本筛选策略中，在每个人工标注类别下，将样本按照该类别下的概率进行由低到高排序，选取该类别下联合概率分布中非对角单元的样本分布数目，即个样本进行筛选；该策略可以对联合概率分布中的非对角单元样本，即不正确标签样本进行清洗，构成不正确标签样本集合E；经策略二清洗后的数据集表示为S″，S″＝S-E；

从策略一筛选出的样本中去除策略二筛选出的样本，剩余的就是不一致标签样本，即不一致标签样本集合为U＝S′-S″；

对于不正确标签的样本，则对其进行校正；即，将伪标签作为其标签，替换原有的标签；校正后的样本用于分类模型的训练；对于不一致标签样本，直接清除，不再用于分类模型的训练；在对噪声样本进行清洗后，则会得到干净样本，用于训练舌色分类模型。