CN113657449A

CN113657449A - 一种含噪标注数据的中医舌象腐腻分类方法

Info

Publication number: CN113657449A
Application number: CN202110797875.9A
Authority: CN
Inventors: 李晓光; 王艳阳; 卓力; 房振亚
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-16

Abstract

一种含噪标注数据的中医舌象腐腻分类方法属于计算机视觉领域，该方法通过多个机器学习分类模型对含噪标注舌象腐腻数据集进行标签置信度评估和更新处理，将标签数据集标注质量更新和分类网络模型参数的更新放在一个迭代过程中，引入主动学习思想提供了一种新颖的中医舌象腐腻样本标注质量和分类模型交互迭代提升的方法。本发明提高已标注样本的置信度，从而筛选高质量标注样本，可应用在其他含噪标签舌象样本问题上，可有效解决中医舌象标注主观性强，含有噪声标签的问题，具有更高的推广性。

Description

一种含噪标注数据的中医舌象腐腻分类方法

技术领域

本发明属于计算机视觉领域，具体涉及一种含噪标注数据的中医舌象腐腻分类方法。

背景技术

舌诊，是通过观察舌象变化，了解人体生理功能和病理情况的诊察方法，是中医四诊中应用较广，最为普及的诊法之一。中医舌象特征分析是实现舌诊客观化的核心内容，舌象特征是人体内在脏腑气血发生寒、热、虚、实病理变化的反映。在舌象分析中，通常根据需要来分析舌体特征的不同方面，例如舌苔颜色、舌苔的厚度及湿度、舌质腐腻、点刺、裂纹、舌的形态(齿痕、歪斜与胖瘦)等特征。腐腻特征是舌苔质地的反映，主要指舌苔颗粒度的大小和疏密度的变化，通常分为非腐腻，腐，腻3类，提取到的腐腻特征主要用于医生来诊察病症，是中医辨证施治的关键环节之一。

舌象舌诊通常是经过医生的目测观察、依据经验判别病证。与西医相比缺乏定量化、客观化的度量与分析。受到医生知识水平和经验等主观因素的影响，舌诊结果因人而异、主观性强、可重复性差，直接影响辨证施治的规范化和标准化。通过计算机算法对舌象特征进行提取与分类，对舌诊客观化具有重要的意义。

中医舌象腐腻特征样本数据标注成本高，腐腻标注样本少，需要有效利用未标注样本区分不同类之间的特征；腐腻特征不同类中有一定的相似性，医生标注存在主观性，因此存在不一致的噪声标注样本。如何提取高质量标注样本，是实现分类模型高效训练的前提。

深度学习方法通过有效提取图像深度特征，学习样本数据的内在规律和深度特征表达，从而获得较高的分类准确率与较强的模型泛化能力。深度学习模型通常需要大量标注数据进行有监督训练，含噪的有限标注舌象样本成为影响模型准确率和泛化能力的重要因素。

为此，本发明针对舌象腐腻特征的特点，结合主动学习与半监督学习技术，提出一种含噪标注数据的中医舌象腐腻自动分类方法。采用多个分类网络作为基础网络，进行舌象深层特征提取，对含噪标签数据进行预测，统计预测一致性，选择信息量大的样本进行人工重标注，达到数据清洗目的，更新高质量标注样本，同时引入未标注样本，挖掘未标注样本的隐含信息，通过半监督学习有效辅助最终分类器的训练，提升分类性能。

发明内容

本发明提供了一种含噪标注数据的中医舌象腐腻分类方法，该方法包括：

1)构建舌质腐腻数据集

本发明应用的数据集通过中医舌象仪采集获取，腐腻类别由专业医生标定。单幅舌象的舌质腐腻类别主要由舌体中心块图像块判定。为构建训练和测试数据集，需要进行舌体区域提取、舌体中心块提取、舌象块滑块处理三个步骤：

步骤1.1：从原图像中提取舌体区域，用作基础舌图像；

步骤1.2：对舌体进行中心块提取，作为其腐腻特征代表块；

步骤1.3：对提取出的舌象块进行滑块处理，获取舌象块，用于构建大批量舌象块数据集；

2)基于多分类模型的样本类别预测与一致性统计

含噪标注样本通过多个模型预测出结果具有统一性，筛选信息量较大难分样本人工重标注，更新已标注数据集，提升数据标注的置信度。

步骤2.1：使用含噪标注舌象腐腻数据训练多个分类模型；

步骤2.2：分别采用多个分类模型进行有标注数据的类别预测，根据多模型预测结果，估计数据标签的置信度。将样本分类以下3类：

类别1：对于多模型预测结果一致，且与标注类别相同的样本，分类为标注一致样本，标签可靠性高，直接用于后续分类模型的优化训练；

类别2：对预测结果一致，但与标注结果不一致的样本，分类为疑似标注错误样本；提交人工进行标注结果校验；

类别3：对于多模型预测结果不一致的样本，根据具体预测结果情况以及与标注类别的关系，计算标签置信度。根据置信度，对样本进行赋权应用或人工校准；

步骤2.3：更新标注样本

将3类样本分别进行相应的处理，更新标注数据集。对类别1的样本，直接用来训练和测试；对类别2的样本，经过人工标注验证后，添加到训练和测试集；对于类别3则根据样本比例和训练方式，进行排除及人工校准，赋权应用；

3)分类模型训练

步骤3.1：采用更新后的标注样本，划分训练集和测试集；对多分类模型进行网络训练。可采用重新训练模型或者在已有的网络模型上进行优化训练；

步骤3.2：训练多个分类模型直到模型收敛，即测试分类准确率不再产生较大变化，记录测试准确率；

步骤3.3：重复步骤2)和3)，对标注样本进行新一轮的标签预测与一致性统计、数据标签更新和网络模型训练；

步骤3.4：当标注数据中的一致性标签样本比例显著提高、且网络整体分类性能不再提高时即记录的准确率不再变化，则停止迭代。根据***精度和复杂度要求，选择性能最优分类器实现舌象腐腻分类网络；

4)可选地，本发明阐述的多分类模型标签预测方案也可用于对未标注数据进行标签预测；对预测结果一致的样本，直接赋予预测伪标签，加入的训练集；对预测结果一致性差的样本，选择出来进行主动学习的人工标注；对于置信度居中的样本，进行灵活应用。本发明技术可以方便地进行含噪标注数据清洗、半监督学习伪标签预测、主动学习的难分样本选择等。

一种含噪标注数据的中医舌象腐腻分类方法，该方法包括：

1)构建舌质腐腻数据集

第一步：从原图像中提取舌体区域，用作基础舌图像；采取已有中医舌象分割方法对舌体进行分割，提取后舌图像进行统一标准大小；

第二步：对舌体进行中心块提取，作为其腐腻特征代表块；每幅分割后的舌体中心部分保留了舌质腐腻的特征，因此针对每幅舌图像，提取其中心舌象块，采取小区域滤除方法，设定最小面积阈值，实验设置阈值为100×100像素，通过获取图像中所有联通区域，判定每个区域的面积是否小于阈值，面积小于阈值区域则滤除，保留等于且大于阈值的区域，获取目标区域的像素最大值及最小值，确定目标区域，再定位中心点位置，设定裁剪区域，滑动得到舌体中心块；

第三步：构建舌象块训练数据集；对提取出的舌象块进行滑块处理，设定获取目标舌象块大小，设置统一步长滑动获取舌象块；

2)多个模型集成预测统计

第一步：使用首批含噪标注舌象腐腻数据进行训练多个分类模型；采用卷积网络InceptionV3_v1，MobileNet_v1，ResNet50，Efficient Net b4网络结构训练，4种分类模型训练采用SGD梯度下降算法训练网络模型参数，设定学习率范围为0.00001至1，momentum范围为0.5至0.99，decay衰减系数范围为1e-9至1e-2；

第二步：选取InceptionV3，MobileNet_v1，ResNet50网络模型作为基础网络，根据多个模型集成预测方式，对首批所有已标注样本进行统一预测，如公式(1)所示，a代表样本置信度，设定预测一致模型数量为k，总模型数量为K，z为预测标签，Z为原始标签，若3个模型预测一致，且与原本标注类别相同的样本，归分为标注集中，置信度设为1，标签可靠性高，直接用于后续的循环训练；若预测结果一致，但与原本标注类别不一致的样本，置信度设为1/2，归分为疑似标注错误样本，引入主动学习思想，提交人工进行标注结果校验；若3个模型预测不一致，根据具体预测结果情况以及与标注类别的关系：设定阈值为1/2，当即k/K比值大于阈值时，即模型中多数模型均预测一致，仅有少数不一致，则判断此样本是否与原标签一致；如果一致，置信度设为1，则归分为标注集；如果不一致，置信度设为1/2，则人工进行标签校验；当k/K比值等于且小于阈值时，即少数模型均预测一致，代表大多数模型均预测不一致，置信度设为0，则归分为未标注数据集；当k/K比值为0时，即所有模型均预测不一致时，表示高概率噪声标签样本，置信度设为0，则归类为未标注数据集；全部标注结束则更新已标注样本集，得到人工参与的去噪标注样本集X；

第三步：将去噪标注样本划分为训练测试集，依据训练后新模型进行集成预测，保持参数不变，记录最优模型的分类精度；再次依据第二步中准则更新标注样本集，迭代循环，直至样本测试集分类精度保持不变为止；

3)半监督模型训练

第一步：在2)中数据筛选的基础上，将去噪标注集作为已标注样本集，其余未标注舌象数据作为未标注样本集，对于已标注和未标注样本均应用数据增强，batch为增强数据批次，对一个batch的已标注数据做一次数据增强，对一个batch的未标注数据做M次数据增强，实验设置M为2，数据增强选择标准增强方式分别为随机裁剪和水平翻转，随机裁剪为不同的大小和宽高比，然后缩放所裁剪得到的图像为目标大小，得到增强后的已标注数据集X与未标注数据U；

第二步：经比较2)中K(K＝3)种分类模型的结果，采用训练Efficient Net b4分类模型作为半监督学***均方法来决定最终的伪标签，具体计算方法如公式(2)所示；

其中，u_b代表未标注数据，y为预测标签，m为增强次数，总增强次数为M，θ为模型参数，P为经过分类器预测为y类别的概率，

为最终得到的平均预测概率值；在生成伪标签过程中，模型引入最小化熵操作，具体操作是引入“sharpen”函数，具体如公式(3)所示；

其中，Q为增强数据的平均预测概率值，对应公式(1)中的

T为温度超参数，实验设置T值为0.5，可调节分类熵，L为类别总量，i和j指向单个类别，当T值趋于0时，输出将接近于one-hot分布，减小T值，将鼓励模型对增强后的未标注数据进行低熵预测，提升模型的预测准确程度；通过此步骤，得到增强未标注数据的伪标签；

第三步：为了相对增强模型的泛化能力，将使用mix up方法进行数据混合，记已标注数据集为X，未标注数据集为U，混合具体操作为将已标注数据集X和未标注数据集U混合形成混合数据集W，然后有标注数据X和W数据集中前X个数据mix up形成新的有标签数据集记为X′，无标注数据和W数据集中后U个数据集mix up形成新的无标签数据集记为U′,构建一个混合的有标注和无标注舌质腐腻数据集；

第四步：对于有标注数据集X′,计算标签和模型预测之间的交叉熵损失，计算方法具体如公式(4)所示，

其中，X′代表所有有标注样本，|X′|为所有有标注样本的数量值，x为单个有标注样本，p为真实样本标签分布，P为样本x经过分类器预测为y类别的概率，H函数是分布p和P之间的交叉熵，

对于无标注数据集U′，计算模型预测和伪标签之间的均方损失函数，将估计值与目标值做差然后平方得到误差，具体如公式(5)所示，

其中，U′代表所有无标注样本，|U′|为所有无标注样本的数量值，u为单个无标注样本，q为真实样本标签分布，P为样本u经过分类器预测为y类别的概率，θ为模型参数，L为类别总量；

总体损失项如公式(6)所示，Loss代表总损失，为两个损失之和，

Loss＝L_x+λL_u#(6)

λ为超参数，设置为100；在构造的新数据集上，引入以上损失约束网络，对网络不断的迭代训练，学习率设置为0.00001至1，momentum设置为0.5至0.99，decay衰减系数设置为1e-9至1e-2；训练直到分类模型损失收敛，且腐腻分类指标无变动，选取验证结果指标最高的模型作为分类网络训练的最优模型。

本申请所述的技术方案，提供了一种含噪标注数据的中医舌象腐腻分类方法，用于计算机辅助舌象腐腻特征分类。该方法通过多个机器学习分类模型对含噪标注舌象腐腻数据集进行标签置信度评估和更新处理，将标签数据集标注质量更新和分类网络模型参数的更新放在一个迭代过程中，引入主动学习思想提供了一种新颖的中医舌象腐腻样本标注质量和分类模型交互迭代提升的方法。

本发明所提供的含噪标注数据的中医舌象腐腻分类方法与使用深度学习中单模型决策方法相比，可提高已标注样本的置信度，从而筛选高质量标注样本，可应用在其他含噪标签舌象样本问题上，可有效解决中医舌象标注主观性强，含有噪声标签的问题，具有更高的推广性；本发明提供的数据标注质量评估与更新、分类模型更新训练的方法也可推广到其他类似的中医舌象特征分类任务中，在其他含噪标注数据的分类任务中也可得到广泛应用。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述技术方案和其目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明提供的用于分类的舌象腐腻块数据集制作流程；

图2示出了本发明提供的数据清洗示意图；

图3示出了本发明提供的舌质腐腻半监督分类模型框架示意图；

具体实施方式：

下面将参照附图更详细地描述本发明的示例性实施实例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本方法根据多个模型预测所有标注数据，采用主动学***均预测引入最小化熵操作，最后对有标注数据和无标注数据融合，更新数据，迭代训练网络，增强网络鲁棒性，最终得到半监督训练模型，进行舌象腐腻样本的类别测试。

以下结合说明书附图，对本发明的实施实例加以说明：

本发明采用的数据集是通过中医舌象仪采集得到，并且其类别由中医医师进行标定。所使用的舌象样本是在某中医院中医科采集得到的1423幅全舌图像，舌质腐腻类型分为非腐腻，腐，腻3类。训练集分为已标注样本与未标注样本，其中已标注样本为618幅舌象，按照1)中舌象数据集制作流程将舌象预处理为2472个舌象块，包含非腐腻1512块；腐432块；腻528块，未标注样本共10000块。测试集共405幅舌象，对应405个舌体中心块，其中非腐腻249块，腐9块，腻147块。

1)构建舌质腐腻数据集

第一步：从原图像中提取舌体区域，用作基础舌图像。由于分析具体舌质腐腻信息需要重点关注舌苔区域，中医舌象仪采集到的舌图像通常包含人脸，嘴唇这种干扰性信息，因此需要将舌体部分从原图像中提取出来，采取已有中医舌象分割方法对舌体进行分割，提取后舌图像统一标准大小为3456×3456像素。

第二步：对舌体进行中心块提取，作为其腐腻特征代表块。每幅分割后的舌体中心部分保留了舌质腐腻的特征，因此针对每幅舌图像，提取其中心舌象块。首先，采取小区域滤除方法，设定最小面积阈值，实验设置阈值为100×100像素，通过获取图像中所有联通区域，判定每个区域的面积是否小于阈值，面积小于阈值区域则滤除，保留等于且大于阈值的区域，以此方法来区分图像背景中干扰区域，防止对目标区域定位产生偏差。获取目标区域的像素最大值及最小值，确定目标区域，再定位中心点位置，设定裁剪区域大小为512×512像素，得到舌体中心块。

第三步：构建大批量舌象块训练数据集。对提取出的舌象块进行滑块处理，设定获取目标舌象块大小为224×224像素，设置步长为65，滑动获取2472个舌象块，满足深度学习网络中训练集需求量大特点。

3)多个模型集成预测统计

第一步：使用首批含噪标注舌象腐腻数据进行训练多个分类模型。目前分类领域中常用的卷积网络有InceptionV3，MobileNet，ResNet系列模型，Efficient Net网络结构也依据其能保持较高分类精度同时用时短的优点被应用。采用卷积网络InceptionV3_v1，MobileNet_v1，ResNet50，Efficient Net b4网络结构训练，4种分类模型训练采用SGD梯度下降算法训练网络模型参数，实验中初始学习率设为0.001，momentum设置为0.9，decay衰减系数设为1e-6。

第二步：选取InceptionV3，MobileNet_v1，ResNet50网络模型作为基础网络，根据多个模型集成预测方式，对首批所有已标注样本进行统一预测，如公式(1)所示，a代表样本置信度，设定预测一致模型数量为k，总模型数量为K，z为预测标签，Z为原始标签，若3个模型预测一致，且与原本标注类别相同的样本，归分为标注集中，置信度设为1，标签可靠性高，直接用于后续的循环训练；若预测结果一致，但与原本标注类别不一致的样本，置信度设为1/2，归分为疑似标注错误样本，引入主动学习思想，提交人工进行标注结果校验；若3个模型预测不一致，根据具体预测结果情况以及与标注类别的关系：阈值设定为1/2，当k/K比值大于阈值时，即当模型中多数模型均预测一致，仅有少数不一致，则判断此样本是否与原标签一致；如果一致，置信度设为1，则归分为标注集；如果不一致，置信度设为1/2，则人工进行标签校验；当k/K比值等于且小于阈值时，即少数模型均预测一致，大多数模型均预测不一致，置信度设为0，则归分为未标注数据集；当k/K比值为0时，即所有模型均预测不一致时，表示高概率噪声标签样本，置信度设为0，则归类为未标注数据集。全部标注结束则更新已标注样本集，得到人工参与的去噪标注样本集X。

第三步：将去噪标注样本划分为训练测试集，依据训练后新模型进行集成预测，保持参数不变，记录最优模型的分类精度；再次依据第二步中准则更新标注样本集，迭代循环，直至样本测试集分类精度基本保持不变为止。

3)半监督模型训练

第一步：在2)中数据筛选的基础上，将去噪标注集作为已标注样本集，其余未标注舌象数据作为未标注样本集，对于已标注和未标注样本均应用数据增强，设定一个特定大小batch，本实验的batch设定为4，对一个batch的已标注数据做一次数据增强，对一个batch的未标注数据做M次数据增强，实验设置M为2，数据增强选择标准增强方式分别为随机裁剪和水平翻转，随机裁剪为不同的大小和宽高比，然后缩放所裁剪得到的图像为380×380像素，得到增强后的已标注数据集X与未标注数据U。

第二步：经比较2)中三种分类模型的结果，Efficient Net b4网络模型对腐腻分类效果好，本实验采用训练Efficient Net b4分类模型作为半监督学***均方法来决定最终的伪标签，具体计算方法如公式(2)所示。

为最终得到的平均预测概率值。在生成伪标签过程中，为了尽可能让模型对无标签样本的预测置信度高，模型引入最小化熵操作，具体操作是引入“sharpen”函数，具体如公式(3)所示。

其中，Q为增强数据的平均预测概率值，对应公式(1)中的

T为温度超参数，实验设置T值为0.5，可调节分类熵，L为类别总量，i和j指向单个类别，当T值趋于0时，输出将接近于one-hot分布，减小T值，将鼓励模型对增强后的未标注数据进行低熵预测，提升模型的预测准确程度。通过此步骤，得到增强未标注数据的伪标签。

第三步：为了相对增强模型的泛化能力，将使用mix up方法进行数据混合，记已标注数据集为X，未标注数据集为U，混合具体操作为将已标注数据集X和未标注数据集U混合形成混合数据集W，然后有标注数据X和W数据集中前X个数据mix up形成新的有标签数据集记为X′，无标注数据和W数据集中后U个数据集mix up形成新的无标签数据集记为U′,构建一个混合的有标注和无标注舌质腐腻数据集。

第四步：对于有标注数据集X’,计算标签和模型预测之间的交叉熵损失，计算方法具体如公式(4)所示，

其中，U′代表所有无标注样本，|U′|为所有无标注样本的数量值，u为单个无标注样本，q为真实样本标签分布，P为样本u经过分类器预测为y类别的概率，θ为模型参数，L为类别总量。

Loss＝L_x+λL_u#(6)

λ为超参数，实验设置为100。在构造的新数据集上，引入以上损失约束网络，对网络不断的迭代训练，训练参数中初始学习率设置为0.001，decay衰减系数设置为0.999，epochs为迭代次数，设置为100，训练直到分类模型损失收敛，且腐腻分类指标接近无变动，选取验证结果指标最高的模型作为分类网络训练的最优模型。

本发明从数据库中选取618幅标注的舌质腐腻图像作为初始标注训练样本，经过预处理为2472个舌象块，未标注训练样本为10000个舌象块，测试样本为405幅舌象。采用相同的训练策略，首先分别在InceptionV3，Mobile Net，Res Net，Efficient Net b0共4个模型上进行全监督训练，平均分类精度分别为82.47％，89.62％，90.86％，91.11％，Efficient Net模型表现较好，其次在Efficient Net b0-b4网络架构上进行训练，在b4模型上得到最优分类结果93.09％，引入10000块未标注数据进行半监督学习，得到分类结果为94.50％，提高了1.41％的准确率。初步验证由于引入未标注数据后的特征增加了样本多样性，分类器可提取到更多有效信息，同时利用了未标注数据，使得模型具有更高的泛化能力。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。