CN114037011B - 一种中医舌色噪声标注样本的自动识别与清洗方法 - Google Patents
一种中医舌色噪声标注样本的自动识别与清洗方法 Download PDFInfo
- Publication number
- CN114037011B CN114037011B CN202111316442.3A CN202111316442A CN114037011B CN 114037011 B CN114037011 B CN 114037011B CN 202111316442 A CN202111316442 A CN 202111316442A CN 114037011 B CN114037011 B CN 114037011B
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- label
- noise
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000002372 labelling Methods 0.000 title claims abstract description 36
- 238000004140 cleaning Methods 0.000 title claims abstract description 29
- 239000003814 drug Substances 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 26
- 230000004913 activation Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000002790 cross-validation Methods 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- VYGQUTWHTHXGQB-FFHKNEKCSA-N Retinol Palmitate Chemical compound CCCCCCCCCCCCCCCC(=O)OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C VYGQUTWHTHXGQB-FFHKNEKCSA-N 0.000 claims 10
- 239000011717 all-trans-retinol Substances 0.000 claims 5
- 235000019172 retinyl palmitate Nutrition 0.000 claims 5
- 238000012935 Averaging Methods 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000002401 inhibitory effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 6
- 239000000523 sample Substances 0.000 description 80
- 238000003745 diagnosis Methods 0.000 description 5
- 238000007689 inspection Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种中医舌色噪声标注样本的自动识别与清洗方法,通过对比预测标签与人工标注标签的概率关系,采用两种不同的筛选策略,实现对舌色噪声标注数据的准确、自动识别与清洗。本发明将人工标注标签称为硬标签,将通过模型得到的标签预测概率称为软标签,将预测概率最大值对应的标签称为伪标签。本发明利用深度网络模型进行样本标签的预测,进而进行噪声样本的自动识别和筛选,结果更加客观、准确。另外,整个过程没有专家的参与,不需要耗费人力,同时降低了人为带来噪声的可能性,提高了噪声标注样本识别的准确率;在模型训练前进行数据集的处理,使得处理后的数据集可以适用于其他分类模型。
Description
技术领域
本发明属于计算机视觉和中医诊断学领域,具体涉及计算机图像处理、深度学习、中医舌诊等技术。
背景技术
中医“四诊”中,以“望”为先,所谓“望而知之谓之神”。而舌诊是望诊的重要组成部分。舌诊,是通过观察舌象的变化,了解人体生理功能和病理变化的诊察方法。医者通过观察舌质和舌苔等的各种表现,主要包括舌色、苔色、厚度、质地、湿度、舌形、舌态等来诊察病症。其中舌色是中医诊疗中最为直观且最重要的一种诊察特征,中医舌色可以分为淡红、红、绛红、紫等4类。
在利用计算机进行中医舌色的自动分析时,往往将其看作是分类问题,采用机器学***、思维方式及诊断经验的限制,也因为光线、温度等外界客观因素的影响,医生的标注样本中经常会出现错误,导致标注的样本数据中存在着一定的噪声,对舌色分类模型的训练造成影响,导致舌色分类的精度不高。
本发明提出一种中医舌色噪声标注样本的自动识别和清洗方法。采用这种方法对标注样本数据进行处理,能够实现对噪声标注样本的自动筛选,提高了样本标注的一致性。经过处理后的数据集可以获得更高的识别准确率。
发明内容
本发明的技术目的在于提出了一种中医舌色噪声标注样本的自动识别与清洗方法,通过对比预测标签与人工标注标签的概率关系,采用两种不同的筛选策略,实现对舌色噪声标注数据的准确、自动识别与清洗。
为了达到上述目标,本发明采用的技术方案为一种中医舌色噪声标注样本的自动识别与清洗方法,包括估计样本标签的联合概率分布、噪声样本筛选和样本标签校正等几个步骤。下面详细介绍每一个步骤。本发明将人工标注标签称为硬标签,将通过模型得到的标签预测概率称为软标签,将预测概率最大值对应的标签称为伪标签。
步骤1:估计样本标签的联合概率分布
步骤1.1以交叉验证方式进行舌色分类模型的训练和样本伪标签的确定
以ResNet18作为主干网络,将通道注意力机制、ACON(Activate Or Not)激活函数应用到网络中,构建一个分类网络模型。将标注过的舌色样本数据划成训练集和测试集,训练集用于训练该分类网络模型,训练出来的模型用于确定测试集各个样本的伪标签。为了提升分类结果的鲁棒性和可靠性,本发明采用了集成学习策略,对多个分类网络模型进行集成,提升预测的鲁棒性和稳定性。利用集成网络模型进行交叉验证,直到所有样本均被预测且只被预测过一次。经过这样的循环估计处理,即可得到每个样本标签的预测概率,形成概率矩阵。
步骤1.2样本标签的联合概率分布估计
首先,将噪声样本从所有样本中筛选出来。将伪标签与硬标签不一致的,作为噪声样本。根据样本标签的预测概率,将最大概率对应的类别作为样本的伪标签。判断伪标签与硬标签是否一致,将不一致的样本判别为噪声样本。
噪声样本包含不正确标签样本和不一致标签样本两种。其中不一致标签样本指的是由于本身包含了不同类别的信息,导致类别的界限模糊的样本。这类样本的存在导致训练过程过度拟合,模型优化的早期不收敛,性能变差。而不正确标签样本则是由于人为失误造成的。接下来,将区分不正确标签样本和不一致标签样本。通过分析样本标签的概率分布情况发现,不一致标签样本软标签的最大值普遍偏低,且与次大值之间的差值比较小;而干净样本和不正确标签样本的软标签最大值普遍比较高。因此,本发明利用这一特点设定了置信度阈值,若样本软标签中的最大值大于预设的置信度阈值,且该样本的伪标签与硬标签不一致,则将该样本判别为不正确标签样本。采样这样的方式可以将不正确标签样本从噪声样本中区分出来。
最后构建计数矩阵,通过一系列的计算,得到样本的伪标签和硬标签的联合概率分布。联合概率分布可以充分反映伪标签和人工标注硬标签之间的关联关系,呈现除不一致标签样本外的样本数目分布情况,为后续样本清洗时提供依据。
步骤2:噪声样本的筛选和校正
本发明利用样本标签的联合概率分布,分别提出了两种噪声样本筛选策略,策略一用于将噪声样本识别出来,策略二用于将不正确标签样本区分出来。
对于不正确标签样本,本发明将其标签校正为伪标签,用于分类模型的训练。而对于不一致标签样本,则不再用于分类模型的训练,直接清除。在对噪声样本进行清洗后,会得到干净的样本,用于训练舌色分类模型。
与现有技术相比,本发明具有以下明显的优势和有益效果:
1、识别准确性高。与传统的人工清洗方法相比,本发明利用深度网络模型进行样本标签的预测,进而进行噪声样本的自动识别和筛选,结果更加客观、准确。另外,整个过程没有专家的参与,不需要耗费人力,同时降低了人为带来噪声的可能性,提高了噪声标注样本识别的准确率;
2、样本利用率高。本发明提出的方法可以区分不正确标签样本和不一致标签样本,并分别采用不同的方式进行处理。这样可以充分利用每个样本,提高了样本的利用率。
3、灵活度和适配度高。本发明摆脱了针对个别数据集设计算法和模型的有噪样本学习方式,仅在模型训练前进行数据集的处理,使得处理后的数据集可以适用于其他分类模型。
附图说明
图1用于交叉验证的深度神经网络结构图。
图2计数矩阵和联合概率分布矩阵示例。
图3识别与清洗方法的整体框架图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
一种中医舌色噪声标注样本的自动识别与清洗方法,该方法包括如下步骤,步骤1:估计样本标签的联合概率分布
假设含有噪声样本的专家标注标签为硬标签y,通过舌色分类模型预测得到伪标签y*。设样本总数为n,类标签集合为{1,2,…,m},记作[m]。设样本集合为表示硬标签为j,伪标签为k的样本集合,其中j,k∈[m]。
设原始数据集为其中xi表示数据集中第i个样本,/> yi表示数据集中第i个样本的硬标签,/>表示数据集中第i个样本的伪标签,
S1.1以交叉验证方式进行舌色分类模型的训练和样本伪标签的确定
本发明针对整个数据集进行噪声标注标签的识别,采用交叉验证的方法,计算第i个样本在第j个类别下的概率P[i][j]。经过循环估计处理,即可得到每个样本的预测标签概率矩阵。针对舌象数据集样本较少的特点,本发明采用较大的折数,使训练集的样本数量更多,这样更利于模型训练,保证结果更加准确。
针对舌象数据集样本较少、类别不均衡等特点,本发明设计了一种基于集成学习的深度分类网络模型用于交叉验证。模型以ResNet18为主干网络,并在其中加入了通道注意力机制和ACON激活函数,构建了“ResNet18+CA+ACON”网络结构,结构如图1所示。同时,采用模型集成的方式对网络进行训练,保证预测的标签更加准确和稳定。相比于其他网络模型,该网络解决了模型退化问题,在舌色分类问题上表现更优越;而且,ResNet18的参数规模较小,在小样本问题中不容易发生过拟合现象。
(1)通道注意力机制
注意力机制是聚焦于局部信息的机制,随着任务的变化,注意力区域往往会发生变化。本发明在ResNet18模型的最后一层加入通道注意力机制,它通过建模各个特征通道的重要程度,针对舌色分类任务增强或抑制不同的通道,以学习到不同通道的重要性。虽然增加了少量的计算量,但可以有效提升特征的表达能力,从而获得更优的分类性能。
(2)ACON激活函数
ACON激活函数可以自适应选择是否激活神经元,通过替换原网络的激活层,能在一定程度上提升分类精度。这种激活行为有助于提高网络的泛化能力和性能。考虑到舌图像的颜色特征主要包含在网络的浅层中,因此,本发明将网络第一层中的Relu激活函数替换成ACON激活函数。
(3)模型集成策略
集成学***均,作为标签的预测概率,如图1所示。
S1.2样本标签的联合概率分布估计
本发明将每个人工标定类别j下的平均概率tj,设定为置信度阈值,用公式(1)表示:
其中,表示硬标签为j时,样本x在模型参数为θ时的预测概率,|Xy=j|表示类别j的样本数量。
将软标签最大值大于置信度阈值的样本筛选出来,用公式(2)表示:
其中,l∈[m]表示任一类标签,k表示经过分类模型预测得到的伪标签。
根据每个样本硬标签和伪标签的关系,将上面筛选出来的样本进行划分并统计出来,构建计数矩阵。计数矩阵对角线处对应的是硬标签和伪标签一致的干净样本数目;非对角线处对应的是硬标签和伪标签不一致的噪声标注样本数目。计数矩阵用公式(3)表示:
对计数矩阵进行处理,首先将计数矩阵的计数总和比例扩充至原数据样本的总数,然后进行归一化计算,得到硬标签和伪标签的联合概率分布估计联合概率分布可以充分反映伪标签和硬标签之间的关联关系,重要的是呈现了噪声标注样本在所有样本中的分布情况,为后续样本清洗时提供依据。/>的计算公式如下:
其中|Xy=j|表示人工标注标签为j时的样本总个数。
为了更直观的表达计数矩阵和联合概率分布矩阵,通过一个具体的示例展现。如舌色分类问题共有4类,以0、1、2、3表示,假设样本数目为415个。经过预测概率等一系列计算后,满足样本软标签最大值大于置信度阈值的样本共有400个,这其中包含了大量的硬标签与伪标签一致的干净样本和少部分硬标签和伪标签不一致的不正确标签样本。得到的计数矩阵和联合概率分布矩阵如图2所示。
步骤2:噪声样本的筛选和校正
本发明利用伪标签和人工标注硬标签之间的联合概率分布,得到此数据集的噪声分布情况,提出了噪声样本筛选策略,可以将噪声样本识别出来。噪声样本包含不正确标签样本和不一致标签样本两种,本发明分别提出了2种策略,可以分别筛选出不正确标签样本和不一致标签样本。噪声样本筛选的整体框架如图3所示。
策略一:将硬标签与伪标签不一致的样本筛选出来,构成噪声样本集合 该策略可以将标注数据中的不正确标签样本和不一致标签样本同时筛选出来。经策略一清洗后的数据集表示为S',S'=S-N。
策略二:筛选出不正确标签样本。经过步骤1的计算和估计,可知联合概率分布中非对角单元的样本分布就是需要筛选出的不正确标签样本分布,因此,接下来将从原数据集中筛选出同等比例分布的样本数量。由于样本预测概率中对应硬标签类别的值越大,硬标签越有可能判定为伪标签;概率值越小,硬标签越不可能与伪标签一致,样本越可能是不正确标签样本。为此,本发明提出了一种不正确标签样本筛选策略,具体实现方式为:
在每个人工标注类别下,将样本按照该类别下的概率进行由低到高排序,选取该类别下联合概率分布中非对角单元的样本分布数目,即 个样本进行筛选。该策略可以对联合概率分布中的非对角单元样本,即不正确标签样本进行清洗,构成不正确标签样本集合E。经策略二清洗后的数据集表示为S″,S″=S-E。
从策略一筛选出的样本中去除策略二筛选出的样本,剩余的就是不一致标签样本,即不一致标签样本集合为U=S'-S″。
对于不正确标签的样本,则对其进行校正。即,将伪标签作为其标签,替换原有的标签。校正后的样本可以用于分类模型的训练。而对于不一致标签样本,则直接清除,不再用于分类模型的训练。在对噪声样本进行清洗后,则会得到干净的样本,用于训练舌色分类模型。
本发明提出了一种中医舌色噪声标注样本的自动识别和清洗方法,采用这种方法对标注样本数据进行处理,能够实现对噪声标注样本的自动筛选,提高了样本标注的一致性,从而可以提升分类模型的精度。相较于传统的人工手动清洗数据,不仅在节省人力物力的同时,提高了识别和清洗准确率,还提高了样本的利用率,方法具有很好的灵活度。
Claims (8)
1.一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:该方法包括如下步骤,
步骤1:估计样本标签的联合概率分布;
步骤1.1以交叉验证方式进行舌色分类模型的训练和样本伪标签的确定;
以ResNet18作为主干网络,将通道注意力机制、ACON激活函数应用到网络中,构建一个分类网络模型;将标注过的舌色样本数据划成训练集和测试集,训练集用于训练该分类网络模型,训练出来的模型用于确定测试集各个样本的伪标签;采用集成学习策略,对多个分类网络模型进行集成,提升预测的鲁棒性和稳定性;利用集成网络模型进行交叉验证,直到所有样本均被预测且只被预测过一次;经过循环估计处理,得到每个样本标签的预测概率,形成概率矩阵;
步骤1.2样本标签的联合概率分布估计;
首先,将噪声样本从所有样本中筛选出来;将伪标签与硬标签不一致的,作为噪声样本;根据样本标签的预测概率,将最大概率对应的类别作为样本的伪标签;判断伪标签与硬标签是否一致,将不一致的样本判别为噪声样本;
噪声样本包含不正确标签样本和不一致标签样本两种;不一致标签样本指的是由于本身包含了不同类别的信息,导致类别的界限模糊的样本;将区分不正确标签样本和不一致标签样本;通过分析样本标签的概率分布情况发现,不一致标签样本软标签的最大值普遍偏低,且与次大值之间的差值比较小;而干净样本和不正确标签样本的软标签最大值普遍比较高;设定置信度阈值,若样本软标签中的最大值大于预设的置信度阈值,且样本的伪标签与硬标签不一致,则将样本判别为不正确标签样本;将不正确标签样本从噪声样本中区分出来;
最后构建计数矩阵,通过一系列的计算,得到样本的伪标签和硬标签的联合概率分布;联合概率分布充分反映伪标签和人工标注硬标签之间的关联关系,呈现除不一致标签样本外的样本数目分布情况,为后续样本清洗时提供依据;
步骤2:噪声样本的筛选和校正
利用样本标签的联合概率分布,分别提出了两种噪声样本筛选策略,策略一用于将噪声样本识别出来,策略二用于将不正确标签样本区分出来;
对于不正确标签样本,将其标签校正为伪标签,用于分类模型的训练;而对于不一致标签样本,则不再用于分类模型的训练,直接清除;在对噪声样本进行清洗后,会得到干净的样本,用于训练舌色分类模型。
2.根据权利要求1所述的一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:步骤1中,假设含有噪声样本的专家标注标签为硬标签y,通过舌色分类模型预测得到伪标签y*;设样本总数为n,类标签集合为{1,2,...,m},记作[m];设样本集合为表示硬标签为j,伪标签为k的样本集合,其中j,k∈[m];
设原始数据集为其中xi表示数据集中第i个样本,xi∈/>yi表示数据集中第i个样本的硬标签,/>表示数据集中第i个样本的伪标签,/>
3.根据权利要求2所述的一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:针对整个数据集进行噪声标注标签的识别,采用交叉验证的方法,计算第i个样本在第j个类别下的概率P[i][j];经过循环估计处理,即可得到每个样本的预测标签概率矩阵;
以ResNet18为主干网络,并在其中加入了通道注意力机制和ACON激活函数,构建“ResNet18+CA+ACON”网络结构,采用模型集成的方式对网络进行训练,保证预测的标签更加准确和稳定。
4.根据权利要求3所述的一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:注意力机制是聚焦于局部信息的机制,随着任务的变化,注意力区域往往会发生变化;在ResNet18模型的最后一层加入通道注意力机制,它通过建模各个特征通道的重要程度,针对舌色分类任务增强或抑制不同的通道,以学习到不同通道的重要性;虽然增加了少量的计算量,但可以有效提升特征的表达能力,从而获得更优的分类性能。
5.根据权利要求3所述的一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:ACON激活函数可以自适应选择是否激活神经元,通过替换原网络的激活层,能在一定程度上提升分类精度;这种激活行为有助于提高网络的泛化能力和性能;考虑到舌图像的颜色特征包含在网络的浅层中,将网络第一层中的Relu激活函数替换成ACON激活函数。
6.根据权利要求3所述的一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:采用10个模型集成的方式,将多个模型的预测概率求平均,作为标签的预测概率;
将每个人工标定类别j下的平均概率tj,设定为置信度阈值,用公式(1)表示:
其中,表示硬标签为j时,样本x在模型参数为θ时的预测概率,|Xy=j|表示类别j的样本数量;
将软标签最大值大于置信度阈值的样本筛选出来,用公式(2)表示:
其中,l∈[m]表示任一类标签,k表示经过分类模型预测得到的伪标签;
根据每个样本硬标签和伪标签的关系,将上面筛选出来的样本进行划分并统计出来,构建计数矩阵;计数矩阵对角线处对应的是硬标签和伪标签一致的干净样本数目;非对角线处对应的是硬标签和伪标签不一致的噪声标注样本数目;计数矩阵用公式(3)表示:
对计数矩阵进行处理,首先将计数矩阵的计数总和比例扩充至原数据样本的总数,然后进行归一化计算,得到硬标签和伪标签的联合概率分布估计联合概率分布充分反映伪标签和硬标签之间的关联关系,重要的是呈现了噪声标注样本在所有样本中的分布情况,为后续样本清洗时提供依据;/>的计算公式如下:
其中|Xy=j|表示人工标注标签为j时的样本总个数;
为了更直观的表达计数矩阵和联合概率分布矩阵,通过一个具体的示例展现;如舌色分类问题共有4类,以0、1、2、3表示,假设样本数目为415个;经过预测概率一系列计算后,满足样本软标签最大值大于置信度阈值的样本共有400个,包含硬标签与伪标签一致的干净样本和少部分硬标签和伪标签不一致的不正确标签样本;得到的计数矩阵和联合概率分布矩阵。
7.根据权利要求1所述的一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:利用伪标签和人工标注硬标签之间的联合概率分布,得到此数据集的噪声分布情况,提出了噪声样本筛选策略,将噪声样本识别出来;噪声样本包含不正确标签样本和不一致标签样本两种,分别提出了2种策略,分别筛选出不正确标签样本和不一致标签样本;
策略一:将硬标签与伪标签不一致的样本筛选出来,构成噪声样本集合 将标注数据中的不正确标签样本和不一致标签样本同时筛选出来;经策略一清洗后的数据集表示为S′,S′=S-N;
策略二:筛选出不正确标签样本;经过步骤1的计算和估计,可知联合概率分布中非对角单元的样本分布就是需要筛选出的不正确标签样本分布,将从原数据集中筛选出同等比例分布的样本数量;选择不正确标签样本筛选策略进行处理。
8.根据权利要求7所述的一种中医舌色噪声标注样本的自动识别与清洗方法,其特征在于:不正确标签样本筛选策略中,在每个人工标注类别下,将样本按照该类别下的概率进行由低到高排序,选取该类别下联合概率分布中非对角单元的样本分布数目,即个样本进行筛选;该策略可以对联合概率分布中的非对角单元样本,即不正确标签样本进行清洗,构成不正确标签样本集合E;经策略二清洗后的数据集表示为S″,S″=S-E;
从策略一筛选出的样本中去除策略二筛选出的样本,剩余的就是不一致标签样本,即不一致标签样本集合为U=S′-S″;
对于不正确标签的样本,则对其进行校正;即,将伪标签作为其标签,替换原有的标签;校正后的样本用于分类模型的训练;对于不一致标签样本,直接清除,不再用于分类模型的训练;在对噪声样本进行清洗后,则会得到干净样本,用于训练舌色分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111316442.3A CN114037011B (zh) | 2021-11-08 | 2021-11-08 | 一种中医舌色噪声标注样本的自动识别与清洗方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111316442.3A CN114037011B (zh) | 2021-11-08 | 2021-11-08 | 一种中医舌色噪声标注样本的自动识别与清洗方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114037011A CN114037011A (zh) | 2022-02-11 |
CN114037011B true CN114037011B (zh) | 2024-05-28 |
Family
ID=80136853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111316442.3A Active CN114037011B (zh) | 2021-11-08 | 2021-11-08 | 一种中医舌色噪声标注样本的自动识别与清洗方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037011B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163376B (zh) * | 2018-06-04 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 样本检测方法、媒体对象的识别方法、装置、终端及介质 |
CN115511012B (zh) * | 2022-11-22 | 2023-04-07 | 南京码极客科技有限公司 | 一种最大熵约束的类别软标签识别训练方法 |
CN116824275B (zh) * | 2023-08-29 | 2023-11-17 | 青岛美迪康数字工程有限公司 | 一种实现智能模型优化的方法、装置和计算机设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194937A (zh) * | 2017-05-27 | 2017-09-22 | 厦门大学 | 一种开放环境下中医舌象图像分割方法 |
CN108537259A (zh) * | 2018-03-27 | 2018-09-14 | 北京交通大学 | 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法 |
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN113408605A (zh) * | 2021-06-16 | 2021-09-17 | 西安电子科技大学 | 基于小样本学习的高光谱图像半监督分类方法 |
-
2021
- 2021-11-08 CN CN202111316442.3A patent/CN114037011B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194937A (zh) * | 2017-05-27 | 2017-09-22 | 厦门大学 | 一种开放环境下中医舌象图像分割方法 |
CN108537259A (zh) * | 2018-03-27 | 2018-09-14 | 北京交通大学 | 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法 |
CN111967294A (zh) * | 2020-06-23 | 2020-11-20 | 南昌大学 | 一种无监督域自适应的行人重识别方法 |
CN113408605A (zh) * | 2021-06-16 | 2021-09-17 | 西安电子科技大学 | 基于小样本学习的高光谱图像半监督分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114037011A (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114037011B (zh) | 一种中医舌色噪声标注样本的自动识别与清洗方法 | |
CN110992382B (zh) | 用于辅助青光眼筛查的眼底图像视杯视盘分割方法及*** | |
CN110021425B (zh) | 一种比较检测器及其构建方法与***细胞检测方法 | |
CN111985536A (zh) | 一种基于弱监督学习的胃镜病理图像分类方法 | |
CN111079620B (zh) | 基于迁移学习的白细胞图像检测识别模型构建方法及应用 | |
CN112733961A (zh) | 基于注意力机制的糖尿病视网膜病变的分类方法及*** | |
CN112201330B (zh) | 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法 | |
CN112819821B (zh) | 一种细胞核图像检测方法 | |
CN114549469A (zh) | 一种基于置信度校准的深层神经网络医疗图像诊断方法 | |
CN110781953B (zh) | 基于多尺度金字塔卷积神经网络的肺癌病理切片分类方法 | |
CN115994907B (zh) | 用于食品检测机构综合信息的智能处理***及方法 | |
CN113298780B (zh) | 一种基于深度学习的儿童骨龄评估方法及*** | |
CN113610118A (zh) | 一种基于多任务课程式学习的眼底图像分类方法、装置、设备及介质 | |
CN113657449A (zh) | 一种含噪标注数据的中医舌象腐腻分类方法 | |
CN111833321A (zh) | 一种调窗优化增强的颅内出血检测模型及其构建方法 | |
CN117315380B (zh) | 一种基于深度学习的肺炎ct图像分类方法及*** | |
CN117315379B (zh) | 面向深度学***性评估方法及装置 | |
CN114580501A (zh) | 骨髓细胞分类方法、***、计算机设备及存储介质 | |
CN111046978A (zh) | 一种基于StyleGANs和决策融合的皮肤镜图像识别方法 | |
CN114140437A (zh) | 一种基于深度学习的眼底硬渗出物分割方法 | |
CN114098779A (zh) | 尘肺病等级智能判别方法 | |
CN117010971B (zh) | 一种基于人像识别的智能健康险提供方法及*** | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN113052227A (zh) | 一种基于SE-ResNet的肺结核识别方法 | |
CN117557840A (zh) | 一种基于小样本学习的眼底病变分级方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |