CN115272797A - 分类器的训练方法、使用方法、装置、设备及存储介质 - Google Patents
分类器的训练方法、使用方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115272797A CN115272797A CN202210907508.4A CN202210907508A CN115272797A CN 115272797 A CN115272797 A CN 115272797A CN 202210907508 A CN202210907508 A CN 202210907508A CN 115272797 A CN115272797 A CN 115272797A
- Authority
- CN
- China
- Prior art keywords
- sample
- multimedia
- classifier
- uncertainty
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种分类器的训练方法、使用方法、装置、设备及存储介质,属于人工智能领域。该方法包括:获取训练集中的多个多媒体样本和所述多个多媒体样本的标签;将所述多个多媒体样本多轮迭代输入所述分类器,得到多轮预测结果;针对所述多个多媒体样本中的第一多媒体样本,基于所述第一多媒体样本经过多轮迭代得到的多轮预测结果和所述第一多媒体样本的标签,生成第一不确定度,所述第一不确定度用于衡量所述分类器准确预测所述第一多媒体样本的难易程度;基于所述多个多媒体样本、所述多个多媒体样本的标签以及所述多个多媒体样本的不确定度,训练所述分类器。上述方法提高了训练得到的分类器的泛化能力。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种分类器的训练方法、使用方法、装置、设备及存储介质。
背景技术
在医疗领域,经常使用分类器对病理图像进行分类,以辅助医生诊断疾病。
在分类器的训练过程中,需要使用不同医疗中心提供的训练样本,不同医疗中心提供的训练样本构成不同的样本子群,不同的样本子群具有较大差异。例如,大型的三甲医院提供的样本质量较优且数据规模较大,社区医院提供的样本质量较差且数据规模较小。然而,直接使用训练集中的所有样本进行训练,未公平地考虑所有样本子群,分类器可能从规模较大的样本子群中学习到虚假的相关性,而这种相关性并非存在于所有样本子群中。
相关技术中,为保证分类器对所有子群的公平性,往往根据子群分布赋予样本权重,例如,对规模较大的子群内的样本赋予同一较小权重,对规模较小的子群内的样本赋予同一较大权重,以平衡所有子群对分类器的性能影响。
然而,相关技术中仍存在子群分布的概念,在训练分类器时需根据子群分布赋予样本权重。但是,分类器的训练集和测试集中的子群分布并不一定相同,训练集中规模较大的子群在测试集中的规模可能较小。相关技术并无法适用于任意子群分布的测试集中,相关技术训练得到的分类器在训练集与测试集的子群分布差距较大的情况下,预测的准确率较低,也即分类器的泛化性能较差。
发明内容
本申请提供了一种分类器的训练方法、使用方法、装置、设备及存储介质,能够提高训练得到的分类器的泛化能力。所述技术方案如下:
根据本申请的一个方面,提供了一种分类器的训练方法,所述方法包括:
获取训练集中的多个多媒体样本和多个多媒体样本的标签;
将多个多媒体样本多轮迭代输入分类器,得到多轮预测结果;
针对多个多媒体样本中的第一多媒体样本,基于第一多媒体样本经过多轮迭代得到的多轮预测结果和第一多媒体样本的标签,生成第一不确定度,第一不确定度用于衡量分类器准确预测第一多媒体样本的难易程度;
基于多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器。
根据本申请的另一方面,提供了一种分类器的使用方法,所述分类器是由上述提供的训练方法训练得到的,所述方法包括:
获取待分类的病理图像;
将病理图像输入分类器;
通过分类器预测得到病理图像的分类结果。
根据本申请的一个方面,提供了一种分类器的训练装置,所述装置包括:
获取模块,用于获取训练集中的多个多媒体样本和多个多媒体样本的标签;
输入模块,用于将多个多媒体样本多轮迭代输入分类器,得到多轮预测结果;
生成模块,用于针对多个多媒体样本中的第一多媒体样本,基于第一多媒体样本经过多轮迭代得到的多轮预测结果和第一多媒体样本的标签,生成第一不确定度,第一不确定度用于衡量分类器准确预测第一多媒体样本的难易程度;
训练模块,用于基于多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器。
根据本申请的一个方面,提供了一种分类器的使用装置,所述分类器是由上述训练装置训练得到的,所述使用装置包括:
获取模块,用于获取待分类的病理图像;
输入模块,用于将病理图像输入分类器;
预测模块,用于通过分类器预测得到病理图像的分类结果。
根据本申请的一个方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如上所述的分类器的训练方法或分类器的使用方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如上所述的分类器的训练方法或分类器的使用方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述分类器的训练方法或分类器的使用方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过在训练分类器时先计算多媒体样本的不确定度,再根据多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器,去除了训练集中的样本子群的概念,针对每个样本均重新计算了不确定度,根据不确定度平衡了每个样本对分类器的性能影响,进而提高了分类器的泛化能力。
例如,训练集中存在较多的来自三甲医院的质量较优(不确定度低)的样本数据和较少的来自社区医院的质量较差(不确定度高)的样本数据,通过赋予质量较优规模较大的样本子群内的样本数据较小的权重,质量较差规模较小的样本子群内的样本数据较大的权重,平衡了各个样本数据对分类器的性能影响。训练得到的分类器并不需要再考虑使用阶段时的样本子群的分布(使用阶段时分类器可能会更多应用于医疗水平较差的社区医院)。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的计算机***的示意图;
图2是本申请一个示例性实施例提供的分类器的训练方法的流程图;
图3是本申请一个示例性实施例提供的原理示意图;
图4是本申请一个示例性实施例提供的第一不确定度的计算方式的流程图;
图5是本申请一个示例性实施例提供的第一不确定度的计算方式的流程图;
图6是本申请一个示例性实施例提供的分类器的训练方法的流程图;
图7是本申请一个示例性实施例提供的分类器的训练方法的流程图;
图8是本申请一个示例性实施例提供的分类器的训练装置的结构框图;
图9是本申请一个示例性实施例提供的分类器的使用装置的结构框图;
图10是本申请一个示例性实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
经验风险最小化(Empirical Risk Minimization,ERM):是目前大多数模型优化都遵循的一个原则,即通过最小化已知的经验数据(训练样本)训练得到的学习器的误差或风险(也叫作“经验误差”或“训练误差”)来优化模型。相对的,在新样本(未知样本)上的误差称为“泛化误差”。显然,学习器的“泛化误差”越小,学习器预测新样本的准确率越高。在事先不知道新样本的特征的情况下,实际上能做的是尽量减小学习器的“经验误差”。但是,过分的减小“经验误差”,可能会在新样本上产生过拟合现象。
在相关技术中,通过ERM方式优化模型并未公平地考虑所有样本子群的数据,使得模型在某些样本子群的性能较差。例如,模型可能会在大多数子群中学***性。
在相关技术中,为解决ERM未考虑到不同子群对模型带来的性能差异的问题,提供了一种基于子群信息重加权的优化方式(Update Weight,UW)。UW需要在训练模型的过程中明确地知道样本各自归属于哪个样本子群,并且根据分布统计值进行重加权(如将子群样本的频率取倒数作为每个子群中样本的权重)。然而,在真实的训练场景中,有可能只是获取了一批混合数据组成的训练集,却无从得知具体每个样本归属于哪个子群。除此以外,在训练集中各子群的分布频率和测试集中各子群的分布频率并不一定会完全一致,这就使得基于训练集中子群分布统计直接应用于测试集具有局限性。另外,UW方式将属于同一子群的样本赋予同样的权重,而未特异性地针对每个样本的特征情况来赋予每个样本合理的权重。而基于分布统计值强加的权重也带来了模型偏见,UW方式也使得模型产生了较为严重的过拟合,降低了模型在测试集中的泛化能力。
基于上述相关技术,本申请提供了一种模型的训练方法,可以克服相关技术的缺点,在不需要获取子群分布信息的情况下,平等地提升模型在所有子群中的性能,进而提升模型在测试集上的泛化能力。
本申请提供的分类器的训练方法可以适用于不同多媒体类型的样本,多媒体类型可以包括图像、文本、音频等。例如,在用于优化图像类型的样本对应的分类器时,训练集包括大量的在湖面上飞翔的水鸟、少量的在陆地上站立的水鸟,而测试集中可能存在更多的水鸟处于陆地上的图像。又例如,训练集中存在较多的毛发旺盛的人像,较少的毛发稀疏的人像,而测试集中可能存在更多的毛发稀疏的人像。
再例如,在用于优化文本类型的样本对应的分类器时,训练集包括较多的注册时长较长的帐号发布的恶意评论,较少的注册时长较短的帐号发布的恶意评论,然而,测试集中可能存在更多的注册时长较短的帐号发布的恶意评论。
还例如,在用于优化音频类型的样本对应的分类器时,训练集包括较多的时长长且质量高的客服与顾客之间沟通的音频文件,较少的时长短且质量差的客服与顾客之间沟通的音频文件,然而,分类器可能更多地应用于服务时长短但服务质量优的客服与顾客之间沟通的音频文件。
上述已说明了,本申请所适用的多媒体子群的具体情况,接下来将介绍本申请提供的分类器所处的计算机***。
图1示出了本申请一个示例性实施例提供的计算机***100的示意图,计算机***100包括分类器的训练设备101和分类器的使用设备102,训练设备101和使用设备102分别用于训练分类器和使用分类器。训练设备101将训练好后的分类器发送至使用设备102,使用设备102通过分类器对多媒体(图像、文本、音频等)进行预测。
其中,分类器的训练设备101和分类器的使用设备102可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是终端或服务器。
可选的,上述训练设备101和使用设备102可以是同一个计算机设备,或者,训练设备101和使用设备102也可以是不同的计算机设备。并且,当训练设备101和使用设备102是不同的设备时,训练设备101和使用设备102可以是同一类型的设备,比如训练设备101和使用设备102可以都是服务器;或者,训练设备101和使用设备102也可以是不同类型的设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
图2示出了本申请一个示例性实施例提供的分类器的训练方法的流程图。以该方法由图1所示的训练设备101执行进行举例说明,该方法包括:
步骤220,获取训练集中的多个多媒体样本和多个多媒体样本的标签;
训练集中包括用于训练分类器的多个多媒体样本,多媒体样本可以是样本图像、样本文本、样本音频中的任意一种。多媒体样本的标签与分类器的分类作用相关联,例如,分类器用于预测病理图像对应的疾病,则标签为已获知的病理图像对应的疾病类型。例如,分类器用于预测图像的种类(人像、风景图像),则标签为已获知的图像的类型。
分类器为AI模型,用于对多媒体样本进行二分类或更多类别的分类。在多媒体样本为样本图像时,分类器可以是ResNet(一种神经网络)、DenseNet(一种神经网络)等模型;在多媒体样本为样本文本或样本音频时,分类器可以是Transformer(变换)模型。
步骤240,将多个多媒体样本多轮迭代输入分类器,得到多轮预测结果;
在一个实施例中,将多个多媒体样本输入分类器指在一个epoch(时期)中将所有样本输入分类器。多轮迭代即进行多次Iteration(迭代)。可选的,一个epoch的多媒体样本中还可拆分为多个batch(批次)的多媒体样本,将多个batch对应的多媒体样本分批次输入分类器。在本申请中,由于训练方式并不涉及在batch层次上的优化,因此在本申请中可以理解为一次将所有训练样本输入分类器,即构成一轮迭代过程,在一轮迭代过程中分类器的模型参数保持不变,当进行下一轮迭代时,分类器的模型参数发生变化。
在一个实施例中,多轮预测结果指多个多媒体样本在每轮迭代过程对应的多个预测结果,共进行了多轮迭代。
步骤260,针对多个多媒体样本中的第一多媒体样本,基于第一多媒体样本经过多轮迭代得到的多轮预测结果和第一多媒体样本的标签,生成第一不确定度;
第一不确定度,用于衡量分类器准确预测第一多媒体样本的难易程度。当多轮迭代过程中第一多媒体样本的预测结果与第一多媒体样本的标签一致的情况占比较大时,则认为分类器较容易准确预测第一多媒体样本,第一多媒体样本的不确定度较小。当多轮迭代过程中第一多媒体样本的预测结果与第一多媒体样本的标签一致的情况占比较小时,则认为分类器较难准确预测第一多媒体样本,第一多媒体样本的不确定度较大。第一多媒体样本为多个多媒体样本中的任意一个。
步骤280,基于多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器。
根据上述方式即可计算得到所有多媒体样本的不确定度,再根据多个多媒体样本、多个多媒体样本的标签和多个多媒体样本的不确定度,即可对分类器进行训练。
在一个实施例中,针对多个多媒体样本中的第一多媒体样本:将第一多媒体样本的特征输入分类器,得到第一多媒体样本的预测结果;基于第一多媒体样本的不确定度,构建得到第一多媒体样本的损失函数;基于第一多媒体样本的特征和标签,得到第一多媒体样本的损失函数值;基于第一多媒体样本的损失函数值,训练分类器。
在另一个实施例中,针对多个多媒体样本中的任意两个多媒体样本:基于任意两个多媒体样本构建出虚拟样本,虚拟样本的特征和标签是通过两个多媒体样本的特征和标签分别插值得到的。基于两个多媒体样本的不确定度,构建得到虚拟样本的损失函数;基于虚拟样本的特征和标签,得到虚拟样本的损失函数值;基于虚拟样本的损失函数值,训练分类器。可选的,第一多媒体样本的不确定度作为第一多媒体样本的权重参与构建损失函数。
综上所述,通过在训练分类器时先计算多媒体样本的不确定度,再根据多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器,去除了训练集中的样本子群的概念,针对每个样本均重新计算了不确定度,根据不确定度平衡了每个样本对分类器的性能影响,进而提高了分类器的泛化能力。
例如,训练集中存在较多的来自三甲医院的质量较优(不确定度低)的样本数据和较少的来自社区医院的质量较差(不确定度高)的样本数据,通过赋予质量较优规模较大的样本子群内的样本数据较小的权重,质量较差规模较小的样本子群内的样本数据较大的权重,平衡了各个样本数据对分类器的性能影响。训练得到的分类器并不需要再考虑使用阶段时的样本子群的分布(使用阶段时分类器可能会更多使用于医疗水平较差的社区医院)。
图3示出了本申请一个示例性实施例提供的原理示意图。
首先,将M个多媒体样本的特征和标签310以N轮迭代的方式输入分类器320,得到M个多媒体样本的不确定度330。可选的,针对M个多媒体样本中的第一多媒体样本,基于第一多媒体样本的特征和标签通过N轮迭代得到方式输入分类器320,得到第一多媒体样本的不确定度。M、N为正整数。
然后,根据M个多媒体样本的特征和标签310和M个多媒体样本的不确定度330,训练分类器320。
可选的,针对M个多媒体样本中的第一多媒体样本,基于第一多媒体样本的特征、标签和不确定度,得到第一多媒体样本对应的损失函数值,根据第一多媒体样本的损失函数值训练分类器320。
可选的,针对M个多媒体样本中的第一多媒体样本和第二多媒体样本,构造得到虚拟样本,通过对第一多媒体样本和第二多媒体样本的特征进行插值,得到虚拟样本的特征;通过对第一多媒体样本和第二多媒体样本的标签进行插值,得到虚拟样本的标签;通过对第一多媒体样本和第二多媒体样本的不确定度进行插值,得到虚拟样本的不确定度;基于虚拟样本的特征、标签和不确定度训练分类器320。可选的,针对M个多媒体样本中的第一多媒体样本和第二多媒体样本,构建得到交叉熵损失函数。
基于图2所示的可选实施例,图2中的步骤260“基于第一多媒体样本经过多轮迭代得到的多轮预测结果和第一多媒体样本的标签,生成第一不确定度”,可被替换为:基于第一多媒体样本经过多轮迭代得到的多个预测结果、第一多媒体样本的标签,以及分类器的模型参数在多轮迭代过程中的变化情况,生成第一不确定度。
针对第一不确定度的第一种可能的计算方式,图4示出了本申请一个示例性实施例提供的计算方式的流程图,该计算方式包括:
步骤420,基于第一多媒体样本的预测结果和第一多媒体样本的标签,构建第一子函数;
其中,第一子函数满足:在第一多媒体样本的预测结果与第一多媒体样本的标签一致的情况下输出第一取值,在第一多媒体样本的预测结果与第一多媒体样本的标签不一致的情况下输出第二取值。可选的,第一取值为0,第二取值为1。
步骤440,基于分类器的模型参数在多轮迭代过程中的变化情况,构建第二子函数;
步骤460,将第一子函数和第二子函数的乘积在模型参数维度上进行积分运算,生成第一不确定度。
示例性的,针对同一个训练集中的每个多媒体样本,计算各自的不确定度。通过贝叶斯采样获取每个多媒体样本的不确定度,公式如下:
ui=∫κ(yi,fθ(xi))p(θ;D)dθ;(1)
其中,θ为分类器的模型参数,fθ(xi)为分类器针对多媒体样本xi的预测结果,D为训练集,p(θ;D)为分类器的模型参数的变化情况,yi为多媒体样本xi的标签,ui为多媒体样本xi的不确定度。当yi=fθ(xi)时,κ(yi,fθ(xi))值为0,当yi≠fθ(xi)时,κ(yi,fθ(xi))值为1。
需要说明的是,上述第一种可能的计算方式为理想化下的不确定度的计算公式,实际上公式(1)的积分运算在现阶段的数学水平上无法进行,因此可采用下述第二种可能的计算方式。
针对第一不确定度的第二种可能的计算方式,图5示出了本申请一个示例性实施例提供的计算方式的流程图,该计算方式包括:
步骤520,从第一多媒体样本的多轮迭代过程中连续采样出T轮迭代过程;
步骤540,针对T轮迭代过程中的第t轮迭代,基于第一多媒体样本经过第t轮迭代的预测结果以及第一多媒体样本的标签,生成第t判断结果;
其中,第t判断结果满足:在第一多媒体样本的预测结果与第一多媒体样本的标签一致的情况下输出为第一取值,第一多媒体样本的预测结果与第一多媒体样本的标签不一致的情况下输出为第二取值;第t轮迭代为T轮迭代过程中的任意一轮;可选的,第一取值为0,第二取值为1。
步骤560,将T轮迭代过程的全部判断结果进行累加后求平均值,生成第一不确定度。
示例性的,采用蒙特卡洛采样对上述公式(1)进行估计,每个多媒体样本的不确定度的计算公式如下:
其中,T表示在多轮迭代过程中的采样得到的T轮连续迭代,例如,T轮迭代过程为多轮迭代过程的处于中间迭代轮次的T轮连续迭代,T轮迭代过程用于表征第一多媒体样本的训练轨迹。当时,值为0,当时,值为1。表示第t轮迭代时分类器针对多媒体样本xi的预测结果。
θt表示在进行第t轮迭代时分类器更新后的模型参数,在进行第t轮迭代时,需先更新已有的模型参数θ,公式(3)用于求取当多个多媒体样本的损失值的期望取最小值时,分类器对应的模型参数。E[]表示求期望操作。公式(3)用于表征上述公式(1)中的p(θ;D)成分,即,公式(3)用于表征分类器的模型参数在多轮迭代过程中的变化情况。
综上所述,上述提供了两种不确定度的计算方式,更具有实际计算意义的为第二种不确定度的计算方式。对于每一多媒体样本,在多轮迭代过程中(训练轨迹),其不确定度是相对固定的,通过计算多轮迭代过程中其预测结果与标签是否一致的概率,即可得到该多媒体样本的不确定度,通过不确定度即可更新该多媒体样本对分类器的性能影响的权重。
上述方式具体提供了计算不确定度的方式,保证了本申请提供的分类器的训练方法可以实现。
基于图2所示的可选实施例,步骤280“基于多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器”,可能在采用Mixup数据增强方式的基础上,构建出虚拟训练集,虚拟训练集是由多个多媒体样本构建得到的。再通过虚拟训练集中的虚拟样本、虚拟样本的虚拟标签、以及多媒体样本的不确定度,训练分类器。
在一个实施例中,步骤280可被替换为:
步骤620,针对多个多媒体样本中的第i多媒体样本和第j多媒体样本,通过对赋予权重λ后的第i多媒体样本和赋予权重1-λ后的第j多媒体样本进行求和,生成第k虚拟样本;以及,通过对第i多媒体样本的赋予权重λ后的标签和第j多媒体样本的赋予权重1-λ后的标签进行求和,生成第k虚拟样本的虚拟标签;
其中,第i多媒体样本和第j多媒体样本为多个多媒体样本中的任意两个多媒体样本;多个多媒体样本生成的多个虚拟样本构建得到虚拟训练集,λ不小于0且不大于1。
步骤640,针对虚拟训练集中的第k虚拟样本,将第k虚拟样本输入分类器,得到第k虚拟预测结果;
步骤660,基于第k虚拟预测结果、第k虚拟样本的虚拟标签、第i多媒体样本的第i不确定度以及第j多媒体样本的第j不确定度,得到第k虚拟样本对应的虚拟损失值;
可选的,基于第i不确定度,生成第i权重;以及,基于第j不确定度,生成第j权重;基于第k虚拟预测结果、第i多媒体样本的标签、权重λ和第i权重,生成第i子损失;基于第k虚拟预测结果、第j多媒体样本的标签、权重1-λ和第j权重,生成第j子损失;将第i子损失和第j子损失进行求和,得到第k虚拟样本对应的虚拟损失值。
步骤680,基于虚拟训练集中的多个虚拟样本对应的多个虚拟损失值,训练分类器。
示例性的,Mixup数据增强的过程包括:采样获取任意两个多媒体样本,并对任意两个多媒体样本的特征和标签进行线性插值,构造虚拟训练集和虚拟标签集。任意两个多媒体样本的特征和标签的插值组合表示如下式:
其中,表示虚拟样本的特征,表示虚拟样本对应的虚拟标签,(xi,yi)表示第i虚拟样本的特征和标签,(xj,yj)表示第j虚拟样本的特征和标签,λ的范围为[0,1]。因此,Mixup数据增强后的分类器的损失值表示为:
E[]表示计算虚拟训练集中所有虚拟样本的虚拟损失值的期望的操作。
当使用交叉熵损失时,则公式(5)可变换为下述公式:
基于上述步骤260,即可获取全部多媒体样本的不确定度,通过下述公式将多媒体样本的不确定度变换为权重:
wi=γui+1;(7)
其中,γ为权重更新中的超参数,用于控制不确定度变换至权重的尺度,ui为计算得到的不确定度,wi为生成的权重。需要说明的是,对不确定度较低的样本(质量较优的样本)将赋予更小的权重,对不确定度较高的样本(质量较差的样本)赋予更大的权重,才可以保证训练集中所有多媒体样本的公平性。
根据第i虚拟样本对应的第i权重和第j虚拟样本对应的第j权重,上述公式(6)可变化为:
通过公式(8)计算得到的损失值,训练分类器。
综上所述,通过构建虚拟训练集,进而构建出交叉熵损失函数,交叉熵损失函数考虑到任意两个多媒体样本之间的差异,通过两个多媒体样本之间的差异训练分类器去除了相关技术中的样本子群的概念,将两个样本子群之间的差异更正为任意两个样本之间的差异,进而解决了不同样本子群对分类器的性能造成不平等的影响的问题。
上述还提供了具体利用不确定度构造损失函数的方式,保证了本申请提供的分类器的训练方法可以实现。
接下来将对比本申请提供的训练方法训练得到的分类器、ERM方式训练得到的分类器和UW方式训练得到的分类器,通过对比三者的泛化能力,说明本申请训练得到的分类器的有益效果。
首先介绍用于对比实验的四种测试数据集。
Waterbird:预测任务为区分鸟类是水鸟还是陆鸟,该数据集基于背景(陆地/水面)和鸟类型(水鸟/陆鸟)可划分为4种子群。
Celeba:预测任务为区分图像中人物的毛发是否旺盛,该数据集可划分为2种子群。
CivilComments:预测任务为区分网上评论是恶意的还是非恶意的,该数据集基于评论帐号对应的性别以及标签,可以划分为4种子群。
Camelyon17:预测任务为病理图片中是否包含肿瘤组织,基于数据来源的医疗中心,可以划分为5种子群。
需要说明的是,在本申请中子群的划分与预测结果的准确性并不存在关系,例如,根据水鸟和陆鸟可划分为两个子群、根据背景(陆地/水面)可再划分出两个子群,而不同背景(陆地/水面)的子群规模与鸟的种类并不存在必然关系,不可将数量较少的位于陆地上的水鸟错认为不是水鸟,实际上本申请训练得到的分类器避免了学习到数量较多的子群内样本的虚假的相关性,避免分类器更倾向于将处于水面上的鸟归类为水鸟,更倾向于将处于陆地上的鸟归类为不是水鸟。
需要说明的是,本申请所涉及的数据(包括但不限于训练集和测试集中的数据等),均为经用户授权或者经过各方充分授权(开源的数据集)的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的训练集中的多媒体样本,测试集中的数据均为经过各方充分授权下使用的。
通过ERM方式训练得到的分类器、UW方式训练得到的分类器、本申请提供的训练方法训练得到的分类器在上述四种测试数据集的表现效果如表1所示:
表1
其中,Avg表示该测试集下的所有数据的平均预测准确率,Worst表示该测试集下表现最差子群的预测准确率。由表1可以看出,本申请提供的训练方法训练得到的分类器相比较于其他两者,在所有数据的平均预测准确率(Avg)维度和表现最差子群的预测准确率(Worst)维度上,均取得了较优的预测准确率。其中,Camelyon17数据集用于测试分类器在未知医疗中心的泛化能力,所以在已知域上的UW优化方式不适用于该数据集。
以分类器为医疗领域中用于分类病理图像的模型为例,介绍分类器的训练方法。以该方法由图1所示的训练设备101执行进行举例说明,该方法包括:
在一个实施例中,获取训练集中的多个样本病理图像和多个样本病理图像的标签;将多个样本病理图像多轮迭代输入分类器,得到多轮预测结果;针对多个样本病理图像中的第一样本病理图像,基于第一样本病理图像经过多轮迭代得到的多轮预测结果和第一样本病理图像的标签,生成第一不确定度,第一不确定度用于衡量分类器准确预测第一样本病理图像的难易程度;基于多个样本病理图像、多个样本病理图像的标签以及多个样本病理图像的不确定度,训练分类器。
在一个实施例中,基于第一样本病理图像经过多轮迭代得到的多个预测结果、第一样本病理图像的标签,以及分类器的模型参数在多轮迭代过程中的变化情况,生成第一不确定度。
在一个实施例中,基于第一样本病理图像的预测结果和第一样本病理图像的标签,构建第一子函数;第一子函数满足:在第一样本病理图像的预测结果与第一样本病理图像的标签一致的情况下输出第一取值,在第一样本病理图像的预测结果与第一样本病理图像的标签不一致的情况下输出第二取值;基于分类器的模型参数在多轮迭代过程中的变化情况,构建第二子函数;将第一子函数和第二子函数的乘积在模型参数维度上进行积分运算,生成第一不确定度。
在一个实施例中,从第一样本病理图像的多轮迭代过程中连续采样出T轮迭代过程;针对T轮迭代过程中的第t轮迭代,基于第一样本病理图像经过第t轮迭代的预测结果以及第一样本病理图像的标签,生成第t判断结果;第t判断结果满足:在第一样本病理图像的预测结果与第一样本病理图像的标签一致的情况下输出为第一取值,第一样本病理图像的预测结果与第一样本病理图像的标签不一致的情况下输出为第二取值;第t轮迭代为T轮迭代过程中的任意一轮;t、T为正整数;将T轮迭代过程的全部判断结果进行累加后求平均值,生成第一不确定度。
在一个实施例中,针对多个样本病理图像中的第i样本病理图像和第j样本病理图像,通过对赋予权重λ后的第i样本病理图像和赋予权重1-λ后的第j样本病理图像进行求和,生成第k虚拟样本;以及,通过对第i样本病理图像的赋予权重λ后的标签和第j样本病理图像的赋予权重1-λ后的标签进行求和,生成第k虚拟样本的虚拟标签;第i样本病理图像和第j样本病理图像为多个样本病理图像中的任意两个样本病理图像;多个样本病理图像生成的多个虚拟样本构建得到虚拟训练集,λ不小于0且不大于1;针对虚拟训练集中的第k虚拟样本,将第k虚拟样本输入分类器,得到第k虚拟预测结果;基于第k虚拟预测结果、第k虚拟样本的虚拟标签、第i样本病理图像的第i不确定度以及第j样本病理图像的第j不确定度,得到第k虚拟样本对应的虚拟损失值;基于虚拟训练集中的多个虚拟样本对应的多个虚拟损失值,训练分类器。
在一个实施例中,基于第i不确定度,生成第i权重;以及,基于第j不确定度,生成第j权重;基于第k虚拟预测结果、第i样本病理图像的标签、权重λ和第i权重,生成第i子损失;基于第k虚拟预测结果、第j样本病理图像的标签、权重1-λ和第j权重,生成第j子损失;将第i子损失和第j子损失进行求和,得到第k虚拟样本对应的虚拟损失值。
以分类器为基因测序分析中用于基因分类的模型为例,介绍分类器的训练方法。以该方法由图1所示的训练设备101执行进行举例说明,该方法包括:
在一个实施例中,获取训练集中的多个样本基因片段和多个样本基因片段的标签;将多个样本基因片段多轮迭代输入分类器,得到多轮预测结果;针对多个样本基因片段中的第一样本基因片段,基于第一样本基因片段经过多轮迭代得到的多轮预测结果和第一样本基因片段的标签,生成第一不确定度,第一不确定度用于衡量分类器准确预测第一样本基因片段的难易程度;基于多个样本基因片段、多个样本基因片段的标签以及多个样本基因片段的不确定度,训练分类器。
在一个实施例中,基于第一样本基因片段经过多轮迭代得到的多个预测结果、第一样本基因片段的标签,以及分类器的模型参数在多轮迭代过程中的变化情况,生成第一不确定度。
在一个实施例中,基于第一样本基因片段的预测结果和第一样本基因片段的标签,构建第一子函数;第一子函数满足:在第一样本基因片段的预测结果与第一样本基因片段的标签一致的情况下输出第一取值,在第一样本基因片段的预测结果与第一样本基因片段的标签不一致的情况下输出第二取值;基于分类器的模型参数在多轮迭代过程中的变化情况,构建第二子函数;将第一子函数和第二子函数的乘积在模型参数维度上进行积分运算,生成第一不确定度。
在一个实施例中,从第一样本基因片段的多轮迭代过程中连续采样出T轮迭代过程;针对T轮迭代过程中的第t轮迭代,基于第一样本基因片段经过第t轮迭代的预测结果以及第一样本基因片段的标签,生成第t判断结果;第t判断结果满足:在第一样本基因片段的预测结果与第一样本基因片段的标签一致的情况下输出为第一取值,第一样本基因片段的预测结果与第一样本基因片段的标签不一致的情况下输出为第二取值;第t轮迭代为T轮迭代过程中的任意一轮;t、T为正整数;将T轮迭代过程的全部判断结果进行累加后求平均值,生成第一不确定度。
在一个实施例中,针对多个样本基因片段中的第i样本基因片段和第j样本基因片段,通过对赋予权重λ后的第i样本基因片段和赋予权重1-λ后的第j样本基因片段进行求和,生成第k虚拟样本;以及,通过对第i样本基因片段的赋予权重λ后的标签和第j样本基因片段的赋予权重1-λ后的标签进行求和,生成第k虚拟样本的虚拟标签;第i样本基因片段和第j样本基因片段为多个样本基因片段中的任意两个样本基因片段;多个样本基因片段生成的多个虚拟样本构建得到虚拟训练集,λ不小于0且不大于1;针对虚拟训练集中的第k虚拟样本,将第k虚拟样本输入分类器,得到第k虚拟预测结果;基于第k虚拟预测结果、第k虚拟样本的虚拟标签、第i样本基因片段的第i不确定度以及第j样本基因片段的第j不确定度,得到第k虚拟样本对应的虚拟损失值;基于虚拟训练集中的多个虚拟样本对应的多个虚拟损失值,训练分类器。
在一个实施例中,基于第i不确定度,生成第i权重;以及,基于第j不确定度,生成第j权重;基于第k虚拟预测结果、第i样本基因片段的标签、权重λ和第i权重,生成第i子损失;基于第k虚拟预测结果、第j样本基因片段的标签、权重1-λ和第j权重,生成第j子损失;将第i子损失和第j子损失进行求和,得到第k虚拟样本对应的虚拟损失值。
以分类器为用于分类评论文本的模型为例,介绍分类器的训练方法。以该方法由图1所示的训练设备101执行进行举例说明,该方法包括:
在一个实施例中,获取训练集中的多个样本评论文本和多个样本评论文本的标签;将多个样本评论文本多轮迭代输入分类器,得到多轮预测结果;针对多个样本评论文本中的第一样本评论文本,基于第一样本评论文本经过多轮迭代得到的多轮预测结果和第一样本评论文本的标签,生成第一不确定度,第一不确定度用于衡量分类器准确预测第一样本评论文本的难易程度;基于多个样本评论文本、多个样本评论文本的标签以及多个样本评论文本的不确定度,训练分类器。
在一个实施例中,基于第一样本评论文本经过多轮迭代得到的多个预测结果、第一样本评论文本的标签,以及分类器的模型参数在多轮迭代过程中的变化情况,生成第一不确定度。
在一个实施例中,基于第一样本评论文本的预测结果和第一样本评论文本的标签,构建第一子函数;第一子函数满足:在第一样本评论文本的预测结果与第一样本评论文本的标签一致的情况下输出第一取值,在第一样本评论文本的预测结果与第一样本评论文本的标签不一致的情况下输出第二取值;基于分类器的模型参数在多轮迭代过程中的变化情况,构建第二子函数;将第一子函数和第二子函数的乘积在模型参数维度上进行积分运算,生成第一不确定度。
在一个实施例中,从第一样本评论文本的多轮迭代过程中连续采样出T轮迭代过程;针对T轮迭代过程中的第t轮迭代,基于第一样本评论文本经过第t轮迭代的预测结果以及第一样本评论文本的标签,生成第t判断结果;第t判断结果满足:在第一样本评论文本的预测结果与第一样本评论文本的标签一致的情况下输出为第一取值,第一样本评论文本的预测结果与第一样本评论文本的标签不一致的情况下输出为第二取值;第t轮迭代为T轮迭代过程中的任意一轮;t、T为正整数;将T轮迭代过程的全部判断结果进行累加后求平均值,生成第一不确定度。
在一个实施例中,针对多个样本评论文本中的第i样本评论文本和第j样本评论文本,通过对赋予权重λ后的第i样本评论文本和赋予权重1-λ后的第j样本评论文本进行求和,生成第k虚拟样本;以及,通过对第i样本评论文本的赋予权重λ后的标签和第j样本评论文本的赋予权重1-λ后的标签进行求和,生成第k虚拟样本的虚拟标签;第i样本评论文本和第j样本评论文本为多个样本评论文本中的任意两个样本评论文本;多个样本评论文本生成的多个虚拟样本构建得到虚拟训练集,λ不小于0且不大于1;针对虚拟训练集中的第k虚拟样本,将第k虚拟样本输入分类器,得到第k虚拟预测结果;基于第k虚拟预测结果、第k虚拟样本的虚拟标签、第i样本评论文本的第i不确定度以及第j样本评论文本的第j不确定度,得到第k虚拟样本对应的虚拟损失值;基于虚拟训练集中的多个虚拟样本对应的多个虚拟损失值,训练分类器。
在一个实施例中,基于第i不确定度,生成第i权重;以及,基于第j不确定度,生成第j权重;基于第k虚拟预测结果、第i样本评论文本的标签、权重λ和第i权重,生成第i子损失;基于第k虚拟预测结果、第j样本评论文本的标签、权重1-λ和第j权重,生成第j子损失;将第i子损失和第j子损失进行求和,得到第k虚拟样本对应的虚拟损失值。
以分类器为用于分类客服与顾客沟通产生的音频文件的模型为例,介绍分类器的训练方法。以该方法由图1所示的训练设备101执行进行举例说明,该方法包括:
在一个实施例中,获取训练集中的多个样本音频文件和多个样本音频文件的标签;将多个样本音频文件多轮迭代输入分类器,得到多轮预测结果;针对多个样本音频文件中的第一样本音频文件,基于第一样本音频文件经过多轮迭代得到的多轮预测结果和第一样本音频文件的标签,生成第一不确定度,第一不确定度用于衡量分类器准确预测第一样本音频文件的难易程度;基于多个样本音频文件、多个样本音频文件的标签以及多个样本音频文件的不确定度,训练分类器。
在一个实施例中,基于第一样本音频文件经过多轮迭代得到的多个预测结果、第一样本音频文件的标签,以及分类器的模型参数在多轮迭代过程中的变化情况,生成第一不确定度。
在一个实施例中,基于第一样本音频文件的预测结果和第一样本音频文件的标签,构建第一子函数;第一子函数满足:在第一样本音频文件的预测结果与第一样本音频文件的标签一致的情况下输出第一取值,在第一样本音频文件的预测结果与第一样本音频文件的标签不一致的情况下输出第二取值;基于分类器的模型参数在多轮迭代过程中的变化情况,构建第二子函数;将第一子函数和第二子函数的乘积在模型参数维度上进行积分运算,生成第一不确定度。
在一个实施例中,从第一样本音频文件的多轮迭代过程中连续采样出T轮迭代过程;针对T轮迭代过程中的第t轮迭代,基于第一样本音频文件经过第t轮迭代的预测结果以及第一样本音频文件的标签,生成第t判断结果;第t判断结果满足:在第一样本音频文件的预测结果与第一样本音频文件的标签一致的情况下输出为第一取值,第一样本音频文件的预测结果与第一样本音频文件的标签不一致的情况下输出为第二取值;第t轮迭代为T轮迭代过程中的任意一轮;t、T为正整数;将T轮迭代过程的全部判断结果进行累加后求平均值,生成第一不确定度。
在一个实施例中,针对多个样本音频文件中的第i样本音频文件和第j样本音频文件,通过对赋予权重λ后的第i样本音频文件和赋予权重1-λ后的第j样本音频文件进行求和,生成第k虚拟样本;以及,通过对第i样本音频文件的赋予权重λ后的标签和第j样本音频文件的赋予权重1-λ后的标签进行求和,生成第k虚拟样本的虚拟标签;第i样本音频文件和第j样本音频文件为多个样本音频文件中的任意两个样本音频文件;多个样本音频文件生成的多个虚拟样本构建得到虚拟训练集,λ不小于0且不大于1;针对虚拟训练集中的第k虚拟样本,将第k虚拟样本输入分类器,得到第k虚拟预测结果;基于第k虚拟预测结果、第k虚拟样本的虚拟标签、第i样本音频文件的第i不确定度以及第j样本音频文件的第j不确定度,得到第k虚拟样本对应的虚拟损失值;基于虚拟训练集中的多个虚拟样本对应的多个虚拟损失值,训练分类器。
在一个实施例中,基于第i不确定度,生成第i权重;以及,基于第j不确定度,生成第j权重;基于第k虚拟预测结果、第i样本音频文件的标签、权重λ和第i权重,生成第i子损失;基于第k虚拟预测结果、第j样本音频文件的标签、权重1-λ和第j权重,生成第j子损失;将第i子损失和第j子损失进行求和,得到第k虚拟样本对应的虚拟损失值。
在上述已详细介绍了本申请提供的分类器的训练方法,接下来将以分类器为医疗领域中用于分类病理图像的模型为例,介绍分类器的使用方法。以该方法由图1所示的使用设备102执行进行举例说明,该方法包括:
首先,获取待分类的病理图像;在一个实施例中,医生切取患者组织后,通过扫描仪器扫描患者组织得到病理图像。可选的,此时分类器的使用场景可以为大型三甲医院、社康中心和县级医院等不同等级的医疗中心中的任意一个。然后,将病理图像输入分类器;在一个实施例中,将病理图像输入分类器,分类器采用如图2所示的训练方法训练得到。最后,通过分类器预测得到病理图像的分类结果。在一个实施例中,通过分类器预测病理图像对应的肿瘤良恶性。
以分类器为基因测序分析中用于基因分类的模型为例,介绍分类器的使用方法。以该方法由图1所示的使用设备102执行进行举例说明,该方法包括:
首先,获取待分类的目标基因片段;在一个实施例中,目标基因片段来自于目标测序平台,不同的测序平台提供的基因片段存在质量差异,同一测序平台提供的不同批次的基因片段存在质量差异。同一测序平台提供的不同批次的基因片段可能因为样本采集、制备、测序仪器状态、测序手段的不同,导致数据的表达受到了技术手段的影响,具有了***性的偏差,这些偏差和生物学多样性无关,而在分析过程中可能会错误地把***性偏差误判为样本本身的偏差,从而影响组学分析结果和结论。不同批次的基因片段即构成了不同的样本子群。
然后,将目标基因片段输入分类器;在一个实施例中,将目标基因片段输入分类器,分类器采用如图2所示的训练方法训练得到。最后,通过分类器预测得到目标基因片段对应的基因组。通过本申请的训练方法训练得到的分类器解决了因训练集和测试集的分布情况不同而影响分类结果的问题。
以分类器为用于分类评论文本的模型为例,介绍分类器的使用方法。以该方法由图1所示的使用设备102执行进行举例说明,该方法包括:
首先,获取待分类的目标评论文本;在一个实施例中,获取目标话题下的目标评论。可选的,此时分类器的使用场景可以为热度较高的大众话题、热度较低的小众话题、国内话题、国外话题、体育话题、美妆话题等。然后,将目标评论文本输入分类器;在一个实施例中,将目标评论文本输入分类器,分类器采用如图2所示的训练方法训练得到。最后,通过分类器预测得到目标评论文本对应的评论类型。在一个实施例中,通过分类器预测得到目标评论文本是恶性评论或非恶性评论。
以分类器为用于分类客服沟通记录的模型为例,介绍分类器的使用方法。以该方法由图1所示的使用设备102执行进行举例说明,该方法包括:
首先,获取待分类的目标音频文件;在一个实施例中,获取店铺内客服员工与客户的目标音频文件。可选的,此时分类器的训练集中存在较多的与客户沟通时间较长的音频文件、较少的与客户沟通时间较短的音频文件,在测试集中存在较多的与客户沟通时间较短的音频文件。然后,将目标音频文件输入分类器;在一个实施例中,将目标音频文件输入分类器,分类器采用如图2所示的训练方法训练得到。最后,通过分类器预测得到目标音频文件对应的客服员工的服务质量。在一个实施例中,通过分类器预测得到目标音频文件对应的客服员工的服务质量为优、良、中等或差。
图7示出了本申请一个示例性实施例提供的分类器的训练方法的流程图。
步骤701,通过ERM方式在训练集训练分类器;
示例性的,以ERM的方式将分类器在病理图像数据集(包含多个医疗中心来源的数据,例如大型三甲医院提供的大量高质量数据,社康中心/县级医院提供的少量低质量数据)上面训练。具体的,以ERM的方式将分类器在病理图像数据集上进行多轮迭代,每进行下一轮迭代,分类器的模型参数将发生改变。
步骤702,估计每个样本的不确定度;
示例性的,在训练轨迹中估计每个样本的不确定度。多轮迭代过程即构成样本的训练轨迹。可选的,如何估计不确定度在上文中已有详细介绍,不再赘述。
步骤703,将每个样本的不确定度转换为病理图片样本权重;
示例性的,对于不确定度较小的样本(质量较优)赋予更小的样本权重;对于不确定度较大的样本(质量较差)赋予更大的样本权重。
步骤704,采样训练集中的样本,并进行Mixup数据增强;
示例性的,采样训练集中的样本并执行Mixup数据增强操作,采样组成样本的Mixup数据对;关于Mixup数据增强在上文中已有详细介绍,不再赘述。
步骤705,基于样本权重和Mixup数据增强,计算损失函数;反向更新梯度直至训练完成。
示例性的,基于获得的样本权重和样本的Mixup数据对,构建出交叉熵损失函数,基于交叉熵损失函数更新分类器的模型参数,重复以上操作直至分类器训练完成。
综上所述,在通过多轮迭代过程计算不确定度时,仍采用ERM优化方式,在获取到所有训练样本的不确定度后,对所有训练样本进行Mixup数据增强,再结合交叉熵形式的损失函数和不确定度,构建出新的损失函数,通过新的损失函数训练出的分类器的泛化能力较高,即通过新的损失函数训练出的分类器进行分类时的准确率较高。
图8示出了本申请一个示例性实施例提供的分类器的训练装置的结构框图,该装置包括:
获取模块801,用于获取训练集中的多个多媒体样本和多个多媒体样本的标签;
输入模块802,用于将多个多媒体样本多轮迭代输入分类器,得到多轮预测结果;
生成模块803,用于针对多个多媒体样本中的第一多媒体样本,基于第一多媒体样本经过多轮迭代得到的多轮预测结果和第一多媒体样本的标签,生成第一不确定度,第一不确定度用于衡量分类器准确预测第一多媒体样本的难易程度;
训练模块804,用于基于多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器。
在一个可选的实施例中,生成模块803还用于基于第一多媒体样本经过多轮迭代得到的多个预测结果、第一多媒体样本的标签,以及分类器的模型参数在多轮迭代过程中的变化情况,生成第一不确定度。
在一个可选的实施例中,生成模块803还用于基于第一多媒体样本的预测结果和第一多媒体样本的标签,构建第一子函数;第一子函数满足:在第一多媒体样本的预测结果与第一多媒体样本的标签一致的情况下输出第一取值,在第一多媒体样本的预测结果与第一多媒体样本的标签不一致的情况下输出第二取值;基于分类器的模型参数在多轮迭代过程中的变化情况,构建第二子函数;将第一子函数和第二子函数的乘积在模型参数维度上进行积分运算,生成第一不确定度。
在一个可选的实施例中,生成模块803还用于从第一多媒体样本的多轮迭代过程中连续采样出T轮迭代过程;针对T轮迭代过程中的第t轮迭代,基于第一多媒体样本经过第t轮迭代的预测结果以及第一多媒体样本的标签,生成第t判断结果;第t判断结果满足:在第一多媒体样本的预测结果与第一多媒体样本的标签一致的情况下输出为第一取值,第一多媒体样本的预测结果与第一多媒体样本的标签不一致的情况下输出为第二取值;第t轮迭代为T轮迭代过程中的任意一轮;将T轮迭代过程的全部判断结果进行累加后求平均值,生成第一不确定度。
在一个可选的实施例中,训练模块804还用于针对多个多媒体样本中的第i多媒体样本和第j多媒体样本,通过对赋予权重λ后的第i多媒体样本和赋予权重1-λ后的第j多媒体样本进行求和,生成第k虚拟样本;以及,通过对第i多媒体样本的赋予权重λ后的标签和第j多媒体样本的赋予权重1-λ后的标签进行求和,生成第k虚拟样本的虚拟标签;第i多媒体样本和第j多媒体样本为多个多媒体样本中的任意两个多媒体样本;多个多媒体样本生成的多个虚拟样本构建得到虚拟训练集,λ不小于0且不大于1。
在一个可选的实施例中,训练模块804还用于针对虚拟训练集中的第k虚拟样本,将第k虚拟样本输入分类器,得到第k虚拟预测结果;基于第k虚拟预测结果、第k虚拟样本的虚拟标签、第i多媒体样本的第i不确定度以及第j多媒体样本的第j不确定度,得到第k虚拟样本对应的虚拟损失值;
在一个可选的实施例中,训练模块804还用于基于虚拟训练集中的多个虚拟样本对应的多个虚拟损失值,训练分类器。
在一个可选的实施例中,训练模块804还用于基于第i不确定度,生成第i权重;以及,基于第j不确定度,生成第j权重;基于第k虚拟预测结果、第i多媒体样本的标签、权重λ和第i权重,生成第i子损失;基于第k虚拟预测结果、第j多媒体样本的标签、权重1-λ和第j权重,生成第j子损失;将第i子损失和第j子损失进行求和,得到第k虚拟样本对应的虚拟损失值。
综上所述,通过在训练分类器时先计算多媒体样本的不确定度,再根据多个多媒体样本、多个多媒体样本的标签以及多个多媒体样本的不确定度,训练分类器,去除了训练集中的样本子群的概念,针对每个样本均重新计算了不确定度,根据不确定度平衡了每个样本对分类器的性能影响,进而提高了分类器的泛化能力。
例如,训练集中存在较多的来自三甲医院的质量较优(不确定度低)的样本数据和较少的来自社区医院的质量较差(不确定度高)的样本数据,通过赋予质量较优规模较大的样本子群内的样本数据较小的权重,质量较差规模较小的样本子群内的样本数据较大的权重,平衡了各个样本数据对分类器的性能影响。训练得到的分类器并不需要再考虑使用阶段时的样本子群的分布(使用阶段时分类器可能会更多使用于医疗水平较差的社区医院)。
图9示出了本申请一个示例性实施例提供的分类器的使用装置的结构框图,该装置包括:
获取模块901,用于获取待分类的病理图像;
输入模块902,用于将病理图像输入分类器;其中,该分类器是由上述图8所示的训练装置训练得到的。
预测模块903,用于通过分类器预测得到病理图像的分类结果。
图10是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read-Only Memory,ROM)1003的***存储器1004,以及连接***存储器1004和中央处理单元1001的***总线1005。所述计算机设备1000还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出***(Input/Output,I/O***)1006,和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机设备可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1000可以通过连接在所述***总线1005上的网络接口单元1012连接到网络1011,或者说,也可以使用网络接口单元1012来连接到其他类型的网络或远程计算机设备***(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1001通过执行该一个或一个以上程序来实现上述知识图谱的实体建边方法的全部或者部分步骤。本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的分类器的训练方法或分类器的使用方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的分类器的训练方法或分类器的使用方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种分类器的训练方法,其特征在于,所述方法包括:
获取训练集中的多个多媒体样本和所述多个多媒体样本的标签;
将所述多个多媒体样本多轮迭代输入所述分类器,得到多轮预测结果;
针对所述多个多媒体样本中的第一多媒体样本,基于所述第一多媒体样本经过多轮迭代得到的多轮预测结果和所述第一多媒体样本的标签,生成第一不确定度,所述第一不确定度用于衡量所述分类器准确预测所述第一多媒体样本的难易程度;
基于所述多个多媒体样本、所述多个多媒体样本的标签以及所述多个多媒体样本的不确定度,训练所述分类器。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一多媒体样本经过多轮迭代得到的多个预测结果和所述第一多媒体样本的标签,生成第一不确定度,包括:
基于所述第一多媒体样本经过多轮迭代得到的多个预测结果、所述第一多媒体样本的标签,以及所述分类器的模型参数在多轮迭代过程中的变化情况,生成所述第一不确定度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一多媒体样本经过多轮迭代得到的多个预测结果、所述第一多媒体样本的标签,以及所述分类器的模型参数在多轮迭代过程中的变化情况,生成所述第一不确定度,包括:
基于所述第一多媒体样本的预测结果和所述第一多媒体样本的标签,构建第一子函数;所述第一子函数满足:在所述第一多媒体样本的预测结果与所述第一多媒体样本的标签一致的情况下输出第一取值,在所述第一多媒体样本的预测结果与所述第一多媒体样本的标签不一致的情况下输出第二取值;
基于所述分类器的模型参数在所述多轮迭代过程中的变化情况,构建第二子函数;
将所述第一子函数和所述第二子函数的乘积在模型参数维度上进行积分运算,生成所述第一不确定度。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一多媒体样本经过多轮迭代得到的多个预测结果、所述第一多媒体样本的标签,以及所述分类器的模型参数在多轮迭代过程中的变化情况,生成所述第一不确定度,包括:
从所述第一多媒体样本的多轮迭代过程中连续采样出T轮迭代过程;
针对所述T轮迭代过程中的第t轮迭代,基于所述第一多媒体样本经过所述第t轮迭代的预测结果以及所述第一多媒体样本的标签,生成第t判断结果;所述第t判断结果满足:在所述第一多媒体样本的预测结果与所述第一多媒体样本的标签一致的情况下输出为第一取值,所述第一多媒体样本的预测结果与所述第一多媒体样本的标签不一致的情况下输出为第二取值;所述第t轮迭代为所述T轮迭代过程中的任意一轮;t、T为正整数;
将所述T轮迭代过程的全部判断结果进行累加后求平均值,生成所述第一不确定度。
5.根据权利要求1至4任一所述的方法,其特征在于,所述基于所述多个多媒体样本、所述多个多媒体样本的标签以及所述多个多媒体样本的不确定度,训练所述分类器,包括:
针对所述多个多媒体样本中的第i多媒体样本和第j多媒体样本,通过对赋予权重λ后的第i多媒体样本和赋予权重1-λ后的所述第j多媒体样本进行求和,生成第k虚拟样本;以及,通过对第i多媒体样本的赋予权重λ后的标签和所述第j多媒体样本的赋予权重1-λ后的标签进行求和,生成所述第k虚拟样本的虚拟标签;所述第i多媒体样本和所述第j多媒体样本为所述多个多媒体样本中的任意两个多媒体样本;所述多个多媒体样本生成的多个虚拟样本构建得到虚拟训练集,所述λ不小于0且不大于1,所述i和j为正整数;
针对所述虚拟训练集中的第k虚拟样本,将所述第k虚拟样本输入所述分类器,得到第k虚拟预测结果;基于所述第k虚拟预测结果、所述第k虚拟样本的虚拟标签、所述第i多媒体样本的第i不确定度以及所述第j多媒体样本的第j不确定度,得到所述第k虚拟样本对应的虚拟损失值;
基于所述虚拟训练集中的多个虚拟样本对应的多个虚拟损失值,训练所述分类器。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第k虚拟预测结果、所述第k虚拟样本的虚拟标签、所述第i多媒体样本的第i不确定度以及所述第j多媒体样本的第j不确定度,得到所述第k虚拟样本对应的虚拟损失值,包括:
基于所述第i不确定度,生成第i权重;以及,基于所述第j不确定度,生成第j权重;
基于所述第k虚拟预测结果、所述第i多媒体样本的标签、所述权重λ和所述第i权重,生成第i子损失;
基于所述第k虚拟预测结果、所述第j多媒体样本的标签、所述权重1-λ和所述第j权重,生成第j子损失;
将所述第i子损失和所述第j子损失进行求和,得到所述第k虚拟样本对应的虚拟损失值。
7.一种分类器的使用方法,其特征在于,所述分类器是由权利要求1至6任一所述的方法训练得到的;所述方法包括:
获取待分类的图像;
将所述图像输入所述分类器;
通过所述分类器预测得到所述图像的分类结果。
8.一种分类器的训练装置,其特征在于,所述装置包括:
获取模块,用于获取训练集中的多个多媒体样本和所述多个多媒体样本的标签;
输入模块,用于将所述多个多媒体样本多轮迭代输入所述分类器,得到多轮预测结果;
生成模块,用于针对所述多个多媒体样本中的第一多媒体样本,基于所述第一多媒体样本经过多轮迭代得到的多轮预测结果和所述第一多媒体样本的标签,生成第一不确定度,所述第一不确定度用于衡量所述分类器准确预测所述第一多媒体样本的难易程度;
训练模块,用于基于所述多个多媒体样本、所述多个多媒体样本的标签以及所述多个多媒体样本的不确定度,训练所述分类器。
9.根据权利要求8所述的装置,其特征在于,
所述生成模块,还用于基于所述第一多媒体样本经过多轮迭代得到的多个预测结果、所述第一多媒体样本的标签,以及所述分类器的模型参数在多轮迭代过程中的变化情况,生成所述第一不确定度。
10.根据权利要求8所述的装置,其特征在于,
所述生成模块,还用于基于所述第一多媒体样本的预测结果和所述第一多媒体样本的标签,构建第一子函数;所述第一子函数满足:在所述第一多媒体样本的预测结果与所述第一多媒体样本的标签一致的情况下输出第一取值,在所述第一多媒体样本的预测结果与所述第一多媒体样本的标签不一致的情况下输出第二取值;
所述生成模块,还用于基于所述分类器的模型参数在所述多轮迭代过程中的变化情况,构建第二子函数;
所述生成模块,还用于将所述第一子函数和所述第二子函数的乘积在模型参数维度上进行积分运算,生成所述第一不确定度。
11.根据权利要求8所述的装置,其特征在于,
所述生成模块,还用于从所述第一多媒体样本的多轮迭代过程中连续采样出T轮迭代过程;
所述生成模块,还用于针对所述T轮迭代过程中的第t轮迭代,基于所述第一多媒体样本经过所述第t轮迭代的预测结果以及所述第一多媒体样本的标签,生成第t判断结果;所述第t判断结果满足:在所述第一多媒体样本的预测结果与所述第一多媒体样本的标签一致的情况下输出为第一取值,所述第一多媒体样本的预测结果与所述第一多媒体样本的标签不一致的情况下输出为第二取值;所述第t轮迭代为所述T轮迭代过程中的任意一轮;
所述生成模块,还用于将所述T轮迭代过程的全部判断结果进行累加后求平均值,生成所述第一不确定度。
12.一种分类器的使用装置,其特征在于,所述分类器是由权利要求1至6任一所述的方法训练得到的;所述装置包括:
获取模块,用于获取待分类的病理图像;
输入模块,用于将所述病理图像输入所述分类器;
预测模块,用于通过所述分类器预测得到所述病理图像的分类结果。
13.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至6任一所述的分类器的训练方法或权利要求7所述的分类器的使用方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至6任一所述的分类器的训练方法或权利要求7所述的分类器的使用方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至6任一所述的分类器的训练方法或权利要求7所述的分类器的使用方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210907508.4A CN115272797A (zh) | 2022-07-29 | 2022-07-29 | 分类器的训练方法、使用方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210907508.4A CN115272797A (zh) | 2022-07-29 | 2022-07-29 | 分类器的训练方法、使用方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115272797A true CN115272797A (zh) | 2022-11-01 |
Family
ID=83771651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210907508.4A Pending CN115272797A (zh) | 2022-07-29 | 2022-07-29 | 分类器的训练方法、使用方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115272797A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982534A (zh) * | 2023-03-18 | 2023-04-18 | 湖北一方科技发展有限责任公司 | 一种江河水文监测数据的处理方法 |
CN117951529A (zh) * | 2024-03-26 | 2024-04-30 | 济南浪潮数据技术有限公司 | 用于硬盘数据故障预测的样本获取方法、装置、设备 |
-
2022
- 2022-07-29 CN CN202210907508.4A patent/CN115272797A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982534A (zh) * | 2023-03-18 | 2023-04-18 | 湖北一方科技发展有限责任公司 | 一种江河水文监测数据的处理方法 |
CN117951529A (zh) * | 2024-03-26 | 2024-04-30 | 济南浪潮数据技术有限公司 | 用于硬盘数据故障预测的样本获取方法、装置、设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Source-free domain adaptive fundus image segmentation with denoised pseudo-labeling | |
Wells et al. | Artificial intelligence in dermatopathology: Diagnosis, education, and research | |
JP2022031730A (ja) | 確率分布をモデル化するためのシステムおよび方法 | |
Zhao et al. | Variable selection in the presence of missing data: Imputation‐based methods | |
US20210134387A1 (en) | Ancestry inference based on convolutional neural network | |
CN115210772B (zh) | 用于处理通用疾病检测的电子图像的***和方法 | |
CN112543934A (zh) | 一种确定异常程度的方法、相应的计算机可读介质和分布式癌症分析*** | |
JP2023551514A (ja) | 生成的モデル予測における欠落している共変量からの不確実性を考慮する方法およびシステム | |
Zhang et al. | Combining multiple markers for multi‐category classification: an ROC surface approach | |
Agarwal et al. | Survival prediction based on histopathology imaging and clinical data: A novel, whole slide cnn approach | |
WO2024108663A1 (zh) | 肿瘤生存预测方法、装置、电子设备及存储介质 | |
CN115391561A (zh) | 图网络数据集的处理方法、装置、电子设备、程序及介质 | |
CN115272797A (zh) | 分类器的训练方法、使用方法、装置、设备及存储介质 | |
Lee et al. | Sigma-RF: prediction of the variability of spatial restraints in template-based modeling by random forest | |
Weile et al. | Bayesian integration of networks without gold standards | |
CN113782092B (zh) | 一种生存期预测模型的生成方法及装置、存储介质 | |
Levy et al. | Artificial intelligence in anatomic pathology | |
CN117716397A (zh) | 用于处理图像以进行图像匹配的***和方法 | |
Antoniol et al. | Microarray image gridding with stochastic search based approaches | |
Duan et al. | Exploring optimization algorithms for establishing patient-based real-time quality control models | |
CN112086174A (zh) | 一种三维知识诊断模型构建方法和*** | |
Wu et al. | Association testing for binary trees—A Markov branching process approach | |
Jaspers et al. | Application of the Vertex Exchange Method to estimate a semi-parametric mixture model for the MIC density of Escherichia coli isolates tested for susceptibility against ampicillin | |
AU2021207383B2 (en) | Ancestry inference based on convolutional neural network | |
Li et al. | simCAS: an embedding-based method for simulating single-cell chromatin accessibility sequencing data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |