CN113537270A - 数据分类方法及多分类模型训练方法、装置、设备、介质 - Google Patents

数据分类方法及多分类模型训练方法、装置、设备、介质 Download PDF

Info

Publication number
CN113537270A
CN113537270A CN202110011544.8A CN202110011544A CN113537270A CN 113537270 A CN113537270 A CN 113537270A CN 202110011544 A CN202110011544 A CN 202110011544A CN 113537270 A CN113537270 A CN 113537270A
Authority
CN
China
Prior art keywords
model
sample data
data
classification
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110011544.8A
Other languages
English (en)
Inventor
张珍茹
张倩汶
曹云波
张敏灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110011544.8A priority Critical patent/CN113537270A/zh
Publication of CN113537270A publication Critical patent/CN113537270A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据分类方法及多分类模型训练方法、装置、设备、介质,应用于人工智能领域;其中,所述数据分类方法包括:获取待分类数据;将待分类数据分别输入至多分类模型的第一模型和第二模型中,得到待分类数据的分类结果;其中,第一模型是通过第一训练集得到的,第一训练集包括多个携带真实分类标记的第一样本数据;第二模型是通过第二训练集得到的,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记。通过本申请提供的数据分类方法,能够提升数据分类的准确性。

Description

数据分类方法及多分类模型训练方法、装置、设备、介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据分类方法及多分类模型训练方法、装置、设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,该技术企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
在各种应用场景下,数据的分类一直是人工智能关注的重点。传统的数据分类方案,对待分类数据的分类精度较低,难以满足实际场景的需求。
发明内容
本申请实施例提供一种数据分类方法及多分类模型训练方法、装置、设备、介质,能够提升数据分类准确度。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据分类方法,包括:获取待分类数据;将待分类数据分别输入至多分类模型的第一模型和第二模型中,得到待分类数据的分类结果;其中,第一模型是通过第一训练集得到的,第一训练集包括多个携带真实分类标记的第一样本数据;第二模型是通过第二训练集得到的,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记。
在本申请的一些实施例中,所述多个第一样本数据中存在至少一个新增的第一样本数据;新增的第一样本数据携带的真实分类标记是根据第二模型得到的;和/或,所述多个第二样本数据中存在至少一个更新后的第二样本数据;更新后的第二样本数据携带的偏标记集合是根据第一模型得到的。
在本申请的一些实施例中,所述将待分类数据分别输入至多分类模型的第一模型和第二模型中,得到待分类数据的分类结果,包括:将待分类数据输入至第一模型,得到第一模型输出的第一分类结果;第一分类结果包括多个预设类别中每一预设类别对应的第一置信度;将待分类数据输入至第二模型,得到第二模型输出的第二分类结果;第二分类结果包括多每一预设类别对应的第二置信度;基于每一预设类别对应的第一置信度和第二置信度,确定待分类数据的分类结果。
在本申请的一些实施例中,所述基于每一预设类别对应的第一置信度和第二置信度,确定待分类数据的分类结果,包括:获取第一分类结果对应的第一精度参数,和第二分类结果对应的第二精度参数;第一精度参数用于表征第一模型的预测精度;第二精度参数用于表征第二模型的预测精度;基于每一预设类别对应的第一置信度和第二置信度、第一精度参数和第二精度参数,确定每一预设类别对应的第三置信度;将最大第三置信度对应的预设类别作为待分类数据的分类结果。
在本申请的一些实施例中,所述多分类模型的训练过程包括:通过第一训练集得到第一模型;通过第二训练集得到第二模型;在不满足停止条件的情况下,执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对多分类模型进行迭代训练,直至达到停止条件,输出训练后的多分类模型;训练集更新操作包括以下至少之一:通过第二模型更新第一训练集,通过第一模型更新第二训练集。
本申请实施例提供一种多分类模型训练方法,包括:通过第一训练集得到多分类模型中的第一模型,第一训练集包括多个携带真实分类标记的第一样本数据;通过第二训练集得到多分类模型中的第二模型,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记;在不满足停止条件的情况下,执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对多分类模型进行迭代训练,直至达到停止条件,输出训练后的多分类模型;训练集更新操作包括以下至少之一:通过第二模型更新第一训练集,通过第一模型更新第二训练集。
在本申请的一些实施例中,所述方法还包括:基于原始数据集,构建第一训练集和第三训练集;第三训练集包括多个无分类标记的第三样本数据;根据第一训练集中的每一第一样本数据,生成每一第三样本数据对应的偏标记集合;为每一第三样本数据添加对应的偏标记集合,得到第二训练集。
在本申请的一些实施例中,所述基于原始数据集,构建第一训练集和第三训练集,包括:获取原始数据集中的多个原始数据;对每一原始数据进行特征提取,得到每一原始数据对应的原始特征,并构建原始训练集;从原始训练集中抽取至少一个第一原始特征和至少一个第二原始特征;基于至少一个第一原始特征和每一原始特征对应的真实分类标记,构建包括多个第一样本数据的第一训练集;基于至少一个第二原始特征,构建第三训练集。
在本申请的一些实施例中,所述原始数据可以为以下至少之一:语音数据、文本数据、图像数据、视频数据。
在本申请的一些实施例中,所述根据第一训练集中的每一第一样本数据,生成每一第三样本数据对应的偏标记集合,包括:根据每一第三样本数据与每一第一样本数据的相似度,生成权重矩阵;基于权重矩阵,生成每一第三样本数据对应的类别置信度向量;类别置信度向量包括每一预设类别对应的第四置信度;根据每一第三样本数据对应的类别置信度向量生成每一第三样本数据对应的偏标记集合。
在本申请的一些实施例中,所述根据每一第三样本数据与每一第一样本数据的相似度,生成权重矩阵,包括:根据每一第三样本数据与每一第一样本数据的相似度,生成每一第三样本数据对应的权重向量;根据每一第三样本数据对一个的权重向量生成权重矩阵。
在本申请的一些实施例中,所述根据每一第三样本数据与每一第一样本数据的相似度,生成每一第三样本数据对应的权重向量,包括:在每一第一样本数据中,确定第三样本数据的近邻样本集合;近邻样本集合包括至少一个近邻样本数据;近邻样本数据为与第三样本数据相似的第一样本数据;在第一样本数据处于近邻样本集合的情况下,使用第一权重生成规则生成第一样本数据对应的权重元素;在第一样本数据未处于近邻样本集合的情况下,使用第二权重生成规则生成第一样本数据对应的权重元素;基于每一样本数据对应的权重元素,生成第三样本数据对应的权重向量。
在本申请的一些实施例中,所述基于权重矩阵,生成每一第三样本数据对应的类别置信度向量,包括:根据每一第一样本数据,确定第三样本数据在每一预设类别的第四置信度;根据第三样本数据在每一预设类别的第四置信度,确定第三样本数据对应的类别置信度向量。
在本申请的一些实施例中,所述根据每一第三样本数据对应的类别置信度向量生成每一第三样本数据对应的偏标记集合,包括:对第三样本数据对应的类别置信度向量进行归一化处理,得到归一化处理后的类别置信度向量;归一化处理后的类别置信度向量包括每一预设类别的第五置信度;根据每一预设类别的第五置信度,确定第三样本数据对应的偏标记集合。
在本申请的一些实施例中,所述通过第一模型更新第二训练集,包括:在第三训练集中获取至少一个待更新样本数据;将每一待更新样本数据输入至第一模型,得到每一待更新样本数据对应的待更新偏标记集合;根据每一待更新样本数据对应的待更新偏标记集合更新第二训练集。
在本申请的一些实施例中,所述将每一待更新样本数据输入至第一模型,得到每一待更新样本数据对应的待更新偏标记集合,包括:将待更新样本数据输入至第一模型,得到第一模型输出的第三分类结果;将待更新样本数据输入至第二模型,得到第二模型输出的第四分类结果;根据第三分类结果和第四分类结果确定待更新样本数据对应的待更新偏标记集合。
在本申请的一些实施例中,所述第三分类结果包括多个预设类别中每一预设类别对应的第六置信度;第四分类结果包括每一预设类别对应的第七置信度;所述根据第一分类结果和第二分类结果确定待更新样本数据对应的待更新偏标记集合,包括:基于预设的平衡参数,对每一预设类别对应的第六置信度和第七置信度进行加权求和,得到每一预设类别对应的第八置信度;根据每一预设类别的第八置信度,确定待更新样本数据对应的待更新偏标记集合。
在本申请的一些实施例中,所述根据每一待更新样本数据对应的待更新偏标记集合更新第二训练集,包括:在第二训练集中查询与待更新样本数据对应的待更新第二样本数据;利用待更新偏标记集合更新待更新第二样本数据携带的偏标记集合。
在本申请的一些实施例中,所述通过第二模型更新第一训练集,包括:在第三训练集中获取至少一个待标记样本数据;将每一待标记样本数据输入至第二模型,得到每一待标记样本数据对应的真实分类标记;根据每一待更新标记数据对应的真实分类标记更新第一训练集。
在本申请的一些实施例中,所述将每一待标记样本数据输入至第二模型,得到每一待标记样本数据对应的真实分类标记,包括:将待标记样本数据输入至第二模型,得到第二模型输出的第五分类结果;根据第五分类结果确定待标记样本数据对应的真实分类标记。
在本申请的一些实施例中,所述第五分类结果包括多个预设类别中每一预设类别对应的第九置信度;所述根据第五分类结果确定待标记样本数据对应的真实分类标记,包括:将最大第九置信度对应的预设类别作为待标记样本数据对应的真实分类标记。
在本申请的一些实施例中,所述根据每一待标记样本数据对应的真实分类标更新第一训练集,包括:对待标记样本数据添加对应的真实分类标记;将添加真实分类标记的待标记样本数据作为新增第一样本数据添加至第一训练集。
在本申请的一些实施例中,所述停止条件包括以下至少之一:多分类模型趋于收敛;达到最大迭代次数。
本申请实施例提供一种数据分类装置,所述装置包括:
获取模块,用于获取待分类数据;
分类模块,用于将待分类数据分别输入至多分类模型的第一模型和第二模型中,得到待分类数据的分类结果;其中,第一模型是通过第一训练集得到的,第一训练集包括多个携带真实分类标记的第一样本数据;第二模型是通过第二训练集得到的,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记。
本申请实施例提供一种多分类模型训练装置,所述装置包括:
第一模型训练模块,用于通过第一训练集得到多分类模型中的第一模型,第一训练集包括多个携带真实分类标记的第一样本数据;
第二模型训练模块,用于通过第二训练集得到多分类模型中的第二模型,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记;
第三模型训练模块,用于在不满足停止条件的情况下,执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对多分类模型进行迭代训练,直至达到停止条件,输出训练后的多分类模型;训练集更新操作包括以下至少之一:通过第二模型更新第一训练集,通过第一模型更新第二训练集。
本申请实施例提供一种计算机设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的数据分类方法,或,实现本申请实施例提供的多分类模型训练方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的数据分类方法,或,实现本申请实施例提供的多分类模型训练方法。
本申请实施例具有以下有益效果:
本申请实施例利用基于多个携带真实分类标记的第一样本数据训练的得到的第一模型和基于多个携带偏标记集合的第二样本数据得到的第二模型,对待分类数据进行分类,由于该多分类模型综合了第一模型的分类结果和第二模型的分类结果,可以使该多分类模型输出的分类结果可以更加贴近待分类数据实际上的分类情况。如此,可以提升数据分类的准确性。
附图说明
图1是本申请实施例提供的数据分类/多分类模型训练***的一个可选的架构示意图;
图2A是本申请实施例提供的数据分类设备的结构示意图;
图2B是本申请实施例提供的多分类模型训练设备的结构示意图;
图3是本申请实施例提供的数据分类方法的一个可选的流程示意图;
图4是本申请实施例提供的数据分类方法的一个可选的流程示意图;
图5是本申请实施例提供的数据分类方法的一个可选的流程示意图;
图6是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图;
图7是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图;
图8是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图;
图9是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图;
图10是本申请实施例提供的半监督学习***的一个可选的框架示意图;
图11是本申请实施例提供的一个可选的训练流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使在本实施例中描述的本申请实施例能够以除了在在本实施例中图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例提供的方案涉及人工智能技术,具体通过如下实施例进行说明:
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例所涉及机器学习技术。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
(1)监督学习:通过学习大量训练样本来构建预测模型,每个训练样本由两部分组成,分别是描述对象的特征向量和其对应的一个明确标记。
(2)半监督学习:弱监督下学习的一种,从少量已标记数据和大量未标记数据中学习构建预测模型,即在已标记数据之外,自动利用未标记数据提高学习效果。与监督学习的不同之处在于半监督学习训练数据中只有少量训练样本含有明确标记,其他训练样本均不含明确标记。其中,半监督学习又可分为直推式学习和纯半监督学习,前者基于封闭世界假设,仅对训练数据中的未标记数据进行预测,后者则基于开放世界假设,测试数据未知,并非训练数据的未标记数据。
(3)偏标记学习:弱监督学习的一种,通过学习大量训练样本来构建预测模型,每个训练样本由两部分组成,分别是描述对象的特征向量和其对应的多个候选标记,其中仅有一个候选标记能真实反映对象,其他候选标记均为伪标记。与监督学习的区别在于,偏标记学习的训练数据标记信息不准确,预测模型需在含噪声情境下学习得到。
(4)KNN:k近邻算法,一种有监督机器学习方法。其思路是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该类输入实例分为这个类。
(5)co-training:协同训练,一种基于分歧的半监督学习方法。利用了多视图的“相容互补性”,假设数据拥有两个充分且条件独立的视图,在每个视图上基于有标记样本分别训练出一个分类器,让每个分类器挑选“最有把握的”未标记样本赋予伪标记,并将未标记样本提供给另一个分类器作为新增的有标记样本用于训练更新。
(6)支持向量机:一种有监督机器学习方法。基本模型是定义在特征空间上的间隔最大的线性分类器,其学习策略就是间隔最大化,可以形式化为求解凸二次规划问题,等价于正则化的合页损失函数的最小化问题。当训练数据线性不可分时,使用核技巧将输入空间映射到高维空间使之线性可分。
参见图1,图1是本申请实施例提供的数据分类/多分类模型训练***100的一个可选的架构示意图,为实现支撑一个数据分类/多分类模型训练应用,终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。图1还示出了服务器200可以为服务器集群,该服务器集群包括服务器200-1至200-3,同样地,服务器200-1至200-3可以是实体机器,也可以是利用虚拟化技术(如容器技术及虚拟机技术等)构建的虚拟机器,本申请实施例对此不做限定,当然,在本实施例中也可使用单个服务器来进行服务的提供。
参见图2A,图2A是本申请实施例提供的数据分类设备500的结构示意图,图2A所示的数据分类设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。数据分类设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2A中将各种总线都标为总线***540。
参见图2B,图2B是本申请实施例提供的多分类模型训练设备600的结构示意图,图2B所示的多分类模型训练设备600包括:至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。多分类模型训练设备600中的各个组件通过总线***640耦合在一起。可理解,总线***640用于实现这些组件之间的连接通信。总线***640除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2B中将各种总线都标为总线***640。
处理器510/610可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530/630包括使得能够呈现媒体内容的一个或多个输出装置531/631,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530/630还包括一个或多个输入装置532/632,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550/650包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550/650旨在包括任意适合类型的存储器。存储器550/650可选地包括在物理位置上远离处理器510/610的一个或多个存储设备。
在本申请的一些实施例中,存储器550/650能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551/651,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552/652,用于经由一个或多个(有线或无线)网络接口520/620到达其他计算设备,示例性的网络接口520/620包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553/653,用于经由一个或多个与用户接口530/630相关联的输出装置531/631(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块554/654,用于对一个或多个来自一个或多个输入装置532/632之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在本申请的一些实施例中,本申请实施例提供的数据分类装置/多分类模型训练装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的数据分类装置/多分类模型训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的数据分类方法/多分类模型训练方法。
在本申请的一些实施例中,本申请实施例提供的数据分类装置/多分类模型训练装置可以采用软件方式实现,图2A示出了存储在存储器550中的数据分类装置555,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块5551和分类模块5552。图2B示出了存储在存储器650中的多分类模型训练装置655,其可以是程序和插件等形式的软件,包括以下软件模块:第一模型训练模块6551、第二模型训练模块6552和第三模型训练模块6553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的装置可以采用硬件方式实现,作为示例,本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的数据分类/多分类模型训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-ProgrammableGate Array)或其他电子元件。
将结合本申请实施例提供的服务器的示例性应用和实施,在本申请实施例中,将以服务器为执行主体说明本申请实施例提供的数据分类/多分类模型训练方法。
参见图3,图3是本申请实施例提供的数据分类方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
在步骤301中,获取待分类数据。
在本申请的一些实施例中,本申请实施例提供的数据分类方法可以应用于不同的应用场景,对于不同的应用场景,需要进行分类的待分类数据也不相同。基于此,本申请实施例将以多个应用场景进行解释和说明。
例如,在本申请实施例提供的数据分类方法应用于图像分类场景的情况下,该待分类数据可以包括至少一张图像;在本申请实施例提供的数据分类方法应用于语音识别场景的情况下,该待分类数据可以包括至少一段音频数据;在本申请实施例提供的数据分类方法应用于机器翻译场景的情况下,该待分类数据可以包括至少一段文本数据。以上为本申请实施例提供的多个应用场景的相关内容。需要说明的是,本申请实施例提供的数据分类不仅能够应用于图像分类、语音识别以及机器翻译等应用场景中,还可以应用于其他应用场景中,本申请实施例对此不做具体限定。
在步骤302中,将待分类数据分别输入至多分类模型的第一模型和第二模型中,得到待分类数据的分类结果;其中,第一模型是通过第一训练集得到的,第一训练集包括多个携带真实分类标记的第一样本数据;第二模型是通过第二训练集得到的,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记。
在本申请的一些实施例中,该多分类模型可以包括第一模型和第二模型,其中,第一模型和第二模型均用于该待分类数据进行分类,在将待分类数据输入至该多分类模型后,可以通过第一模型得到该待分类数据的第一分类结果,同时,也可以通过第二模型得到该待分类数据的第二分类结果,结合该第一分类结果和第二分类结果,可以得到该多分类模型最终的分类结果。
在本申请的一些实施例中,该第一模型是通过第一训练集得到的,其中,该第一训练集包括多个携带真实分类标记的第一样本数据,该真实分类标记用于表征该第一样本数据的实际上的分类结果。
在本申请的一些实施例中,该第二模型是通过第二训练集得到的,其中,该第二训练集包括多个携带偏标记集合的第二样本数据,该偏标记集合包括至少一个候选分类标记。对于一个第二样本数据,该第二样本数据对应的至少一个候选分类标记中仅有一个候选分类标记用于表征该第一样本数据的实际上的分类结果。
在本申请的一些实施例中,多个第一样本数据中存在至少一个新增的第一样本数据;新增的第一样本数据携带的真实分类标记是根据第二模型得到的;和/或,多个第二样本数据中存在至少一个更新后的第二样本数据;更新后的第二样本数据携带的偏标记集合是根据第一模型得到的。
其中,在多分类模型的训练过程中,即在一次迭代训练的过程中,会根据上一次迭代训练得到的中间第二模型对该第一训练集进行更新,即得到至少一个新增的第一样本数据,并将新增的第一样本数据加入该第一训练集,利用更新后的第一训练集可以进行下一次的迭代训练,以得到新的第一模型。
其中,在多分类模型的训练过程中,即在一次迭代训练的过程中,会根据上一次迭代训练得到的中间第一模型对该第二训练集进行更新,即得到至少一个更新后的第二样本数据,更新后的第二样本数据携带的偏标记集合是根据该中间第一模型得到的,利用更新后的第二训练集可以进行下一次的迭代训练,以得到新的第二模型。
需要说明的是,在一次迭代训练的过程中,可以仅仅利用上一次迭代训练过程得到的第二模型完成第一训练集的更新,以得到新的第一模型;也可以仅仅利用上一次迭代过程得到的第一模型完成第二训练集的更新,以得到新的第二模型;还可以同时利用上一次迭代训练过程得到的第二模型完成第一训练集的更新,并利用上一次迭代过程得到的第一模型完成第二训练集的更新,以得到新的第一模型和新的第二模型。
通过本申请实施例对于图3的上述示例性实施可知,本申请实施例利用基于多个携带真实分类标记的第一样本数据训练的得到的第一模型和基于多个携带偏标记集合的第二样本数据得到的第二模型,对待分类数据进行分类,由于该多分类模型综合了第一模型的分类结果和第二模型的分类结果,可以使该多分类模型输出的分类结果可以更加贴近待分类数据实际上的分类情况。如此,可以提升数据分类的准确性。
参见图4,图4是本申请实施例提供的数据分类方法的一个可选的流程示意图,基于上述图3,图3中的步骤302可以包括步骤401至步骤403,将结合图4示出的步骤进行说明。
在步骤401中,将待分类数据输入至第一模型,得到第一模型输出的第一分类结果;第一分类结果包括多个预设类别中每一预设类别对应的第一置信度。
在本申请的一些实施例中,在将该待分类数据输入至该第一模型之后,可以得到该第一模型输出的第一分类结果,该第一分类结果可以包括多个预设类别中每一类别对应的第一置信度。在一些实施例中,各预设类别的第一置信度的和为1。例如,若存在多个预设类别为A类别、B类别和C类别,该第一分类结果可以包括A类别对应的第一置信度A1,B类别对应的第一置信度B1和C类别对应的第一置信度C1,其中,A1,B1和C1的和为1。
在步骤402中,将待分类数据输入至第二模型,得到第二模型输出的第二分类结果;第二分类结果包括多每一预设类别对应的第二置信度。
在本申请的二些实施例中,在将该待分类数据输入至该第二模型之后,可以得到该第二模型输出的第二分类结果,该第二分类结果可以包括多个预设类别中每一类别对应的第二置信度。在一些实施例中,各预设类别的第二置信度的和为1。例如,若存在多个预设类别为A类别、B类别和C类别,该第二分类结果可以包括A类别对应的第二置信度A2,B类别对应的第二置信度B2和C类别对应的第二置信度C2,其中,A2,B2和C2的和为1。
在步骤403中,基于每一预设类别对应的第一置信度和第二置信度,确定待分类数据的分类结果。
在本申请的一些实施例中,可以通过以下方式实现上述步骤403:
在步骤4031中,获取第一分类结果对应的第一精度参数,和第二分类结果对应的第二精度参数;第一精度参数用于表征第一模型的预测精度;第二精度参数用于表征第二模型的预测精度。
其中,各模型的精度参数用于表征该模型输出的待分类数据的分类结果与该待分类数据的实际分类结果的接近程度。
在步骤4032中,基于每一预设类别对应的第一置信度和第二置信度、第一精度参数和第二精度参数,确定每一预设类别对应的第三置信度。
其中,将第一精度参数作为每一预设类别的第一置信度的权重,将第二精度参数作为为每一预设类别的第二置信度的权重,对每一预设类别的第一置信度和第二置信度进行加权求和,得到每一预设类别对应的第三置信度。其中,一个预设类别的第三置信度为第一置信度与第一精度参数的乘积、与第二置信度与第二精度参数的乘积的和。
例如,在上述举例的基础上,若存在第一精度参数为J1,第二精度参数为J2,A类别对应的第一置信度A1,A类别对应的第二置信度A2,则得到A类别对应的第三置信度(A3=A1×J1+A2×J2)。
在步骤4033中,将最大第三置信度对应的预设类别作为待分类数据的分类结果。
通过本申请实施例对于图4的上述示例性实施可知,本申请实施例通过获取第一模型对应的第一精度参数,和第二模型对应的第二精度参数,并通过该第一精度参数对第一模型输出的第一分类结果进行加权,通过该第二精度参数对该第二分类结果进行加权,最终得到的分类结果不仅包括了两种分类模型的分类结果,还结合了每一分类模型的分类精度。如此,可以使得到的分类结果更加准确。
参见图5,图5是本申请实施例提供的数据分类方法的一个可选的流程示意图,基于上述实施例,以图3为例,图3中多分类模型的训练过程可以包括步骤501至步骤503,将结合图5示出的步骤进行说明。
在步骤501中,通过第一训练集得到第一模型。
在步骤502中,通过第二训练集得到第二模型。
在本申请的一些实施例中,可以在数据库中获取预先设置好的第一训练集和第二训练集,利用该第一训练集对预设的初始第一模型进行训练,得到第一模型,同时,利用第二训练集对预设的初始第二模型进行训练,得到第二模型。
在本申请的一些实施例中,在得到第一模型和第二模型后,会判断此时得到的第一模型和第二模型是否满足停止条件,在满足该停止条件后,根据此时的第一模型和第二模型生成该多分类模型,该多分类模型包括该第一模型和第二模型,并根据该第一模型输出的第一分类结果和第二模型输出的第二分类结果生成最终的分类结果。
在步骤503中,在不满足停止条件的情况下,执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对多分类模型进行迭代训练,直至达到停止条件,输出训练后的多分类模型;训练集更新操作包括以下至少之一:通过第二模型更新第一训练集,通过第一模型更新第二训练集。
在本申请的一些实施例中,不满足停止条件的情况下,对执行一次迭代训练,并在迭代训练之后继续是否满足停止条件,在满足停止条件的情况下,输出该多分类模型,在不满足该停止条件的情况下,继续执行该迭代训练。
其中,一次迭代训练包括:执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对多分类模型进行迭代训练。其中,该训练集更新操作包括以下至少之一:通过第二模型更新第一训练集;通过第一模型更新第二训练集。
在训练集更新操作包括通过第二模型更新第一训练集和通过第一模型更新第二训练集的情况下,所述利用更新后的训练集对多分类模型进行迭代训练,包括:利用更新后的第一训练集训练第一模型,并利用更新后的第二训练集训练第二模型。在训练集更新操作包括通过第二模型更新第一训练集的情况下,所述利用更新后的训练集对多分类模型进行迭代训练,包括:利用更新后的第一训练集训练第一模型。在训练集更新操作包括通过第一模型更新第二训练集的情况下,所述利用更新后的训练集对多分类模型进行迭代训练,包括:利用更新后的第二训练集训练第二模型。
通过本申请实施例对于图5的上述示例性实施可知,本申请实施例通过在模型训练过程中,分别利用第一模型更新用于得到第二模型的第二训练集,利用第二模型更新用于得到第一模型的第一训练集,可以在完成第一模型与第二模型之间训练信息交互的过程中,不断的提升第一模型和第二模型的分类准确度,进而可以提升整体的多分类模型的分类准确度。同时,本申请实施例中通过第二模型更新第一训练集的过程中,实现了第一样本数据的挖掘,大大减少了人工标记的工作量,提升了数据分类的整体效率;同时本申请实施例通过第一模型与第二模型相互更新训练集的方式,可以加速多分类模型的收敛速度,提升模型训练效率。
参见图6,图6是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图,将结合图6示出的步骤进行说明。
在步骤601中,通过第一训练集得到多分类模型中的第一模型,第一训练集包括多个携带真实分类标记的第一样本数据。
在步骤602中,通过第二训练集得到多分类模型中的第二模型,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记。
在步骤603中,是否满足停止条件。
其中,在不满足停止条件的情况下,执行步骤604,在满足停止条件的情况下,执行步骤606。
在步骤604中,执行训练集更新操作,得到更新后的训练集;训练集更新操作包括以下至少之一:通过第二模型更新第一训练集,通过第一模型更新第二训练集。
在步骤605中,利用更新后的训练集对多分类模型进行迭代训练。
在本申请的一些实施例中,在训练集更新操作包括通过第二模型更新第一训练集和通过第一模型更新第二训练集的情况下,所述利用更新后的训练集对多分类模型进行迭代训练,包括:利用更新后的第一训练集训练第一模型,并利用更新后的第二训练集训练第二模型。在训练集更新操作包括通过第二模型更新第一训练集的情况下,所述利用更新后的训练集对多分类模型进行迭代训练,包括:利用更新后的第一训练集训练第一模型。在训练集更新操作包括通过第一模型更新第二训练集的情况下,所述利用更新后的训练集对多分类模型进行迭代训练,包括:利用更新后的第二训练集训练第二模型。
在步骤606中,输出训练后的多分类模型。
在本申请的一些实施例中,该训练后的多分类模型包括满足上述停止条件时的训练后的第一模型和训练后的第二模型,该训练后的多分类模型还用于根据训练后的第一模型输出的第一分类结果和训练后的第二分类结果生成最终的分类结果,具体生成最终的分类结果的方法可以参照上述实施例提供的方法。
通过本申请实施例对于图6的上述示例性实施可知,本申请实施例通过在模型训练过程中,分别利用第一模型更新用于得到第二模型的第二训练集,利用第二模型更新用于得到第一模型的第一训练集,可以在完成第一模型与第二模型之间训练信息交互的过程中,不断的提升第一模型和第二模型的分类准确度,进而可以提升整体的多分类模型的分类准确度。同时,本申请实施例中通过第二模型更新第一训练集的过程中,实现了第一样本数据的挖掘,大大减少了人工标记的工作量,提升了数据分类的整体效率;同时本申请实施例通过第一模型与第二模型相互更新训练集的方式,可以加速多分类模型的收敛速度,提升模型训练效率。
参见图7,图7是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图,基于上述实施例,以基于图6为例,所述方法还包括获取第一训练集和第二训练集的步骤,将结合图7示出的步骤进行说明。
在步骤701中,基于原始数据集,构建第一训练集和第三训练集;第三训练集包括多个无分类标记的第三样本数据。
其中,该原始数据集中包括多个原始数据,原始数据包括以下至少之一:语音数据、文本数据、图像数据和视频数据。
在本申请的一些实施例中,可以通过以下方式实现上述步骤701:
在步骤7011中,获取原始数据集中的多个原始数据。
在步骤7012中,对每一原始数据进行特征提取,得到每一原始数据对应的原始特征,并构建原始训练集。
其中,该原始特征可以以特征向量的形式体现,例如,该原始特征可以为N维向量。
在步骤7013中,从原始训练集中抽取至少一个第一原始特征和至少一个第二原始特征。
其中,可以按照一定的抽取规则从该原始训练集中进行抽取。该抽取规则可以包括按照比例抽取、按照原始特征的大小抽取、按照原始特征的特征标识进行抽取等。以按照比例进行抽取为例,可以按照L1:L2的比例抽取至少一个原始特征和至少一个第二原始特征,其中,L2远大于L1,也就是说,得到的第二原始特征的数量远大于第一原始特征的数量。
在步骤7014中,基于至少一个第一原始特征和每一原始特征对应的真实分类标记,构建包括多个第一样本数据的第一训练集。
其中,在得到至少一个第一原始特征之后,可以分别获取每一第一原始特征对应的真实分类标记,并将添加真实分类标记的第一原始特征作为第一样本数据添加至第一训练集中,以构建包括多个第一样本数据的第一训练集。
在步骤7015中,基于至少一个第二原始特征,构建第三训练集。
其中,在得到至少一个第二原始特征之后,可以分别将每一第二原始特征作为第二样本数据添加至第二训练集中,以构建包括多个第二样本数据的第二训练集。
在本申请的一些实施例中,原始数据包括以下至少之一:语音数据、文本数据、图像数据和视频数据。在该原始数据为语音数据的情况下,从该语音数据中提取的特征可以为原始语音特征;在该原始数据为文本数据的情况下,从该文本数据中提取的特征可以为原始文本特征;在该原始数据为图像数据的情况下,从该图像数据中提取的特征可以为原始图像特征;在该原始数据为视频数据的情况下,从该视频数据中提取的特征可以为原始视频特征。
在本申请的一些实施例中,得到的第一训练集可以表示为
Figure BDA0002885363090000111
其中,
Figure BDA0002885363090000112
为d维特征向量,
Figure BDA0002885363090000113
为示例xi的标记,
Figure BDA0002885363090000115
为含有q个预设类别的标记集合,得到的第三训练集可以表示为
Figure BDA0002885363090000116
在步骤702中,根据第一训练集中的每一第一样本数据,生成每一第三样本数据对应的偏标记集合。
在本申请的一些实施例中,可以通过以下方式实现上述步骤702:
在步骤7021中,根据每一第三样本数据与每一第一样本数据的相似度,生成权重矩阵。
在本申请的一些实施例中,可以通过以下方式实现上述步骤7021:根据每一第三样本数据与每一第一样本数据的相似度,生成每一第三样本数据对应的权重向量;根据每一第三样本数据对一个的权重向量生成权重矩阵。
其中,所述根据每一第三样本数据与每一第一样本数据的相似度,生成每一第三样本数据对应的权重向量,包括:在每一第一样本数据中,确定第三样本数据的近邻样本集合;近邻样本集合包括至少一个近邻样本数据;近邻样本数据为与第三样本数据相似的第一样本数据;在第一样本数据处于近邻样本集合的情况下,使用第一权重生成规则生成第一样本数据对应的权重元素;在第一样本数据未处于近邻样本集合的情况下,使用第二权重生成规则生成第一样本数据对应的权重元素;基于每一样本数据对应的权重元素,生成第三样本数据对应的权重向量。
在本申请的一些实施例中,在得到的第一训练集可以表示为
Figure BDA0002885363090000117
得到的第三训练集可以表示为
Figure BDA0002885363090000118
的情况下,可以分别确定每一个第三样本数据在
Figure BDA0002885363090000119
中的近邻样本集合
Figure BDA00028853630900001110
其中,可以通过以下方式实现近邻样本集合
Figure BDA00028853630900001111
的获取:针对第三训练集中的任意一个第三样本数据xj,分别确定该xj与每一第一样本数据之间的相似度,将相似度最高的k个第一样本数据作为该xj的邻样本集合
Figure BDA00028853630900001112
在其中一个实施例中,可以通过KNN(k近邻算法)在第一训练集寻找每一第三样本数据的近邻样本集合
Figure BDA00028853630900001113
在本申请的一些实施例中,对于一个第三样本数据,该第三样本数据对应的权重向量包括由该第三样本数据与每一第一样本数据确定的权重元素。即,对于生成的权重矩阵W,该权重矩阵W包括U个第三样本数据对应的权重向量Wj,每一第三样本数据对应的权重向量包括由该第三样本数据与每一第一样本数据确定的权重元素Wij
例如,在U=6,L=4的情况下,对应的权重矩阵WL×U可以表示为公式(1-1):
Figure BDA0002885363090000121
其中,第三样本数据xj=1对应的权重向量可以表示为公式(1-2):
Figure BDA0002885363090000122
对于任意一个第三样本数据,该第三样本数据对应的权重向量中的每一权重元素可以根据第一样本数据是否处于该第三样本数据对应的近邻样本集合,而采用不同的权重生成规则,即,在第一样本数据处于近邻样本集合的情况下,使用第一权重生成规则生成第一样本数据对应的权重元素;在第一样本数据未处于近邻样本集合的情况下,使用第二权重生成规则生成第一样本数据对应的权重元素。
例如,可以通过公式(1-3)所示的权重生成规则实现权重元素的生成:
Figure BDA0002885363090000123
其中,在第一样本数据处于该第三样本数据的近邻样本集合的情况下,采用
Figure BDA0002885363090000124
确定由该第一样本数据与该第三样本数据确定的权重元素;在第一样本数据未处于近邻样本集合的情况下,将参数“0”作为该第一样本数据与该第三样本数据确定的权重元素。
其中,σ是核函数的带宽参数,默认为1;
Figure BDA0002885363090000125
为xi-xj的2范数,即两个特征向量的欧氏距离。带宽控制高斯核函数的局部作用范围,带宽越大影响范围越大,这里的带宽本质是方差。本申请实施例可以对原生数据会做归一化处理,处理后的数据方差为1,所以这里带宽参数,默认为1,根据训练数据的方差不同可以做相应调整,也可根据模型效果进行调参。
在步骤7022中,基于权重矩阵,生成每一第三样本数据对应的类别置信度向量;类别置信度向量包括每一预设类别对应的第四置信度。
在本申请的一些实施例中,可以通过以下方式实现上述步骤7022:根据每一第一样本数据,确定第三样本数据在每一预设类别的第四置信度;根据第三样本数据在每一预设类别的第四置信度,确定第三样本数据对应的类别置信度向量。
其中,可以通过公式(1-4)确定每一第三样本数据在每一预设类别的第四置信度。
Figure BDA0002885363090000126
其中,
Figure BDA0002885363090000127
标识第三样本数据xj在第k个预设类别上的第四置信度,
Figure BDA00028853630900001210
为示例xi的标记,
Figure BDA00028853630900001211
为已标记数据集
Figure BDA00028853630900001212
中xj的近邻,[[H]]在H为真的情况下值为1,否则为0。
例如,基于上述举例,对于第三样本数据xj=1,若该xj=1对应的权重向量为[0,0,W31,W41]T,可以通过公式(1-5)确定第三样本数据在第k预设类别的第四置信度。
Figure BDA0002885363090000128
在步骤7023中,根据每一第三样本数据对应的类别置信度向量生成每一第三样本数据对应的偏标记集合。
在本申请的一些实施例中,对于每一第三样本数据,可以按照第四置信度的大小顺序,将第四置信度较大的至少一个预设类别作为该第三样本数据对应的偏标记集合。例如,对于第三样本数据xj=1,若该xj=1在第k预设类别的第四置信度分别为
Figure BDA0002885363090000129
则按照大小顺序,确定第四置信度较大的至少一个预设类别,包括
Figure BDA0002885363090000131
Figure BDA0002885363090000132
则该第三样本数据对应的偏标记集合包括第二预设类别、第四预设类别和第五预设类别。
在本申请的一些实施例中,对于每一第三样本数据,可以根据预设的第四置信度阈值,将大于该第四置信度阈值的至少一个预设类别作为该第三样本数据对应的偏标记集合。例如,对于第三样本数据xj=1,若该xj=1在第k预设类别的第四置信度分别为
Figure BDA0002885363090000133
根据预设的第四置信度阈值
Figure BDA0002885363090000134
确定大于该
Figure BDA0002885363090000135
的至少一个预设类别,包括
Figure BDA0002885363090000136
Figure BDA0002885363090000137
则该第三样本数据对应的偏标记集合包括第二预设类别和第五预设类别。
在本申请的一些实施例中,还可以通过以下方式实现上述步骤7023:对第三样本数据对应的类别置信度向量进行归一化处理,得到归一化处理后的类别置信度向量;归一化处理后的类别置信度向量包括每一预设类别的第五置信度;根据每一预设类别的第五置信度,确定第三样本数据对应的偏标记集合。
其中,可以通过以下公式(1-6)实现对该第三样本数据对应的类别置信度向量进行归一化处理:
Figure BDA0002885363090000138
其中,rjk表示经过归一化处理后的第三样本数据xj在第k个预设类别上的第五置信度。
则,该第三样本数据对应的偏标记集合可以表示为公式(1-7);
Figure BDA0002885363090000139
其中,Sj第三样本数据xj对应的偏标记集合。
在步骤703中,为每一第三样本数据添加对应的偏标记集合,得到第二训练集。
在本申请的一些实施例中,对于每一第三样本数据xj,均添加对应的偏标记集合Sj,则可以得到对应的第二样本数据(xj,Sj)。由此,可以得到包括各第二样本数据的第二训练集为
Figure BDA00028853630900001312
通过本申请实施例对于图7的上述示例性实施可知,本申请实施例通过在第一训练集中获取每一第三样本数据对应的近邻样本集合,为每一第三样本数据生成对应的偏标记集合。如此,可以在极少标记数据的前提下,自动生成大量携带监督信息的第二样本数据,以得到第二训练集,通过该第二训练集可以得到半监督学习方法下的第二模型,为后续整体多分类模型的模型精度提供了数据基础;同时,由于本申请实施例使用的是携带包括多个候选分类标记的偏标记集合的第二样本数据完成第二模型的训练,相比于相关技术中仅仅采用单一候选标记的半监督学习方法,解决有标记样本较少且初始模型性能较差导致标记指定错误、后续推导模型性能下降的问题,并且通过本申请实施例得到的第二模型可以解决多分类问题,相比于相关技术中只能解决二分类问题的半监督模型,本申请得到的第二模型性能更加优越。
参见图8,图8是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图,基于上述实施例,以图6为例,图6实施例中的通过第一模型更新第二训练集,可以通过步骤801至步骤803实现,将结合图8示出的步骤进行说明。
在步骤801中,在第三训练集中获取至少一个待更新样本数据。
在本申请的一些实施例中,步骤801采用有放回的方式,从该第三训练集中随机获取至少一个第三样本数据作为获取的至少一个待更新样本数据。
在步骤802中,将每一待更新样本数据输入至第一模型和第二模型,得到每一待更新样本数据对应的待更新偏标记集合。
在本申请的一些实施例中,可以通过以下方式实现上述步骤802:
在步骤8021中,将待更新样本数据输入至第一模型,得到第一模型输出的第三分类结果。
在本申请的一些实施例中,该第一模型是从上述第一训练集
Figure BDA00028853630900001313
中学习得到的分类模型,将该第一模型表示为
Figure BDA00028853630900001310
其中,t为迭代次数,第一模型
Figure BDA00028853630900001311
可以得到待更新样本数据
Figure BDA00028853630900001412
对应的第三分类结果,并且满足
Figure BDA0002885363090000141
使用的有监督学习算法
Figure BDA00028853630900001413
可自由设定,即
Figure BDA0002885363090000142
通过有监督学习算法
Figure BDA00028853630900001414
和第一训练集
Figure BDA00028853630900001415
可以得到第一模型
Figure BDA0002885363090000143
本申请采用的是支持向量机。
在步骤8022中,将待更新样本数据输入至第二模型,得到第二模型输出的第四分类结果。
在本申请的一些实施例中,该第二模型是从上述第二训练集
Figure BDA00028853630900001416
中学习得到的分类模型,将该第二模型表示为
Figure BDA0002885363090000144
其中,
Figure BDA0002885363090000145
表示映射到,t为迭代次数,第二模型
Figure BDA0002885363090000146
可以得到待更新样本数据
Figure BDA00028853630900001417
对应的第四分类结果,并且满足
Figure BDA0002885363090000147
使用的偏标记学习算法
Figure BDA00028853630900001418
可自由设定,即
Figure BDA00028853630900001419
通过偏标记学习算法
Figure BDA00028853630900001420
和第二训练集
Figure BDA00028853630900001421
可以得到第二模型
Figure BDA0002885363090000148
本申请采用的是IPAL(Instance based PArtial LabelLearning)。
在步骤8023中,根据第三分类结果和第四分类结果确定待更新样本数据对应的待更新偏标记集合。
其中,第三分类结果包括多个预设类别中每一预设类别对应的第六置信度;第四分类结果包括每一预设类别对应的第七置信度。所述根据第三分类结果和第四分类结果确定待更新样本数据对应的待更新偏标记集合,包括:基于预设的平衡参数,对每一预设类别对应的第六置信度和第七置信度进行加权求和,得到每一预设类别对应的第八置信度;根据每一预设类别的第八置信度,确定待更新样本数据对应的待更新偏标记集合。
在本申请的一些实施例中,可以通过公式(1-8)确定每k预设类别对应的第八置信度。
Figure BDA0002885363090000149
其中,
Figure BDA00028853630900001410
表示第一模型输出的第三分类结果,
Figure BDA00028853630900001411
表示第二模型输出的第四分类结果,α表示平衡参数。
例如,对于一个待更新样本数据xj=m,存在多个预设类别为A类别、B类别和C类别,可以得到第三分类结果中每一预设类别对应的第六置信度,包括A6、B6和C6;可以得到第四分类结果中每一预设类别对应的第七置信度,包括A7、B7和C7。A类别对应的第八置信度A8=α×A6+(1-α)×A7,以此类推,可以得到B类别和C类别对应的第八置信度B8和C8。
在本申请的一些实施例中,可以通过公式(1-9)确定待更新样本数据对应的待更新偏标记集合。
S′={lk∣tk≥1/q,1≤k≤q} 公式(1-9);
其中,S′为待更新样本数据对应的待更新偏标记集合。该公式(1-9)用于将大于平均置信度的第八置信度对应的预设类别确定为待更新偏标记集合中的一个待更新的候选分类标记。
在步骤803中,根据每一待更新样本数据对应的待更新偏标记集合更新第二训练集。
在本申请的一些实施例中,可以通过以下方式实现上述步骤803:
在步骤8031中,在第二训练集中查询与待更新样本数据对应的待更新第二样本数据。
在步骤8032中,利用待更新偏标记集合更新待更新第二样本数据携带的偏标记集合。
在本申请的一些实施例中,可以在该第二训练集中查找每一待更新样本数据,即通过待更新样本数据xj=m在第二训练集查找得到原始的第二样本数据为(xj=m,Sj=m),同时,利用得到的待更新偏标记集合S′j=m更新原始的偏标记集Sj=m,得到更新后的第二样本数据为(xj=m,S′j=m)。
通过本申请实施例对于图8的上述示例性实施可知,本申请实施例通过第一模型对第二样本数据携带的多个候选分类标记进行更新,使得更新后的第二样本数据可以与实际上的分类结果更加接近。如此,通过更新后第二训练集可以得到预测精度更高的第二模型,为提升多分类模型的整体模型精度提供的基础。
参见图9,图9是本申请实施例提供的多分类模型训练方法的一个可选的流程示意图,基于上述实施例,以图6为例,图6实施例中的通过第二模型更新第一训练集,可以通过步骤901至步骤903实现,将结合图9示出的步骤进行说明。
在步骤901中,在第三训练集中获取至少一个待标记样本数据。
在本申请的一些实施例中,步骤901采用有放回的方式,从该第三训练集中随机获取至少一个第三样本数据作为获取的至少一个待标记样本数据。
在步骤902中,将每一待标记样本数据输入至第二模型,得到每一待标记样本数据对应的真实分类标记。
在本申请的一些实施例中,可以通过以下方式实现上述步骤902:
在步骤9021中,将待标记样本数据输入至第二模型,得到第二模型输出的第五分类结果;
在本申请的一些实施例中,该第二模型是从上述第二训练集
Figure BDA0002885363090000157
中学习得到的分类模型,将该第一模型表示为
Figure BDA0002885363090000151
其中,t为迭代次数,第二模型
Figure BDA0002885363090000152
可以得到待标记样本数据
Figure BDA0002885363090000158
对应的第五分类结果,并且满足
Figure BDA0002885363090000153
使用的偏标记学习算法
Figure BDA0002885363090000159
可自由设定,即
Figure BDA0002885363090000154
本申请采用的是IPAL。
在步骤9022中,根据第五分类结果确定待标记样本数据对应的真实分类标记。
其中,第五分类结果包括多个预设类别中每一预设类别对应的第九置信度。所述根据第五分类结果确定待标记样本数据对应的真实分类标记,包括:将最大第九置信度对应的预设类别作为待标记样本数据对应的真实分类标记。
在本申请的一些实施例中,可以通过公式(1-10)确定待标记样本数据对应的真实分类标记。
Figure BDA0002885363090000155
其中,
Figure BDA00028853630900001510
表示,在
Figure BDA00028853630900001511
的情况下,获取
Figure BDA0002885363090000156
的最大值。
在步骤903中,根据每一待更新标记数据对应的真实分类标记更新第一训练集。
在本申请的一些实施例中,可以通过以下方式实现上述步骤903:
在步骤9031中,对待标记样本数据添加对应的真实分类标记。
在步骤9032中,将添加真实分类标记的待标记样本数据作为新增第一样本数据添加至第一训练集。
在本申请的一些实施例中,对于待标记样本数据xj=n,可以将真实分类标记y′添加至该待标记样本数据中,得到新增第一样本数据(xj=n,y′),并添加至该第一训练集。更新后的第一训练集中的第一样本数量比更新前的第一训练集的第一样本数量多。
通过本申请实施例对于图9的上述示例性实施可知,本申请实施例通过第二模型,为第一训练集增加新的携带真实分类标记的第一样本数据,在原始的少量第一样本数据的基础上,由于增加了第一样本数据的数量,可以使得更新后的第一训练集更加丰富。如此,通过更新后第一训练集可以得到预测精度更高的第一模型,为提升多分类模型的整体模型精度提供的基础。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本申请实施例提出一种新型多类半监督学习方法,针对未标记数据进行候选标记集合构造,而不是单个伪标记指定。其中,从含有候选标记集合的偏标记样本中学习得到一个学习器(相当于上述实施例中的第二模型),同时从已标记样本中学习得到另一个学习器(相当于上述实施例中的第一模型),再将两个学习器的标记信息进行沟通交流以便总体模型(相当于上述实施例中的多分类模型)更新。通过迭代更新得到最终的学习模型(训练后的多分类模型),可用于预测未见样本的标记。
在相关技术中,半监督学习方法可分为生成式方法、半监督支持向量机、图半监督学习和基于分歧的方法。其中,基于分歧的方法co-training是最有代表性的方法之一,两个分类器在同一数据集的两个不同的视图上进行学习,让每个分类器分别去挑选“最有把握的”未标记样本赋予伪标记,并将伪标记样本提供给另一个分类器作为新增的有标记样本用于训练更新。本申请采用了和co-training类似的策略,即在两个分类器之间交换标记信息,但与co-training不同的是,本申请并没有为示例标记设定两个视图,而是使用统一的特征,并从未标记样本中学习指定候选标记集合而不是单个标记。
在相关技术中,半监督支持向量机也是另一个非常流行的半监督学***面,但在考虑未标记样本后,半监督支持向量机试图找到能将有标记样本分开,且穿过数据低密度区域的划分超平面。它往往考虑对未标记样本进行各种可能的标记,例如尝试将每个未标记样本分别作为正例或反例,然后在所有指定中找到一个结果使得间隔最大化。但伪标记指定可能会出错,因此又发展出了安全的半监督支持向量机技术,来确保对未标记数据的利用是有益的。
图半监督学习例如标记传播利用有标记和未标记样本蕴含的图结构来估计未标记样本的伪标记,因此图半监督学习方法通常是直推式学习,但本申请是纯半监督学习方法,具有对未见示例标记预测的能力。
生成式方法是直接基于生成式模型的方法,此类方法假设所有数据都是由同一个潜在模型“生成”,则潜在模型的参数将未标记数据与学习目标联系起来。未标记数据的标记可以看作模型的缺失参数,通常可基于EM算法进行极大似然估计求解。该方法的关键在于假设的模型必须与真实数据分布吻合,但在现实任务中很难做出准确假设。
偏标记学***均消歧。对于辨识消歧,它将示例的真实标记作为隐变量,通过迭代的方式优化内嵌隐变量的目标函数实现消歧。对于平均消歧,它赋予偏标记对象的各个候选标记相同的权重,通过综合学习模型在各候选标记上的输出实现消歧。除了消歧策略,也有一些方法将偏标记学习问题转化成其他已有的学习问题。
然后申请人经过研究发现,现有半监督学习方案在实际中存在以下缺点:
(1)半监督支持向量机、图半监督学习和基于分歧的方法对未标记数据的处理都是指定单个伪标记,再将伪标记当作真实标记加入有标记数据集合中推导模型,但单个伪标记指定往往容易出错,尤其是在有标记数据稀少、初始预测模型性能较差时,因此导致后续模型性能下降。
(2)基于分歧的方法如协同训练需要多视图数据,但现实任务中满足条件的数据集较少,需要一定设计。
(3)图半监督学习方法通常是直推式学习,基于封闭世界假设,不能对未见样本预测标记,仅能预测训练集中的未标记数据标记。
(4)生成式方法依赖于模型假设的准确度,即假设的生成式模型必须与真实数据分布吻合,否则利用未标记数据反而降低泛化性能,但在现实任务中很做出准确模型假设,需要充分的领域知识。
(5)很多半监督学习方法仅能解决正负二分类问题,多分类问题需要采用一对一或一对多策略进行二分类模型集成才能解决。
为了解决上述问题,本申请实施例给出一种新型半监督学习方法,首先针对未标记数据进行候选标记集合构造,而不是单个伪标记指定。接着从含有候选标记集合的偏标记样本中学习得到一个学习器,同时从已标记样本中学习得到另一个学习器,再将两个学习器的标记信息进行沟通交流以便总体模型更新。通过迭代更新得到最终的学习模型,可用于预测未见样本的标记。
这种半监督学习方法的特点在于:(1)不再像之前的半监督学习方法只指定单个标记,而是一个候选标记集合,真实标记蕴含其中。因为单个标记指定往往容易出错,并导致后续推导的模型性能下降,候选标记集合的使用一定程度上提高了标记指定的鲁棒性,容错率更高。(2)经过候选标记集合指定后,可以从未标记数据中学习得到偏标记学习模型,同时再从有标记数据中学习得到有监督学习模型,两种模型的集成和交流迭代更新能有效提高对半监督情境下数据的学习。(3)该方法非常灵活,偏标记学习方法和有监督学习方法未被限制,可以根据实际效果选择最优方法达到更好的性能。
本申请提供了的半监督学习方法,能在有标记数据稀少、获得数据标记代价太大情境下进行模型学习,尤其在一些专业领域,例如金融、法律、医学等领域,数据标记需要专业人员甚至专家,代价高昂。其次能应用到音频、图像、文本等多个领域中。相比于只使用少量有标记数据的有监督方法,能显著提高模型的准确率。
其中,以文本情感分类为例说明,获得大量文本后,标记信息需要大量人力物力获得,本申请可以仅标记少量样本,结合未标记样本学习提取文本特征,自动识别文本中蕴含的情感倾向,从而大量减少数据标记的代价;通过构造未标记数据候选标记的方法优化半监督学习模型的性能;解决传统协同训练多视图和领域知识的限制;能对新来样本进行预测,无需加入未标记数据集合中重新训练模型。
请参阅图10所示的半监督学习***的一个可选的框架示意图。其中,该半监督学习***包括两个主要的子任务A10和A20,其中,A10用于将未标记数据转换成偏标记数据,即构造候选标记集合;A20用于从两种不同形式数据中学习得到模型,两个模型迭代交换标记信息直到收敛或达到最大迭代次数。具体的迭代交换方式请参阅图11所示的一个可选的训练流程示意图。
在本申请的一些实施例中,请参阅10所示的半监督学习***框架图,本申请实施例提供的半监督学习方法,具体步骤如下:
步骤A1、准备训练数据。
其中,对任意多标记应用场景如图像、音频、文本等进行采样,获得训练数据,提取相应特征并挑选少量数据进行人工标记,得到训练数据:少量已标记数据
Figure BDA0002885363090000174
Figure BDA0002885363090000175
和大量未标记数据
Figure BDA0002885363090000176
其中
Figure BDA0002885363090000177
为d维特征向量,
Figure BDA0002885363090000178
为示例xi的标记,
Figure BDA0002885363090000179
为含有q个类别的标记空间,并且L<<U。可以通过
Figure BDA00028853630900001710
学习得到分类模型。
步骤A2、将未标记数据转换成偏标记数据。
其中,本申请对未标记数据进行偏标记指定,即构造候选标记集合,来给整个学习***提供弱监督信息,以便后续模型推导。其具体构造步骤如下:
步骤A21、生成kNN权重矩阵:对每个未标记样本
Figure BDA00028853630900001711
在已标记数据集
Figure BDA00028853630900001712
中找到xj的k近邻,并将数据下标记为
Figure BDA00028853630900001713
最终根据样本及其近邻之间的关系可以得到一个权重矩阵W=[wij]L×U,其中每个元素的计算方式如公式(2-1):
Figure BDA0002885363090000171
其中,σ是核函数的带宽参数,默认为1,可根据训练数据的特征调整;
Figure BDA0002885363090000172
为xi-xj的2范数,即两个特征向量的欧氏距离。
例如,对于10个样本,L1至L4为已标记样本(L=4个),U1至U6为未标记样本(U=6个);可以得到一个权重矩阵=[wij]4×6,如公式(2-2)。
Figure BDA0002885363090000173
其中,对于U1,若U1在L中有2个近邻包括L3和L4,则U1对应的W11和W21为0,由U1确定的元素包括:[0,0,W31,W41]T
步骤A22、生成标记置信度。
其中,利用KNN聚合可以得到每个未标记样本xj(1≤j≤U)的标记置信度向量
Figure BDA0002885363090000181
如公式(2-3)所示。
Figure BDA0002885363090000182
其中,
Figure BDA00028853630900001824
为示例xi的标记,
Figure BDA00028853630900001825
为已标记数据集
Figure BDA00028853630900001826
中xj的近邻,[[H]]在H为真的情况下值为1,否则为0。
例如,基于上述举例,样本U1第k个标记的标记置信度计算公式为公式(2-4):
Figure BDA0002885363090000183
Figure BDA0002885363090000184
是一个数值,可以理解为当L3和L4含有lk类别时会对
Figure BDA0002885363090000185
的计算产生贡献,否则为0无贡献。
对样本U1计算q个预设类别的标记置信度,即可得到一个标记置信度向量
Figure BDA0002885363090000186
Figure BDA0002885363090000187
步骤A23、生成候选标记集合。
其中,将上述标记置信度进行归一化,每个未标记样本xj的候选标记
Figure BDA00028853630900001827
可通过公式(2-5)获得:
Figure BDA0002885363090000188
最终未标记数据集
Figure BDA00028853630900001828
被转换成偏标记数据集
Figure BDA00028853630900001829
将用于后续模型多类分类器的推导。
步骤A3、模型迭代更新。
其中,从偏标记数据集中学习得到偏标记模型,同时从有标记数据集中学习得到有监督模型,将两个模型蕴含的监督信息进行交流,直到模型趋于收敛或达到最大迭代次数,请参阅图11所示的训练流程示意图。以第t次迭代为例,具体包括以下步骤:
步骤A31、有监督模型学习。
其中,设
Figure BDA0002885363090000189
是从已标记数据集
Figure BDA00028853630900001830
中学习得到的分类模型,其中
Figure BDA00028853630900001810
可以得到样本x标记预测置信度,并且满足
Figure BDA00028853630900001811
使用的有监督学习算法
Figure BDA00028853630900001831
可自由设定,即
Figure BDA00028853630900001812
本申请采用的是支持向量机。即图11中的通过有标记数据B10得到有监督模型B11。
步骤A32、偏标记模型学习。
其中,与有监督模型类似,设
Figure BDA00028853630900001813
是从偏标记数据集
Figure BDA00028853630900001832
中学习得到的分类模型,其中
Figure BDA00028853630900001814
可以得到样本x标记预测置信度,并且满足
Figure BDA00028853630900001815
使用的偏标记学习算法
Figure BDA00028853630900001833
可自由设定,即
Figure BDA00028853630900001816
本申请采用的是IPAL。即图11中的通过偏标记数据B20得到偏标记模型B21。
步骤A33、有放回的从未标记数据中随机采样,更新偏标记数据的候选标记。
其中,设
Figure BDA00028853630900001817
为从
Figure BDA00028853630900001834
中随机采样的子集,然后用步骤A31中的有监督模型
Figure BDA00028853630900001818
预测
Figure BDA00028853630900001819
的输出,并利用此输出更新偏标记数据集的候选标记。
其中,对每个样本
Figure BDA00028853630900001820
Figure BDA00028853630900001835
为偏标记数据集中对应的样本,本申请根据以下公式(2-6)更新候选标记:
Figure BDA00028853630900001821
其中,α∈[0,1]是平衡参数,控制从
Figure BDA00028853630900001822
Figure BDA00028853630900001823
继承标记信息的相对比例。
上述步骤相当于图11中,从未标记数据B30中经过第一次采样,得到
Figure BDA0002885363090000191
并输入至有监督模型B11和偏标记模型B21,分别得到“有监督模型的采样子集标记置信度”B12和“偏标记模型的采样子集标记置信度”B22,结合B12和B22,可以得到“更新采样子集标记置信度,即部分偏标记数据的候选标记”B40,利用该B40可以去更新偏标记数据B20。
步骤A34、再次有放回的从未标记数据中随机采样,扩大有标记数据集。
其中,设
Figure BDA0002885363090000192
为从
Figure BDA00028853630900001918
中随机采样的另一个子集,然后用步骤A32中的偏标记模型
Figure BDA0002885363090000193
预测
Figure BDA0002885363090000194
的标记,并加入有标记数据集合。具体来说,对每个样本
Figure BDA0002885363090000195
Figure BDA0002885363090000196
预测其标记为公式(2-7):
Figure BDA0002885363090000197
上述步骤相当于图11中,从未标记数据B30中经过第二次采样,得到
Figure BDA0002885363090000198
并输入至偏标记模型B21,得到“第二次采样子集标记”B50,利用该B50可以去扩充有标记数据B10。
之后,
Figure BDA0002885363090000199
Figure BDA00028853630900001910
将分别基于更新后的
Figure BDA00028853630900001919
Figure BDA00028853630900001920
重新训练,进入t+1次迭代。迭代停止后得到最终的学习模型
Figure BDA00028853630900001911
Figure BDA00028853630900001912
步骤A4、标记预测。
其中,针对未知样本x*,其最终标记由有监督模型
Figure BDA00028853630900001913
和偏标记模型
Figure BDA00028853630900001914
共同决定,如公式(2-8):
Figure BDA00028853630900001915
其中,μl和μp分别是
Figure BDA00028853630900001916
Figure BDA00028853630900001917
对原始有标记数据{(xi,yi)∣1≤i≤L}的经验预测精度。
本申请在一些公开多类数据集上进行实验,并分别与四种半监督学***)。
表1
数据集 本申请 planetoid ssodm S4VM cotrade LIBSVM
Ecoli 0.726±0.119 0.634±0.099 0.626±0.179 0.495±0.126· 0.086±0.048· 0.048±0.053·
Deter 0.799±0.090 0.700±0.097· 0.621±0.116· 0.655±0.067· 0.051±0.061· 0.017±0.045·
BHP 0.508±0.060 0.463±0.064· 0.438±0.067· 0.389±0.081· 0.317±0.061· 0.185±0.137·
yeast 0.467±0.067 0.466±0.062 0.443±0.074 0.357±0.074· 0.313±0.056· 0.141±0.086·
Wireless 0.940±0.027 0.830±0.055· 0.809±0.040· 0.714±0.029· 0.919±0.080 0.803±0.149·
segment 0.715±0.034 0.703±0.048 0.623±0.058· 0.617±0.092· 0.562±0.092· 0.216±0.094·
usps 0.784±0.042 0.694±0.038· 0.464±0.040· 0.085±0.049· 0.739±0.042· 0.567±0.073·
pen 0.875±0.029 0.801±0.022· 0.708±0.035· 0.106±0.039· 0.807±0.028· 0.824±0.046·
letter 0.441±0.015 0.199±0.026· 0.401±0.029· 0.036±0.010· 0.436±0.032 0.214±0.031·
从实验结果分析,本申请技术方案带来的有益效果可以归纳为:
(1)提出一种未标记数据利用的新思路,不再像之前的半监督学习方法只指定单个标记,而是一个候选标记集合,真实标记蕴含其中。解决有标记样本较少且初始模型性能较差导致标记指定错误、后续推导模型性能下降的问题。对比的半监督学习算法均为单标记指定,从实验结果可知本方明采取的思路能带来显著性能提升。
(2)相比于有监督学习对数据标记的高要求,本申请仅需要少量有标记数据,能自动从未标记数据中挖掘监督信息,大大减少了人工标记的成本,实验仅使用了0.5%的有标记数据,充分利用了大量未标记数据。
(3)相比于传统的半监督学习方法,该发明不再是简单的二分类,而直接扩展到了多分类。对比算法中的ssodm、S4VM、cotrade均为二分类半监督算法,为了适应多类数据集需采取“一对多”或“一对一”策略进行转换,但本申请直接提供了直观的多分类方法。
(4)经实验验证,该发明的预测精度不亚于最新的半监督学习方法,尤其在在有标记数据稀少的情况下表现优异。
(5)相比于有监督学习算法LIBSVM,其在有标记数据稀有的情境下性能较差,本申请的半监督学习方法性能优越很多。
在本申请的一些实施例中,本申请可以基于KNN和图结构进行了候选标记集合构造,但也有其他策略,例如标记传播等。而且本申请并不局限具体的有监督学习方法和偏标记学习方法,可以根据实际应用对内存时间的限制和准确率的要求,替换成其他模型。例如,有监督学习方法还可以采用决策树、逻辑斯蒂回归等,偏标记学习方法可替换成PL-kNN、PL-ECOC等。
下面继续说明本申请实施例提供的数据分类装置555的实施为软件模块的示例性结构,在本申请的一些实施例中,如图2所示,存储在存储器550的数据分类装置555中的软件模块包括:
获取模块5551,用于获取待分类数据;
分类模块5552,用于将待分类数据分别输入至多分类模型的第一模型和第二模型中,得到待分类数据的分类结果;其中,第一模型是通过第一训练集得到的,第一训练集包括多个携带真实分类标记的第一样本数据;第二模型是通过第二训练集得到的,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记。
在本申请的一些实施例中,所述多个第一样本数据中存在至少一个新增的第一样本数据;新增的第一样本数据携带的真实分类标记是根据第二模型得到的;和/或,所述多个第二样本数据中存在至少一个更新后的第二样本数据;更新后的第二样本数据携带的偏标记集合是根据第一模型得到的。
在本申请的一些实施例中,所述分类模块5552,还用于:将待分类数据输入至第一模型,得到第一模型输出的第一分类结果;第一分类结果包括多个预设类别中每一预设类别对应的第一置信度;将待分类数据输入至第二模型,得到第二模型输出的第二分类结果;第二分类结果包括多每一预设类别对应的第二置信度;基于每一预设类别对应的第一置信度和第二置信度,确定待分类数据的分类结果。
在本申请的一些实施例中,所述分类模块5552,还用于:获取第一分类结果对应的第一精度参数,和第二分类结果对应的第二精度参数;第一精度参数用于表征第一模型的预测精度;第二精度参数用于表征第二模型的预测精度;基于每一预设类别对应的第一置信度和第二置信度、第一精度参数和第二精度参数,确定每一预设类别对应的第三置信度;将最大第三置信度对应的预设类别作为待分类数据的分类结果。
在本申请的一些实施例中,所述数据分类装置555还包括训练模块,所述训练模块用于通过第一训练集得到第一模型;通过第二训练集得到第二模型;在不满足停止条件的情况下,执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对多分类模型进行迭代训练,直至达到停止条件,输出训练后的多分类模型;训练集更新操作包括以下至少之一:通过第二模型更新第一训练集,通过第一模型更新第二训练集。
下面继续说明本申请实施例提供的数据分类装置655的实施为软件模块的示例性结构,在本申请的一些实施例中,如图2所示,存储在存储器650的多分类模型训练装置655中的软件模块包括:
第一模型训练模块6551,用于通过第一训练集得到多分类模型中的第一模型,第一训练集包括多个携带真实分类标记的第一样本数据;
第二模型训练模块6552,用于通过第二训练集得到多分类模型中的第二模型,第二训练集包括多个携带偏标记集合的第二样本数据,偏标记集合包括至少一个候选分类标记;
第三模型训练模块6553,用于在不满足停止条件的情况下,执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对多分类模型进行迭代训练,直至达到停止条件,输出训练后的多分类模型;训练集更新操作包括以下至少之一:通过第二模型更新第一训练集,通过第一模型更新第二训练集。
在本申请的一些实施例中,所述多分类模型训练装置655还包括训练集构建模块,所述训练集构造模块用于:基于原始数据集,构建第一训练集和第三训练集;第三训练集包括多个无分类标记的第三样本数据;根据第一训练集中的每一第一样本数据,生成每一第三样本数据对应的偏标记集合;为每一第三样本数据添加对应的偏标记集合,得到第二训练集。
在本申请的一些实施例中,所述训练集构造模块还用于:获取原始数据集中的多个原始数据;对每一原始数据进行特征提取,得到每一原始数据对应的原始特征,并构建原始训练集;从原始训练集中抽取至少一个第一原始特征和至少一个第二原始特征;基于至少一个第一原始特征和每一原始特征对应的真实分类标记,构建包括多个第一样本数据的第一训练集;基于至少一个第二原始特征,构建第三训练集。
在本申请的一些实施例中,所述原始数据包括以下至少之一:语音数据、文本数据、图像数据、视频数据。
在本申请的一些实施例中,所述训练集构造模块还用于:根据每一第三样本数据与每一第一样本数据的相似度,生成权重矩阵;基于权重矩阵,生成每一第三样本数据对应的类别置信度向量;类别置信度向量包括每一预设类别对应的第四置信度;根据每一第三样本数据对应的类别置信度向量生成每一第三样本数据对应的偏标记集合。
在本申请的一些实施例中,所述训练集构造模块还用于:根据每一第三样本数据与每一第一样本数据的相似度,生成每一第三样本数据对应的权重向量;根据每一第三样本数据对一个的权重向量生成权重矩阵。
在本申请的一些实施例中,所述训练集构造模块还用于:在每一第一样本数据中,确定第三样本数据的近邻样本集合;近邻样本集合包括至少一个近邻样本数据;近邻样本数据为与第三样本数据相似的第一样本数据;在第一样本数据处于近邻样本集合的情况下,使用第一权重生成规则生成第一样本数据对应的权重元素;在第一样本数据未处于近邻样本集合的情况下,使用第二权重生成规则生成第一样本数据对应的权重元素;基于每一样本数据对应的权重元素,生成第三样本数据对应的权重向量。
在本申请的一些实施例中,所述训练集构造模块还用于:根据每一第一样本数据,确定第三样本数据在每一预设类别的第四置信度;根据第三样本数据在每一预设类别的第四置信度,确定第三样本数据对应的类别置信度向量。
在本申请的一些实施例中,所述训练集构造模块还用于:对第三样本数据对应的类别置信度向量进行归一化处理,得到归一化处理后的类别置信度向量;归一化处理后的类别置信度向量包括每一预设类别的第五置信度;根据每一预设类别的第五置信度,确定第三样本数据对应的偏标记集合。
在本申请的一些实施例中,所述第三模型训练模块6553还用于:在第三训练集中获取至少一个待更新样本数据;将每一待更新样本数据输入至第一模型和第二模型,得到每一待更新样本数据对应的待更新偏标记集合;根据每一待更新样本数据对应的待更新偏标记集合更新第二训练集。
在本申请的一些实施例中,所述第三模型训练模块6553还用于:将待更新样本数据输入至第一模型,得到第一模型输出的第三分类结果;将待更新样本数据输入至第二模型,得到第二模型输出的第四分类结果;根据第三分类结果和第四分类结果确定待更新样本数据对应的待更新偏标记集合。
在本申请的一些实施例中,所述第三分类结果包括多个预设类别中每一预设类别对应的第六置信度;第四分类结果包括每一预设类别对应的第七置信度;所述第三模型训练模块6553还用于:基于预设的平衡参数,对每一预设类别对应的第六置信度和第七置信度进行加权求和,得到每一预设类别对应的第八置信度;根据每一预设类别的第八置信度,确定待更新样本数据对应的待更新偏标记集合。
在本申请的一些实施例中,所述第三模型训练模块6553还用于:在第二训练集中查询与待更新样本数据对应的待更新第二样本数据;利用待更新偏标记集合更新待更新第二样本数据携带的偏标记集合。
在本申请的一些实施例中,所述第三模型训练模块6553还用于:在第三训练集中获取至少一个待标记样本数据;将每一待标记样本数据输入至第二模型,得到每一待标记样本数据对应的真实分类标记;根据每一待更新标记数据对应的真实分类标记更新第一训练集。
在本申请的一些实施例中,所述第三模型训练模块6553还用于:将待标记样本数据输入至第二模型,得到第二模型输出的第五分类结果;根据第五分类结果确定待标记样本数据对应的真实分类标记。
在本申请的一些实施例中,所述第五分类结果包括多个预设类别中每一预设类别对应的第九置信度;所述第三模型训练模块6553还用于:将最大第九置信度对应的预设类别作为待标记样本数据对应的真实分类标记。
在本申请的一些实施例中,所述第三模型训练模块6553还用于:对待标记样本数据添加对应的真实分类标记;将添加真实分类标记的待标记样本数据作为新增第一样本数据添加至第一训练集。
在本申请的一些实施例中,所述停止条件包括以下至少之一:多分类模型趋于收敛;达到最大迭代次数。
本公开实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的数据分类方法或多分类模型训练方法。
本公开实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的数据分类方法或多分类模型训练方法,例如,如图3至图8示出的方法。
在本申请的一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在本申请的一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够实现以下技术效果:
(1)本申请实施例利用基于多个携带真实分类标记的第一样本数据训练的得到的第一模型和基于多个携带偏标记集合的第二样本数据得到的第二模型,对待分类数据进行分类,由于该多分类模型综合了第一模型的分类结果和第二模型的分类结果,可以使该多分类模型输出的分类结果可以更加贴近待分类数据实际上的分类情况。如此,可以提升数据分类的准确性。
(2)本申请实施例通过获取第一模型对应的第一精度参数,和第二模型对应的第二精度参数,并通过该第一精度参数对第一模型输出的第一分类结果进行加权,通过该第二精度参数对该第二分类结果进行加权,最终得到的分类结果不仅包括了两种分类模型的分类结果,还结合了每一分类模型的分类精度。如此,可以使得到的分类结果更加准确。
(3)本申请实施例通过在模型训练过程中,分别利用第一模型更新用于得到第二模型的第二训练集,利用第二模型更新用于得到第一模型的第一训练集,可以在完成第一模型与第二模型之间训练信息交互的过程中,不断的提升第一模型和第二模型的分类准确度,进而可以提升整体的多分类模型的分类准确度。同时,本申请实施例中通过第二模型更新第一训练集的过程中,实现了第一样本数据的挖掘,大大减少了人工标记的工作量,提升了数据分类的整体效率;同时本申请实施例通过第一模型与第二模型相互更新训练集的方式,可以加速多分类模型的收敛速度,提升模型训练效率。
(4)本申请实施例通过在模型训练过程中,分别利用第一模型更新用于得到第二模型的第二训练集,利用第二模型更新用于得到第一模型的第一训练集,可以在完成第一模型与第二模型之间训练信息交互的过程中,不断的提升第一模型和第二模型的分类准确度,进而可以提升整体的多分类模型的分类准确度。同时,本申请实施例中通过第二模型更新第一训练集的过程中,实现了第一样本数据的挖掘,大大减少了人工标记的工作量,提升了数据分类的整体效率;同时本申请实施例通过第一模型与第二模型相互更新训练集的方式,可以加速多分类模型的收敛速度,提升模型训练效率。
(5)本申请实施例通过在第一训练集中获取每一第三样本数据对应的近邻样本集合,为每一第三样本数据生成对应的偏标记集合。如此,可以在极少标记数据的前提下,自动生成大量携带监督信息的第二样本数据,以得到第二训练集,通过该第二训练集可以得到半监督学习方法下的第二模型,为后续整体多分类模型的模型精度提供了数据基础;同时,由于本申请实施例使用的是携带包括多个候选分类标记的偏标记集合的第二样本数据完成第二模型的训练,相比于相关技术中仅仅采用单一候选标记的半监督学习方法,解决有标记样本较少且初始模型性能较差导致标记指定错误、后续推导模型性能下降的问题,并且通过本申请实施例得到的第二模型可以解决多分类问题,相比于相关技术中只能解决二分类问题的半监督模型,本申请得到的第二模型性能更加优越。
(6)本申请实施例通过第一模型对第二样本数据携带的多个候选分类标记进行更新,使得更新后的第二样本数据可以与实际上的分类结果更加接近。如此,通过更新后第二训练集可以得到预测精度更高的第二模型,为提升多分类模型的整体模型精度提供的基础。
(7)本申请实施例通过第二模型,为第一训练集增加新的携带真实分类标记的第一样本数据,在原始的少量第一样本数据的基础上,由于增加了第一样本数据的数量,可以使得更新后的第一训练集更加丰富。如此,通过更新后第一训练集可以得到预测精度更高的第一模型,为提升多分类模型的整体模型精度提供的基础。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种数据分类方法,其特征在于,包括:
获取待分类数据;
将所述待分类数据分别输入至多分类模型的第一模型和第二模型中,得到所述待分类数据的分类结果;
其中,所述第一模型是通过第一训练集得到的,所述第一训练集包括多个携带真实分类标记的第一样本数据;所述第二模型是通过第二训练集得到的,所述第二训练集包括多个携带偏标记集合的第二样本数据,所述偏标记集合包括至少一个候选分类标记。
2.根据权利要求1所述的方法,其特征在于,
所述多个第一样本数据中存在至少一个新增的第一样本数据;所述新增的第一样本数据携带的真实分类标记是根据所述第二模型得到的;
和/或,
所述多个第二样本数据中存在至少一个更新后的第二样本数据;所述更新后的第二样本数据携带的偏标记集合是根据所述第一模型得到的。
3.根据权利要求1所述的方法,其特征在于,所述将所述待分类数据分别输入至多分类模型的第一模型和第二模型中,得到所述待分类数据的分类结果,包括:
将所述待分类数据输入至所述第一模型,得到所述第一模型输出的第一分类结果;所述第一分类结果包括多个预设类别中每一所述预设类别对应的第一置信度;
将所述待分类数据输入至所述第二模型,得到所述第二模型输出的第二分类结果;所述第二分类结果包括多每一所述预设类别对应的第二置信度;
基于每一所述预设类别对应的第一置信度和第二置信度,确定所述待分类数据的分类结果。
4.根据权利要求3所述的方法,其特征在于,所述基于每一所述预设类别对应的第一置信度和第二置信度,确定所述待分类数据的分类结果,包括:
获取所述第一分类结果对应的第一精度参数,和所述第二分类结果对应的第二精度参数;所述第一精度参数用于表征所述第一模型的预测精度;所述第二精度参数用于表征所述第二模型的预测精度;
基于每一所述预设类别对应的第一置信度和第二置信度、所述第一精度参数和所述第二精度参数,确定每一所述预设类别对应的第三置信度;
将最大第三置信度对应的预设类别作为所述待分类数据的分类结果。
5.一种多分类模型训练方法,其特征在于,包括:
通过第一训练集得到多分类模型中的第一模型,所述第一训练集包括多个携带真实分类标记的第一样本数据;
通过第二训练集得到所述多分类模型中的第二模型,所述第二训练集包括多个携带偏标记集合的第二样本数据,所述偏标记集合包括至少一个候选分类标记;
在不满足停止条件的情况下,执行训练集更新操作,得到更新后的训练集,利用更新后的训练集对所述多分类模型进行迭代训练,直至达到停止条件,输出训练后的多分类模型;所述训练集更新操作包括以下至少之一:通过所述第二模型更新所述第一训练集,通过所述第一模型更新所述第二训练集。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
基于原始数据集,构建所述第一训练集和第三训练集;所述第三训练集包括多个无分类标记的第三样本数据;
根据所述第一训练集中的每一所述第一样本数据,生成每一所述第三样本数据对应的偏标记集合;
为每一所述第三样本数据添加对应的偏标记集合,得到所述第二训练集。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一训练集中的每一所述第一样本数据,生成每一所述第三样本数据对应的偏标记集合,包括:
根据每一所述第三样本数据与每一所述第一样本数据的相似度,生成权重矩阵;
基于所述权重矩阵,生成每一所述第三样本数据对应的类别置信度向量;所述类别置信度向量包括每一预设类别对应的第四置信度;
根据每一所述第三样本数据对应的类别置信度向量生成每一所述第三样本数据对应的偏标记集合。
8.根据权利要求7所述的方法,其特征在于,所述根据每一所述第三样本数据与每一所述第一样本数据的相似度,生成权重矩阵,包括:
根据每一所述第三样本数据与每一所述第一样本数据的相似度,生成每一所述第三样本数据对应的权重向量;
根据每一所述第三样本数据对一个的权重向量生成所述权重矩阵。
9.根据权利要求8所述的方法,其特征在于,所述根据每一所述第三样本数据与每一所述第一样本数据的相似度,生成每一所述第三样本数据对应的权重向量,包括:
在每一所述第一样本数据中,确定所述第三样本数据的近邻样本集合;所述近邻样本集合包括至少一个近邻样本数据;所述近邻样本数据为与所述第三样本数据相似的第一样本数据;
在所述第一样本数据处于所述近邻样本集合的情况下,使用第一权重生成规则生成所述第一样本数据对应的权重元素;
在所述第一样本数据未处于所述近邻样本集合的情况下,使用第二权重生成规则生成所述第一样本数据对应的权重元素;
基于每一所述样本数据对应的权重元素,生成所述第三样本数据对应的权重向量。
10.根据权利要求7所述的方法,其特征在于,所述基于所述权重矩阵,生成每一所述第三样本数据对应的类别置信度向量,包括:
根据每一所述第一样本数据,确定所述第三样本数据在每一所述预设类别的第四置信度;
根据所述第三样本数据在每一所述预设类别的第四置信度,确定所述第三样本数据对应的类别置信度向量。
11.根据权利要求6所述的方法,其特征在于,所述通过所述第一模型更新所述第二训练集,包括:
在所述第三训练集中获取至少一个待更新样本数据;
将每一所述待更新样本数据输入至所述第一模型和所述第二模型,得到每一所述待更新样本数据对应的待更新偏标记集合;
根据每一所述待更新样本数据对应的待更新偏标记集合更新所述第二训练集。
12.根据权利要求6所述的方法,其特征在于,所述通过所述第二模型更新所述第一训练集,包括:
在所述第三训练集中获取至少一个待标记样本数据;
将每一所述待标记样本数据输入至所述第二模型,得到每一所述待标记样本数据对应的真实分类标记;
根据每一所述待标记样本数据对应的真实分类标记更新所述第一训练集。
13.一种数据分类装置,其特征在于,包括:
获取模块,用于获取待分类数据;
分类模块,用于将所述待分类数据分别输入至多分类模型的第一模型和第二模型中,得到所述待分类数据的分类结果;其中,所述第一模型是通过第一训练集得到的,所述第一训练集包括多个携带真实分类标记的第一样本数据;所述第二模型是通过第二训练集得到的,所述第二训练集包括多个携带偏标记集合的第二样本数据,所述偏标记集合包括至少一个候选分类标记。
14.一种计算机设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至4任一项所述的方法,或实现权利要求5至12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至4任一项所述的方法,或实现权利要求5至12任一项所述的方法。
CN202110011544.8A 2021-01-06 2021-01-06 数据分类方法及多分类模型训练方法、装置、设备、介质 Pending CN113537270A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110011544.8A CN113537270A (zh) 2021-01-06 2021-01-06 数据分类方法及多分类模型训练方法、装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110011544.8A CN113537270A (zh) 2021-01-06 2021-01-06 数据分类方法及多分类模型训练方法、装置、设备、介质

Publications (1)

Publication Number Publication Date
CN113537270A true CN113537270A (zh) 2021-10-22

Family

ID=78094334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110011544.8A Pending CN113537270A (zh) 2021-01-06 2021-01-06 数据分类方法及多分类模型训练方法、装置、设备、介质

Country Status (1)

Country Link
CN (1) CN113537270A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423031A (zh) * 2022-09-20 2022-12-02 腾讯科技(深圳)有限公司 一种模型训练的方法以及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115423031A (zh) * 2022-09-20 2022-12-02 腾讯科技(深圳)有限公司 一种模型训练的方法以及相关装置

Similar Documents

Publication Publication Date Title
US11537884B2 (en) Machine learning model training method and device, and expression image classification method and device
Ke et al. End-to-end automatic image annotation based on deep CNN and multi-label data augmentation
CN111797893B (zh) 一种神经网络的训练方法、图像分类***及相关设备
WO2019100724A1 (zh) 训练多标签分类模型的方法和装置
WO2019100723A1 (zh) 训练多标签分类模型的方法和装置
Li et al. Self-taught low-rank coding for visual learning
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN113821670B (zh) 图像检索方法、装置、设备及计算机可读存储介质
Zeng et al. CNN model design of gesture recognition based on tensorflow framework
CN110781919A (zh) 分类模型训练方法、分类方法、装置及设备
Jiang et al. Variational deep embedding: A generative approach to clustering
Premachandran et al. Empirical minimum bayes risk prediction: How to extract an extra few% performance from vision models with just three more parameters
CN113590863A (zh) 图像聚类方法、装置及计算机可读存储介质
CN115080749B (zh) 一种基于自监督训练的弱监督文本分类方法、***和装置
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、***及设备
CN114266897A (zh) 痘痘类别的预测方法、装置、电子设备及存储介质
CN115187772A (zh) 目标检测网络的训练及目标检测方法、装置及设备
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN114358109A (zh) 特征提取模型训练、样本检索方法、装置和计算机设备
Sahu et al. Dynamic routing using inter capsule routing protocol between capsules
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
CN111898704A (zh) 对内容样本进行聚类的方法和装置
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN113537270A (zh) 数据分类方法及多分类模型训练方法、装置、设备、介质
Everett et al. Protocaps: A fast and non-iterative capsule network routing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination