CN114139658A - 分类模型的训练方法及计算机可读存储介质 - Google Patents

分类模型的训练方法及计算机可读存储介质 Download PDF

Info

Publication number
CN114139658A
CN114139658A CN202210117469.8A CN202210117469A CN114139658A CN 114139658 A CN114139658 A CN 114139658A CN 202210117469 A CN202210117469 A CN 202210117469A CN 114139658 A CN114139658 A CN 114139658A
Authority
CN
China
Prior art keywords
data
training
data set
classification model
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210117469.8A
Other languages
English (en)
Inventor
刘国清
杨广
王启程
郑伟
贺硕
杨国武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Minieye Innovation Technology Co Ltd
Original Assignee
Shenzhen Minieye Innovation Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Minieye Innovation Technology Co Ltd filed Critical Shenzhen Minieye Innovation Technology Co Ltd
Priority to CN202210117469.8A priority Critical patent/CN114139658A/zh
Publication of CN114139658A publication Critical patent/CN114139658A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分类模型的训练方法,包括:根据第一数据集训练初始分类模型以得到中间分类模型,其中,第一数据集为有标签数据的集合;利用中间分类模型提取训练数据集的特征向量,其中,训练数据集包括第一数据集和第二数据集,第二数据集为无标签数据的集合;根据训练数据集的特征向量构建最近数据图和最远数据图;根据最近数据图和最远数据图获取第二数据集的预测标签;以及根据第一数据集和带有预测标签的第二数据集训练中间分类模型以得到目标分类模型。此外,本发明还提供了一种计算机可读存储介质。本发明技术方案有效解决了有标签数据的数量少导致分类模型准确度不高的问题。

Description

分类模型的训练方法及计算机可读存储介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种分类模型的训练方法及计算机可读存储介质。
背景技术
深度学习模型在各个领域中已经取得了巨大的成就,特别是有监督学习算法在大量应用领域中取得了显著的效果。深度学习一般是从大量已标注的训练样本中学习一个模型用于给未见过的样本预测一个尽可能正确的标签。然而在许多实际应用场景中,人工标注大规模的训练样本需要耗费巨大的人力和物力。因此,许多研究聚焦于半监督学习,即在只有部分已标注样本和大量未标注样本的情况下学习的一个模型。
发明内容
本发明提供了一种分类模型的训练方法及计算机可读存储介质,用于解决有标签数据的数量少导致分类模型准确度不高的问题。
第一方面,本发明实施例提供一种分类模型的训练方法,所述分类模型的训练方法包括:
根据第一数据集训练初始分类模型以得到中间分类模型,其中,所述第一数据集为有标签数据的集合;
利用所述中间分类模型提取训练数据集的特征向量,其中,所述训练数据集包括所述第一数据集和第二数据集,所述第二数据集为无标签数据的集合;
根据所述训练数据集的特征向量构建最近数据图和最远数据图,其中,所述最近数据图为在所述训练数据集中的每一数据与所述每一数据距离最近的多个其它数据的关系图,所述最远数据图为在所述训练数据集中的每一数据与所述每一数据距离最远的多个其它数据的关系图;
根据所述最近数据图和所述最远数据图获取所述第二数据集的预测标签;以及
根据所述第一数据集和带有所述预测标签的第二数据集训练所述中间分类模型以得到目标分类模型。
第二方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序指令,所述程序指令可被处理器执行以实现如上所述的分类模型的训练方法。
上述分类模型的训练方法及计算机可读存储介质,先根据有标签的第一数据集训练初始分类模型得到中间分类模型,使得到的中间分类模型获得一定的特征提取能力,方便后续提取数据的特征向量。其中,根据第一数据集训练初始分类模型的过程可以称为热启动阶段。利用中间分类模型提取第一数据集和第二数据集的特征向量,再根据特征向量构建最近数据图和最远数据图。根据最近数据图中每一数据与距离最近的多个其它数据的相似性和最远数据图中每一数据与距离最远的多个其它数据的不相似性,将第一数据集带有的标签信息传播给第二数据集,从而得到第二数据集的预测标签。使得预测标签能够结合距离最近的数据的标签信息和距离最远的数据的标签信息,利用数据间的相似性和不相似性进行消歧,从而使得预测标签更加可信、更加精确。最后根据第一数据集和带有预测标签的第二数据集对中间分类模型进行训练,有效增加了有标签数据的数量,从而得到具有良好分类能力的目标分类模型,提高了目标分类模型的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例提供的分类模型的训练方法的流程图。
图2为本发明实施例提供的分类模型的训练方法的第一子流程图。
图3为本发明实施例提供的分类模型的训练方法的第二子流程图。
图4为本发明实施例提供的分类模型的训练方法的第三子流程图。
图5为图1所示的最近数据图的示意图。
图6为图1所示的最远数据图的示意图。
图7为图3所示的近邻相似度矩阵的示意图。
图8为图3所示的疏远相似度矩阵的示意图。
图9为图3所示的初始标签矩阵的示意图。
图10为图4所示的目标标签矩阵的示意图。
图11为本发明实施例提供的终端的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的规划对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,换句话说,描述的实施例根据除了这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,还可以包含其他内容,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于只清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者多个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请结合参看图1,其为本发明实施例提供的分类模型的训练方法的流程图。训练方法用于训练分类模型,训练得到的分类模型能够对无标签数据进行分类。分类模型的训练方法具体包括如下步骤。
步骤S102,根据第一数据集训练初始分类模型以得到中间分类模型。其中,第一数据集为有标签数据的集合。在本实施例中,训练初始分类模型之前,预先设定若干预设类别。第一数据集中的第一数据包括真实标签,每一第一数据的真实标签与若干预设类别中的一个类别相对应。以预设学习率根据第一数据集对初始分类模型进行训练,并判断初始分类模型的训练次数是否达到预设次数。当初始分类模型的训练次数达到预设次数时,将训练达到预设次数的初始分类模型作为中间分类模型。训练初始分类模型的具体过程为:将第一数据集中的第一数据输入初始分类模型以得到相应的第一标签,根据第一标签和真实标签以预设学习率更新初始分类模型的参数。将第一数据输入更新参数后的初始分类模型以得到新的第一标签,根据新的第一标签和真实标签以预设学习率再次更新初始分类模型的参数,直至训练达到预设次数。将最后一次更新参数后的初始分类模型作为中间分类模型。其中,中间分类模型还没有达到收敛。预设学习率和预设次数可以根据实际情况进行设置,在此不做限定。第一数据集中的第一数据包括但不限于图像、文字、音频等。
步骤S104,利用中间分类模型提取训练数据集的特征向量。可以理解的是,根据第一数据集训练的中间分类模型具有一定的特征提取能力,能够用于提取数据的特征向量。将训练数据集中的数据输入中间分类模型,可以得到与每一数据相对应的特征向量。其中,训练数据集包括第一数据集和第二数据集,第二数据集为无标签数据的集合。第二数据集中的第二数据包括但不限于图像、文字、音频等。可以理解的是,训练数据集中的数据包括第一数据和第二数据,第一数据和第二数据为相同类型的数据。即,若第一数据为图像,则第二数据也应该为图像;若第一数据为文字,则第二数据也应该为文字;若第一数据为音频,则第二数据也应该为音频。
由于中间分类模型直接输出的特征向量的维度较高,通常为512维、甚至更高的维度。因此需要对中间分类模型输出的特征向量进行降维处理,以便于后续的计算,同时也极大减少了计算量。在本实施例中,将特征向量进行归一化处理,并将归一化处理后的特征向量进行降维处理,使得特征向量的维度为128维。
步骤S106,根据训练数据集的特征向量构建最近数据图和最远数据图。数据的特征向量可以用于表示数据之间距离的远近,根据数据之间距离的远近可以构建最近数据图和最远数据图。可以理解的是,两个数据之间距离越远,表示两个数据越不相似,越不可能属于同一类别;两个数据之间距离越近,表示两个数据越相似,越有可能属于同一类别。其中,最近数据图为在训练数据集中的每一数据与每一数据距离最近的多个其它数据的关系图。最远数据图为在训练数据集中的每一数据与每一数据距离最远的多个其它数据的关系图。根据训练数据集的特征向量构建最近数据图和最远数据图的具体过程将在下文详细描述。
步骤S108,根据最近数据图和最远数据图获取第二数据集的预测标签。根据标签传播算法的思想,可以利用最近数据图中距离较近的数据较相似、最远数据图中距离较远的数据较不相似的特点,将第一数据的真实标签传递给第二数据,以形成第二数据集中第二数据的预测标签。根据最近数据图和最远数据图获取第二数据集的预测标签的具体过程将在下文详细描述。
步骤S110,根据第一数据集和带有预测标签的第二数据集训练中间分类模型以得到目标分类模型。将第一数据集中的第一数据和第二数据集中的第二数据均输入中间分类模型以得到相应的第二标签,根据第一数据的第二标签和真实标签、第二数据的第二标签和预测标签更新中间分类模型的参数,直至中间分类模型收敛。将收敛的中间分类模型作为目标分类模型,用于对无标签数据进行分类。
在一些可行的实施例中,也可以将根据第一数据集和第二数据集进行训练且达到预设训练次数的中间分类模型作为目标分类模型。
上述实施例中,先根据有标签的第一数据集训练初始分类模型得到中间分类模型,使得到的中间分类模型获得一定的特征提取能力,方便后续提取数据的特征向量。其中,根据第一数据集训练初始分类模型的过程可以称为热启动阶段。利用中间分类模型提取第一数据集和第二数据集的特征向量,再根据特征向量构建最近数据图和最远数据图。根据最近数据图中每一数据与距离最近的多个其它数据的相似性和最远数据图中每一数据与距离最远的多个其它数据的不相似性,将第一数据集带有的标签信息传播给第二数据集,从而得到第二数据集的预测标签。使得预测标签能够结合距离最近的数据的标签信息和距离最远的数据的标签信息,利用数据间的相似性和不相似性进行消歧,从而使得预测标签更加可信、更加精确。最后根据第一数据集和带有预测标签的第二数据集对中间分类模型进行训练,有效增加了有标签数据的数量,从而得到具有良好分类能力的目标分类模型,提高了目标分类模型的性能。
请结合参看图2,其为本发明实施例提供的分类模型的训练方法的第一子流程图。步骤S106具体包括如下步骤。
步骤S202,根据训练数据集的特征向量分别计算训练数据集中每两个数据之间的距离。其中,每两个数据之间的距离可以用每两个数据的特征向量之间的欧式距离来表示,每两个数据之间的距离也可以用每两个数据的特征向量之间的余弦相似度来表示。则,计算每两个数据的特征向量之间的欧式距离或者余弦相似度作为相应两个数据之间的距离。
步骤S204,按照从小到大的顺序将与每一数据相对应的距离进行排序。分别将与每一数据相对应的距离按照从小到大的顺序进行排序。可以理解的是,若训练数据集中包括n个数据,则与每一数据相对应的距离均有n-1个,将与同一数据相对应的n-1个距离进行排序。举例来说,训练数据集包括6个数据,分别为数据A、数据B、数据C、数据D、数据E、数据F。其中,数据A和数据B、数据C、数据D、数据E、数据F之间的距离分别为A1、A2、A3、A4、A5;按照从小到大的顺序将与数据A相对应的距离进行排序,可以得到A3、A2、A4、A1、A5。数据B和数据A、数据C、数据D、数据E、数据F之间的距离分别为B1、B2、B3、B4、B5;按照从小到大的顺序将与数据B相对应的距离进行排序,可以得到B4、B2、B1、B5、B3。与数据C、数据D、数据E、数据F相对应的距离同样依此进行排序,在此不再一一赘述。
步骤S206,从与最小距离对应的数据开始从训练数据集中选取预设数量的其它数据作为数据的近邻数据。可以理解的是,与每一数据距离最近的多个其它数据并不是指多个其它数据与相应数据的距离均相同,而是从训练数据集中选取一个距离最近的其它数据之后,再选取一个距离最近的其它数据,直至选取的其它数据的数量为预设数量。其中,预设数量可以根据实际情况进行设置,在此不做限定。在本实施例中,每一数据均有预设数量的近邻数据。举例来说,若预设数量为2。对于数据A,最小距离A3对应的数据为数据D,从训练数据集中先选取数据D作为数据A的近邻数据。其次,最小距离A2对应的数据为数据C,从训练数据集中再选取数据C作为数据A的近邻数据。则,数据A的近邻数据包括数据D和数据C。对于数据B,最小距离B4对应的数据为数据E,从训练数据集中先选取数据E作为数据B的近邻数据。其次,最小距离B2对应的数据为数据C,从训练数据集中再选取数据C作为数据B的近邻数据。则,数据B的近邻数据包括数据E和数据C。数据C、数据D、数据E、数据F的近邻数据同样依此进行选取,在此不再一一赘述。
步骤S208,根据训练数据集中每一数据的近邻数据构建最近数据图。在本实施例中,训练数据集中的每一数据为最近数据图中的节点,每一数据与相应的近邻数据之间用连线连接。举例来说,数据A、数据B、数据C、数据D、数据E、数据F均有两个近邻数据,构建的最近数据图如图5所示。其中,数据C的近邻数据包括数据B和数据E,数据D的近邻数据包括数据B和数据E,数据E的近邻数据包括数据B和数据F,数据F的近邻数据包括数据A和数据D。
步骤S210,从与最大距离对应的数据开始从训练数据集中选取预设数量的其它数据作为数据的疏远数据。可以理解的是,与每一数据距离最远的多个其它数据并不是指多个其它数据与相应数据的距离均相同,而是从训练数据集中选取一个距离最远的其它数据之后,再选取一个距离最远的其它数据,直至选取的其它数据的数量为预设数量。其中,预设数量可以根据实际情况进行设置,在此不做限定。在本实施例中,每一数据均有预设数量的疏远数据。即是说,每一数据近邻数据的数量与疏远数据的数量相同。在一些可行的实施例中,每一数据近邻数据的数量与疏远数据的数量可以不相同。举例来说,若预设数量为2。对于数据A,最大距离A5对应的数据为数据F,从训练数据集中先选取数据F作为数据A的疏远数据。其次,最大距离A1对应的数据为数据B,从训练数据集中再选取数据B作为数据A的疏远数据。则,数据A的疏远数据包括数据F和数据B。对于数据B,最大距离B3对应的数据为数据D,从训练数据集中先选取数据D作为数据B的疏远数据。其次,最大距离B5对应的数据为数据F,从训练数据集中再选取数据F作为数据B的疏远数据。则,数据B的疏远数据包括数据D和数据F。数据C、数据D、数据E、数据F的疏远数据同样依此进行选取,在此不再一一赘述。
步骤S212,根据训练数据集中每一数据的疏远数据构建最远数据图。在本实施例中,训练数据集中的每一数据为最远数据图中的节点,每一数据与相应的疏远数据之间用连线连接。举例来说,数据A、数据B、数据C、数据D、数据E、数据F均有两个疏远数据,构建的最远数据图如图6所示。其中,数据C的疏远数据包括数据A和数据D,数据D的疏远数据包括数据A和数据F,数据E的疏远数据包括数据A和数据C,数据F的疏远数据包括数据B和数据E。
上述实施例中,根据数据的特征向量分别计算每两个数据之间的距离,根据每两个数据之间的距离,为每个数据从训练数据集中选取预设数量的近邻数据和预设数量的疏远数据。根据所有数据的近邻数据构建最近数据图,根据所有数据的疏远数据构建最远数据图,使得最近数据图能够囊括所有数据之间的相似关系,最远数据图能够囊括所有数据之间的不相似关系。基于最近数据图和最远数据图进行标签传播,能够同时利用数据间的相似关系和数据间不相似的关系,从而去除潜在的错误标签信息,为第二数据传播更加可信的标签信息。
请结合参看图3和图4,图3为本发明实施例提供的分类模型的训练方法的第二子流程图,图4为本发明实施例提供的分类模型的训练方法的第三子流程图。步骤S108具体包括如下步骤。
步骤S302,根据最近数据图构建近邻相似度矩阵。其中,近邻相似度矩阵中的数值包括训练数据集中每一数据与每一数据距离最近的多个其它数据的相似度、每一数据与训练数据集中除距离最近的多个其它数据以外的剩余数据的相似度、训练数据集中同一数据的相似度。在本实施例中,将每一数据和相应近邻数据之间的距离分别作为每一数据与每一数据距离最近的多个其它数据的相似度。设置每一数据与训练数据集中除距离最近的多个其它数据以外的剩余数据的相似度均为0,设置训练数据集中同一数据的相似度均为0。举例来说,数据A的近邻数据包括数据C和数据D,在近邻相似度矩阵中(如图7所示),数据A和数据A的相似度为0,数据A和数据B之间的相似度为0,数据A和数据C之间的相似度为A2,数据A和数据D之间的相似度为A3,数据A和数据E之间的相似度为0,数据A和数据F之间的相似度为0。数据B的近邻数据包括数据C和数据E,在近邻相似度矩阵中,数据B和数据A之间的相似度为0,数据B和数据B的相似度为0,数据B和数据C之间的相似度为B2,数据B和数据D之间的相似度为0,数据B和数据E之间的相似度为B4,数据B和数据F之间的相似度为0。数据C、数据D、数据E、数据F与训练数据集中数据的相似度同样依此进行计算,在此不再一一赘述。
根据最近数据图构建近邻相似度矩阵之后,对近邻相似度矩阵进行归一化处理。在本实施例中,利用近邻相似度矩阵的度矩阵对近邻相似度矩阵进行归一化处理。其中,度矩阵为对角阵,度矩阵对角上的元素为每一数据近邻数据的数量,即预设数量。具体地,利用第一公式对近邻相似度矩阵进行归一化处理。第一公式为
Figure DEST_PATH_IMAGE001
。其中,
Figure 534863DEST_PATH_IMAGE002
表示归一化后的近邻相似度矩阵,
Figure DEST_PATH_IMAGE003
表示近邻相似度矩阵,
Figure 920845DEST_PATH_IMAGE004
表示近邻相似度矩阵的度矩阵。
步骤S304,根据最远数据图构建疏远相似度矩阵。其中,疏远相似度矩阵中的数值包括训练数据集中每一数据与每一数据距离最远的多个其它数据的相似度、每一数据与训练数据集中除距离最远的多个其它数据以外的剩余数据的相似度、训练数据集中同一数据的相似度。在本实施例中,将每一数据和相应疏远数据之间的距离分别作为每一数据与每一数据距离最远的多个其它数据的相似度。设置每一数据与训练数据集中除距离最远的多个其它数据以外的剩余数据的相似度均为0,设置训练数据集中同一数据的相似度均为0。举例来说,数据A的疏远数据包括数据B和数据F,在疏远相似度矩阵中(如图8所示),数据A和数据A的相似度为0,数据A和数据B之间的相似度为A1,数据A和数据C之间的相似度为0,数据A和数据D之间的相似度为0,数据A和数据E之间的相似度为0,数据A和数据F之间的相似度为A5。数据B的疏远数据包括数据D和数据F,在疏远相似度矩阵中,数据B和数据A之间的相似度为0,数据B和数据B的相似度为0,数据B和数据C之间的相似度为0,数据B和数据D之间的相似度为B3,数据B和数据E之间的相似度为0,数据B和数据F之间的相似度为B5。数据C、数据D、数据E、数据F与训练数据集中数据的相似度同样依此进行计算,在此不再一一赘述。
根据最远数据图构建疏远相似度矩阵之后,对疏远相似度矩阵进行归一化处理。在本实施例中,利用疏远相似度矩阵的度矩阵对疏远相似度矩阵进行归一化处理。其中,度矩阵为对角阵,度矩阵对角上的元素为每一数据疏远数据的数量,即预设数量。具体地,利用第二公式对疏远相似度矩阵进行归一化处理。第二公式为
Figure DEST_PATH_IMAGE005
。其中,
Figure 28478DEST_PATH_IMAGE006
表示归一化后的疏远相似度矩阵,
Figure DEST_PATH_IMAGE007
表示疏远相似度矩阵,
Figure 751583DEST_PATH_IMAGE008
表示疏远相似度矩阵的度矩阵。
步骤S306,根据训练数据集的初始标签矩阵、近邻相似度矩阵以及疏远相似度矩阵获取第二数据集的预测标签。在本实施例中,训练数据集的初始标签矩阵包括m行n列,初始标签矩阵中的数值包括0和1。其中,m表示预设类别的数量,n表示训练数据集中数据的数量。初始标签矩阵中的数值表示训练数据集中每一数据与每一预设类别之间的关系。若数据属于预设类别,则数据与预设类别所对应的数值为1;若数据不属于预设类别,则数据与预设类别所对应的数值为0。由于第二数据为无标签数据,则第二数据与所有预设类别所对应的数值均为0。由于第一数据为有标签数据,且第一数据的真实标签为one-hot向量,真实标签中的数值与预设类别一一对应,真实标签中数值的数量与预设类别的数量相同。则第一数据真实标签中的数值和第一数据与所有预设类别所对应的数值一一对应。举例来说,预设类别包括类别a、类别b、类别c。数据A、数据B、数据C、数据D、数据E、数据F中,数据C、数据D、数据F为第一数据,数据A、数据B、数据E为第二数据。数据C的真实标签为(0,0,1),数据D的真实标签为(1,0,0),数据F的真实标签为(0,1,0)。训练数据集的初始标签矩阵如图9所示,其中,数据C属于类别c,数据D属于类别a,数据F属于类别b。根据训练数据集的初始标签矩阵、近邻相似度矩阵以及疏远相似度矩阵获取第二数据集的预测标签的具体过程包括如下步骤。
步骤S3061,根据初始标签矩阵和近邻相似度矩阵计算得到近邻标签矩阵。在本实施例中,利用第三公式计算近邻标签矩阵。具体地,第三公式为
Figure DEST_PATH_IMAGE009
。其中,
Figure 34797DEST_PATH_IMAGE010
表示近邻标签矩阵,
Figure DEST_PATH_IMAGE011
表示单位矩阵,
Figure 421041DEST_PATH_IMAGE002
表示近邻相似度矩阵,
Figure 547129DEST_PATH_IMAGE012
表示初始标签矩阵,
Figure DEST_PATH_IMAGE013
表示系数。在本实施例中,
Figure 949292DEST_PATH_IMAGE013
在0-1之间,可以根据实际情况进行设置,在此不做限定。
步骤S3062,根据初始标签矩阵和疏远相似度矩阵计算得到疏远标签矩阵。在本实施例中,利用第四公式计算疏远标签矩阵。具体地,第四公式为
Figure 477225DEST_PATH_IMAGE014
。其中,
Figure DEST_PATH_IMAGE015
表示疏远标签矩阵,
Figure 939430DEST_PATH_IMAGE011
表示单位矩阵,
Figure 287235DEST_PATH_IMAGE006
表示疏远相似度矩阵,
Figure 758668DEST_PATH_IMAGE012
表示初始标签矩阵,
Figure 16474DEST_PATH_IMAGE016
表示系数。在本实施例中,
Figure 180739DEST_PATH_IMAGE016
在0-1之间,可以根据实际情况进行设置。
Figure 517304DEST_PATH_IMAGE013
Figure 526849DEST_PATH_IMAGE016
可以相同,也可以不同,在此不做限定。
步骤S3063,根据近邻标签矩阵和疏远标签矩阵计算得到目标标签矩阵。在本实施例中,利用第五公式计算目标标签矩阵。具体地,第五公式为
Figure DEST_PATH_IMAGE017
。其中,
Figure 763795DEST_PATH_IMAGE018
表示目标标签矩阵,
Figure 567803DEST_PATH_IMAGE010
表示近邻标签矩阵,
Figure 31145DEST_PATH_IMAGE015
表示疏远标签矩阵,
Figure DEST_PATH_IMAGE019
表示系数。
Figure 703435DEST_PATH_IMAGE019
可以根据实际情况进行设置,在此不做限定。
步骤S3064,根据目标标签矩阵获取第二数据集中每一第二数据的预测标签。在本实施例中,选取目标标签矩阵中与第二数据相对应的列中的最大数值为可信数值,根据可信数值形成第二数据的预测标签。其中,目标标签矩阵中每一列中的每一数值表示训练数据集中每一数据与每一预设类别之间的相关性。可以理解的是,数值越大,表示第二数据与相应预设类别之间的相关性越强;数值越小,表示第二数据与相应预设类别之间的相关性越弱。预测标签为one-hot向量,预测标签中的数值与预设类别一一对应,预测标签中数值的数量与预设类别的数量相同。与可信数值相对应的预设类别为第二数据的类别,相应地,预测标签中与该预设类别相对应的数值为1,其余均为0。举例来说,目标标签矩阵如图10所示。数据A的可信数值为0.8,相对应的预设类别为类别a,则数据A的预测标签为(1,0,0);数据B的可信数值为0.6,相对应的预设类别为类别b,则数据B的预测标签为(0,1,0);数据E的可信数值为0.7,相对应的预设类别为类别b,则数据E的预测标签为(0,1,0)。
上述实施例中,根据最近数据图构建近邻相似度矩阵,根据最远数据图构建疏远相似度矩阵,利用近邻相似度矩阵将数据间的相似关系体现于近邻标签矩阵中,利用疏远相似度矩阵将数据间的不相似关系体现于疏远标签矩阵中。根据近邻标签矩阵和疏远标签矩阵计算目标标签矩阵,从而得到每一第二数据的预测标签,使得第二数据的预测标签能够有效融合近邻数据的相似关系和疏远数据的不相似关系,具有较高的准确性。
请结合参看图11,其为本发明实施例提供的终端的内部结构示意图。终端10包括计算机可读存储介质11、处理器12以及总线13。其中,计算机可读存储介质11至少包括一种类型的可读存储介质,该可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。计算机可读存储介质11在一些实施例中可以是终端10的内部存储单元,例如终端10的硬盘。计算机可读存储介质11在另一些实施例中也可以是终端10的外部存储设备,例如终端10上配备的插接式硬盘、智能存储卡(Smart MediaCard,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,计算机可读存储介质11还可以既包括终端10的内部存储单元也包括外部存储设备。计算机可读存储介质11不仅可以用于存储安装于终端10的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
总线13可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,终端10还可以包括显示组件14。显示组件14可以是发光二极管(LightEmitting Diode,LED)显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示组件14也可以适当的称为显示装置或显示单元,用于显示在终端10中处理的信息以及用于显示可视化的用户界面。
进一步地,终端10还可以包括通信组件15。通信组件15可选地可以包括有线通信组件和/或无线通信组件,如WI-FI通信组件、蓝牙通信组件等,通常用于在终端10与其他智能控制设备之间建立通信连接。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行计算机可读存储介质11中存储的程序代码或处理数据。具体地,处理器12执行处理程序以控制终端10实现分类模型的训练方法。
图11仅示出了具有组件11-15、用于实现分类模型的训练方法的终端10,本领域技术人员可以理解的是,图11示出的结构并不构成对终端10的限定,终端10可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
以上所列举的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属于本发明所涵盖的范围。

Claims (10)

1.一种分类模型的训练方法,其特征在于,所述分类模型的训练方法包括:
根据第一数据集训练初始分类模型以得到中间分类模型,其中,所述第一数据集为有标签数据的集合;
利用所述中间分类模型提取训练数据集的特征向量,其中,所述训练数据集包括所述第一数据集和第二数据集,所述第二数据集为无标签数据的集合;
根据所述训练数据集的特征向量构建最近数据图和最远数据图,其中,所述最近数据图为在所述训练数据集中的每一数据与所述每一数据距离最近的多个其它数据的关系图,所述最远数据图为在所述训练数据集中的每一数据与所述每一数据距离最远的多个其它数据的关系图;
根据所述最近数据图和所述最远数据图获取所述第二数据集的预测标签;以及
根据所述第一数据集和带有所述预测标签的第二数据集训练所述中间分类模型以得到目标分类模型。
2.如权利要求1所述的分类模型的训练方法,其特征在于,根据所述最近数据图和所述最远数据图获取所述第二数据集的预测标签具体包括:
根据所述最近数据图构建近邻相似度矩阵,其中,所述近邻相似度矩阵中的数值包括所述训练数据集中每一数据与所述每一数据距离最近的多个其它数据的相似度、所述每一数据与所述训练数据集中除距离最近的多个其它数据以外的剩余数据的相似度、所述训练数据集中同一数据的相似度;
根据所述最远数据图构建疏远相似度矩阵,其中,所述疏远相似度矩阵中的数值包括所述训练数据集中每一数据与所述每一数据距离最远的多个其它数据的相似度、所述每一数据与所述训练数据集中除距离最远的多个其它数据以外的剩余数据的相似度、所述训练数据集中同一数据的相似度;以及
根据所述训练数据集的初始标签矩阵、所述近邻相似度矩阵以及所述疏远相似度矩阵获取所述第二数据集的预测标签。
3.如权利要求2所述的分类模型的训练方法,其特征在于,根据所述训练数据集的初始标签矩阵、所述近邻相似度矩阵以及所述疏远相似度矩阵获取所述第二数据集的预测标签具体包括:
根据所述初始标签矩阵和所述近邻相似度矩阵计算得到近邻标签矩阵;
根据所述初始标签矩阵和所述疏远相似度矩阵计算得到疏远标签矩阵;
根据所述近邻标签矩阵和所述疏远标签矩阵计算得到目标标签矩阵;以及
根据所述目标标签矩阵获取所述第二数据集中每一第二数据的预测标签。
4. 如权利要求3所述的分类模型的训练方法,其特征在于,根据所述目标标签矩阵获取所述第二数据集中每一第二数据的预测标签具体包括:
选取所述目标标签矩阵中与所述第二数据相对应的列中的最大数值为可信数值,其中,所述目标标签矩阵中每一列中的每一数值表示所述训练数据集中每一数据与每一预设类别之间的相关性;以及
根据所述可信数值形成所述第二数据的预测标签,其中,与所述可信数值相对应的预设类别为所述第二数据的类别。
5.如权利要求2所述的分类模型的训练方法,其特征在于,根据所述训练数据集的特征向量构建最近数据图和最远数据图具体包括:
根据所述训练数据集的特征向量分别计算所述训练数据集中每两个数据之间的距离;
按照从小到大的顺序将与每一数据相对应的距离进行排序;
从与最小距离对应的数据开始从所述训练数据集中选取预设数量的其它数据作为所述数据的近邻数据;
根据所述训练数据集中每一数据的近邻数据构建所述最近数据图;
从与最大距离对应的数据开始从所述训练数据集中选取预设数量的其它数据作为所述数据的疏远数据;以及
根据所述训练数据集中每一数据的疏远数据构建所述最远数据图。
6.如权利要求5所述的分类模型的训练方法,其特征在于,根据所述最近数据图构建近邻相似度矩阵具体包括:
将所述每一数据和相应近邻数据之间的距离分别作为所述每一数据与所述每一数据距离最近的多个其它数据的相似度;
设置所述每一数据与所述训练数据集中除距离最近的多个其它数据以外的剩余数据的相似度均为0;以及
设置所述训练数据集中同一数据的相似度均为0。
7.如权利要求5所述的分类模型的训练方法,其特征在于,根据所述最远数据图构建疏远相似度矩阵具体包括:
将所述每一数据和相应疏远数据之间的距离分别作为所述每一数据与所述每一数据距离最远的多个其它数据的相似度;
设置所述每一数据与所述训练数据集中除距离最远的多个其它数据以外的剩余数据的相似度均为0;以及
设置所述训练数据集中同一数据的相似度均为0。
8.如权利要求1所述的分类模型的训练方法,其特征在于,根据第一数据集训练初始分类模型以得到中间分类模型具体包括:
以预设学习率根据所述第一数据集对所述初始分类模型进行训练;
判断所述初始分类模型的训练次数是否达到预设次数;以及
当所述初始分类模型的训练次数达到预设次数时,将训练达到预设次数的初始分类模型作为所述中间分类模型。
9. 如权利要求1所述的分类模型的训练方法,其特征在于,利用所述中间分类模型提取训练数据集的特征向量之后,所述分类模型的训练方法还包括:
将所述特征向量进行归一化处理;以及
将归一化处理后的特征向量进行降维处理。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令可被处理器执行以实现如权利要求1至9中任一项所述的分类模型的训练方法。
CN202210117469.8A 2022-02-08 2022-02-08 分类模型的训练方法及计算机可读存储介质 Pending CN114139658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210117469.8A CN114139658A (zh) 2022-02-08 2022-02-08 分类模型的训练方法及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210117469.8A CN114139658A (zh) 2022-02-08 2022-02-08 分类模型的训练方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114139658A true CN114139658A (zh) 2022-03-04

Family

ID=80382124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210117469.8A Pending CN114139658A (zh) 2022-02-08 2022-02-08 分类模型的训练方法及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114139658A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257760A (zh) * 2023-05-11 2023-06-13 浪潮电子信息产业股份有限公司 一种数据划分方法、***、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257760A (zh) * 2023-05-11 2023-06-13 浪潮电子信息产业股份有限公司 一种数据划分方法、***、设备及计算机可读存储介质
CN116257760B (zh) * 2023-05-11 2023-08-11 浪潮电子信息产业股份有限公司 一种数据划分方法、***、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US11636147B2 (en) Training neural networks to perform tag-based font recognition utilizing font classification
US20200302340A1 (en) Systems and methods for learning user representations for open vocabulary data sets
CN109446517B (zh) 指代消解方法、电子装置及计算机可读存储介质
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN113254354A (zh) 测试用例推荐方法、装置、可读存储介质及电子设备
CN114724156B (zh) 表单识别方法、装置及电子设备
CN110781818A (zh) 视频分类方法、模型训练方法、装置及设备
CN113869464B (zh) 图像分类模型的训练方法及图像分类方法
CN114139658A (zh) 分类模型的训练方法及计算机可读存储介质
CN114021670A (zh) 分类模型的学习方法及终端
CN114359582A (zh) 一种基于神经网络的小样本特征提取方法及相关设备
CN110929647B (zh) 一种文本检测方法、装置、设备及存储介质
CN112287140A (zh) 一种基于大数据的图像检索方法及***
CN111709475A (zh) 一种基于N-grams的多标签分类方法及装置
CN116069985A (zh) 一种基于标签语义增强的鲁棒在线跨模态哈希检索方法
CN111666902B (zh) 行人特征提取模型的训练方法、行人识别方法及相关装置
CN114373088A (zh) 一种图像检测模型的训练方法和相关产品
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
CN113989596B (zh) 图像分类模型的训练方法及计算机可读存储介质
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN113901175A (zh) 物品关系判别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220304

RJ01 Rejection of invention patent application after publication