CN112465020B - 训练数据集的生成方法及装置、电子设备、存储介质 - Google Patents

训练数据集的生成方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN112465020B
CN112465020B CN202011351822.6A CN202011351822A CN112465020B CN 112465020 B CN112465020 B CN 112465020B CN 202011351822 A CN202011351822 A CN 202011351822A CN 112465020 B CN112465020 B CN 112465020B
Authority
CN
China
Prior art keywords
data set
feature vector
feature
clustering
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011351822.6A
Other languages
English (en)
Other versions
CN112465020A (zh
Inventor
张发恩
纪双西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ainnovation Hefei Technology Co ltd
Original Assignee
Ainnovation Hefei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ainnovation Hefei Technology Co ltd filed Critical Ainnovation Hefei Technology Co ltd
Priority to CN202011351822.6A priority Critical patent/CN112465020B/zh
Publication of CN112465020A publication Critical patent/CN112465020A/zh
Application granted granted Critical
Publication of CN112465020B publication Critical patent/CN112465020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种训练数据集的生成方法及装置、电子设备、存储介质,该方法包括:获取已分类的源数据集以及未分类的目标数据集;通过特征提取器提取源数据集的第一特征向量集以及目标数据集的第二特征向量集;根据第一特征向量集确定源数据集对应的类中心特征向量、根据第二特征向量集确定目标数据集的聚类标签和聚类簇内平均特征向量;通过迭代优化特征提取器,使源数据集中样本的特征向量与类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特征向量之间的总体差异最小;根据目标数据集的聚类标签以及聚类簇内元素,获得训练数据集。该方法可以降低人工标注的工作量,降低人工标注成本,提高标注精度。

Description

训练数据集的生成方法及装置、电子设备、存储介质
技术领域
本申请涉及数据处理技术领域,特别涉及一种训练数据集的生成方法 及装置、电子设备、计算机可读存储介质。
背景技术
在零售场景进行商品分类识别中,经常性需要面对不同产品线的包装 差异化、产品包装的快速迭代更新,以及图像采集过程中的图片特征差异 化、产品种类数量巨大、部分类别数据冗余等问题;因此,在开始进行一 个新项目时,很难通过少量的数据和快速简洁的算法对分类模型训练数据 进行准备工作,而需要人工进行大量数据的分类标注工作来形成初始训练 集;那么,如何对海量的无标注数据进行预划分,并提高局部采样质量,降低人工标注的初始数据量,而快速形成初始训练集提升后续数据收集的 效率,是目前工作中一个非常重要且亟待解决的问题。
目前,对图像分类数据的准备,主要通过对采集的全样本图片进行人 工分类标注,但是一次性需要处理的数据量可能非常巨大,全人工标注往 往会造成标注精度不高、标注成本高,而影响后续模型的迭代优化。
发明内容
本申请实施例提供了一种训练数据集的生成方法,用于实现自动分类 标注,降低人工标注成本,提高标注精度。
本申请实施例提供了一种训练数据集的生成方法,所述方法包括:
获取已分类的源数据集以及未分类的目标数据集;
通过特征提取器提取所述源数据集的第一特征向量集以及所述目标数 据集的第二特征向量集;
根据所述第一特征向量集确定所述源数据集对应的类中心特征向量、 根据所述第二特征向量集确定所述目标数据集的聚类标签和聚类簇内平均 特征向量;
通过迭代优化所述特征提取器,使所述源数据集中样本的特征向量与 所述类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平 均特征向量之间的总体差异最小;
根据所述目标数据集的聚类标签以及聚类簇内元素,获得训练数据集。
在一实施例中,所述通过特征提取器提取所述源数据集的第一特征向 量集以及所述目标数据集的第二特征向量集,包括:
通过特征提取器提取所述源数据集中每个样本的特征向量,得到所述 第一特征向量集;
通过特征提取器提取所述目标数据集中每个元素的特征向量,得到所 述第二特征向量集。
在一实施例中,所述根据所述第一特征向量集确定所述源数据集对应 的类中心特征向量,包括:
计算所述第一特征向量集中多个样本的特征向量的均值,得到所述源 数据集对应的类中心特征向量。
在一实施例中,所述根据所述第二特征向量集确定所述目标数据集的 聚类标签和聚类簇内平均特征向量,包括:
利用聚类算法,对所述第二特征向量集进行聚类划分,获得聚类簇;
根据所述聚类簇内每个元素的特征向量,确定所述聚类簇的聚类标签 以及聚类簇内平均特征向量;
在一实施例中,对所述第二特征向量集进行聚类划分之后,所述方法 还包括:
获取未聚类的孤立点集;
根据所述孤立点集中每个元素的特征向量,生成所述孤立点集的标签 信息以及孤立点集特征向量。
在一实施例中,所述通过优化所述特征提取器,使所述源数据集中样 本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向 量与聚类簇内平均特征向量之间的总体差异最小,包括:
通过迭代优化所述特征提取器,使所述孤立点集中每个元素的特征向 量与所述孤立点集特征向量之间、所述源数据集中样本的特征向量与所述 类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特 征向量之间的总体差异最小。
在一实施例中,所述根据所述目标数据集的聚类标签以及聚类簇内元 素,获得训练数据集,包括:
从所述聚类簇内按照第一采样比例,得到多个第一元素,从所述孤立 点集中按照第二采样比例,得到多个第二元素,所述多个第一元素和多个 第二元素构成所述训练数据集;
若所述训练数据集中任意一类元素的数量小于阈值,从相应的聚类簇 内检索与所述一类元素近似的类样本,扩充所述训练数据集。
本申请实施例还提供了一种训练数据集的生成装置,所述装置包括:
数据集获取模块,用于获取已分类的源数据集以及未分类的目标数据 集;
特征提取模块,用于通过特征提取器提取所述源数据集的第一特征向 量集以及所述目标数据集的第二特征向量集;
特征聚类模块,用于根据所述第一特征向量集确定所述源数据集对应 的类中心特征向量、根据所述第二特征向量集确定所述目标数据集的聚类 标签和聚类簇内平均特征向量;
模型优化模块,用于通过迭代优化所述特征提取器,使所述源数据集 中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特 征向量与聚类簇内平均特征向量之间的总体差异最小;
训练集获得模块,用于根据所述目标数据集的聚类标签以及聚类簇内 元素,获得训练数据集。
本申请实施例还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述训练数据集的生成方法。
本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述 存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述 训练数据集的生成方法。
本申请上述实施例提供的技术方案,充分利用已分类的源数据集的分 类特性和目标数据集的数据特征,训练得到更为高效的特定的特征提取器, 以对未知分类属性的目标数据集进行聚类划分,降低人工标注的工作量, 提高标注精度,并可以更快速的提升对未知数据理解和认识,加速后续分 类模型的迭代优化工作。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例 中所需要使用的附图作简单地介绍。
图1是本申请实施例提供的电子设备的结构示意图;
图2是本申请实施例提供一种训练数据集的生成方法的流程示意图;
图3是本申请另一实施例提供一种训练数据集的生成方法的流程示意 图;
图4是本申请实施例提供一种训练数据集的生成装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进 行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在 一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。 同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能 理解为指示或暗示相对重要性。
图1是本申请实施例提供的电子设备的结构示意图。该电子设备100 可以用于执行本申请实施例提供的训练数据集的生成方法。如图1所示, 该电子设备100包括:一个或多个处理器102、一个或多个存储处理器102 可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述 实施例提供的训练数据集的生成方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处 理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能 力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件 的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望 的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程 序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或 非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存 储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个 或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的训练数据集的生成方法。在所述计算机可读存储介质中还可以存储 各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图1所示电子设备100还可以包括输入装置106、输出 装置108以及数据采集装置110,这些组件通过总线***112和/或其它形 式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和 结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以 具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键 盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向 外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、 扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像, 并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性 地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的训练数据集的生成方法的示 例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理 器102、存储器104、输入装置106和输出装置108集成设置于一体,而将 数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的训练数据集的生成方法的示 例电子设备100可以被实现为诸如智能手机、平板电脑、台式电脑、服务 器等智能终端。
图2是本申请实施例提供一种训练数据集的生成方法的流程示意图。 如图2所示,该方法包括:步骤S210-步骤S250。
步骤S210:获取已分类的源数据集以及未分类的目标数据集。
其中,源数据集包括已分类的大量图像,第一类图像的标签可以用“1” 表示,第二类图像的标签可以用“2”表示,第三类图像的标签可以用“3” 表示,以此类推。
目标数据集包含未分类的大量图像,这些图像的标签未知。为进行区 分,源数据集中的图像可以称为样本,目标数据集中的图像可以称为元素。 在一实施例中,目标数据集和源数据集可以是零售场景下的图像集,根据 零售产品分类准则,对已有产品图像进行分类,并去除视觉语义模糊的类 别,作为源数据集(Xo,Yo),其中,Xo为样本图像,Yo为样本标签。源数 据集用于定义模型分类的特征训练的基本准则。而目标数据集可以通过通 用的检测模型,对采集的真实场景图像进行检测,并根据检测框切出未分 类的产品图像,作为目标数据集Xt。
步骤S220:通过特征提取器提取所述源数据集的第一特征向量集以及 所述目标数据集的第二特征向量集。
特征提取器用于提取源数据集中样本的特征向量、目标数据集中元素 的特征向量。在一实施例中,可以利用Restnet、Inception等基本深度模型 骨架搭建特征提取器网络,并导入利用ImageNet预训练的模型参数,获得 初始的特征提取器,先通过初始的特征提取器提取源数据集的第一特征向 量集Fs以及目标数据集的第二特征向量集Ft。第一特征向量集Fs是源数 据集中每个样本的特征向量构成的集合。第二特征向量集Ft是目标数据集 中每个元素的特征向量构成的集合。
在一实施例中,可以通过特征提取器提取源数据集中每个样本的特征 向量,得到所述第一特征向量集;通过特征提取器提取目标数据集中每个 元素的特征向量,得到所述第二特征向量集。特征向量是指用向量的形式 表示图像的特征。
步骤S230:根据所述第一特征向量集确定所述源数据集对应的类中心 特征向量、根据所述第二特征向量集确定所述目标数据集的聚类标签和聚 类簇内平均特征向量。
类中心特征向量Ws是指第一特征向量集中所有特征向量的中心。在一 实施例中,可以计算第一特征向量集中多个样本的特征向量的均值,将均 值作为源数据集对应的类中心特征向量。此处多个样本的特征向量可以是 第一特征向量集中所有的特征向量,也可以是部分特征向量。
聚类标签用于表征目标数据集中元素所属的类别。举例来说,可以用1,2,3…分别表示不同的类别。其中,距离相近的特征向量可以形成一个聚 类簇,聚类簇内平均特征向量Ct可以是聚类簇内所有特征向量的平均值。
在一实施例中,可以利用聚类算法,对所述第二特征向量集Ft进行聚 类划分,获得聚类簇;根据聚类簇内每个元素的特征向量,确定聚类簇的 聚类标签以及聚类簇内平均特征向量;
其中,聚类簇的数量可以是多个。在一实施例中,可以预设聚类类别 数(即聚类簇的数量)为m,平均轮廓系数阈值thr1,样本数阈值thr2。利 用已有的聚类算法(如Kmean算法、密度聚类算法、层次聚类算法)对第 二特征向量集Ft进行聚类划分,计算每个元素的轮廓系数并计算聚类簇内 平均的轮廓系数Sm_i和聚类簇内样本数n_i(i=1,…m),如果Sm_i<thr1或 是n_i<thr2,则修改其聚类标签为label=-1(即定义为未聚类孤立点),其他 聚类簇内元素保持原有标签(label>=0)。故聚类划分后,除了得到聚类簇 还可以得到未聚类的孤立点的集合(简称孤立点集)。聚类簇的聚类标签可 以用0,1,2,3…表示,而未聚类的孤立点集的标签信息可以表示为“-1”。 在一实施例中,根据孤立点集中每个元素的特征向量,可以计算得到孤立 点集特征向量Ot,其中,孤立点集特征向量可以是第二特征向量集Ft中标 签为“-1”的特征向量的集合。
其中,某个元素的轮廓系数s为
Figure BDA0002797006840000091
a表示某个元素与其 所在簇内其他元素的平均距离。B表示某个元素与其他簇元素的平均距离。 s的取值范围为[-1,1],取值约接近1说明聚类性能越好,相反的,取值越 接近-1说明聚类性能越差。
步骤S240:通过迭代优化所述特征提取器,使所述源数据集中样本的 特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与 聚类簇内平均特征向量之间的总体差异最小。
在一实施例中,总体差异可以是源数据集中样本的特征向量与类中心 特征向量之间的差异x与聚类簇内元素的特征向量与聚类簇内平均特征向 量之间的差异y之和(即x+y)。其中,可以通过计算欧式距离表示源数据 集中样本的特征向量与类中心特征向量之间的差异,可以通过计算欧式距 离表示聚类簇内元素的特征向量与聚类簇内平均特征向量之间的差异。
在一实施例中,可以通过迭代优化特征提取器,使所述孤立点集中每 个元素的特征向量与所述孤立点集特征向量之间、所述源数据集中样本的 特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与 聚类簇内平均特征向量之间的总体差异最小。
举例来说,可以利用已经获取的特征向量组(Fs,Ft)、对应的类原型 特征向量(Ws,Ct,Ot)以及类似如下的目标损失函数对特征提取器的参数 进行优化,得到新的特征提取器:
Figure BDA0002797006840000101
当完成一次数据训练后,利用更新的模型参数重新获取数据特征集 (Fs',Ft'),并对类原型特征(Ws,Ct,Ot)进行迭代更新,计算损失函数L 值,直到L值下降停滞或是达到预设的最大迭代次数。在一实施例中,损 失函数也可以是交叉熵、triple loss等损失函数。由此通过不断优化特征提 取器,可以得到目标数据集准确的第二特征向量集,进而通过聚类算法, 得到准确的聚类簇、聚类标签、孤立点集以及孤立点集的标签信息。
步骤S250:根据所述目标数据集的聚类标签以及聚类簇内元素,获得 训练数据集。
训练数据集可以包括大量样本图像和样本标签,样本图像可以是聚类 簇内的元素(即图像),而样本标签可以是聚类簇的聚类标签。
在一实施例中,可以从聚类簇内按照第一采样比例(例如10%),得到 多个第一元素,从所述孤立点集中按照第二采样比例(例如20%-30%),得 到多个第二元素,所述多个第一元素和多个第二元素构成所述训练数据集。 目标数据集可以被划分为多个聚类簇,故可以从每个聚类簇中按照第一采 样比例,获取相应比例的图像,每个聚类簇获取的图像与孤立点集中获取 的一定比例的图像可以一起构成训练数据集。在一实施例中,可以按照原有的分类进行保存,并给出最接***均特征的图片作为样例图。
在一实施例中,可以针对训练数据集根据项目定义需求进行人工核查、 筛选并分类,获取初步的待识别分类数据集和负样本数据集,用于进行分 类模型的训练。
在一实施例中,若训练数据集中任意一类元素的数量小于阈值,从相 应的聚类簇内检索与所述一类元素近似的类样本,扩充所述训练数据集。
训练数据集中可以包括多类元素(即图像),如果某类图像的数量小于 阈值,则可能会影响训练的模型的准确性,故为了得到满足数据分布和数 量的训练数据集。可以利用上文优化后的特征提取器,提取训练数据集中 每一类元素的类平均特征(即该类中每个元素的特征向量的均值),之后相 应的聚类簇中检索与类平均特征相近的元素(即类样本),使训练数据集中 该类的元素的数量足够。根据需要,可以再次进行人工核查、筛选和清洗,得到较优的训练数据集。
本申请上述实施例提供的技术方案,充分利用的源数据集的分类特性 和目标数据集的数据特征,训练得到更为高效的特定的特征提取器,以对 未知分类属性的目标数据集进行聚类划分和采样,整个流程不仅提高了采 样的多样性和分布的一致性,还极大的压缩了可能的数据冗余,降低人工 标注的工作量,并可以更快速的提升对未知数据理解和认识,加速后续分 类模型的迭代优化工作。
图3是本申请另一实施例提供的训练数据集的生成方法的详细流程示 意图,如图3所示,该方法包括以下步骤:
步骤1.获取已分类的源数据集;
步骤2.获取未分类的目标数据集;
步骤3.利用Restnet等基本深度模型骨架搭建特征提取器网络,并导 入利用ImageNet预训练的模型参数,获取初始特征提取器;
步骤3.将源数据集和目标数据集一同送入特征提取器,并获取新的特 征提取器和目标数据聚类结果,其中具体过程如下所示:
3.1利用当前特征提取器,获取源数据集的特征向量集Fs,并类中心 特征向量Ws;
3.2获取目标数据集的特征向量集Ft,并利用聚类算法获取聚类标签和 聚类簇内平均特征向量Ct;
A.预设聚类类别数为m,平均轮廓系数阈值thr1,样本数阈值thr2;
B.利用已有的聚类算法(如Kmean)对Ft进行聚类划分,计算每个元 素的轮廓系数并计算聚类簇内平均的轮廓系数Sm_i和聚类簇内样本数n_i (i=1,…m),如果Sm_i<thr1或是n_i<thr2,则修改其聚类标签为label=-1(即 定义为未聚类孤立点),其他聚类簇内元素保持原有标签(label>=0);
C.根据上述聚类标签,对标签值label>=0的计算聚类簇内平均特征向 量Ct,未聚类(label=-1)的则沿用自身的特征向量获取孤立点集特征向量 Ot=Ft(label==-1);
3.3.利用已经获取的特征向量组(Fs,Ft)、对应的类原型特征向量(Ws, Ct,Ot)以及类似如下的目标损失函数对模型参数进行优化,获取新的特征 提取器;
Figure BDA0002797006840000131
当完成一次的数据训练后,利用更新的模型参数重新获取数据特征集(Fs',Ft'),并对类原型特征(Ws,Ct,Ot)进行迭代更新,然后返回步骤步骤3.1 进行循环迭代训练,直到L值下降停滞或是达到预设的最大迭代次数;
步骤4.针对上述步骤获取的目标数据集的聚类簇和孤立点集进行采 样:一般可以在聚类簇内按照一定比例进行采样(如10%),孤立点集则增 大采样比例(如20%~30%),然后按照原有的分类进行保存,并给出最接 ***均特征的图片作为样例图;
步骤5.针对采样数据根据项目定义需求进行人工核查、筛选并分类, 形成初步的待识别分类数据集和负样本数据集;
步骤6.根据上述步骤5分类数据集中各个类别的样本的数据量大小, 进行检索扩充数据集:当某一类样本的数据量小于阈值时,则利用步骤3 已经训练好的特征提取器和该类的所有样本,提取类平均特征,并在相应 聚类簇内进行进一步检索,获取足够该类样本数据量,再经由人工核查、 筛选和清洗,最终得到满足数据分布和数量的分类训练数据集。
下述为本申请装置实施例,可以用于执行本申请上述训练数据集的生 成方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请训 练数据集的生成方法实施例。
图4为本申请一实施例示出的训练数据集的生成装置的框图。如图4 所示,该装置包括:数据集获取模块410、特征提取模块420、特征聚类模 块430、模型优化模块440以及训练集获得模块450。
数据集获取模块410,用于获取已分类的源数据集以及未分类的目标数 据集;
特征提取模块420,用于通过特征提取器提取所述源数据集的第一特征 向量集以及所述目标数据集的第二特征向量集;
特征聚类模块430,用于根据所述第一特征向量集确定所述源数据集对 应的类中心特征向量、根据所述第二特征向量集确定所述目标数据集的聚 类标签和聚类簇内平均特征向量;
模型优化模块440,用于通过迭代优化所述特征提取器,使所述源数据 集中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的 特征向量与聚类簇内平均特征向量之间的总体差异最小;
训练集获得模块450,用于根据所述目标数据集的聚类标签以及聚类簇 内元素,获得训练数据集。
上述装置中各个模块的功能和作用的实现过程具体详见上述训练数据 集的生成方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过 其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图 中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机 程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图 中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段 或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。 在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图 中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行, 它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的 是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合, 可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以 用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请 的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部 分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介 质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务 器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光 盘等各种可以存储程序代码的介质。

Claims (6)

1.一种训练数据集的生成方法,其特征在于,所述方法包括:
获取已分类的源数据集以及未分类的目标数据集;
通过特征提取器提取所述源数据集的第一特征向量集以及所述目标数据集的第二特征向量集;
根据所述第一特征向量集确定所述源数据集对应的类中心特征向量、根据所述第二特征向量集确定所述目标数据集的聚类标签和聚类簇内平均特征向量;
通过迭代优化所述特征提取器,使所述源数据集中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特征向量之间的总体差异最小;
根据所述目标数据集的聚类标签以及聚类簇内元素,获得训练数据集;
其中,所述根据所述第二特征向量集确定所述目标数据集的聚类标签和聚类簇内平均特征向量,包括:
利用聚类算法,对所述第二特征向量集进行聚类划分,获得聚类簇;
根据所述聚类簇内每个元素的特征向量,确定所述聚类簇的聚类标签以及聚类簇内平均特征向量;
其中,对所述第二特征向量集进行聚类划分之后,所述方法还包括:
获取未聚类的孤立点集;
根据所述孤立点集中每个元素的特征向量,生成所述孤立点集的标签信息以及孤立点集特征向量;
其中,所述根据所述目标数据集的聚类标签以及聚类簇内元素,获得训练数据集,包括:
从所述聚类簇内按照第一采样比例,得到多个第一元素,从所述孤立点集中按照第二采样比例,得到多个第二元素,所述多个第一元素和多个第二元素构成所述训练数据集;
若所述训练数据集中任意一类元素的数量小于阈值,从相应的聚类簇内检索与所述一类元素近似的类样本,扩充所述训练数据集;
其中,所述通过迭代优化所述特征提取器,使所述源数据集中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特征向量之间的总体差异最小,包括:
通过迭代优化所述特征提取器,使所述孤立点集中每个元素的特征向量与所述孤立点集特征向量之间、所述源数据集中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特征向量之间的总体差异最小。
2.根据权利要求1所述的方法,其特征在于,所述通过特征提取器提取所述源数据集的第一特征向量集以及所述目标数据集的第二特征向量集,包括:
通过特征提取器提取所述源数据集中每个样本的特征向量,得到所述第一特征向量集;
通过特征提取器提取所述目标数据集中每个元素的特征向量,得到所述第二特征向量集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一特征向量集确定所述源数据集对应的类中心特征向量,包括:
计算所述第一特征向量集中多个样本的特征向量的均值,得到所述源数据集对应的类中心特征向量。
4.一种训练数据集的生成装置,其特征在于,所述装置包括:
数据集获取模块,用于获取已分类的源数据集以及未分类的目标数据集;
特征提取模块,用于通过特征提取器提取所述源数据集的第一特征向量集以及所述目标数据集的第二特征向量集;
特征聚类模块,用于根据所述第一特征向量集确定所述源数据集对应的类中心特征向量、根据所述第二特征向量集确定所述目标数据集的聚类标签和聚类簇内平均特征向量;
模型优化模块,用于通过迭代优化所述特征提取器,使所述源数据集中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特征向量之间的总体差异最小;
训练集获得模块,用于根据所述目标数据集的聚类标签以及聚类簇内元素,获得训练数据集;
其中,所述根据所述第二特征向量集确定所述目标数据集的聚类标签和聚类簇内平均特征向量,包括:
利用聚类算法,对所述第二特征向量集进行聚类划分,获得聚类簇;
根据所述聚类簇内每个元素的特征向量,确定所述聚类簇的聚类标签以及聚类簇内平均特征向量;
其中,对所述第二特征向量集进行聚类划分之后,还包括:
获取未聚类的孤立点集;
根据所述孤立点集中每个元素的特征向量,生成所述孤立点集的标签信息以及孤立点集特征向量;
其中,所述根据所述目标数据集的聚类标签以及聚类簇内元素,获得训练数据集,包括:
从所述聚类簇内按照第一采样比例,得到多个第一元素,从所述孤立点集中按照第二采样比例,得到多个第二元素,所述多个第一元素和多个第二元素构成所述训练数据集;
若所述训练数据集中任意一类元素的数量小于阈值,从相应的聚类簇内检索与所述一类元素近似的类样本,扩充所述训练数据集;
其中,所述通过迭代优化所述特征提取器,使所述源数据集中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特征向量之间的总体差异最小,包括:
通过迭代优化所述特征提取器,使所述孤立点集中每个元素的特征向量与所述孤立点集特征向量之间、所述源数据集中样本的特征向量与所述类中心特征向量之间,以及,聚类簇内元素的特征向量与聚类簇内平均特征向量之间的总体差异最小。
5.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-3任意一项所述的训练数据集的生成方法。
6.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-3任意一项所述的训练数据集的生成方法。
CN202011351822.6A 2020-11-25 2020-11-25 训练数据集的生成方法及装置、电子设备、存储介质 Active CN112465020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011351822.6A CN112465020B (zh) 2020-11-25 2020-11-25 训练数据集的生成方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011351822.6A CN112465020B (zh) 2020-11-25 2020-11-25 训练数据集的生成方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN112465020A CN112465020A (zh) 2021-03-09
CN112465020B true CN112465020B (zh) 2023-04-07

Family

ID=74808783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011351822.6A Active CN112465020B (zh) 2020-11-25 2020-11-25 训练数据集的生成方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN112465020B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239964B (zh) * 2021-04-13 2024-03-01 联合汽车电子有限公司 车辆数据的处理方法、装置、设备和存储介质
CN113239963B (zh) * 2021-04-13 2024-03-01 联合汽车电子有限公司 车辆数据的处理方法、装置、设备、车辆和存储介质
CN112990377B (zh) * 2021-05-08 2021-08-13 创新奇智(北京)科技有限公司 视觉类别的发现方法及装置、电子设备、存储介质
CN113723507A (zh) * 2021-08-30 2021-11-30 联仁健康医疗大数据科技股份有限公司 数据分类标识确定方法、装置、电子设备及存储介质
CN114332500B (zh) * 2021-09-14 2024-07-19 腾讯科技(深圳)有限公司 图像处理模型训练方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252627A (zh) * 2013-06-28 2014-12-31 广州华多网络科技有限公司 Svm分类器训练样本获取方法、训练方法及其***

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US9443314B1 (en) * 2012-03-29 2016-09-13 Google Inc. Hierarchical conditional random field model for labeling and segmenting images
CN103530689B (zh) * 2013-10-31 2016-01-20 中国科学院自动化研究所 一种基于深度学习的聚类方法
US20170046510A1 (en) * 2015-08-14 2017-02-16 Qualcomm Incorporated Methods and Systems of Building Classifier Models in Computing Devices
CN107067025B (zh) * 2017-02-15 2020-12-22 重庆邮电大学 一种基于主动学习的文本数据自动标注方法
US11023710B2 (en) * 2019-02-20 2021-06-01 Huawei Technologies Co., Ltd. Semi-supervised hybrid clustering/classification system
CN109961095B (zh) * 2019-03-15 2023-04-28 深圳大学 基于非监督深度学习的图像标注***及标注方法
CN110472082B (zh) * 2019-08-02 2022-04-01 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN110570312B (zh) * 2019-09-17 2021-05-28 深圳追一科技有限公司 样本数据获取方法、装置、计算机设备和可读存储介质
CN111178380B (zh) * 2019-11-15 2023-07-04 腾讯科技(深圳)有限公司 数据分类方法、装置及电子设备
CN111126470B (zh) * 2019-12-18 2023-05-02 创新奇智(青岛)科技有限公司 基于深度度量学习的图片数据迭代聚类分析方法
CN111539451B (zh) * 2020-03-26 2023-08-15 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN111680753A (zh) * 2020-06-10 2020-09-18 创新奇智(上海)科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN111738351B (zh) * 2020-06-30 2023-12-19 创新奇智(重庆)科技有限公司 模型训练方法、装置、存储介质及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252627A (zh) * 2013-06-28 2014-12-31 广州华多网络科技有限公司 Svm分类器训练样本获取方法、训练方法及其***

Also Published As

Publication number Publication date
CN112465020A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN112465020B (zh) 训练数据集的生成方法及装置、电子设备、存储介质
CN113255694B (zh) 训练图像特征提取模型和提取图像特征的方法、装置
JP6005837B2 (ja) 画像解析装置、画像解析システム、画像解析方法
US10482146B2 (en) Systems and methods for automatic customization of content filtering
US8051021B2 (en) System and method for resource adaptive classification of data streams
CN108027814B (zh) 停用词识别方法与装置
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN110633594A (zh) 一种目标检测方法和装置
JP7330338B2 (ja) 人工知能に基づく人像アーカイブ方法、機器及び記憶媒体
CN114461890A (zh) 分层多模态的知识产权搜索引擎方法与***
CN110895533B (zh) 一种表单映射方法、装置、计算机设备和存储介质
EP4273737A1 (en) Language labeling method and apparatus, and computer device and storage medium
CN115203408A (zh) 一种多模态试验数据智能标注方法
CN110738047A (zh) 基于图文数据与时间效应的微博用户兴趣挖掘方法及***
CN110209895B (zh) 向量检索方法、装置和设备
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN112990377B (zh) 视觉类别的发现方法及装置、电子设备、存储介质
CN116010545A (zh) 一种数据处理方法、装置及设备
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
JP2004341948A (ja) 概念抽出システム、概念抽出方法、プログラム及び記憶媒体
CN113627124A (zh) 一种针对字体迁移模型的处理方法、装置、电子设备
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
JP4199594B2 (ja) オブジェクト識別装置およびそのプログラムとそのプログラムを記録した記録媒体
CN113569019B (zh) 基于聊天对话进行知识提取的方法、***、设备及存储介质
CN117688138B (zh) 一种基于段落划分的长文本相似度比对方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant