CN112308144A - 一种筛选样本的方法、***、设备及介质 - Google Patents

一种筛选样本的方法、***、设备及介质 Download PDF

Info

Publication number
CN112308144A
CN112308144A CN202011195232.9A CN202011195232A CN112308144A CN 112308144 A CN112308144 A CN 112308144A CN 202011195232 A CN202011195232 A CN 202011195232A CN 112308144 A CN112308144 A CN 112308144A
Authority
CN
China
Prior art keywords
sample
classification model
unlabeled
samples
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011195232.9A
Other languages
English (en)
Inventor
胡祎波
曹文飞
张博宣
赵礼悦
蒋博劼
张旭
卢智聪
翁谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yuncongxihe Artificial Intelligence Co ltd
Original Assignee
Jiangsu Yuncongxihe Artificial Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yuncongxihe Artificial Intelligence Co ltd filed Critical Jiangsu Yuncongxihe Artificial Intelligence Co ltd
Priority to CN202011195232.9A priority Critical patent/CN112308144A/zh
Publication of CN112308144A publication Critical patent/CN112308144A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种筛选样本的方法、***、设备及介质,通过从目标样本集中获取部分未标注样本形成候选样本集;利用分类模型对候选样本集中每个未标注样本进行多次预测,根据多次预测结果计算候选样本集中每个未标注样本的不确定性值;从候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为分类模型的训练样本。本发明可以从海量数据中挑选出最具代表性的少量样本进行人工标注,解决了传统需要对全量样本进行标注时耗资巨大的问题。本发明还可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。

Description

一种筛选样本的方法、***、设备及介质
技术领域
本发明涉及人工智能技术领域,特别是涉及一种筛选样本的方法、***、设备及介质。
背景技术
近年来,计算机软硬件能力的快速提升为人工智能技术带来了生机,使其在工业界和学术界取得了***的成果,同时也为很多行业迎来了新的发展契机。以机器学习为代表的人工智能技术常被应用于计算机视觉、自然语言处理以及语音识别等领域,在这些领域中有海量的数据可用于建模,然而,在实际的应用场景中,获取足量的用于模型训练的样本往往会遇到诸多限制。
构建和训练出理想的机器学习模型需要大量的标注数据,当前的数据标注工作主要是靠人力来完成,这无疑需要消耗大量的人力、物力以及时间等资源,特别是对于深度学习而言,其对数据量的需求更加庞大。此外,机器学习或深度学习模型的训练过程同样需要花费较高的代价,且这种代价会随入模样本量的增大而增大。因此,需要一种可以从海量数据中选出最具代表性样本的方式,以达到降低数据标注成本同时确保模型具有理想精度的目的。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种筛选样本的方法、***、设备及介质,用于解决现有技术中的问题。
为实现上述目的及其他相关目的,本发明提供一种筛选样本的方法,应用于计算机模型训练过程,包括以下步骤:
从目标样本集中获取部分未标注样本形成候选样本集,其中,目标样本集中的样本包括以下至少之一:图像、语音、文字;
利用分类模型对所述候选样本集中每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果计算所述分类模型的不确定性值,并基于所述分类模型的不确定性值确定所述候选样本集中每个未标注样本的不确定性值;
从所述候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为所述分类模型的训练样本。
可选地,所述利用分类模型对所述候选样本集中的每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果的过程包括:
利用所述分类模型对所述候选样本集中的每个未标注样本进行多次预测,且在每次预测时将所述分类模型中的神经网络的每一个神经元以预设概率进行随机丢弃,得到完成随机dropout操作后的分类模型;
根据完成随机dropout操作后的分类模型中的神经网络计算所述候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;
基于所述候选样本集中每个未标注样本的所有单次预测结果得到所述候选样本集中每个未标注样本的多次预测结果。
可选地,所述根据所述候选样本集中每个未标注样本的多次预测结果计算所述分类模型的不确定性值,并基于所述分类模型的不确定性值确定所述候选样本集中每个未标注样本的不确定性值;包括:
将所述候选样本集中每个未标注样本输入至第t次dropout操作后得到的分类模型中的神经网络进行预测,计算所述候选样本集中每个未标注样本被预测为第c个样本类别的概率,以得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果计算初始训练分类模型的不确定性值,有:
Figure BDA0002753829810000021
其中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure BDA0002753829810000022
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率;T为dropout操作的总次数;I[w|x,Dtrain]为根据候选样本集中第x个未标注样本计算的分类模型的不确定性值,此时分类模型的训练集为Dtrain,模型训练参数为w;
将根据候选样本集中第x个未标注样本计算的分类模型的不确定性值I[w|x,Dtrain]作为所述候选样本集中第x个未标注样本的不确定性值或I[w|x,Dtrain]是第x个未标注样本的不确定性值。
可选地,获取所述分类模型的过程包括:
从所述目标样本集中获取剩余的未标注样本;
对剩余的未标注样本进行标注,形成初始训练集;
利用所述初始训练集对初始分类模型进行训练,获取初始训练分类模型;并将所述初始训练分类模型作为所述分类模型;
或者,使用预训练模型对初始分类模型进行训练,获取初始训练分类模型,并将所述初始训练分类模型作为所述分类模型。
可选地,还包括利用筛选出的不确定性值最大的前K个未标注样本对所述分类模型进行迭代优化,迭代优化过程如下:
将从候选样本集中筛选出的不确定性值最大的前K个未标注样本推送至标注平台进行标注,并将完成标注后的K个样本加入至所述初始训练集中扩充所述初始训练集;
根据扩充后的初始训练集对所述分类模型进行迭代优化训练,并将完成迭代优化训练后的分类模型作为所述最终的分类模型。
可选地,在将筛选出的不确定性值最高的前K个未标注样本推送至标注平台前,或者在标注平台对筛选出的不确定性值最高的前K个未标注样进行标注过程中,还包括对不确定性值最高的前K个未标注样本进行预标注;进行预标注的方式包括以下之一:
利用未进行迭代优化的分类模型对筛选出的不确定性值最高的前K个未标注样本进行预标注、利用完成迭代优化训练的分类模型对不确定性值最高的前K个未标注样本进行预标注、利用人工对筛选出的不确定性值最高的前K个未标注样本进行预标注。
可选地,若所述目标样本集中的单个样本为一个或多个目标图像;则在形成初始训练集后,还包括:
对所述一个或多个目标图像进行数据增强,并将数据增强后的一个或多个目标图像增加至所述初始训练集中;
利用数据增强后的初始训练集对所述初始分类模型进行训练,获取增强训练分类模型;并将所述增强训练分类模型作为所述分类模型。
可选地,对所述一个或多个目标图像进行数据增强的方式包括以下至少之一:
对所述一个或多个目标图像进行旋转、对所述一个或多个目标图像进行错切、对所述一个或多个目标图像进行翻转、对所述一个或多个目标图像进行色彩调整、对所述一个或多个目标图像进行色调分离、对所述一个或多个目标图像进行曝光度调整、对所述一个或多个目标图像进行对比度调整、对所述一个或多个目标图像进行亮度调整、对所述一个或多个目标图像进行锐化。
本发明还提供一种筛选样本的***,应用于计算机模型训练过程,包括有:
样本采集模块,用于从目标样本集中获取部分未标注样本形成候选样本集;其中,目标样本集中的样本包括以下至少之一:图像、语音、文字;
样本预测模块,用于利用分类模型对所述候选样本集中每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果;
样本不确定性值模块,用于根据所述候选样本集中每个未标注样本的多次预测结果计算所述分类模型的不确定性值,并基于所述分类模型的不确定性值确定所述候选样本集中每个未标注样本的不确定性值;
样本筛选模块,用于从所述候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为所述分类模型的训练样本。
可选地,所述样本预测模块利用分类模型对所述候选样本集中的每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果的过程包括:
利用所述分类模型对所述候选样本集中的每个未标注样本进行多次预测,且在每次预测时将所述分类模型中的神经网络的每一个神经元以预设概率进行随机丢弃,得到完成随机dropout操作后的分类模型;
根据完成随机dropout操作后的分类模型中的神经网络计算所述候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;
基于所述候选样本集中每个未标注样本的所有单次预测结果得到所述候选样本集中每个未标注样本的多次预测结果。
可选地,所述样本不确定性值模块根据所述候选样本集中每个未标注样本的多次预测结果计算所述分类模型的不确定性值,并基于所述分类模型的不确定性值确定所述候选样本集中每个未标注样本的不确定性值;包括:
将所述候选样本集中每个未标注样本输入至第t次dropout操作后得到的分类模型中的神经网络进行预测,计算所述候选样本集中每个未标注样本被预测为第c个样本类别的概率,以得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果计算初始训练分类模型的不确定性值,有:
Figure BDA0002753829810000041
其中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure BDA0002753829810000042
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率;T为dropout操作的总次数;I[w|x,Dtrain]为根据候选样本集中第x个未标注样本计算的分类模型的不确定性值,此时分类模型的训练集为Dtrain,模型训练参数为w;
将根据候选样本集中第x个未标注样本计算的分类模型的不确定性值I[w|x,Dtrain]作为所述候选样本集中第x个未标注样本的不确定性值或I[w|x,Dtrain]是第x个未标注样本的不确定性值。
可选地,所述样本预测模块获取所述分类模型的过程包括:
从所述目标样本集中获取剩余的未标注样本;
对剩余的未标注样本进行标注,形成初始训练集;
利用所述初始训练集对初始分类模型进行训练,获取初始训练分类模型;并将所述初始训练分类模型作为所述分类模型;
或者,使用预训练模型对初始分类模型进行训练,获取初始训练分类模型;并将所述初始训练分类模型作为所述分类模型。
可选地,还包括迭代优化模块,用于利用筛选出的不确定性值最大的前K个未标注样本对所述分类模型进行迭代优化,迭代优化过程如下:
将从候选样本集中筛选出的不确定性值最大的前K个未标注样本推送至标注平台进行标注,并将完成标注后的K个样本加入至所述初始训练集中扩充所述初始训练集;
根据扩充后的初始训练集对所述分类模型进行迭代优化训练,并将完成迭代优化训练后的分类模型作为所述最终的分类模型。
可选地,若所述目标样本集中的单个样本为一个或多个目标图像;则在形成初始训练集后,还包括:
对所述一个或多个目标图像进行数据增强,并将数据增强后的一个或多个目标图像增加至所述初始训练集中;
利用数据增强后的初始训练集对所述初始分类模型进行训练,获取增强训练分类模型;并将所述增强训练分类模型作为所述分类模型。
本发明还提供一种设备,包括:
一个或多个处理器;和
存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行所述指令时,使得所述设备执行如上述中任意一项所述的方法。
本发明还提供一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行所述指令时,使得设备执行如上述中任意一项所述的方法。
如上所述,本发明提供一种筛选样本的方法、***、设备及介质,具有以下有益效果:通过从目标样本集中获取部分未标注样本形成候选样本集;利用分类模型对候选样本集中每个未标注样本进行多次预测,根据多次预测结果计算候选样本集中每个未标注样本的不确定性值;从候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为分类模型的训练样本。其中,目标样本集中的样本包括以下至少之一:图像、语音、文字。本发明可以从海量数据中挑选出最具代表性的少量样本进行人工标注,解决了传统需要对全量样本进行标注时耗资巨大的问题。并且本发明可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。
附图说明
图1为一实施例提供的筛选样本的方法流程示意图;
图2为另一实施例提供的筛选样本的方法流程示意图;
图3为一实施例提供的筛选样本的***硬件结构示意图;
图4为一实施例提供的终端设备的硬件结构示意图;
图5为另一实施例提供的终端设备的硬件结构示意图。
元件标号说明
M10 样本采集模块
M20 样本预测模块
M30 样本不确定性值模块
M40 样本筛选模块
M50 迭代优化模块
1100 输入设备
1101 第一处理器
1102 输出设备
1103 第一存储器
1104 通信总线
1200 处理组件
1201 第二处理器
1202 第二存储器
1203 通信组件
1204 电源组件
1205 多媒体组件
1206 音频组件
1207 输入/输出接口
1208 传感器组件
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种筛选样本的方法,应用于计算机模型训练过程,包括以下步骤:
S100,从目标样本集中获取部分未标注样本形成候选样本集;其中,目标样本集中的样本包括以下至少之一:图像、语音、文字;
S200,利用分类模型对候选样本集中每个未标注样本进行多次预测,得到候选样本集中每个未标注样本的多次预测结果;
S300,根据候选样本集中每个未标注样本的多次预测结果计算分类模型的不确定性值,并基于分类模型的不确定性值确定候选样本集中每个未标注样本的不确定性值;
S400,从候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为分类模型的训练样本。其中,样本的不确定性值越大,样本的不确定性越高,该样本包含的信息量也越大,训练分类模型时带来的贡献也越大。
本方法可以从海量数据中挑选出最具代表性的少量样本进行人工标注,解决了传统需要对全量样本进行标注时耗资巨大的问题。并且本方法可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。
在一示例性实施例中,获取分类模型的过程包括:从目标样本集中获取剩余的未标注样本;对剩余的未标注样本进行人工标注,形成初始训练集;利用初始训练集对初始分类模型进行训练,获取初始训练分类模型;并将初始训练分类模型作为分类模型。作为示例,本申请实施例中抽取初始训练集的方式可以是随机选择,也可以是人为指定,还可以通过设计特定的算法进行挑选。本申请实施例中的初始分类模型包括但不限于vgg,resnet等深度学习模型。作为另一示例性实施例,获取分类模型的过程包括,使用预训练模型的基础上对初始分类模型进行训练;获取初始训练分类模型;并将获取的初始训练分类模型作为分类模型。本申请实施例通过使用预训练模型对初始分类模型进行训练,可以很大程度上提高初始分类模型的分类能力。其中,预训练模型可以是在imagenet等数据集上得到的预训练模型。
在一示例性实施例中,还包括利用筛选出的不确定性值最高的前K个未标注样本对分类模型进行迭代优化;迭代优化的具体过程包括:将从候选样本集中筛选出的不确定性值最高的前K个未标注样本记为候选样本;获取筛选出的候选样本,将获取的候选样本推送至标注平台进行标注。在完成标注后,将完成标注后的候选样本加入至初始训练集中扩充初始训练集;根据扩充后的初始训练集对分类模型进行迭代优化训练,并将完成迭代优化训练后的分类模型作为最终的分类模型;其中,可以用于进行迭代优化的分类模型包括但不限于:初始分类模型、预训练模型、初始训练分类模型。本申请实施例将标注后的候选样本加入至初始训练集得到新的训练集,即扩充后的初始训练集;新的训练集不仅有更多的样本数量,而且包含了最具代表性的候选样本,有着更为丰富的信息量,利用新的训练集对分类模型进行训练,可以达到优化分类模型的目的。作为示例,例如使用新的训练集来对初始分类模型从最开始进行模型训练;或者使用新的训练集来对预训练模型进行模型微调;或者使用新的训练集来对初始训练分类模型进行增量学习。本申请实施例中,分类模型完成迭代优化训练可以是利用扩充后的初始训练集对分类模型进行一次或多次迭代优化训练,使分类模型的迭代优化训练次数达到实际要求的训练次数即可。还可以是利用扩充后的初始训练集对分类模型进行一次或多次迭代优化,直至迭代优化训练后的分类模型满足终止条件。作为一示例,本申请实施例中的终止条件可以是迭代优化训练后的分类模型的模型效果达到按照实际要求设定的阈值;其中,模型效果参数指标包括以下至少之一:模型F1值、训练损失loss、AUC值、准确率、召回率、标注量。作为另一示例,终止条件还可以是迭代优化训练后的分类模型的模型效果与之前的分类模型相比,小于按照实际要求设定的阈值。作为另一示例,终止条件还可以是迭代优化训练后的分类模型进行样本标注时的标注量达到实际要求。
在一示例性实施例中,将从候选样本集中筛选出的不确定性值最高的前K个未标注样本记为候选样本,在将候选样本推送至标注平台前,或者在标注平台对候选样本进行标注过程中,还包括对筛选出的候选样本进行预标注;进行预标注的方式包括以下之一:利用未进行迭代优化的分类模型对筛选出的候选样本进行预标注、利用完成迭代优化训练的分类模型对筛选出的候选样本进行预标注、利用人工对筛选出的候选样本进行预标注。通过在推送标注平台前对候选样本进行预标注,或者在推送平台对候选样本进行预标注;可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。
根据上述记载,在一示例性实施例中,利用分类模型对候选样本集中的每个未标注样本进行多次预测,得到候选样本集中每个未标注样本的多次预测结果的过程包括:利用分类模型对候选样本集中的每个未标注样本进行多次预测,且在每次预测时将分类模型中的神经网络的每一个神经元以预设概率进行随机丢弃,得到完成随机dropout操作后的分类模型;根据完成随机dropout操作后的分类模型中的神经网络计算候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;基于候选样本集中每个未标注样本的所有单次预测结果得到候选样本集中每个未标注样本的多次预测结果。其中,样本的不确定性值越大,样本的不确定性越高,该样本包含的信息量也越大,训练分类模型时带来的贡献也越大。具体地,可以利用分类模型对候选样本集中的每个未标注样本进行多次预测,且在每次预测时,都对分类模型进行随机dropout操作。即在每一次预测过程中,将分类模型中的神经网络中的每一个神经元以一定概率(该概率可以进行预设设置)进行随机丢弃,使该神经元的权重为零。对分类模型进行随机dropout操作后,可以得到完成随机dropout操作后的分类模型。使用完成随机dropout操作后的分类模型中的神经网络计算候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;同时对候选样本集中每个未标注样本进行多次预测后,可以得到候选样本集中每个未标注样本的多次预测结果,即预测概率向量
Figure BDA0002753829810000091
其中,
Figure BDA0002753829810000092
式中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure BDA0002753829810000093
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率。
再将所述候选样本集中每个未标注样本输入至第t次dropout操作后得到的分类模型中的神经网络进行预测,计算所述候选样本集中每个未标注样本被预测为第c个样本类别的概率,以得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果计算初始训练分类模型的不确定性值,有:
Figure BDA0002753829810000094
其中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure BDA0002753829810000101
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率;T为dropout操作的总次数;I[w|x,Dtrain]为根据候选样本集中第x个未标注样本计算的分类模型的不确定性值,此时分类模型的训练集为Dtrain,模型训练参数为w。
基于上述分类模型的不确定性值确定候选样本集中第x个未标注样本的不确定性值;即将根据候选样本集中第x个未标注样本计算的分类模型的不确定性值I[w|x,Dtrain]作为所述候选样本集中第x个未标注样本的不确定性值,或者I[w|x,Dtrain]是第x个未标注样本的不确定性值。从而可以得到候选样本集中不同的未标注样本对应的不确定性值,并筛选出不确定性值最高的前K个未标注样本,以作为分类模型的训练样本。其中,样本的不确定性值越大,则表示该样本包含的信息量越大,能够为模型训练带来的贡献也越大。由此选出不确定性值最高的前K个样本,即筛选出最具标注价值的潜在标注样本,也即一些实施例中描述的候选样本。
根据上述记载,在一示例性实施例中,若目标样本集中的单个样本为一个或多个目标图像;则在形成初始训练集后,还包括:对一个或多个目标图像进行数据增强,并将数据增强后的一个或多个目标图像增加至初始训练集中;利用数据增强后的初始训练集对初始分类模型进行训练,获取增强训练分类模型;并将增强训练分类模型作为分类模型。本方法通过对一个或多个目标图像进行数据增强来扩充初始训练集,使得样本的数量和多样性得到提升。其中,对一个或多个目标图像进行数据增强的方式包括以下至少之一:对一个或多个目标图像进行旋转、对一个或多个目标图像进行错切、对一个或多个目标图像进行翻转、对一个或多个目标图像进行色彩调整、对一个或多个目标图像进行色调分离、对一个或多个目标图像进行曝光度调整、对一个或多个目标图像进行对比度调整、对一个或多个目标图像进行亮度调整、对一个或多个目标图像进行锐化。作为示例,数据增强的具体方式如下:对一个或多个目标图像进行旋转:将原目标图像以某点为中心,顺时针或逆时针旋转一定的角度,使目标图像中的像素点在空间中的位置发生改变。对一个或多个目标图像进行错切:图像错切也叫图像倾斜,就是将目标图像按照指定的方向进行倾斜,使原本的矩阵目标图像转换成为平行四边形的目标图像。对一个或多个目标图像进行翻转:将原目标图像进行左右或者上下的镜面翻转,使得转换后的目标图像与原目标图像关于翻转轴对称。对一个或多个目标图像进行色彩调整:对原目标图像的色彩进行调整,使原目标图像的色彩增强或减弱。对一个或多个目标图像进行色调分离:只保留原目标图像各像素点数值较高的比特位,使得目标图像出现相邻像素点颜色的跳变。对一个或多个目标图像进行曝光度调整:对原目标图像的曝光度进行调整,将目标图像从RGB色彩空间转换到HSV色彩空间,调整目标图像在HSV色彩空间的第三个通道的数值。对一个或多个目标图像进行对比度调整:对原目标图像的对比度进行调整,在保证平均亮度不变的情况下,扩大或缩小原目标图像中亮点和暗点的差异。对一个或多个目标图像进行亮度调整:对原目标图像的亮度进行调整,将目标图像从RGB色彩空间转换到HSL色彩空间,调整目标图像在HSL色彩空间的第三个通道的数值。对一个或多个目标图像进行锐化:对原目标图像的轮廓进行补偿,增强目标图像的边缘及灰度跳变的部分,使目标图像变得清晰。
根据上述记载,在一具体实施例中,若样本由一个或多个目标图像构成,则筛选候选样本的具体实施过程如图2所示:
S101,构建初始训练集。从全量候选样本集中抽取包含M个样本的样本子集进行人工标注,该进行人工标注后的样本子集将作为初始训练集,而剩余的未标注样本则作为候选样本集。其中,抽取初始训练集的方式可以是随机选择,也可以通过设计特定的算法进行挑选。
S102,数据增强。对图像数据进行旋转、错切、翻转、调整色彩、色调分离、调整曝光度、调整对比度、调整亮度、锐化等操作,使得样本的数量和多样性得到提升。其中,数据增强是数据预处理的主要方法,同时也是主动学习模块所依赖的手段。在进行数据增强时,可以选择包括但不限于上述任何一种数据增强方式,也是对这些数据增强方式进行两个或两个以上的组合使用。
S103,初始模型训练。利用步骤S101所构建的初始训练集对初始分类模型进行训练,得到初始训练分类模型。其中,初始分类模型包括但不限于vgg,resnet等深度学习模型。在进行初始模型训练时,还可以选择在使用预训练模型的基础上对初始分类模型进行训练,得到初始训练分类模型。本步骤中,使用预训练模型可以在很大程度上提高模型的分类能力。其中,预训练模型可以是在imagenet等数据集上得到的预训练模型。
S104,挑选待标注样本;即筛选候选样本。利用步骤S103中训练完成的初始训练分类模型对候选样本集中未标注样本进行多次预测,且在每次预测时,都对初始训练分类模型进行随机dropout操作。即在每一次预测过程中,将初始训练分类模型中的神经网络中的每一个神经元以一定概率(该概率可以进行预设设置)进行随机丢弃,使该神经元的权重为零。对初始训练分类模型进行随机dropout操作后,可以得到完成随机dropout操作后的初始训练分类模型。使用完成随机dropout操作后的初始训练分类模型中的神经网络计算候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;同时对候选样本集中每个未标注样本进行多次预测后,可以得到候选样本集中每个未标注样本的多次预测结果,即预测概率向量
Figure BDA0002753829810000121
其中,
Figure BDA0002753829810000122
式中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure BDA0002753829810000123
为利用第t次dropout操作后得到的初始训练分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率。
再根据候选样本集中每个未标注样本的多次预测结果计算初始训练分类模型的不确定性值,有:
Figure BDA0002753829810000124
其中,T为dropout操作的总次数;I[w|x,Dtrain]为根据候选样本集中第x个未标注样本计算的初始训练分类模型的不确定性值,此时初始训练分类模型的训练集为Dtrain,模型训练参数为w。
基于上述初始训练分类模型的不确定性值确定候选样本集中第x个未标注样本的不确定性值;即将I[w|x,Dtrain]作为候选样本集中第x个未标注样本的不确定性值,或者I[w|x,Dtrain]是第x个未标注样本的不确定性值;从而可以得到候选样本集中不同的未标注样本对应的不确定性值,并筛选出不确定性值最高的前K个未标注样本,以作为初始训练分类模型的训练样本。其中,样本的不确定性值越大,则表示该样本包含的信息量越大,能够为模型训练带来的贡献也越大。由此选出不确定性值最高的前K个样本,即筛选出最具标注价值的潜在标注样本,潜在标注样本也即一些实施例中描述的候选样本。
步骤S105,人工标注样本。通过步骤S104可以选出最值得标注的候选样本,将这些候选样本推送给标注平台进行标注,进而得到新的标注样本。在推送给标注平台或在标注平台进行标注时,可以选择使用或不使用训练好的分类模型进行预标注。通过预标注可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。在本步骤的其他实现方案中,也可以将所挑选的待标注样本推送给专家或者其他用户进行标注。
步骤S106,扩充初始训练集并优化分类模型。将步骤S105得到的新的标注样本加入到初始训练集中,得到新的初始训练集。新的初始训练集不仅有更多的样本数量,而且包含了最具代表性的部分样本,从而有着更为丰富的信息量;利用新的初始训练集对分类模型进行训练,能够达到优化模型的目的。本步骤中,可以使用新的训练集来对非预训练模型从最开始进行模型训练;或者使用新的训练集来对预训练模型进行模型微调;或者使用新的训练集来对上一个初始训练分类模型进行增量学习。
步骤S107,循环执行步骤S104至步骤106直到满足终止条件。作为一示例,本申请实施例中的终止条件可以是迭代优化训练后的分类模型的模型效果达到按照实际要求设定的阈值;其中,模型效果参数指标包括以下至少之一:模型F1值、训练损失loss、AUC值、准确率、召回率、标注量。作为另一示例,终止条件还可以是迭代优化训练后的分类模型的模型效果与之前的分类模型相比,小于按照实际要求设定的阈值。作为另一示例,终止条件还可以是迭代优化训练后的分类模型进行样本标注时的标注量达到实际要求。
根据上述记载,将本方法中筛选出的前K个未标注样本应用在多个图像分类任务上进行测试,测试结果表明,相对于现有的对全量样本进行标注而言,直接应用本方法中筛选出的前K个未标注样本进行标注,能够比现有的标注方式节省50%到80%的数据标注量。
综上所述,本方法可以从海量数据中挑选出最具代表性的少量样本进行人工标注,解决了传统需要对全量样本进行标注时耗资巨大的问题。并且本方法可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。同时,本方法能够基于不确定参数条件下的分类模型一致性进行样本选择。在分类模型中使用dropout操作引入参数的不确定性,并在多个分类模型中加入dropout操作来对未标注样本进行预测,所得到的预测结果也存在不确定性。若分类模型一致性越低,则样本的预测结果不确定性越高,其也含有更加丰富的信息量。通过本方法可以高效的选择出最有价值的样本进行标注,进而显著性地减少标注数据的代价。并且本方法与现有的一些方法相比(例如重庆邮电大学的一种基于主动学习的数据自动标注方法),现有方法一般是训练多个基分类器对未标注数据进行分类,选出分歧熵最低的数据进行人工标注,其中分歧熵需要通过每个基分类器的权重、分类结果、分类置信度等进行综合对比得出;而本方法是在分类网络模型中加入dropout操作,通过分类模型的一致性来反映样本的不确定性,进而筛选出最具价值的样本。所以本方法可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;并能够同时以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。
如图3所示,本发明还提供一种筛选样本的***,应用于计算机模型训练过程,包括有:
样本采集模块M10,用于从目标样本集中获取部分未标注样本形成候选样本集;其中,目标样本集中的样本包括以下至少之一:图像、语音、文字;
样本预测模块M20,用于利用分类模型对候选样本集中每个未标注样本进行多次预测,得到候选样本集中每个未标注样本的多次预测结果;
样本不确定性值模块M30,用于根据候选样本集中每个未标注样本的多次预测结果计算分类模型的不确定性值,并基于分类模型的不确定性值确定候选样本集中每个未标注样本的不确定性值;
样本筛选模块M40,用于从候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为分类模型的训练样本。
本***可以从海量数据中挑选出最具代表性的少量样本进行人工标注,解决了传统需要对全量样本进行标注时耗资巨大的问题。并且本***可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。
在一示例性实施例中,样本预测模块M20获取分类模型的过程包括:从目标样本集中获取剩余的未标注样本;对剩余的未标注样本进行人工标注,形成初始训练集;利用初始训练集对初始分类模型进行训练,获取初始训练分类模型;并将初始训练分类模型作为分类模型。作为示例,本申请实施例中抽取初始训练集的方式可以是随机选择,也可以是人为指定,还可以通过设计特定的算法进行挑选。本申请实施例中的初始分类模型包括但不限于vgg,resnet等深度学习模型。作为另一示例性实施例,获取分类模型时,还可以选择在使用预训练模型的基础上对初始分类模型进行训练;获取初始训练分类模型;并将获取的初始训练分类模型作为分类模型。本申请实施例通过使用预训练模型对初始分类模型进行训练,可以很大程度上提高初始分类模型的分类能力。其中,预训练模型可以是在imagenet等数据集上得到的预训练模型。
在一示例性实施例中,还包括迭代优化模块M50,用于利用筛选出的候选样本对分类模型进行迭代优化。迭代优化的具体过程包括:将从候选样本集中筛选出的不确定性值最高的前K个未标注样本记为候选样本;获取筛选出的候选样本,将获取的候选样本推送至标注平台进行标注。在完成标注后,将完成标注后的候选样本加入至初始训练集中扩充初始训练集;根据扩充后的初始训练集对分类模型进行迭代优化训练,并将完成迭代优化训练后的分类模型作为最终的分类模型;其中,可以用于进行迭代优化的分类模型包括但不限于:初始分类模型、预训练模型、初始训练分类模型。本申请实施例将标注后的候选样本加入至初始训练集得到新的训练集,即扩充后的初始训练集;新的训练集不仅有更多的样本数量,而且包含了最具代表性的候选样本,有着更为丰富的信息量,利用新的训练集对分类模型进行训练,可以达到优化分类模型的目的。作为示例,例如使用新的训练集来对初始分类模型从最开始进行模型训练;或者使用新的训练集来对预训练模型进行模型微调;或者使用新的训练集来对初始训练分类模型进行增量学习。本申请实施例中,分类模型完成迭代优化训练可以是利用扩充后的初始训练集对分类模型进行一次或多次迭代优化训练,使分类模型的迭代优化训练次数达到实际要求的训练次数即可。还可以是利用扩充后的初始训练集对分类模型进行一次或多次迭代优化,直至迭代优化训练后的分类模型满足终止条件。作为一示例,本申请实施例中的终止条件可以是迭代优化训练后的分类模型的模型效果达到按照实际要求设定的阈值;其中,模型效果参数指标包括以下至少之一:模型F1值、训练损失loss、AUC值、准确率、召回率、标注量。作为另一示例,终止条件还可以是迭代优化训练后的分类模型的模型效果与之前的分类模型相比,小于按照实际要求设定的阈值。作为另一示例,终止条件还可以是迭代优化训练后的分类模型进行样本标注时的标注量达到实际要求。
在一示例性实施例中,将从候选样本集中筛选出的不确定性值最高的前K个未标注样本记为候选样本,在将候选样本推送至标注平台前,或者在标注平台对候选样本进行标注过程中,还包括对筛选出的候选样本进行预标注;进行预标注的方式包括以下之一:利用未进行迭代优化的分类模型对筛选出的候选样本进行预标注、利用完成迭代优化训练的分类模型对筛选出的候选样本进行预标注、利用人工对筛选出的候选样本进行预标注。通过在推送标注平台前对候选样本进行预标注,或者在推送平台对候选样本进行预标注;可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。
根据上述记载,在一示例性实施例中,样本预测模块M20利用分类模型对候选样本集中的每个未标注样本进行多次预测,得到候选样本集中每个未标注样本的多次预测结果的过程包括:利用分类模型对候选样本集中的每个未标注样本进行多次预测,且在每次预测时将分类模型中的神经网络的每一个神经元以预设概率进行随机丢弃,得到完成随机dropout操作后的分类模型;根据完成随机dropout操作后的分类模型中的神经网络计算候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;基于候选样本集中每个未标注样本的所有单次预测结果得到候选样本集中每个未标注样本的多次预测结果。其中,样本的不确定性值越大,样本的不确定性越高,该样本包含的信息量也越大,训练分类模型时带来的贡献也越大。具体地,可以利用分类模型对候选样本集中的每个未标注样本进行多次预测,且在每次预测时,都对分类模型进行随机dropout操作。即在每一次预测过程中,将分类模型中的神经网络中的每一个神经元以一定概率(该概率可以进行预设设置)进行随机丢弃,使该神经元的权重为零。对分类模型进行随机dropout操作后,可以得到完成随机dropout操作后的分类模型。使用完成随机dropout操作后的分类模型中的神经网络计算候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;同时对候选样本集中每个未标注样本进行多次预测后,可以得到候选样本集中每个未标注样本的多次预测结果,即预测概率向量
Figure BDA0002753829810000161
其中,
Figure BDA0002753829810000162
式中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure BDA0002753829810000163
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率。
样本不确定性值模块M30再将所述候选样本集中每个未标注样本输入至第t次dropout操作后得到的分类模型中的神经网络进行预测,计算所述候选样本集中每个未标注样本被预测为第c个样本类别的概率,以得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果计算初始训练分类模型的不确定性值,有:
Figure BDA0002753829810000164
其中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure BDA0002753829810000165
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率;T为dropout操作的总次数;I[w|x,Dtrain]为根据候选样本集中第x个未标注样本计算的分类模型的不确定性值,此时分类模型的训练集为Dtrain,模型训练参数为w。
基于上述分类模型的不确定性值确定候选样本集中第x个未标注样本的不确定性值;即将根据候选样本集中第x个未标注样本计算的分类模型的不确定性值I[w|x,Dtrain]作为所述候选样本集中第x个未标注样本的不确定性值;或I[w|x,Dtrain]是第x个未标注样本的不确定性值。从而可以得到候选样本集中不同的未标注样本对应的不确定性值,并由样本筛选模块M40筛选出不确定性值最高的前K个未标注样本,以作为分类模型的训练样本。其中,样本的不确定性值越大,则表示该样本包含的信息量越大,能够为模型训练带来的贡献也越大。由此选出不确定性值最高的前K个样本,即筛选出最具标注价值的潜在标注样本,也即一些实施例中描述的候选样本。
根据上述记载,在一示例性实施例中,若目标样本集中的单个样本为一个或多个目标图像;则在形成初始训练集后,还包括:对一个或多个目标图像进行数据增强,并将数据增强后的一个或多个目标图像增加至初始训练集中;利用数据增强后的初始训练集对初始分类模型进行训练,获取增强训练分类模型;并将增强训练分类模型作为分类模型。本***通过对一个或多个目标图像进行数据增强来扩充初始训练集,使得样本的数量和多样性得到提升。其中,对一个或多个目标图像进行数据增强的方式包括以下至少之一:对一个或多个目标图像进行旋转、对一个或多个目标图像进行错切、对一个或多个目标图像进行翻转、对一个或多个目标图像进行色彩调整、对一个或多个目标图像进行色调分离、对一个或多个目标图像进行曝光度调整、对一个或多个目标图像进行对比度调整、对一个或多个目标图像进行亮度调整、对一个或多个目标图像进行锐化。作为示例,数据增强的具体方式如下:对一个或多个目标图像进行旋转:将原目标图像以某点为中心,顺时针或逆时针旋转一定的角度,使目标图像中的像素点在空间中的位置发生改变。对一个或多个目标图像进行错切:图像错切也叫图像倾斜,就是将目标图像按照指定的方向进行倾斜,使原本的矩阵目标图像转换成为平行四边形的目标图像。对一个或多个目标图像进行翻转:将原目标图像进行左右或者上下的镜面翻转,使得转换后的目标图像与原目标图像关于翻转轴对称。对一个或多个目标图像进行色彩调整:对原目标图像的色彩进行调整,使原目标图像的色彩增强或减弱。对一个或多个目标图像进行色调分离:只保留原目标图像各像素点数值较高的比特位,使得目标图像出现相邻像素点颜色的跳变。对一个或多个目标图像进行曝光度调整:对原目标图像的曝光度进行调整,将目标图像从RGB色彩空间转换到HSV色彩空间,调整目标图像在HSV色彩空间的第三个通道的数值。对一个或多个目标图像进行对比度调整:对原目标图像的对比度进行调整,在保证平均亮度不变的情况下,扩大或缩小原目标图像中亮点和暗点的差异。对一个或多个目标图像进行亮度调整:对原目标图像的亮度进行调整,将目标图像从RGB色彩空间转换到HSL色彩空间,调整目标图像在HSL色彩空间的第三个通道的数值。对一个或多个目标图像进行锐化:对原目标图像的轮廓进行补偿,增强目标图像的边缘及灰度跳变的部分,使目标图像变得清晰。***
根据上述记载,若样本由一个或多个目标图像构成,则筛选候选样本的具体实施过程如图2所示。在本实施例中,筛选候选样本的具体实施过程参照上述实施例即可,此处不再赘述。
根据上述记载,将本***中筛选出的前K个未标注样本应用在多个图像分类任务上进行测试,测试结果表明,相对于现有的对全量样本进行标注而言,直接应用本***中筛选出的前K个未标注样本进行标注,能够比现有的标注方式节省50%到80%的数据标注量。
综上所述,本***可以从海量数据中挑选出最具代表性的少量样本进行人工标注,解决了传统需要对全量样本进行标注时耗资巨大的问题。并且本***可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;同时能够以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。同时,本***能够基于不确定参数条件下的分类模型一致性进行样本选择。在分类模型中使用dropout操作引入参数的不确定性,并在多个分类模型中加入dropout操作来对未标注样本进行预测,所得到的预测结果也存在不确定性。若分类模型一致性越低,则样本的预测结果不确定性越高,其也含有更加丰富的信息量。通过本***可以高效的选择出最有价值的样本进行标注,进而显著性地减少标注数据的代价。并且本***与一些现有技术相比(例如重庆邮电大学的一种基于主动学习的数据自动标注方法),现有技术一般是训练多个基分类器对未标注数据进行分类,选出分歧熵最低的数据进行人工标注,其中分歧熵需要通过每个基分类器的权重、分类结果、分类置信度等进行综合对比得出;而本***是在分类网络模型中加入dropout操作,通过分类模型的一致性来反映样本的不确定性,进而筛选出最具价值的样本。所以本***可以减少训练分类模型时所需人工标注数据的数量,减少进行人工标注的人力成本,有效地提高了标注效率;并能够同时以最小的数据标注代价快速迭代优化模型,实现用较少的数据训练出较优的模型。
本申请实施例还提供了一种筛选样本的设备,包括有:
从目标样本集中获取部分未标注样本形成候选样本集;其中,目标样本集中的样本包括以下至少之一:图像、语音、文字;
利用分类模型对候选样本集中每个未标注样本进行多次预测,得到候选样本集中每个未标注样本的多次预测结果;
根据候选样本集中每个未标注样本的多次预测结果计算分类模型的不确定性值,并基于分类模型的不确定性值确定候选样本集中每个未标注样本的不确定性值;
从候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为分类模型的训练样本。其中,样本的不确定性值越大,样本的不确定性越高,该样本包含的信息量也越大,训练分类模型时带来的贡献也越大。
在本实施例中,该设备执行上述***或方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中数据处理方法所包含步骤的指令(instructions)。
图4为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件***接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图5为本申请的另一个实施例提供的终端设备的硬件结构示意图。图5是对图4在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第二处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,音频组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述图1所示方法的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理***,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
音频组件1206被配置为输出和/或输入语音信号。例如,音频组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,音频组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和***接口模块之间提供接口,上述***接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于***SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图5实施例中所涉及的通信组件1203、音频组件1206以及输入/输出接口1207、传感器组件1208均可以作为图4实施例中的输入设备的实现方式。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (16)

1.一种筛选样本的方法,其特征在于,应用于计算机模型训练过程,包括以下步骤:
从目标样本集中获取部分未标注样本形成候选样本集,其中,目标样本集中的样本包括以下至少之一:图像、语音、文字;
利用分类模型对所述候选样本集中每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果确定所述候选样本集中每个未标注样本的不确定性值;
从所述候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为所述分类模型的训练样本。
2.根据权利要求1所述的筛选样本的方法,其特征在于,利用分类模型对所述候选样本集中每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果的过程包括:
利用所述分类模型对所述候选样本集中的每个未标注样本进行多次预测,且在每次预测时将所述分类模型中的神经网络的每一个神经元以预设概率进行随机丢弃,得到完成随机dropout操作后的分类模型;
根据完成随机dropout操作后的分类模型中的神经网络计算所述候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;
基于所述候选样本集中每个未标注样本的所有单次预测结果得到所述候选样本集中每个未标注样本的多次预测结果。
3.根据权利要求2所述的筛选样本的方法,其特征在于,所述根据所述候选样本集中每个未标注样本的多次预测结果计算所述分类模型的不确定性值,并基于所述分类模型的不确定性值确定所述候选样本集中每个未标注样本的不确定性值;包括:
将所述候选样本集中每个未标注样本输入至第t次dropout操作后得到的分类模型中的神经网络进行预测,计算所述候选样本集中每个未标注样本被预测为第c个样本类别的概率,以得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果计算初始训练分类模型的不确定性值,有:
Figure FDA0002753829800000011
其中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure FDA0002753829800000021
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率;T为dropout操作的总次数;I[w|x,Dtrain]为根据候选样本集中第x个未标注样本计算的分类模型的不确定性值,此时分类模型的训练集为Dtrain,模型训练参数为w;
将根据候选样本集中第x个未标注样本计算的分类模型的不确定性值I[w|x,Dtrain]作为所述候选样本集中第x个未标注样本的不确定性值或I[w|x,Dtrain]是第x个未标注样本的不确定性值。
4.根据权利要求1所述的筛选样本的方法,其特征在于,获取所述分类模型的过程包括:
从所述目标样本集中获取剩余的未标注样本;
对剩余的未标注样本进行标注,形成初始训练集;
利用所述初始训练集对初始分类模型进行训练,获取初始训练分类模型;并将所述初始训练分类模型作为所述分类模型;
或者,使用预训练模型对初始分类模型进行训练,获取初始训练分类模型,并将所述初始训练分类模型作为所述分类模型。
5.根据权利要求4所述的筛选样本的方法,其特征在于,还包括利用筛选出的不确定性值最大的前K个未标注样本对所述分类模型进行迭代优化,迭代优化过程如下:
将从候选样本集中筛选出的不确定性值最大的前K个未标注样本推送至标注平台进行标注,并将完成标注后的K个样本加入至所述初始训练集中扩充所述初始训练集;
根据扩充后的初始训练集对所述分类模型进行迭代优化训练,并将完成迭代优化训练后的分类模型作为所述最终的分类模型。
6.根据权利要求5所述的筛选样本的方法,其特征在于,在将筛选出的不确定性值最高的前K个未标注样本推送至标注平台前,或者在标注平台对筛选出的不确定性值最高的前K个未标注样进行标注过程中,还包括对不确定性值最高的前K个未标注样本进行预标注;进行预标注的方式包括以下之一:
利用未进行迭代优化的分类模型对筛选出的不确定性值最高的前K个未标注样本进行预标注、利用完成迭代优化训练的分类模型对不确定性值最高的前K个未标注样本进行预标注、利用人工对筛选出的不确定性值最高的前K个未标注样本进行预标注。
7.根据权利要求4所述的筛选样本的方法,其特征在于,若所述目标样本集中的单个样本为一个或多个目标图像;则在形成初始训练集后,还包括:
对所述一个或多个目标图像进行数据增强,并将数据增强后的一个或多个目标图像增加至所述初始训练集中;
利用数据增强后的初始训练集对所述初始分类模型进行训练,获取增强训练分类模型;并将所述增强训练分类模型作为所述分类模型。
8.根据权利要求7所述的筛选样本的方法,其特征在于,对所述一个或多个目标图像进行数据增强的方式包括以下至少之一:
对所述一个或多个目标图像进行旋转、对所述一个或多个目标图像进行错切、对所述一个或多个目标图像进行翻转、对所述一个或多个目标图像进行色彩调整、对所述一个或多个目标图像进行色调分离、对所述一个或多个目标图像进行曝光度调整、对所述一个或多个目标图像进行对比度调整、对所述一个或多个目标图像进行亮度调整、对所述一个或多个目标图像进行锐化。
9.一种筛选样本的***,其特征在于,应用于计算机模型训练过程,包括有:
样本采集模块,用于从目标样本集中获取部分未标注样本形成候选样本集;其中,目标样本集中的样本包括以下至少之一:图像、语音、文字;
样本预测模块,用于利用分类模型对所述候选样本集中每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果;
样本不确定性值模块,用于根据所述候选样本集中每个未标注样本的多次预测结果确定所述候选样本集中每个未标注样本的不确定性值;
样本筛选模块,用于从所述候选样本集中筛选出不确定性值最高的前K个未标注样本,以作为所述分类模型的训练样本。
10.根据权利要求9所述的筛选样本的***,其特征在于,所述样本预测模块利用分类模型对所述候选样本集中的每个未标注样本进行多次预测,得到所述候选样本集中每个未标注样本的多次预测结果的过程包括:
利用所述分类模型对所述候选样本集中的每个未标注样本进行多次预测,且在每次预测时将所述分类模型中的神经网络的每一个神经元以预设概率进行随机丢弃,得到完成随机dropout操作后的分类模型;
根据完成随机dropout操作后的分类模型中的神经网络计算所述候选样本集中每个未标注样本在不同样本类别上的预测概率,得到单次预测结果;
基于所述候选样本集中每个未标注样本的所有单次预测结果得到所述候选样本集中每个未标注样本的多次预测结果。
11.根据权利要求10所述的筛选样本的***,其特征在于,所述样本不确定性值模块根据所述候选样本集中每个未标注样本的多次预测结果计算所述分类模型的不确定性值,并基于所述分类模型的不确定性值确定所述候选样本集中每个未标注样本的不确定性值;包括:
将所述候选样本集中每个未标注样本输入至第t次dropout操作后得到的分类模型中的神经网络进行预测,计算所述候选样本集中每个未标注样本被预测为第c个样本类别的概率,以得到所述候选样本集中每个未标注样本的多次预测结果;
根据所述候选样本集中每个未标注样本的多次预测结果计算初始训练分类模型的不确定性值,有:
Figure FDA0002753829800000041
其中,t为dropout操作的编号,代表第t次dropout操作;c为样本类别的编号,代表第c个样本类别;
Figure FDA0002753829800000042
为利用第t次dropout操作后得到的分类模型中的神经网络将输入的未标注样本预测为第c个样本类别的概率;T为dropout操作的总次数;I[w|x,Dtrain]为根据候选样本集中第x个未标注样本计算的分类模型的不确定性值,此时分类模型的训练集为Dtrain,模型训练参数为w;
将根据候选样本集中第x个未标注样本计算的分类模型的不确定性值I[w|x,Dtrain]作为所述候选样本集中第x个未标注样本的不确定性值或I[w|x,Dtrain]是第x个未标注样本的不确定性值。
12.根据权利要求9所述的筛选样本的***,其特征在于,所述样本预测模块获取所述分类模型的过程包括:
从所述目标样本集中获取剩余的未标注样本;
对剩余的未标注样本进行标注,形成初始训练集;
利用所述初始训练集对初始分类模型进行训练,获取初始训练分类模型;并将所述初始训练分类模型作为所述分类模型;
或者,使用预训练模型对初始分类模型进行训练,获取初始训练分类模型;并将所述初始训练分类模型作为所述分类模型。
13.根据权利要求12所述的筛选样本的***,其特征在于,还包括迭代优化模块,用于利用筛选出的不确定性值最大的前K个未标注样本对所述分类模型进行迭代优化,迭代优化过程如下:
将从候选样本集中筛选出的不确定性值最大的前K个未标注样本推送至标注平台进行标注,并将完成标注后的K个样本加入至所述初始训练集中扩充所述初始训练集;
根据扩充后的初始训练集对所述分类模型进行迭代优化训练,并将完成迭代优化训练后的分类模型作为所述最终的分类模型。
14.根据权利要求12所述的筛选样本的***,其特征在于,若所述目标样本集中的单个样本为一个或多个目标图像;则在形成初始训练集后,还包括:
对所述一个或多个目标图像进行数据增强,并将数据增强后的一个或多个目标图像增加至所述初始训练集中;
利用数据增强后的初始训练集对所述初始分类模型进行训练,获取增强训练分类模型;并将所述增强训练分类模型作为所述分类模型。
15.一种设备,其特征在于,包括:
一个或多个处理器;和
存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行所述指令时,使得所述设备执行如权利要求1-8中任意一项所述的方法。
16.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行所述指令时,使得设备执行如权利要求1-8中任意一项所述的方法。
CN202011195232.9A 2020-10-30 2020-10-30 一种筛选样本的方法、***、设备及介质 Pending CN112308144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011195232.9A CN112308144A (zh) 2020-10-30 2020-10-30 一种筛选样本的方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011195232.9A CN112308144A (zh) 2020-10-30 2020-10-30 一种筛选样本的方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN112308144A true CN112308144A (zh) 2021-02-02

Family

ID=74333494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011195232.9A Pending CN112308144A (zh) 2020-10-30 2020-10-30 一种筛选样本的方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN112308144A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508462A (zh) * 2021-02-05 2021-03-16 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质
CN112801229A (zh) * 2021-04-07 2021-05-14 北京三快在线科技有限公司 一种识别模型的训练方法及装置
CN112990375A (zh) * 2021-04-29 2021-06-18 北京三快在线科技有限公司 一种模型训练方法、装置、存储介质及电子设备
CN113011534A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 分类器训练方法、装置、电子设备和存储介质
CN113141363A (zh) * 2021-04-22 2021-07-20 西安交通大学 一种加密流量样本筛选方法、***、设备及可读存储介质
CN113407680A (zh) * 2021-06-30 2021-09-17 竹间智能科技(上海)有限公司 异质集成模型筛选方法和电子设备
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN113590764A (zh) * 2021-09-27 2021-11-02 智者四海(北京)技术有限公司 训练样本构建方法、装置、电子设备和存储介质
CN114155412A (zh) * 2022-02-09 2022-03-08 北京阿丘科技有限公司 深度学习模型迭代方法、装置、设备及存储介质
CN114519406A (zh) * 2022-04-21 2022-05-20 天津卓朗科技发展有限公司 工业数据的分类方法及其模型训练方法、装置
WO2023083176A1 (zh) * 2021-11-15 2023-05-19 中兴通讯股份有限公司 样本处理方法、设备及计算机可读存储介质
CN117909333A (zh) * 2024-02-02 2024-04-19 深圳天朴科技有限公司 基于大数据结合人工智能实现数据的筛选方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232678A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 一种图像不确定度预测方法、装置、设备及存储介质
CN110245716A (zh) * 2019-06-20 2019-09-17 杭州睿琪软件有限公司 样本标注审核方法及装置
CN111325726A (zh) * 2020-02-19 2020-06-23 腾讯医疗健康(深圳)有限公司 模型训练方法、图像处理方法、装置、设备及存储介质
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232678A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 一种图像不确定度预测方法、装置、设备及存储介质
CN110245716A (zh) * 2019-06-20 2019-09-17 杭州睿琪软件有限公司 样本标注审核方法及装置
CN111325726A (zh) * 2020-02-19 2020-06-23 腾讯医疗健康(深圳)有限公司 模型训练方法、图像处理方法、装置、设备及存储介质
CN111461232A (zh) * 2020-04-02 2020-07-28 大连海事大学 一种基于多策略批量式主动学习的核磁共振图像分类方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508462B (zh) * 2021-02-05 2021-05-14 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质
CN112508462A (zh) * 2021-02-05 2021-03-16 北京芯盾时代科技有限公司 数据筛选方法、装置及存储介质
CN112801229A (zh) * 2021-04-07 2021-05-14 北京三快在线科技有限公司 一种识别模型的训练方法及装置
CN112801229B (zh) * 2021-04-07 2021-07-30 北京三快在线科技有限公司 一种识别模型的训练方法及装置
CN113141363A (zh) * 2021-04-22 2021-07-20 西安交通大学 一种加密流量样本筛选方法、***、设备及可读存储介质
CN112990375A (zh) * 2021-04-29 2021-06-18 北京三快在线科技有限公司 一种模型训练方法、装置、存储介质及电子设备
CN113011534B (zh) * 2021-04-30 2024-03-29 平安科技(深圳)有限公司 分类器训练方法、装置、电子设备和存储介质
CN113011534A (zh) * 2021-04-30 2021-06-22 平安科技(深圳)有限公司 分类器训练方法、装置、电子设备和存储介质
CN113407680A (zh) * 2021-06-30 2021-09-17 竹间智能科技(上海)有限公司 异质集成模型筛选方法和电子设备
CN113487617A (zh) * 2021-07-26 2021-10-08 推想医疗科技股份有限公司 数据处理方法、装置、电子设备以及存储介质
CN113590764B (zh) * 2021-09-27 2021-12-21 智者四海(北京)技术有限公司 训练样本构建方法、装置、电子设备和存储介质
CN113590764A (zh) * 2021-09-27 2021-11-02 智者四海(北京)技术有限公司 训练样本构建方法、装置、电子设备和存储介质
WO2023083176A1 (zh) * 2021-11-15 2023-05-19 中兴通讯股份有限公司 样本处理方法、设备及计算机可读存储介质
CN114155412A (zh) * 2022-02-09 2022-03-08 北京阿丘科技有限公司 深度学习模型迭代方法、装置、设备及存储介质
CN114519406A (zh) * 2022-04-21 2022-05-20 天津卓朗科技发展有限公司 工业数据的分类方法及其模型训练方法、装置
CN117909333A (zh) * 2024-02-02 2024-04-19 深圳天朴科技有限公司 基于大数据结合人工智能实现数据的筛选方法及***

Similar Documents

Publication Publication Date Title
CN112308144A (zh) 一种筛选样本的方法、***、设备及介质
CN112508092A (zh) 一种样本筛选方法、***、设备及介质
CN114155543B (zh) 神经网络训练方法、文档图像理解方法、装置和设备
CN112162930B (zh) 一种控件识别的方法、相关装置、设备及存储介质
CN109934173B (zh) 表情识别方法、装置及电子设备
US11676283B2 (en) Iteratively refining segmentation masks
WO2021129181A1 (en) Portrait segmentation method, model training method and electronic device
CN109345553B (zh) 一种手掌及其关键点检测方法、装置和终端设备
CN111160335A (zh) 基于人工智能的图像水印处理方法、装置及电子设备
CN112308143A (zh) 一种基于多样性的样本筛选方法、***、设备及介质
CN112989085B (zh) 图像处理方法、装置、计算机设备及存储介质
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
CN110827236B (zh) 基于神经网络的脑组织分层方法、装置、计算机设备
CN111985518A (zh) 门窗检测方法及其模型训练的方法、装置
CN111222557A (zh) 图像分类方法、装置、存储介质及电子设备
US20230127525A1 (en) Generating digital assets utilizing a content aware machine-learning model
CN110659817A (zh) 一种数据处理方法、装置、机器可读介质及设备
CN112801911A (zh) 一种去除自然图像中文字类噪声的方法及装置、存储介质
CN110532448B (zh) 基于神经网络的文档分类方法、装置、设备及存储介质
CN116956214A (zh) 基于正则化集成学习的多模态细粒度论文分类方法和***
CN111582302A (zh) 车辆识别方法、装置、设备及存储介质
CN113298896A (zh) 图片生成方法、装置、电子设备以及存储介质
CN113821296B (zh) 可视化界面生成方法、电子设备及存储介质
CN112307371B (zh) 小程序子服务识别方法、装置、设备及存储介质
CN112801960B (zh) 图像处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination