CN108021931A - 一种数据样本标签处理方法及装置 - Google Patents

一种数据样本标签处理方法及装置 Download PDF

Info

Publication number
CN108021931A
CN108021931A CN201711160012.0A CN201711160012A CN108021931A CN 108021931 A CN108021931 A CN 108021931A CN 201711160012 A CN201711160012 A CN 201711160012A CN 108021931 A CN108021931 A CN 108021931A
Authority
CN
China
Prior art keywords
exemplar
uncertain
label
sample
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711160012.0A
Other languages
English (en)
Inventor
陈凡
齐翔
王德胜
王韩彬
郭棋林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201711160012.0A priority Critical patent/CN108021931A/zh
Publication of CN108021931A publication Critical patent/CN108021931A/zh
Priority to PCT/CN2018/102732 priority patent/WO2019095782A1/zh
Priority to EP18879971.2A priority patent/EP3678058A4/en
Priority to SG11202002326RA priority patent/SG11202002326RA/en
Priority to TW107132422A priority patent/TWI694341B/zh
Priority to US16/746,757 priority patent/US11741392B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了一种数据样本标签处理方法及装置。一种数据样本标签处理方法包括:获得不确定标签样本集和已确定标签样本集;利用以下步骤进行迭代处理,直到学习标签的准确率达到预设的要求:对当前的不确定标签样本集和已确定标签样本集进行合并,训练得到预测模型;将不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;迭代结束后,将不确定标签样本当前的学习标签确定为标注结果。

Description

一种数据样本标签处理方法及装置
技术领域
本说明书实施例涉及数据分析技术领域,尤其涉及一种数据样本标签处理方法及装置。
背景技术
在机器学习领域,利用大量的数据样本进行训练,可以获得各种形式的数据模型以解决实际问题。机器学习可分为有监督学习和无监督学习,其中监督学习是利用一组已知类别的数据样本来调整预测模型的参数、使其达到性能要求的过程。监督学习使用的训练样本均为已标记样本,即每条样本同时包含“特征值”和“标签值”。
有监督学习和无监督学习分别可以适用于一定的需求场景,然而在实际应用中,经常会遇到需要采用有监督学习解决问题、但是数据样本标签不准确甚至无标签的情况。理论上虽然可以采用人工的方式对分别对每条数据样本的标签进行纠正或重新标注,然而在大数据的应用场景下,这种纯人工的处理方式是不现实的。因此,如何对不确定标签样本实现高效、准确的标注,已经成为行业内备受关注的问题。
发明内容
针对上述技术问题,本说明书实施例提供一种数据样本标签处理方法及装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种数据样本标签处理方法,该方法包括:
获得不确定标签样本集和已确定标签样本集;利用以下步骤进行迭代处理,直到学习标签的准确率达到预设的要求:
对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;
将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
迭代结束后,将不确定标签样本当前的学习标签确定为标注结果。
根据本说明书实施例的第二方面,提供一种数据模型训练方法,该方法包括:
获得不确定标签样本集和已确定标签样本集;利用以下步骤进行迭代处理,直到学习标签的准确率达到预设的要求:
对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;
将所述不确定标签样本集中的不确定标签样本输入所述预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
对带有学习标签的不确定标签样本集进行抽样得到抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移动至已确定标签样本集;
迭代结束后,将当前的预测模型确定为适用于所述不确定标签样本集的预测模型。
根据本说明书实施例的第三方面,提供一种数据样本标签处理装置,该装置包括:
输入模块,用于获得不确定标签样本集和已确定标签样本集;
学习模块,用于对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
校验模块,用于根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
所述学习模块和所述校验模块相互配合实现迭代处理,直到学习标签的准确率达到预设的要求;
输出模块,用于在迭代结束后,将不确定标签样本当前的学习标签确定为标注结果。
根据本说明书实施例的第四方面,提供一种数据模型训练装置,该装置包括:
输入模块,用于获得不确定标签样本集和已确定标签样本集;
学习模块,用于对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
校验模块,用于根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
所述学习模块和所述校验模块相互配合实现迭代处理,直到学习标签的准确率达到预设的要求;
输出模块,用于在迭代结束后,将当前的预测模型确定为适用于所述不确定标签样本集的预测模型。
本说明书实施例所提供的技术方案,在已拥有大量已确定标签样本集的情况下,首先通过对已知标签样本信息的学习,对不确定标签样本的标签进行初步标注,以得到不确定标签样本的学习标签,然后对学习标签进行抽样校验,并将校验后的结果反馈至学习阶段,使其利用校验后的结果重新进行学习。通过上述方式来不断改善学习结果,直到满足需求。应用上述方案,不仅可以在仅付出少量校验成本的情况下,实现对不确定标签的标注或纠正,还能够针对不确定标签样本的自有特征,得到可适用于不确定标签样本的预测模型。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本说明书实施例的数据样本标签处理方法的流程示意图;
图2是本说明书实施例的整体设计架构示意图;
图3是本说明书实施例的不确定标签样本生成示意图;
图4是本说明书实施例的数据模型训练方法的流程示意图;
图5是本说明书实施例的标签处理装置及训练装置的结构示意图;
图6是用于配置本说明书实施例装置的一种设备的结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
在对数据进行分类预测等应用场景(例如垃圾信息识别、欺诈行为识别等),理想的情况是所有的数据样本都带有标签,从而通过有监督学习得到预测模型。虽然对数据样本进行标记的代价较高,但是为了得到性能较好的预测模型,在实现需求的初期也不可避免地要投入成本,以得到数量足够的有标签样本。
当训练得到的模型性能达到需求后,就可以投入使用以对未知数据进行分类预测了。但是实际应用中,可能会出现的情况是:由于业务领域、应用场景等方面的差别,导致未知数据与训练模型时所使用数据样本的特征并不完全相同,因此使用已有的模型对这些未知数据进行预测时,经常达不到期望的效果。例如,对于“识别垃圾信息”这一需求,根据电商平台的交易评论内容训练出的识别模型,如果用来识别视频网站评论内容中的垃圾信息,很有可能会出现大量的识别错误。
另一种类似的问题是:给定一批“新类型”的数据,希望能够据此训练出适用于这批数据的识别模型。然而这批数据可能是完全不带有任何标签,也可能是全部或部分带有标签、但是无法保证这些标签的准确性(例如可能是粗糙标注等原因导致)。例如,给定一批视频网站中的评论内容,希望训练出适用于网站中垃圾评论内容识别的模型。那么,根据现有技术,如果要满足模型训练的要求,又需要花费大量成本对这批新类型数据进行标注。
针对上述需求,本说明书实施例提供一种数据样本标签处理方案,该方案的设计架构如图1所示,具体架构说明如下:
1)输入部分:
以“不确定标签样本集”和“已确定标签样本集”作为输入信息。
其中“不确定标签样本集”中的样本可能是完全不带有任何标签,也可能是全部或部分带有标签、但是无法保证这些标签的准确性。
“已确定标签样本集”指当前已拥有的、携带可靠标签的样本集合。具体的标签来源这里不做限定,总之可以将这部分视为已知信息。
实际情况中,“不确定标签样本集”和“已确定标签样本集”的整体使用需求相同,但又具有不同的数据特征。例如前面例子中的“视频网站评论内容”和“交易平台评论内容”,都是用于识别垃圾评论内容,但是不同领域的评论内容又各有特色。则前者相当于“未确定标签样本集”,后者相当于“已确定标签样本集”。
为便于描述,后续将分别以符号“U”和“L”表示“不确定标签样本集”和“已确定标签样本集”。
2)输出部分:
以“U的标注结果”和“适用于U的预测模型”作为输出信息,当然在实际应用中,可能只需要上述两种输出信息中的一种。
3)学习模块:
学习模块又可以进一步分为训练和标注两个子模块(图中未示出):
a训练子模块:
以U和L的合并结果作为依据,通过训练得到预测模型。其中根据U的具体情况不同,将采用不同训练方式:
如果U中样本均带有标签,则对U和L进行合并后,使用有监督学习的方式训练得到预测模型。
如果U中样本完全不带有任何标签、或者仅部分样本带有标签,则对U和L进行合并后,使用半监督学习的方式训练得到预测模型。
可见,无论采用哪种训练方式,由于训练数据覆盖了两类数据的不同特征,因此训练出的模型都能够适用于两种不同数据类型的预测。
b标注子模块:
利用训练子模块训练出的模型,对U中的数据进行预测,将预测结果定义为“学习标签”。
4)校验模块:
由于学习模块的训练过程中,使用了大量了“不确定标签样本”,因此初期训练得到的模型效果很一般是不理想的(除非U中有大量标注结果正确的样本、而且这个结论是预先已知的,但是这种情况也就没有必要使用合并的样本进行训练了),因此需要对学习标签进行校验。
为保证校验结果的可靠性,这里可以采用人工参与的方式进行校验,校验模块可提供样本数据、标注结果等信息的显示功能,并且提供标注或纠错等操作接口,以方便相关人员进行校验。当然,在能够保证校验结果可靠性的前提下,还也可以采用其他方式实现校验,本申请对此并不进行限定。
值得说明的是,由于校验模块的功能仅是从整体上评估标注结果是否理想,因此这里并不需要对所有的学习标签都进行校验,只需对少量抽样数据进行校验即可,从而实现校验代价的节省。
如果评估结果不理想,则需要触发新一轮的标签学习。另一方面,从“不确定标签样本”中抽样出的数据,经过标签校验后,就可以当作“确定标签样本”使用,因此将校验结果反馈给标签学习***后,能够令每次标签学习的准确率不断趋于优化。两个模块通过上述方式配合,可以进行多次再学习,直到校验结果满足需求。
基于上述设计方案,本说明书进一步提供相应的数据样本标签处理方法,参见图2所示,该方法可以包括以下步骤:
S101,获得不确定标签样本集和已确定标签样本集;
为描述方便,在本实施例中,仍以符号“U”和“L”表示“不确定标签样本集”和“已确定标签样本集”。
如前所述,U中的样本可能是完全不带有任何标签,也可能是全部或部分带有标签、但是无法保证这些标签的准确性。而L则指代当前已拥有的、携带可靠标签的样本集合。U和L的整体使用需求相同,但又具有不同的数据特征。
根据前面的描述可知,训练模型时,采用U和L的合并结果作为训练样本,而模型训练的一个重要需求是:使得模型能够适用于U和L两种不同的数据类型的预测,这就要求U和L都要达到一定的样本数量,而且U和L的比例相差不能过于悬殊。由于单独利用L已经能够单独训练出性能满足需求的模型,因此这里可以认为L中样本的绝对数量是足够的;但是U的样本数量则具有很大的不确定性,如果U中的样本数量过少,则在无法在训练过程中提供足够的U的数据特征,进而导致训练出的模型对无法更好地适应对U类数据的预测。
如果U中的样本数量不足,则可以使用GAN(Generative Adversarial Networks,生成式对抗网络),模拟U的情况再生成一部分样本。
GAN是一种可以根据已有的真实样本构建出新样本的技术,GAN由生成模型(generative model)和判别模型(discriminative model)组成。生成模型的功能是捕捉已有样本数据的分布,用服从某一分布(例如均匀分布,高斯分布等)的噪声生成类似真实样本据的新样本,追求效果是越像真实样本越好;判别模型是一个二分类器,用于判断一个样本是真实样本还是生成样本。
在GAN的训练过程中固定一方,更新另一方的网络权重,交替迭代,在这个过程中,生成模型和判别模型双方都极力优化自己的网络,从而形成竞争对抗,直到双方达到一个动态的平衡,此时生成模型恢复了训练数据的分布(造出了和真实样本一模一样的样本),判别模型也无法再判断出是真实样本还是生成样本。
因此,假设初始给定的待处理样本(本说明书中以U0表示)数量无法满足训练需求,则可以将U0输入GAN,由GAN输出与U0同分布的生成样本集(本说明书中以UG表示);然后将U0与UG进行合并,如图3所示,即有以下关系:
U=U0+UG
可以理解的是,本说明书中的“同分布”,并不是严格数学意义上的同分布,而是GAN所模拟出的同分布。
由于GAN既可以生成有标签样本,也可以生成无标签样本,那么可以根据U0的不同情况,采用不同的样本生成方式:
如果U0中的样本均为有标签样本,则可以有两种处理方式:
1)将U0的特征部分和标签部分均输入GAN,得到带有标签的UG,这种情况下,U中的样本也均为有标签样本。
2)仅将U0的特征部分输入GAN,得到不带标签的UG,这种情况下,U中仅部分样本带有标签。
如果U0中的样本中的样本均为无标签样本、或仅部分样本带有标签,则可以将U0的特征部分输入GAN,得到不带标签的UG,这种情况下,U中样本的标签携带情况与U0一致。
需要生成UG的样本数量可以根据训练需求确定,这里的训练既包括对样本绝对数量的需求、也包括对样本相对数量的需求。一般而言,希望U与L的比例不低于1:4,当然U也可以比L更大,该比例需求可以根据实际情况设计,本申请对此不需要进行限定。
S102,对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;
使用合并后的样本集S(其中S=U+L)进行模型训练,由于L中的样本都是带有标签的,因此根据U中样本的标签携带情况将决定S中样本的标签携带情况。
如果U中样本均带有标签,则S中样本也均带有标签,此时训练需求转化为有监督学习问题。
如果U中样本均不带有标签、或部分带有标签,则S中样本也是部分带有标签的,此时训练需求转化为半监督学习问题。半监督学习是也一种利用部分有标签样本以及部分无标签样本实现模型训练的技术,值得注意的是,现有技术中,半监督学习所针对的有标签样本和无标签样本是同一类型的数据样本,而本申请中U和L是两套并不完全一致的样本,因此严格意义上讲与半监督学习的传统应用场景有所区别。由于其整体需求相同,因此在算法层面仍然可以使用半监督学习算法,但是其训练结果需要配合后续的校验步骤多次调整才能满足应用需求。
根据具体的应用场景不同,可以选用不同形式的模型以及相应的学习算法,对于本说明书对此并不限定。例如,对于文本识别应用,可以通过构建基于RNN(Recurrentneural Network,循环神经网络)深度学习模型训练文本数据。
S103,将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
对于S102所产出的预测模型,可以将U中的样本输入该模型,在本说明书中,将模型输出的预测值称为样本的“学习标签”,值得注意的是,该学习标签与U中样本是否带有标签或标签是否准确并无必然关联。
需要说明的是,这里的“不确定标签样本”既可以是U中的全部样本,也可用是U中样本的一部分。
例如,如果在S101采用了GAN生成新样本,则本步骤中可以仅将当前U中属于U0的那部分样本输入预测模型。这样处理的原因是,相对于UG而言,U0才是真实的数据,后续对这部分数据进行校验的意义更大,而且从“标注”需求而言,也只有U0才是真正需要进行标注处理的对象。这里需要明确的是“属于U0的那部分样本”并不等同于U0,这是因为随着整个方案的迭代,U的规模是逐步缩减的,相应地“属于U0的那部分样本”也会逐步变小。
另外,在本步骤中也可以对U(或U0)进行抽样,仅将抽样结果输入预测模型,从而得到抽样结果的学习标签。抽样的目的是降低校验的代价,可以在本步骤实现,也可以在后续步骤中实现。
S104,根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率;
如果在S103中未作抽样处理,则在本步骤中,对所有带有学习标签的样本进行抽样,得到抽样子集;如果在S103中已作抽样处理,则在本步骤中可以直接使用S103输出的结果作为抽样子集。
抽样的数量可以根据实际需求确定,一般综合考虑以下几个因素:
1)是否有足够的代表性:抽样数量越大,代表性越好。
2)对校验代价的影响:抽样数量越小,校验代价越低。
3)对迭代速度的影响:抽样数量越大,则每次校验后反馈给下一次学习的有用信息越多,相应也会提高整体方案的迭代速度。
在实际应用中,也可以在迭代过程中使用动态的抽样率,例如随着迭代的进行,模型性能逐渐趋于稳定,可以逐步降低抽样率。当然,本领域技术人员可以根据实际需求设计抽样方案,本说明书对此不做限定。
S105,判断学习标签的准确率是否达到预设的要求,如果是则继续执行S107,否则执行S106后返回S102;
S106,将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
S107,将不确定标签样本当前的学习标签确定为标注结果。
假设以Us表示抽样子集,如果Us的学习标签准确率达到某个指标(例如95%),则认为整个U(或U0)的学习标签是可信的,可以直接作为标注结果输出,否则需要触发下一轮学习。
经过校验的Us相当于已经具备了可靠的标签,因此在下一轮学习中,Us可以作为“确定标签样本”使用,即在每次迭代之前,对U和L做以下更新:
U=U-Us
L=L+Us
通过S102~S106的迭代处理,由于具备可靠标签的样本逐步增加,而且这些样本是具有“新类型数据”特征的样本,因此能够令每次标签学习的准确率不断趋于优化,并且逐步适应“新类型数据”的预测,最终达到应用需求。
可以理解的是,迭代停止后的U已经和初始的U不同,因此最终的输的标注结果应包括“当前U中样本最新的学习标签”以及“历次迭代过程中已经过校验确认可靠的标签”
此外,迭代停止后,最终的预测模型也可以作为另一项输出信息,如图4的S108所示(其他步骤与图2所示一致,这里不再重复说明),该模型都能够适用于U和L两种不同数据类型。
应用本说明书所提供的方案,对于已拥有海量数据以及较成熟预测模型的企业而言,能够有效将自身的预测能力向外部输出,为客户或合作伙伴提供技术服务,同时也能够不断丰富自身模型的预测能力。
例如在电商平台及支付平台的风控***中,已经具有强大的文本识别能力,可以从用户生成内容中识别出灌水、广告、暴恐政和黄赌毒等信息。一些其他行业的外部商户也具有类似的需求,例如微博、视频、直播等UGC(User Generated Content,用户生成内容)相关领域,如果这些外部商户没有能力对用户生成内容样本进行准确标注,则可以基于本说明书所提供的技术方案,结合电商平台及支付平台自身已有的垃圾文本数据以及识别模型,对其他行业提供的样本数据进行学习。相对于完全人工对外部样本进行标注或纠正的方式而言效率更高,更容易实现规模化。
相应于上述方法实施例,本说明书实施例还提供一种数据样本标签处理装置或数据模型训练装置,参见图5所示,该装置可以包括:
输入模块110,用于获得不确定标签样本集和已确定标签样本集;
学习模块120,用于对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
校验模块130,用于根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
学习模块120和校验模块130相互配合实现迭代处理,直到学习标签的准确率达到预设的要求;
输出模块140,可以用于在迭代结束后,将不确定标签样本当前的学习标签确定为标注结果。也可以用于在迭代结束后,将当前的预测模型确定为适用于不确定标签样本集的预测模型。
在本说明书提供的一种具体实施方式中,若不确定标签样本集中的样本均为有标签样本;则学习模块120可以具体用于:利用有监督学习算法对合并后的样本进行训练,得到预测模型。
若不确定标签样本集中的样本均为无标签样本、或仅部分样本带有标签;则学习模块120可以具体用于:利用半监督学习算法对合并后的样本进行训练,得到预测模型。
在本说明书提供的一种具体实施方式中,输入模块110可以包括:
生成子模块,用于在初始获得的待处理样本集中样本数量未达到预设需求的情况下,将该待处理样本集输入生成式对抗网络,得到与待处理样本集同分布的生成样本集;
合并子模块,用于将待处理样本集与生成样本集合并,得到不确定标签样本集。
在本说明书提供的一种具体实施方式中,学习模块120可以具体用于:
将不确定标签样本集中,属于待处理样本集的部分输入预测模型。
在本说明书提供的一种具体实施方式中,若待处理样本集中的样本均为有标签样本,则生成子模块130可以具体用于:
将该待处理样本集的特征部分和标签部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,生成样本集中的样本均为有标签样本;
或者
将该待处理样本集的特征部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,生成样本集中的样本均为无标签样本。
若待处理样本集中的样本均中的样本均为无标签样本、或仅部分样本带有标签,则生成子模块130可以具体用于:
将该待处理样本集的特征部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,生成样本集中的样本均为无标签样本。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的数据样本标签处理方法数据模型训练方法。该方法至少包括:
获得不确定标签样本集和已确定标签样本集;利用以下步骤进行迭代处理,直到学习标签的准确率达到预设的要求:
对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;
将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
迭代结束后,将不确定标签样本当前的学习标签确定为标注结果、或者将当前的预测模型确定为适用于所述不确定标签样本集的预测模型。
图6示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的数据样本标签处理方法数据模型训练方法。该方法至少包括:
获得不确定标签样本集和已确定标签样本集;利用以下步骤进行迭代处理,直到学习标签的准确率达到预设的要求:
对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;
将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
迭代结束后,将不确定标签样本当前的学习标签确定为标注结果、或者将当前的预测模型确定为适用于所述不确定标签样本集的预测模型。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (17)

1.一种数据样本标签处理方法,该方法包括:
获得不确定标签样本集和已确定标签样本集;利用以下步骤进行迭代处理,直到学习标签的准确率达到预设的要求:
对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;
将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
迭代结束后,将不确定标签样本当前的学习标签确定为标注结果。
2.根据权利要求1所述的方法,所述不确定标签样本集中的样本均为有标签样本;所述利用合并后的样本训练得到预测模型包括:
利用有监督学习算法对合并后的样本进行训练,得到预测模型。
3.根据权利要求1所述的方法,所述不确定标签样本集中的样本均为无标签样本、或仅部分样本带有标签;所述利用合并后的样本训练得到预测模型包括:
利用半监督学习算法对合并后的样本进行训练,得到预测模型。
4.根据权利要求1所述的方法,所述获得不确定标签样本集,包括:
在初始获得的待处理样本集中样本数量未达到预设需求的情况下,将该待处理样本集输入生成式对抗网络,得到与待处理样本集同分布的生成样本集;
将待处理样本集与生成样本集合并,得到不确定标签样本集。
5.根据权利要求4所述的方法,所述将不确定标签样本集中的不确定标签样本输入所述预测模型,包括:
将不确定标签样本集中,属于待处理样本集的部分输入所述预测模型。
6.根据权利要求4所述的方法,若所述待处理样本集中的样本均为有标签样本,则所述将该待处理样本集输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,包括:
将该待处理样本集的特征部分和标签部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,所述生成样本集中的样本均为有标签样本;
或者
将该待处理样本集的特征部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,所述生成样本集中的样本均为无标签样本。
7.根据权利要求4所述的方法,若所述待处理样本集中的样本均中的样本均为无标签样本、或仅部分样本带有标签,则所述将该待处理样本集输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,包括:
将该待处理样本集的特征部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,所述生成样本集中的样本均为无标签样本。
8.一种数据模型训练方法,该方法包括:
获得不确定标签样本集和已确定标签样本集;利用以下步骤进行迭代处理,直到学习标签的准确率达到预设的要求:
对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;
将所述不确定标签样本集中的不确定标签样本输入所述预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
对带有学习标签的不确定标签样本集进行抽样得到抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移动至已确定标签样本集;
迭代结束后,将当前的预测模型确定为适用于所述不确定标签样本集的预测模型。
9.一种数据样本标签处理装置,该装置包括:
输入模块,用于获得不确定标签样本集和已确定标签样本集;
学习模块,用于对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
校验模块,用于根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
所述学习模块和所述校验模块相互配合实现迭代处理,直到学习标签的准确率达到预设的要求;
输出模块,用于在迭代结束后,将不确定标签样本当前的学习标签确定为标注结果。
10.根据权利要求9所述的装置,所述不确定标签样本集中的样本均为有标签样本;所述学习模块具体用于:
利用有监督学习算法对合并后的样本进行训练,得到预测模型。
11.根据权利要求9所述的装置,所述不确定标签样本集中的样本均为无标签样本、或仅部分样本带有标签;所述学习模块具体用于:
利用半监督学习算法对合并后的样本进行训练,得到预测模型。
12.根据权利要求9所述的装置,所述输入模块包括:
生成子模块,用于在初始获得的待处理样本集中样本数量未达到预设需求的情况下,将该待处理样本集输入生成式对抗网络,得到与待处理样本集同分布的生成样本集;
合并子模块,用于将待处理样本集与生成样本集合并,得到不确定标签样本集。
13.根据权利要求12所述的装置,所述学习模块具体用于:
将不确定标签样本集中,属于待处理样本集的部分输入所述预测模型。
14.根据权利要求12所述的装置,若所述待处理样本集中的样本均为有标签样本,则所述生成子模块具体用于:
将该待处理样本集的特征部分和标签部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,所述生成样本集中的样本均为有标签样本;
或者
将该待处理样本集的特征部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,所述生成样本集中的样本均为无标签样本。
15.根据权利要求12所述的装置,若所述待处理样本集中的样本均中的样本均为无标签样本、或仅部分样本带有标签,则生成子模块具体用于:
将该待处理样本集的特征部分输入生成式对抗网络,得到与待处理样本集同分布的生成样本集,所述生成样本集中的样本均为无标签样本。
16.一种数据模型训练装置,该装置包括:
输入模块,用于获得不确定标签样本集和已确定标签样本集;
学习模块,用于对当前的不确定标签样本集和已确定标签样本集进行合并,利用合并后的样本训练得到预测模型;将不确定标签样本集中的不确定标签样本输入预测模型,将模型输出的预测值确定为不确定标签样本的学习标签;
校验模块,用于根据当前的不确定标签样本集,获得带有学习标签的抽样子集,对抽样子集的学习标签进行校验以获得学习标签的准确率,如果学习标签的准确率未达到预设的要求,则将标签校验结果确定为抽样子集的标注结果,并将抽样子集从不确定标签样本集移至已确定标签样本集;
所述学习模块和所述校验模块相互配合实现迭代处理,直到学习标签的准确率达到预设的要求;
输出模块,用于在迭代结束后,将当前的预测模型确定为适用于所述不确定标签样本集的预测模型。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至8任一项所述的方法。
CN201711160012.0A 2017-11-20 2017-11-20 一种数据样本标签处理方法及装置 Pending CN108021931A (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201711160012.0A CN108021931A (zh) 2017-11-20 2017-11-20 一种数据样本标签处理方法及装置
PCT/CN2018/102732 WO2019095782A1 (zh) 2017-11-20 2018-08-28 一种数据样本标签处理方法及装置
EP18879971.2A EP3678058A4 (en) 2017-11-20 2018-08-28 METHOD AND DEVICE FOR PROCESSING DATA SAMPLE LABELS
SG11202002326RA SG11202002326RA (en) 2017-11-20 2018-08-28 Data sample label processing method and apparatus
TW107132422A TWI694341B (zh) 2017-11-20 2018-09-14 一種資料樣本標籤處理方法、裝置及電腦設備
US16/746,757 US11741392B2 (en) 2017-11-20 2020-01-17 Data sample label processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711160012.0A CN108021931A (zh) 2017-11-20 2017-11-20 一种数据样本标签处理方法及装置

Publications (1)

Publication Number Publication Date
CN108021931A true CN108021931A (zh) 2018-05-11

Family

ID=62080727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711160012.0A Pending CN108021931A (zh) 2017-11-20 2017-11-20 一种数据样本标签处理方法及装置

Country Status (6)

Country Link
US (1) US11741392B2 (zh)
EP (1) EP3678058A4 (zh)
CN (1) CN108021931A (zh)
SG (1) SG11202002326RA (zh)
TW (1) TWI694341B (zh)
WO (1) WO2019095782A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897829A (zh) * 2018-06-22 2018-11-27 广州多益网络股份有限公司 数据标签的修正方法、装置和存储介质
CN108959474A (zh) * 2018-06-20 2018-12-07 上海交通大学 实体关系提取方法
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、***、计算机可读存储介质及设备
CN109359793A (zh) * 2018-08-03 2019-02-19 阿里巴巴集团控股有限公司 一种针对新场景的预测模型训练方法及装置
CN109492695A (zh) * 2018-11-08 2019-03-19 北京字节跳动网络技术有限公司 数据建模的样本处理方法、装置、电子设备及可读介质
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109727275A (zh) * 2018-12-29 2019-05-07 北京沃东天骏信息技术有限公司 目标检测方法、装置、***和计算机可读存储介质
CN109740738A (zh) * 2018-12-29 2019-05-10 腾讯科技(深圳)有限公司 一种神经网络模型训练方法、装置、设备和介质
WO2019095782A1 (zh) * 2017-11-20 2019-05-23 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN110008973A (zh) * 2018-11-23 2019-07-12 阿里巴巴集团控股有限公司 一种模型训练方法、基于模型确定目标用户的方法及装置
CN110210535A (zh) * 2019-05-21 2019-09-06 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110245302A (zh) * 2019-05-24 2019-09-17 阿里巴巴集团控股有限公司 用于识别欺诈案件的策略生成方法及装置和电子设备
CN110263934A (zh) * 2019-05-31 2019-09-20 中国信息通信研究院 一种人工智能数据标注方法和装置
WO2019242627A1 (zh) * 2018-06-19 2019-12-26 华为技术有限公司 一种数据处理方法及其装置
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和***
CN111915020A (zh) * 2020-08-12 2020-11-10 杭州海康威视数字技术股份有限公司 检测模型的更新方法、装置及存储介质
CN111932287A (zh) * 2019-05-13 2020-11-13 阿里巴巴集团控股有限公司 数据合作处理方法、装置、电子设备及计算机存储介质
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112596024A (zh) * 2020-12-04 2021-04-02 华中科技大学 一种基于环境背景无线射频信号的运动识别方法
CN112633432A (zh) * 2020-12-31 2021-04-09 浙江优学智能科技有限公司 一种基于深度学习的汉字书写质量评价方法
CN112861892A (zh) * 2019-11-27 2021-05-28 杭州海康威视数字技术股份有限公司 图片中目标的属性的确定方法和装置
WO2021212612A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 智能化文本纠错方法、装置、电子设备及可读存储介质
CN114398492A (zh) * 2021-12-24 2022-04-26 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112840360A (zh) * 2019-03-14 2021-05-25 松下电器(美国)知识产权公司 信息处理方法及信息处理***
CN110263824B (zh) * 2019-05-29 2023-09-05 创新先进技术有限公司 模型的训练方法、装置、计算设备及计算机可读存储介质
CN110399804A (zh) * 2019-07-01 2019-11-01 浙江师范大学 一种基于深度学习的食品检测识别方法
US11663655B2 (en) * 2019-07-03 2023-05-30 Capital One Services, Llc Augmenting online transaction statements using e-commerce receipts
CN114467146A (zh) * 2019-09-26 2022-05-10 株式会社润医 用于对部署机构中的人工智能模型进行专业化的训练方法以及用于对人工智能模型进行训练的装置
CN110825980B (zh) * 2019-11-05 2022-07-01 重庆邮电大学 一种基于对抗生成网络的微博话题推送方法
CN111143517B (zh) * 2019-12-30 2023-09-05 浙江阿尔法人力资源有限公司 人选标签预测方法、装置、设备和存储介质
CN111243620B (zh) * 2020-01-07 2022-07-19 腾讯科技(深圳)有限公司 语音分离模型训练方法、装置、存储介质和计算机设备
CN111402865B (zh) * 2020-03-20 2023-08-08 北京达佳互联信息技术有限公司 语音识别训练数据的生成方法、语音识别模型的训练方法
CN111839495B (zh) * 2020-07-30 2023-04-07 深圳前海微众银行股份有限公司 检测方法、设备和存储介质
CN112052900B (zh) * 2020-09-04 2024-05-24 京东科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
CN112396513B (zh) * 2020-11-27 2024-02-20 ***股份有限公司 一种数据处理的方法及装置
CN112800111B (zh) * 2021-01-26 2022-08-02 重庆邮电大学 一种基于训练数据挖掘的位置预测方法
CN117063208A (zh) * 2021-03-17 2023-11-14 华为云计算技术有限公司 无监督多模型联合推理***和方法
US20220318672A1 (en) * 2021-04-01 2022-10-06 Samsung Display Co., Ltd. Systems and methods for identifying manufacturing defects
CN113205163B (zh) * 2021-07-07 2021-11-19 数据堂(北京)科技股份有限公司 数据标注方法及装置
CN113627532B (zh) * 2021-08-11 2023-11-28 平安国际智慧城市科技股份有限公司 食品安全检测方法、装置、设备及存储介质
TWI776638B (zh) * 2021-08-17 2022-09-01 臺中榮民總醫院 以人工智慧技術輔助多疾病決策與即時資訊回饋的醫療照護系統
TWI780881B (zh) * 2021-08-27 2022-10-11 緯創資通股份有限公司 瑕疵檢測模型的建立方法及電子裝置
CN113837394B (zh) * 2021-09-03 2024-07-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 多特征视图数据标签预测方法、***与可读存储介质
CN114692724B (zh) * 2022-03-03 2023-03-28 支付宝(杭州)信息技术有限公司 数据分类模型的训练方法、数据分类方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016406A (zh) * 2017-02-24 2017-08-04 中国科学院合肥物质科学研究院 基于生成式对抗网络的病虫害图像生成方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法
CN104166706B (zh) * 2014-08-08 2017-11-03 苏州大学 基于代价敏感主动学习的多标签分类器构建方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956419A (en) 1995-04-28 1999-09-21 Xerox Corporation Unsupervised training of character templates using unsegmented samples
US6937994B1 (en) * 2000-02-24 2005-08-30 International Business Machines Corporation System and method for efficiently generating models for targeting products and promotions using classification method by choosing points to be labeled
US7958096B2 (en) 2000-09-20 2011-06-07 Ndsu-Research Foundation System and method for organizing, compressing and structuring data for data mining readiness
US7366705B2 (en) 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification
US7844567B2 (en) 2007-08-13 2010-11-30 Yahoo! Inc. System and method for selecting a training sample from a sample test based on data sample proximity
US7958068B2 (en) 2007-12-12 2011-06-07 International Business Machines Corporation Method and apparatus for model-shared subspace boosting for multi-label classification
JP5159368B2 (ja) 2008-02-29 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 変化分析システム、方法及びプログラム
US20100076923A1 (en) 2008-09-25 2010-03-25 Microsoft Corporation Online multi-label active annotation of data files
US8392126B2 (en) * 2008-10-03 2013-03-05 Illumina, Inc. Method and system for determining the accuracy of DNA base identifications
WO2010075408A1 (en) 2008-12-22 2010-07-01 The Trustees Of Columbia University In The City Of New York System and method for annotating and searching media
US8788498B2 (en) 2009-06-15 2014-07-22 Microsoft Corporation Labeling data samples using objective questions
US20130097103A1 (en) 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US20140201208A1 (en) * 2013-01-15 2014-07-17 Corporation Symantec Classifying Samples Using Clustering
US20140279695A1 (en) 2013-03-15 2014-09-18 National Cheng Kung University System and method for rating and selecting models
US20150095017A1 (en) 2013-09-27 2015-04-02 Google Inc. System and method for learning word embeddings using neural language models
US10321870B2 (en) * 2014-05-01 2019-06-18 Ramot At Tel-Aviv University Ltd. Method and system for behavioral monitoring
US9953425B2 (en) * 2014-07-30 2018-04-24 Adobe Systems Incorporated Learning image categorization using related attributes
GB201517462D0 (en) 2015-10-02 2015-11-18 Tractable Ltd Semi-automatic labelling of datasets
CN107045503B (zh) * 2016-02-05 2019-03-05 华为技术有限公司 一种特征集确定的方法及装置
US10275690B2 (en) 2016-04-21 2019-04-30 Sas Institute Inc. Machine learning predictive labeling system
US10846308B2 (en) 2016-07-27 2020-11-24 Anomalee Inc. Prioritized detection and classification of clusters of anomalous samples on high-dimensional continuous and mixed discrete/continuous feature spaces
US20180053097A1 (en) 2016-08-16 2018-02-22 Yahoo Holdings, Inc. Method and system for multi-label prediction
CN107220600B (zh) 2017-05-17 2019-09-10 清华大学深圳研究生院 一种基于深度学习的图片生成方法及生成对抗网络
US11003995B2 (en) * 2017-05-19 2021-05-11 Huawei Technologies Co., Ltd. Semi-supervised regression with generative adversarial networks
CN107633218B (zh) * 2017-09-08 2021-06-08 百度在线网络技术(北京)有限公司 用于生成图像的方法和装置
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166706B (zh) * 2014-08-08 2017-11-03 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN107016406A (zh) * 2017-02-24 2017-08-04 中国科学院合肥物质科学研究院 基于生成式对抗网络的病虫害图像生成方法
CN107292330A (zh) * 2017-05-02 2017-10-24 南京航空航天大学 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019095782A1 (zh) * 2017-11-20 2019-05-23 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
US11741392B2 (en) 2017-11-20 2023-08-29 Advanced New Technologies Co., Ltd. Data sample label processing method and apparatus
CN108959431A (zh) * 2018-06-11 2018-12-07 中国科学院上海高等研究院 标签自动生成方法、***、计算机可读存储介质及设备
WO2019242627A1 (zh) * 2018-06-19 2019-12-26 华为技术有限公司 一种数据处理方法及其装置
CN108959474A (zh) * 2018-06-20 2018-12-07 上海交通大学 实体关系提取方法
CN108959474B (zh) * 2018-06-20 2021-12-28 上海交通大学 实体关系提取方法
CN108897829B (zh) * 2018-06-22 2020-08-04 广州多益网络股份有限公司 数据标签的修正方法、装置和存储介质
CN108897829A (zh) * 2018-06-22 2018-11-27 广州多益网络股份有限公司 数据标签的修正方法、装置和存储介质
CN109359793A (zh) * 2018-08-03 2019-02-19 阿里巴巴集团控股有限公司 一种针对新场景的预测模型训练方法及装置
TWI818999B (zh) * 2018-08-03 2023-10-21 開曼群島商創新先進技術有限公司 針對新場景的預測模型訓練方法及裝置
CN109543713A (zh) * 2018-10-16 2019-03-29 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109543713B (zh) * 2018-10-16 2021-03-26 北京奇艺世纪科技有限公司 训练集的修正方法及装置
CN109492695A (zh) * 2018-11-08 2019-03-19 北京字节跳动网络技术有限公司 数据建模的样本处理方法、装置、电子设备及可读介质
CN109492695B (zh) * 2018-11-08 2021-07-23 北京字节跳动网络技术有限公司 数据建模的样本处理方法、装置、电子设备及可读介质
CN110008973B (zh) * 2018-11-23 2023-05-02 创新先进技术有限公司 一种模型训练方法、基于模型确定目标用户的方法及装置
CN110008973A (zh) * 2018-11-23 2019-07-12 阿里巴巴集团控股有限公司 一种模型训练方法、基于模型确定目标用户的方法及装置
CN109740738A (zh) * 2018-12-29 2019-05-10 腾讯科技(深圳)有限公司 一种神经网络模型训练方法、装置、设备和介质
CN109740738B (zh) * 2018-12-29 2022-12-16 腾讯科技(深圳)有限公司 一种神经网络模型训练方法、装置、设备和介质
CN109727275A (zh) * 2018-12-29 2019-05-07 北京沃东天骏信息技术有限公司 目标检测方法、装置、***和计算机可读存储介质
CN111932287A (zh) * 2019-05-13 2020-11-13 阿里巴巴集团控股有限公司 数据合作处理方法、装置、电子设备及计算机存储介质
CN111932287B (zh) * 2019-05-13 2022-05-17 阿里巴巴集团控股有限公司 数据合作处理方法、装置、电子设备及计算机存储介质
CN110210535A (zh) * 2019-05-21 2019-09-06 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
TWI759722B (zh) * 2019-05-21 2022-04-01 大陸商北京市商湯科技開發有限公司 神經網路訓練方法及裝置、圖像處理方法及裝置、電子設備和計算機可讀存儲介質
CN110245302A (zh) * 2019-05-24 2019-09-17 阿里巴巴集团控股有限公司 用于识别欺诈案件的策略生成方法及装置和电子设备
CN110245302B (zh) * 2019-05-24 2023-08-08 创新先进技术有限公司 用于识别欺诈案件的策略生成方法及装置和电子设备
CN110263934A (zh) * 2019-05-31 2019-09-20 中国信息通信研究院 一种人工智能数据标注方法和装置
CN110263934B (zh) * 2019-05-31 2021-08-06 中国信息通信研究院 一种人工智能数据标注方法和装置
CN112861892B (zh) * 2019-11-27 2023-09-01 杭州海康威视数字技术股份有限公司 图片中目标的属性的确定方法和装置
CN112861892A (zh) * 2019-11-27 2021-05-28 杭州海康威视数字技术股份有限公司 图片中目标的属性的确定方法和装置
US11860838B2 (en) 2019-12-27 2024-01-02 Beijing Baidu Netcom Science And Teciinology Co., Ltd. Data labeling method, apparatus and system, and computer-readable storage medium
CN111143577A (zh) * 2019-12-27 2020-05-12 北京百度网讯科技有限公司 数据标注方法、装置和***
CN111143577B (zh) * 2019-12-27 2023-06-16 北京百度网讯科技有限公司 数据标注方法、装置和***
WO2021212612A1 (zh) * 2020-04-23 2021-10-28 平安科技(深圳)有限公司 智能化文本纠错方法、装置、电子设备及可读存储介质
CN111915020B (zh) * 2020-08-12 2024-02-23 杭州海康威视数字技术股份有限公司 检测模型的更新方法、装置及存储介质
CN111915020A (zh) * 2020-08-12 2020-11-10 杭州海康威视数字技术股份有限公司 检测模型的更新方法、装置及存储介质
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
WO2022042002A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN112596024A (zh) * 2020-12-04 2021-04-02 华中科技大学 一种基于环境背景无线射频信号的运动识别方法
CN112633432A (zh) * 2020-12-31 2021-04-09 浙江优学智能科技有限公司 一种基于深度学习的汉字书写质量评价方法
CN114398492B (zh) * 2021-12-24 2022-08-30 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质
CN114398492A (zh) * 2021-12-24 2022-04-26 森纵艾数(北京)科技有限公司 一种在数字领域的知识图谱构建方法、终端及介质

Also Published As

Publication number Publication date
US11741392B2 (en) 2023-08-29
WO2019095782A1 (zh) 2019-05-23
EP3678058A1 (en) 2020-07-08
TW201923624A (zh) 2019-06-16
US20200151578A1 (en) 2020-05-14
EP3678058A4 (en) 2020-12-02
TWI694341B (zh) 2020-05-21
SG11202002326RA (en) 2020-04-29

Similar Documents

Publication Publication Date Title
CN108021931A (zh) 一种数据样本标签处理方法及装置
KR102170199B1 (ko) 비교 세트를 사용한 입력 예시들 분류
US20190370659A1 (en) Optimizing neural network architectures
CN108418825A (zh) 风险模型训练、垃圾账号检测方法、装置以及设备
CN109447156B (zh) 用于生成模型的方法和装置
CN109214436A (zh) 一种针对目标场景的预测模型训练方法及装置
CN111611797B (zh) 基于Albert模型的预测数据标注的方法、装置及设备
CN110490304B (zh) 一种数据处理方法及设备
CN112182217B (zh) 多标签文本类别的识别方法、装置、设备和存储介质
CN110070076B (zh) 用于选取训练用样本的方法和装置
US10678821B2 (en) Evaluating theses using tree structures
US20220222581A1 (en) Creation method, storage medium, and information processing apparatus
CN110659657A (zh) 训练模型的方法和装置
CN110059152A (zh) 一种文本信息预测模型的训练方法、装置及设备
CN110046342A (zh) 一种文本质量检测方法
US20220230027A1 (en) Detection method, storage medium, and information processing apparatus
CN111582315A (zh) 样本数据处理方法、装置及电子设备
CN114331380A (zh) 职业流动关系的预测方法、***、设备及存储介质
US11373285B2 (en) Image generation device, image generation method, and image generation program
US20230196245A1 (en) Method and apparatus for predicting risk, electronic device, computer readable storage medium
CN110192250A (zh) 语音中的符号序列估计
CN115168575A (zh) 应用于审计领域的主语补全方法及相关设备
CN116229211A (zh) 样本生成方法、模型训练方法、对象检测方法及装置
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN111475618B (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511

RJ01 Rejection of invention patent application after publication