CN111461164B - 样本数据集的扩容方法及模型的训练方法 - Google Patents

样本数据集的扩容方法及模型的训练方法 Download PDF

Info

Publication number
CN111461164B
CN111461164B CN202010117161.4A CN202010117161A CN111461164B CN 111461164 B CN111461164 B CN 111461164B CN 202010117161 A CN202010117161 A CN 202010117161A CN 111461164 B CN111461164 B CN 111461164B
Authority
CN
China
Prior art keywords
sample
samples
original
data set
customer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010117161.4A
Other languages
English (en)
Other versions
CN111461164A (zh
Inventor
李丹
蒋藜薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010117161.4A priority Critical patent/CN111461164B/zh
Publication of CN111461164A publication Critical patent/CN111461164A/zh
Application granted granted Critical
Publication of CN111461164B publication Critical patent/CN111461164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种样本数据集的扩容方法及模型的训练方法,样本数据集的扩容方法包括:获取原始样本数据集,原始样本数据集的样本包括多个无标签样本和多个原始正样本;确定每个无标签样本与原始正样本的相似度;获取服从[0,1]均匀分布的随机数;基于无标签样本对应的相似度与随机数的大小比较结果,将无标签样本标注为更新正样本或更新负样本;基于更新正样本、更新负样本和原始正样本,得到样本更新数据集,样本更新数据集的正样本包括更新正样本和原始正样本,模型的训练方法在样本数据集的扩容方法基础上训练模型。本发明实施例的样本数据集的扩容方法能够挖掘出更多的正样本,以实现样本数据集的扩容。

Description

样本数据集的扩容方法及模型的训练方法
技术领域
本发明涉及机器学习技术领域,更具体地,涉及一种样本数据集的扩容方法及模型的训练方法。
背景技术
随着互联网技术的发展,正样本学习被广泛应用在多个领域,如***欺诈检测,电商推荐领域。正样本学习通常利用样本数据集对模型进行训练,样本数据集需要一定数量的正样本才能保证较好的训练效果。
但是在实际的使用环境下,只能获取少量的正样本和大量的无标签样本,比如在很多情况下,收集到的正样本的数量通常小于全量样本的5%,在这种数据极度不均衡的场景下,正样本学习不能精确地发挥作用,训练得到的模型不够准确。也就是说,样本数据集的正样本数量成为制约模型训练的一个重要因素,存在改进空间。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的样本数据集的扩容方法。
第一方面,本发明实施例提供一种样本数据集的扩容方法,包括:获取原始样本数据集,所述原始样本数据集的样本包括多个无标签样本和多个原始正样本;确定每个所述无标签样本与所述原始正样本的相似度;获取服从[0,1]均匀分布的随机数;基于所述无标签样本对应的相似度与所述随机数的大小比较结果,将所述无标签样本标注为更新正样本或更新负样本;基于所述更新正样本、所述更新负样本和所述原始正样本,得到样本更新数据集,所述样本更新数据集的正样本包括所述更新正样本和所述原始正样本。
在一些实施例中,所述确定每个所述无标签样本与所述原始正样本的相似度,包括:获取每个所述无标签样本相邻的k个样本;确定所述k个样本中原始正样本所占的比例;将所述原始正样本所占的比例作为所述无标签样本与所述原始正样本的相似度。
在一些实施例中,所述获取每个所述无标签样本相邻的k个样本,包括:通过向量表示所述原始样本数据集的样本;获取每个所述无标签样本与所述原始样本数据集的其他样本的欧几里得距离;选取所述欧几里得距离最短的k个样本作为所述无标签样本相邻的k个样本。
在一些实施例中,所述获取服从[0,1]均匀分布的随机数;基于所述无标签样本对应的相似度与所述随机数的大小比较结果,将所述无标签样本标注为更新正样本或更新负样本;基于所述更新正样本、所述更新负样本和所述原始正样本,得到样本更新数据集,所述样本更新数据集的正样本包括所述更新正样本和所述原始正样本,包括:对于每个所述随机数,均对所述无标签样本标注一次,以得到与多个所述随机数一一对应的多个样本更新数据集。
第二方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面中任一种可能的实现方案所提供的样本数据集的扩容方法的步骤。
第三方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中任一种可能的实现方案所提供的样本数据集的扩容方法的步骤。
第四方面,本发明实施例提供一种模型训练方法,所述模型包括多个子模型,所述模型训练方法包括:使用第一方面中任一种可能的实现方案所提供的样本数据集的扩容方法,获取所述多个样本更新数据集,且所述更新正样本、所述原始正样本对应的样本标签为1,所述更新负样本对应的样本标签为-1;使用所述样本更新数据集,训练所述多个子模型,且至少两个所述子模型分别使用不同的所述样本更新数据集;基于训练好的多个子模型,确定所述模型。
第五方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第四方面的实现方案所述模型训练方法的步骤。
第六方面,本发明实施例提供一种模型的应用方法,包括:将待判断的数据输入至所述模型,得到所述模型输出的测试结果;其中,所述模型根据第四方面的实现方案所述的模型训练方法训练得到。
第七方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第六方面的实现方案所述模型应用方法的步骤。
本发明实施例提供的样本数据集的扩容方法、电子设备、非暂态计算机可读存储介质、模型训练方法、非暂态计算机可读存储介质、模型的应用方法以及非暂态计算机可读存储介质,通过将样本数据集中的无标签样本与正样本的相似度与获取的服从[0,1]均匀分布的随机数作大小比较,根据比较结果将无标签样本标记为正样本或者负样本,能够挖掘出更多的正样本,以实现样本数据集的扩容,且使用该扩容后的样本数据集可以帮助正样本学习更加精确地发挥作用,提高模型训练的精确度和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的样本数据集的扩容方法的流程图;
图2为本发明实施例的又一样本数据集的扩容方法的流程图;
图3为本发明实施例的又一样本数据集的扩容方法的流程图;
图4为本发明实施例中的电子设备的结构示意图;
图5为本发明实施例的模型训练方法的原理示意图;
图6为本发明实施例的模型训练方法的流程图;
图7为本发明实施例的模型的应用方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明实施例的样本数据集的扩容方法。
如图1所示,本发明实施例的样本数据集的扩容方法包括步骤100-步骤500。
步骤100、获取原始样本数据集,原始样本数据集的样本包括多个无标签样本和多个原始正样本。
可以理解的是,一个样本数据集理论上由正样本、负样本以及无标签样本组成,在一些特殊的场景,比如***欺诈或储蓄卡推荐场景的实际应用中,负样本的收集常常是困难的,只能获取到正样本和大量的无标签样本,很多情况下,收集到的正样本的数量通常小于样本总量的5%,为了使样本数据集更有效,应该采取扩容方法将样本数据集中的无标签样本标记出来,标记结果为正样本或者负样本。也就是说,在标记前,原始样本数据集包括多个无标签样本和多个原始正样本,无标签样本的数量远大于原始正样本的数量。
比如:在***欺诈场景下,一个***欺诈样本数据集理论上由有欺诈情况的客户、无欺诈情况的客户以及情况不明的客户构成,实际应用中,通过投诉,能够确定有欺诈情况的客户,但是对于未被投诉的客户,并不能确定其是否有欺诈情况存在,所以原始***欺诈样本数据集包括和多个情况不明的客户多个原始有欺诈情况的客户,情况不明的客户数量远大于原始有欺诈情况的客户数量。在这种场景下,***欺诈样本数据集中的样本就是客户样本,对应的标签就是有欺诈情况、无欺诈情况。
还比如:在储蓄卡推荐场景下,一个储蓄卡推荐样本数据集理论上由愿意办理的客户、不愿意办理的客户以及情况不明的客户构成,实际应用中,通过现有储蓄卡办理情况,能够确定愿意办理的客户,但是对于尚未办理储蓄卡的用户,并不能确定其是否愿意办理储蓄卡,所以原始储蓄卡推荐样本数据集包括多个情况不明的客户和多个原始愿意办理的客户,情况不明的客户数量远大于原始愿意办理的客户数量。在这种场景下,储蓄卡推荐样本数据集中的样本就是客户样本,对应的标签就是愿意办理、不愿意办理。
步骤200、确定每个无标签样本与原始正样本的相似度。
可以理解的是,无标签样本与原始正样本的相似度越高,表明该无样本越有可能可以标注为正样本,可以通过sklearn中的kd-tree的算法找到该无标签样本相邻的样本,进一步确定在这些样本中原始正样本占的比例来计算无标签样本与原始正样本的相似度,值得注意的是,使用者可以根据不同的使用场景来自己决定如何计算无标签样本和正样本的相似度,而不局限于某种方法。
比如:在***欺诈场景下,为了尽可能确定情况不明的客户样本是否存在欺诈情况,采取的方式是确定情况不明的客户样本与原始有欺诈情况的客户样本的相似度。
还比如:在储蓄卡推荐场景下,为了尽可能确定情况不明的客户样本是否愿意办理储蓄卡,采取的方式是确定情况不明的客户样本与原始愿意办理的客户样本的相似度。
步骤300、获取服从[0,1]均匀分布的随机数。
可以理解的是,从服从[0,1]的均匀分布中得到一个随机数β,该随机数β用于与上述已经计算出来的无标签样本相对应的相似度进行比较,以对无标签样本进行合理的标记。
步骤400、基于无标签样本对应的相似度与随机数β的大小比较结果,将无标签样本标注为更新正样本或更新负样本。
可以理解的是,将步骤200中计算出的每个无标签样本与原始正样本的相似度与步骤300中从服从[0,1]均匀分布中获取的随机数β进行大小比较,根据比较结果,对无标签样本进行标注,标注后的无标签样本就是被更新成的正样本或负样本。
这种根据相似度与随机数β的大小比较对无标签样本进行标记的方法可以是,当相似度大于或等于随机数β时,将无标签样本标记为更新正样本,当相似度小于随机数β时,将无标签样本标记为更新负样本。也可以是,当相似度大于随机数β时,将无标签样本标记为更新正样本,当相似度小于或等于随机数β时,将无标签样本标记为更新负样本。
比如:在***欺诈场景下,将情况不明的客户样本与有欺诈情况的客户样本的相似度与从服从[0,1]均匀分布中获取的随机数β进行大小比较,根据比较的结果,对情况不明的客户样本进行标注,标注后的情况不明的客户样本就是被更新成的有欺诈情况的客户样本和无欺诈情况的客户样本。
还比如:在储蓄卡推荐场景下,将情况不明的客户样本与愿意办理的客户样本的相似度与从服从[0,1]均匀分布中获取的随机数β进行大小比较,根据比较的结果,对情况不明的客户样本进行标注,标注后的情况不明的客户样本就是被更新成的愿意办理的客户样本和不愿意办理的客户样本。
步骤500、基于更新正样本、更新负样本和原始正样本,得到样本更新数据集,样本更新数据集的正样本包括更新正样本和原始正样本。
可以理解的是,步骤400已经获得了将无标签样本标记得到的更新正样本和更新负样本,此时得到的样本更新数据集中就不再存在无标签样本了,其中存在的是原始正样本、更新正样本以及更新负样本,此时样本数据集中的正样本数量就扩增了。
比如:在***欺诈场景下,经过了对情况不明的客户样本的标记处理,***欺诈样本更新数据集就不再存在情况不明的客户样本了,其中存在的是原始有欺诈情况的客户样本、更新有欺诈情况的客户样本以及无欺诈情况的客户样本,此时***欺诈样本数据集中的有欺诈情况的客户样本就得到了挖掘。
还比如:在储蓄卡推荐场景下,经过了对情况不明的客户样本的标记处理,储蓄卡推荐样本更新数据集就不再存在情况不明的客户样本了,其中存在的是原始愿意办理的客户样本、更新愿意办理的客户样本以及不愿意办理的客户样本,此时储蓄卡推荐样本数据集中的愿意办理的客户样本就得到了挖掘。
本发明实施例提供的样本数据集的扩容方法通过将样本数据集中的无标签样本与正样本的相似度与获取的服从[0,1]均匀分布的随机数β作大小比较,根据比较结果将无标签样本标记为正样本或者负样本,能够挖掘出更多的正样本,以实现样本数据集的扩容,且使用该扩容后的样本数据集可以帮助正样本学习更加精确地发挥作用,提高模型训练的精确度和效率。
如图2所示,在本发明的一个实施例中,上述步骤200中确定每个无标签样本与原始正样本的相似度,可以包括步骤210-步骤230。
步骤210、获取每个无标签样本相邻的k个样本。
可以理解的是,在样本数据集中,无标签样本和正样本是以一定位置关系排布的,此处获取每个无标签样本相邻的k个样本,用于判断无标签样本与原始正样本的相似度。
比如:在***欺诈场景下,在原始***欺诈样本数据集中,情况不明的客户样本和原始有欺诈情况的客户样本是以一定位置关系排布的,此处获取每个情况不明的客户样本相邻的k个客户样本,用于判断情况不明的客户样本与有欺诈情况的客户样本的相似度。
还比如:在储蓄卡推荐场景下,在原始储蓄卡推荐样本数据集中,情况不明的客户样本和原始愿意办理的客户样本是以一定位置关系排布的,此处获取每个情况不明的客户样本相邻的k个客户样本,用于判断情况不明的客户样本与原始愿意办理的客户样本的相似度。
步骤220、确定k个样本中原始正样本所占的比例。
可以理解的是,在步骤210获取的k个样本一部分为原始正样本,一部分为无标签样本,此时,计算出k个样本中原始正样本所占的比例,用于无标签样本与原始正样本的相似度。
比如:在***欺诈场景下,获取到的k个客户样本中一部分为原始有欺诈情况的客户样本,一部分为情况不明的客户样本,此时,计算出k个客户样本中原始有欺诈情况的客户样本所占的比例,用于判断情况不明的客户样本与原始有欺诈情况的客户样本的相似度。
还比如:在储蓄卡推荐场景下,获取到的k个客户样本中一部分为原始愿意办理的客户样本,一部分为情况不明的客户样本,此时,计算出k个客户样本中原始愿意办理的客户样本所占的比例,用于判断情况不明的客户样本与原始愿意办理的客户样本的相似度。
步骤230、将原始正样本所占的比例作为无标签样本与原始正样本的相似度。
可以理解的是,将步骤220中已经计算出来的k个样本中原始正样本所占的比例作为无标签样本与原始正样本的相似度。
比如:在***欺诈场景下,将上述已经计算出来的k个客户样本中原始有欺诈情况的客户样本所占的比例作为情况不明的客户样本与原始有欺诈情况的客户样本的相似度。
还比如:在储蓄卡推荐场景下,将上述已经计算出来的k个客户样本中原始愿意办理的客户样本所占的比例作为情况不明的客户样本与原始愿意办理的客户样本的相似度。
本发明实施例提供的确定相似度的方法更加简单,能够方便快捷地得到无标签样本和正样本的相似度。
如图3所示,在本发明的一个实施例中,上述步骤210中获取每个无标签样本相邻的k个样本,可以包括步骤211-213。
步骤211、通过向量表示原始样本数据集的样本。
可以理解的是,为了表示出原始样本数据集中样本的在空间中的位置,便于找出无标签样本相邻的样本,通过向量表示原始样本数据集的样本。
比如:在***欺诈场景下,为了表示出***欺诈样本数据集中客户样本的位置关系,便于找出情况不明的客户样本相邻的客户样本,通过向量表示原始***欺诈样本数据集中的客户样本。
还比如:在储蓄卡推荐场景下,为了表示出储蓄卡推荐样本数据集中客户样本的位置关系,便于找出情况不明的客户样本相邻的客户样本,通过向量表示原始储蓄卡推荐样本数据集中的客户样本。
步骤212、获取每个无标签样本与原始样本数据集的其他样本的欧几里得距离。
可以理解的是,为了表示出原始样本数据集中样本的位置关系,便于通过位置关系找出无标签样本相邻的样本,获取每个无标签样本与原始样本数据集的其他样本的欧几里得距离。欧几里得距离是欧几里得空间中两点间“普通”(即直线)距离,指m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离),在二维和三维空间中的欧氏距离就是两点之间的实际距离。
比如:在***欺诈场景下,为了表示出原始***欺诈样本数据集中客户样本的位置关系,便于通过位置关系找出情况不明的客户样本相邻的客户样本,获取每个情况不明的客户样本与原始***欺诈样本数据集的其他样本的欧几里得距离。
还比如:在储蓄卡推荐场景下,为了表示出原始储蓄卡推荐样本数据集中客户样本的位置关系,便于通过位置关系找出情况不明的客户样本相邻的客户样本,获取每个情况不明的客户样本与原始储蓄卡推荐样本数据集的其他样本的欧几里得距离。
步骤213、选取欧几里得距离最短的k个样本作为无标签样本相邻的k个样本。
可以理解的是,使用欧几里得距离作为距离度量,在步骤212已经获取了每个无标签样本与原始样本数据集的其他样本的欧几里得距离情况下,选取距离该无标签样本欧几里得距离最短的k个样本。
需要说明的是,对于每个无标签样本,可以使用sklearn(一个机器学习库)中的kd-tree的算法来找到其欧几里得距离最短的k个样本。
比如:在***欺诈场景下,在已经获取了每个情况不明的客户样本与原始***欺诈样本数据集的其他客户样本的欧几里得距离情况下,选取距离该情况不明的客户样本欧几里得距离最短的k个客户样本。
还比如:在储蓄卡推荐场景下,在已经获取了每个情况不明的客户样本与原始储蓄卡推荐样本数据集的其他客户样本的欧几里得距离情况下,选取距离该情况不明的客户样本欧几里得距离最短的k个客户样本。
本发明实施例提供的获取无标签样本相邻的样本的方法更加科学,能够快速准确地确定无标签样本相邻的样本。
在一些实施例中,获取服从[0,1]均匀分布的随机数β;基于无标签样本对应的相似度与随机数β的大小比较结果,将无标签样本标注为更新正样本或更新负样本;基于更新正样本、更新负样本和原始正样本,得到样本更新数据集,样本更新数据集的正样本包括更新正样本和原始正样本,包括:对于每个随机数β,均对无标签样本标注一次,以得到与多个随机数β一一对应的多个样本更新数据集。
可以理解的是,每次获取到一个随机数β后,将样本数据集中的每个无标签样本对应的相似度,均与该随机数β进行比较,进而标记该无标签样本。也就是说,每次获取到一个随机数β,均可以得到一个样本更新数据集,由于获取了num次随机数β,则对样本数据集进行num次如步骤100-500中的样本数据集扩容处理,那么就可以得到与num个随机数β一一对应的num个样本更新数据集。
需要说明的是,由于随机数β的存在,给同一个无标签样本多次标注的标签不一定相同,但是其被标注为正样本的次数的期望是:num×相似度。
比如:在***欺诈场景下,对于每个随机数β,均对情况不明的客户样本标注一次,以得到与多个随机数β一一对应的多个***欺诈样本更新数据集。
还比如:在储蓄卡推荐场景下,对于每个随机数β,均对情况不明的客户样本标注一次,以得到与多个随机数β一一对应的多个储蓄卡推荐样本更新数据集。
本发明实施例提供的对样本数据集进行多次标注从而得到多个样本更新数据集能够提高样本数据集扩容的准确度
本发明实施例提供一种样本数据集扩容装置,该装置包括:获取单元、第一处理单元、第二处理单元、第三处理单元、输出单元。
其中,获取单元用于获取原始样本数据集,原始样本数据集的样本包括多个无标签样本和多个原始正样本。
第一处理单元用于确定每个无标签样本与原始正样本的相似度。
第二处理单元用于获取服从[0,1]均匀分布的随机数。
第三处理单元用于基于无标签样本对应的相似度与随机数的大小比较结果,将无标签样本标注为更新正样本或更新负样本。
输出单元用于基于更新正样本、更新负样本和原始正样本,得到样本更新数据集,样本更新数据集的正样本包括更新正样本和原始正样本。
本发明实施例提供的样本数据集扩容装置用于执行上述样本数据集的扩容方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
本发明实施例提供的样本数据集扩容装置通过第一、第二、第三处理单元将样本数据集中的无标签样本与正样本的相似度与获取的服从[0,1]均匀分布的随机数作大小比较,根据比较结果将无标签样本标记为正样本或者负样本,能够挖掘出更多的正样本,以实现样本数据集的扩容,且使用该扩容后的样本数据集可以帮助正样本学习更加精确地发挥作用,提高模型训练的精确度和效率。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行样本数据集的扩容方法,该方法包括:获取原始样本数据集,原始样本数据集的样本包括多个无标签样本和多个原始正样本;确定每个无标签样本与原始正样本的相似度;获取服从[0,1]均匀分布的随机数;基于无标签样本对应的相似度与随机数的大小比较结果,将无标签样本标注为更新正样本或更新负样本;基于更新正样本、更新负样本和原始正样本,得到样本更新数据集,样本更新数据集的正样本包括更新正样本和原始正样本。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括如图4所示的处理器410、通信接口420、存储器430和通信总线440,其中处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信,且处理器410可以调用存储器430中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行以执行样本数据集的扩容方法,该方法包括:获取原始样本数据集,原始样本数据集的样本包括多个无标签样本和多个原始正样本;确定每个无标签样本与原始正样本的相似度;获取服从[0,1]均匀分布的随机数;基于无标签样本对应的相似度与随机数的大小比较结果,将无标签样本标注为更新正样本或更新负样本;基于更新正样本、更新负样本和原始正样本,得到样本更新数据集,样本更新数据集的正样本包括更新正样本和原始正样本。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行样本数据集的扩容方法,该方法包括:获取原始样本数据集,原始样本数据集的样本包括多个无标签样本和多个原始正样本;确定每个无标签样本与原始正样本的相似度;获取服从[0,1]均匀分布的随机数;基于无标签样本对应的相似度与随机数的大小比较结果,将无标签样本标注为更新正样本或更新负样本;基于更新正样本、更新负样本和原始正样本,得到样本更新数据集,样本更新数据集的正样本包括更新正样本和原始正样本。
另一方面,本发明实施例提供一种模型训练方法,图5示意出了模型训练方法的基本原理。
如图6所示,本发明实施例的模型训练方法包括步骤600-步骤800。
步骤600:使用上述实施例中的样本数据集的扩容方法,获取多个样本更新数据集,且更新正样本、原始正样本对应的样本标签为1,更新负样本对应的样本标签为-1。
可以理解的是,由于在上述实施例中的样本数据集的扩容方法中获取了q次随机数β,则对样本数据集进行q次如步骤100-500中的样本数据集扩容处理,那么就可以得到与q个随机数β一一对应的q个样本更新数据集,由于随机数β的存在,给同一个无标签样本多次标注的标签不一定相同,但是其被标注为正样本的次数的期望是:q×相似度。
比如:在***欺诈场景中,对***欺诈样本数据集使用上述实施例中的样本数据集的扩容方法,获取多个***欺诈样本更新数据集,且更新有欺诈情况的客户样本、原始有欺诈情况的客户样本对应的样本标签为1,更新无欺诈情况的客户样本对应的样本标签为-1。
还比如:在储蓄卡推荐场景中,对储蓄卡推荐样本数据集使用上述实施例中的样本数据集的扩容方法,获取多个储蓄卡推荐样本更新数据集,且更新有意愿办理的客户样本、原始愿意办理的客户样本对应的样本标签为1,更新不意愿办理的客户样本对应的样本标签为-1。
步骤700:使用样本更新数据集,训练多个子模型,且至少两个子模型分别使用不同的样本更新数据集。
需要说明的是,多个子模型的目的一样,均是为了对样本数据集中的样本进行分类,对不同的子模型输入的均为同样类型的样本数据集,输出的也都是同样类型的样本数据集。
比如:在***欺诈场景中,使用***欺诈样本更新数据集,训练多个***欺诈子模型,且至少两个***欺诈子模型分别使用不同的***欺诈样本更新数据集,多个***欺诈子模型的目的一样,均是为了对***欺诈样本数据集中的客户样本进行分类,对不同的***欺诈子模型输入的均为***欺诈样本数据集,输出的也都是***欺诈样本数据集。
还比如:在储蓄卡推荐场景中,使用储蓄卡推荐样本更新数据集,训练多个储蓄卡推荐子模型,且至少两个储蓄卡推荐子模型分别使用不同的储蓄卡推荐样本更新数据集,多个储蓄卡推荐子模型的目的一样,均是为了对储蓄卡推荐样本数据集中的客户样本进行分类,对不同的储蓄卡推荐子模型输入的均为储蓄卡推荐样本数据集,输出的也都是储蓄卡推荐样本数据集。
步骤800:基于训练好的多个子模型,确定模型。
需要说明的是,将步骤700中训练好的多个子模型组合形成最终的模型,组合后的模型在使用过程中,当输入一个待判断的数据时,模型的输出是多个子模型输出的平均值。
比如:在***欺诈场景中,将训练好的多个***欺诈子模型组合形成最终的***欺诈模型,组合后的***欺诈模型在使用过程中,当输入一个***欺诈样本数据集时,每个***欺诈子模型对于每个***欺诈样本数据集中的单个待预测的客户样本会输出不同的结果,将多个***欺诈子模型输出的结果取平均值就是***欺诈模型输出的结果。
还比如:在储蓄卡推荐场景中,将训练好的多个储蓄卡推荐子模型组合形成最终的储蓄卡推荐模型,组合后的储蓄卡推荐模型在使用过程中,当输入一个储蓄卡推荐样本数据集时,每个***欺诈子模型对于每个***欺诈样本数据集中的单个待预测的客户样本会输出不同的结果,将多个***欺诈子模型输出的结果取平均值就是***欺诈模型输出的结果。
本发明实施例提供的模型训练方法,通过使用上述实施例中的样本数据集的扩容方法,使用多个样本更新数据集一一对应地训练多个子模型,最后组合成模型,能够使得正样本学习更加精确地发挥作用,提高模型训练的精确度和效率。
本发明实施例提供一种模型训练装置,该装置包括:获取模块、处理模块、输出模块。
其中,获取模块用于使用上述实施例中的样本数据集的扩容方法,获取多个样本更新数据集,且更新正样本、原始正样本对应的样本标签为1,更新负样本对应的样本标签为-1。
处理模块用于使用样本更新数据集,训练多个子模型,且至少两个子模型分别使用不同的样本更新数据集。
输出模块用于基于训练好的多个子模型,确定模型。
本发明实施例提供的模型训练装置用于执行上述模型训练方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
本发明实施例提供的模型训练装置通过获取模块、处理模块以及输出模块使用上述实施例中的样本数据集的扩容方法,用多个样本更新数据集一一对应地训练多个子模型,最后组合成模型,能够使得正样本学习更加精确地发挥作用,提高模型训练的精确度和效率。
本发明实施例提供一种电子设备,该电子设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令,以执行模型的应用方法,该方法包括:将待判断的数据输入至模型,得到模型输出的测试结果;其中,模型根据上述实施例中的模型训练方法训练得到。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括处理器、通信接口、存储器和通信总线,其中处理器,通信接口,存储器通过通信总线完成相互间的通信,且处理器可以调用存储器中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够实现以执行模型的应用方法,该方法包括:将待判断的数据输入至模型,得到模型输出的测试结果;其中,模型根据上述实施例中的模型训练方法训练得到。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行模型训练方法,该方法包括:使用本发明实施例提供的样本数据集的扩容方法,获取多个样本更新数据集,且更新正样本、原始正样本对应的样本标签为1,更新负样本对应的样本标签为-1;使用样本更新数据集,训练多个子模型,且至少两个子模型分别使用不同的样本更新数据集;基于训练好的多个子模型,确定模型。
如图7所示,本发明实施例提供的模型的应用方法,可以包括步骤910-步骤920。
其中,步骤910:将待判断的数据输入至模型。
其中,模型根据上述实施例中的模型训练方法训练得到。
步骤920:得到模型输出的测试结果。
需要说明的是,当一个待判断数据被输入到模型中,模型中的每个子模型都会将该待判断数据处理一遍,每个子模型输出一个结果,模型将多个结果取平均值从而输出已经完成预测的数据。
比如:在***欺诈场景中,当待预测的***欺诈样本数据集被输入到***欺诈模型中,***欺诈模型中的每个***欺诈子模型都会将该待预测的***欺诈样本数据集处理一遍,每个***欺诈子模型输出一个结果,***欺诈模型将多个结果取平均值从而输出已经完成预测的***欺诈样本数据集。
还比如:在储蓄卡推荐场景中,当待预测的储蓄卡推荐样本数据集被输入到储蓄卡推荐模型中,储蓄卡推荐模型中的每个储蓄卡推荐子模型都会将该待预测的储蓄卡推荐样本数据集处理一遍,每个储蓄卡推荐子模型输出一个结果,储蓄卡推荐模型将多个结果取平均值从而输出已经完成预测的储蓄卡推荐样本数据集。
本发明实施例提供的模型的应用方法,通过使用上述实施例中的样本数据集的扩容方法,训练模型,将该模型进行实际应用,能够使得正样本学习更加精确地发挥作用,提高模型训练的精确度和效率,从而使得模型输出的结果更准确。
本发明实施例提供一种模型的应用装置,该装置包括:输入模块、输出模块。
其中,输入模块用于将待判断的数据输入至模型。
其中,模型根据上述实施例中的模型训练方法训练得到。
输出模块用于得到模型输出的测试结果。
本发明实施例提供的模型的应用装置用于执行上述模型的应用方法,其具体的实施方式与方法的实施方式一致,此处不再赘述。
本发明实施例提供的模型的应用装置,通过输入模块、输出模块使用上述实施例中的样本数据集的扩容方法,训练模型,将该模型进行实际应用,能够使得正样本学习更加精确地发挥作用,提高模型训练的精确度和效率,从而使得模型输出的结果更准确。
本发明实施例提供一种电子设备,该电子设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令,以执行模型的应用方法,该方法包括:将待判断的数据输入至模型,得到模型输出的测试结果;其中,模型根据上述实施例中的模型训练方法训练得到。
需要说明的是,本实施例中的电子设备在具体实现时可以为服务器,也可以为PC机,还可以为其他设备,只要其结构中包括处理器、通信接口、存储器和通信总线,其中处理器,通信接口,存储器通过通信总线完成相互间的通信,且处理器可以调用存储器中的逻辑指令以执行上述方法即可。本实施例不对电子设备的具体实现形式进行限定。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够实现以执行模型的应用方法,该方法包括:将待判断的数据输入至模型,得到模型输出的测试结果;其中,模型根据上述实施例中的模型训练方法训练得到。另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行模型的应用方法,该方法包括:将待判断的数据输入至模型,得到模型输出的测试结果;其中,模型根据上述实施例中的模型训练方法训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
值得一提的是,将本发明的扩容方法应用到***欺诈场景,可以得到如下方案:
第一方面,本发明实施例提供一种***欺诈样本数据集的扩容方法,在一些实施例中,***欺诈样本数据集的扩容方法包括:获取原始***欺诈样本数据集,所述原始***欺诈样本数据集的客户样本包括多个情况不明的客户样本和多个原始有欺诈情况的客户样本;确定每个所述情况不明的客户样本与所述原始有欺诈情况的客户样本的相似度;获取服从[0,1]均匀分布的随机数;基于所述情况不明的客户样本对应的相似度与所述随机数的大小比较结果,将所述情况不明的客户样本标注为更新有欺诈情况的客户样本或更新无欺诈情况的客户样本;基于所述更新有欺诈情况的客户样本、所述更新无欺诈情况的客户样本和所述原始有欺诈情况的客户样本,得到***欺诈样本更新数据集,所述***欺诈样本更新数据集的有欺诈情况的客户样本包括所述更新有欺诈情况的客户样本和所述原始有欺诈情况的客户样本。
在一些实施例中,所述确定每个所述情况不明的客户样本与所述原始有欺诈情况的客户样本的相似度,包括:获取每个所述情况不明的客户样本相邻的k个客户样本;确定所述k个客户样本中原始有欺诈情况的客户样本所占的比例;将所述原始有欺诈情况的客户样本所占的比例作为所述情况不明的客户样本与所述原始有欺诈情况的客户样本的相似度。
在一些实施例中,所述获取每个所述情况不明的客户样本相邻的k个客户样本,包括:通过向量表示所述原始***欺诈样本数据集的客户样本;获取每个所述情况不明的客户样本与所述原始***欺诈样本数据集的其他样本的欧几里得距离;选取所述欧几里得距离最短的k个客户样本作为所述情况不明的客户样本相邻的k个客户样本。
在一些实施例中,所述获取服从[0,1]均匀分布的随机数;基于所述情况不明的客户样本对应的相似度与所述随机数的大小比较结果,将所述情况不明的客户样本标注为更新有欺诈情况的客户样本或更新无欺诈情况的客户样本;基于所述更新有欺诈情况的客户样本、所述更新无欺诈情况的客户样本和所述原始有欺诈情况的客户样本,得到***欺诈样本更新数据集,所述样本更新数据集的有欺诈情况的客户样本包括所述更新有欺诈情况的客户样本和所述原始有欺诈情况的客户样本,包括:对于每个所述随机数,均对所述情况不明的客户样本标注一次,以得到与多个所述随机数一一对应的多个***欺诈样本更新数据集。
第二方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,在一些实施例中,所述处理器执行所述程序时实现上述任一实施例所述***欺诈样本数据集的扩容方法的步骤。
第三方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,在一些实施例中,该计算机程序被处理器执行时实现上述任一实施例所述***欺诈样本数据集的扩容方法的步骤。
第四方面,本发明实施例提供一种***欺诈模型训练方法,在一些实施例中,所述模型包括多个子模型,所述***欺诈模型训练方法包括:使用上述任一实施例所述的***欺诈样本数据集的扩容方法,获取所述多个***欺诈样本更新数据集,且所述更新有欺诈情况的客户样本、所述原始有欺诈情况的客户样本对应的客户样本标签为1,所述更新无欺诈情况的客户样本对应的客户样本标签为-1;使用所述***欺诈样本更新数据集,训练所述多个子模型,且至少两个所述子模型分别使用不同的所述***欺诈样本更新数据集;基于训练好的多个子模型,确定所述模型。
第五方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,在一些实施例中,该计算机程序被处理器执行时实现上述任一实施例所述***欺诈模型训练方法的步骤。
第六方面,本发明实施例提供一种***欺诈模型的应用方法,在一些实施例中,***欺诈模型的应用方法包括:将待判断的数据输入至所述模型,得到所述模型输出的测试结果;其中,所述模型根据上述实施例所述的***欺诈模型训练方法训练得到。
第七方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,在一些实施例中,该计算机程序被处理器执行时实现上述实施例所述模型应用方法的步骤。
与此同时,还可以将本发明的扩容方法应用到储蓄卡推荐场景,可以得到如下方案:
第一方面,本发明实施例提供一种储蓄卡推荐样本数据集的扩容方法,在一些实施例中,储蓄卡推荐样本数据集包括:获取原始储蓄卡推荐样本数据集,所述原始储蓄卡推荐样本数据集的客户样本包括多个情况不明的客户样本和多个原始愿意办理的客户样本;确定每个所述情况不明的客户样本与所述原始愿意办理的客户样本的相似度;获取服从[0,1]均匀分布的随机数;基于所述情况不明的客户样本对应的相似度与所述随机数的大小比较结果,将所述情况不明的客户样本标注为更新愿意办理的客户样本或更新不愿意办理的客户样本;基于所述更新愿意办理的客户样本、所述更新不愿意办理的客户样本和所述原始愿意办理的客户样本,得到储蓄卡推荐样本更新数据集,所述储蓄卡推荐样本更新数据集的愿意办理的客户样本包括所述更新愿意办理的客户样本和所述原始愿意办理的客户样本。
在一些实施例中,所述确定每个所述情况不明的客户样本与所述原始愿意办理的客户样本的相似度,包括:获取每个所述情况不明的客户样本相邻的k个客户样本;确定所述k个客户样本中原始愿意办理的客户样本所占的比例;将所述原始愿意办理的客户样本所占的比例作为所述情况不明的客户样本与所述原始愿意办理的客户样本的相似度。
在一些实施例中,所述获取每个所述情况不明的客户样本相邻的k个客户样本,包括:通过向量表示所述原始储蓄卡推荐样本数据集的客户样本;获取每个所述情况不明的客户样本与所述原始储蓄卡推荐样本数据集的其他样本的欧几里得距离;选取所述欧几里得距离最短的k个客户样本作为所述情况不明的客户样本相邻的k个客户样本。
在一些实施例中,所述获取服从[0,1]均匀分布的随机数;基于所述情况不明的客户样本对应的相似度与所述随机数的大小比较结果,将所述情况不明的客户样本标注为更新愿意办理的客户样本或更新不愿意办理的客户样本;基于所述更新愿意办理的客户样本、所述更新不愿意办理的客户样本和所述原始愿意办理的客户样本,得到储蓄卡推荐样本更新数据集,所述样本更新数据集的愿意办理的客户样本包括所述更新愿意办理的客户样本和所述原始愿意办理的客户样本,包括:对于每个所述随机数,均对所述情况不明的客户样本标注一次,以得到与多个所述随机数一一对应的多个储蓄卡推荐样本更新数据集。
第二方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,在一些实施例中,所述处理器执行所述程序时实现上述任一实施例所述储蓄卡推荐样本数据集的扩容方法的步骤。
第三方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,在一些实施例中,该计算机程序被处理器执行时实现上述任一实施例所述储蓄卡推荐样本数据集的扩容方法的步骤。
第四方面,本发明实施例提供一种储蓄卡推荐模型训练方法,所述模型包括多个子模型,所述储蓄卡推荐模型训练方法包括:使用如上述任一实施例所述的储蓄卡推荐样本数据集的扩容方法,获取所述多个储蓄卡推荐样本更新数据集,且所述更新愿意办理的客户样本、所述原始愿意办理的客户样本对应的客户样本标签为1,所述更新不愿意办理的客户样本对应的客户样本标签为-1;使用所述储蓄卡推荐样本更新数据集,训练所述多个子模型,且至少两个所述子模型分别使用不同的所述储蓄卡推荐样本更新数据集;基于训练好的多个子模型,确定所述模型。
第五方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,在一些实施例中,该计算机程序被处理器执行时实现上述任一实施例所述储蓄卡推荐模型训练方法的步骤。
第六方面,本发明实施例提供一种储蓄卡推荐模型的应用方法,在一些实施例中,储蓄卡推荐模型的应用方法包括:将待判断的数据输入至所述模型,得到所述模型输出的测试结果;其中,所述模型根据上述实施例所述储蓄卡推荐模型训练方法训练得到。
第七方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,在一些实施例中,该计算机程序被处理器执行时实现上述实施例所述模型应用方法的步骤。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种样本数据集的扩容方法,其特征在于,包括:
获取原始***欺诈样本数据集,所述原始***欺诈样本数据集的客户样本包括多个无标签样本和多个原始正样本;其中,所述无标签样本包括情况不明的客户样本,所述原始正样本包括原始有欺诈情况的客户样本;
确定每个所述情况不明的客户样本与所述原始有欺诈情况的客户样本的相似度;
获取服从[0,1]均匀分布的随机数;
基于所述情况不明的客户样本对应的相似度与所述随机数的大小比较结果,将所述情况不明的客户样本标注为更新有欺诈情况的客户样本或更新无欺诈情况的客户样本;
基于所述更新有欺诈情况的客户样本、所述更新无欺诈情况的客户样本和所述原始有欺诈情况的客户样本,得到***欺诈样本更新数据集,所述***欺诈样本更新数据集的有欺诈情况的客户样本包括所述更新有欺诈情况的客户样本和所述原始有欺诈情况的客户样本;
所述确定每个所述情况不明的客户样本与所述原始有欺诈情况的客户样本的相似度,包括:
获取每个所述情况不明的客户样本相邻的k个客户样本;
确定所述k个客户样本中原始有欺诈情况的客户样本所占的比例;
将所述原始有欺诈情况的客户样本所占的比例作为所述情况不明的客户样本与所述原始有欺诈情况的客户样本的相似度;
所述获取服从[0,1]均匀分布的随机数;基于所述情况不明的客户样本对应的相似度与所述随机数的大小比较结果,将所述情况不明的客户样本标注为更新有欺诈情况的客户样本或更新无欺诈情况的客户样本;基于所述更新有欺诈情况的客户样本、所述更新无欺诈情况的客户样本和所述原始有欺诈情况的客户样本,得到***欺诈样本更新数据集,所述***欺诈样本更新数据集的有欺诈情况的客户样本包括所述更新有欺诈情况的客户样本和所述原始有欺诈情况的客户样本,包括:
对于每个所述随机数,均对所述情况不明的客户样本标注一次,以得到与多个所述随机数一一对应的多个***欺诈样本更新数据集。
2.根据权利要求1所述的样本数据集的扩容方法,其特征在于,所述获取每个所述情况不明的客户样本相邻的k个客户样本,包括:
通过向量表示所述原始***欺诈样本数据集的客户样本;
获取每个所述情况不明的客户样本与所述原始***欺诈样本数据集的其他样本的欧几里得距离;
选取所述欧几里得距离最短的k个客户样本作为所述情况不明的客户样本相邻的k个客户样本。
3.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述样本数据集的扩容方法的步骤。
4.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一项所述样本数据集的扩容方法的步骤。
5.一种模型训练方法,其特征在于,所述模型包括多个子模型,所述模型训练方法包括:
使用如权利要求1所述的样本数据集的扩容方法,获取所述多个***欺诈样本更新数据集,且所述更新有欺诈情况的客户样本、所述原始有欺诈情况的客户样本对应的客户样本标签为1,所述更新无欺诈情况的客户样本对应的客户样本标签为-1;
使用所述***欺诈样本更新数据集,训练所述多个子模型,且至少两个所述子模型分别使用不同的所述***欺诈样本更新数据集;
基于训练好的多个子模型,确定所述模型。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求5所述模型训练方法的步骤。
7.一种模型的应用方法,其特征在于,包括:
将待判断的数据输入至所述模型,得到所述模型输出的测试结果;
其中,所述模型根据权利要求5所述的模型训练方法训练得到。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求7所述模型的应用方法的步骤。
CN202010117161.4A 2020-02-25 2020-02-25 样本数据集的扩容方法及模型的训练方法 Active CN111461164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010117161.4A CN111461164B (zh) 2020-02-25 2020-02-25 样本数据集的扩容方法及模型的训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117161.4A CN111461164B (zh) 2020-02-25 2020-02-25 样本数据集的扩容方法及模型的训练方法

Publications (2)

Publication Number Publication Date
CN111461164A CN111461164A (zh) 2020-07-28
CN111461164B true CN111461164B (zh) 2024-04-12

Family

ID=71684124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117161.4A Active CN111461164B (zh) 2020-02-25 2020-02-25 样本数据集的扩容方法及模型的训练方法

Country Status (1)

Country Link
CN (1) CN111461164B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766320B (zh) * 2020-12-31 2023-12-22 平安科技(深圳)有限公司 一种分类模型训练方法及计算机设备
CN112784883B (zh) * 2021-01-07 2022-08-12 厦门大学 一种基于样本选择扩充的冷水珊瑚分布预测方法及***
CN112784903B (zh) * 2021-01-26 2023-12-12 上海明略人工智能(集团)有限公司 用于目标识别模型训练的方法、装置及设备
CN114418752B (zh) * 2022-03-28 2022-07-12 北京芯盾时代科技有限公司 无类型标签用户数据的处理方法、装置、电子设备和介质
CN116156151A (zh) * 2022-12-15 2023-05-23 中国计量科学研究院 针对智能感知***的测试方法、***、电子设备
CN116204567B (zh) * 2023-04-28 2023-09-05 京东科技控股股份有限公司 用户挖掘及模型的训练方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242165A (zh) * 2018-08-24 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种模型训练及基于模型训练的预测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346448B (zh) * 2016-05-06 2021-12-21 富士通株式会社 基于深度神经网络的识别装置、训练装置及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242165A (zh) * 2018-08-24 2019-01-18 蜜小蜂智慧(北京)科技有限公司 一种模型训练及基于模型训练的预测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Impact of Network Topology on the Performance of DML: Theoretical Analysis and Practical Factors;Shuai Wang et al.;《 IEEE Xplore》;20190617;全文 *
一种基于产生式分数空间的单样本人脸识别方法;王斌 等;《上海交通大学学报》(第02期);第3.1节 *
基于正样本和未标记样本的遥感图像分类方法;裔阳 等;计算机工程与应用(第04期);全文 *

Also Published As

Publication number Publication date
CN111461164A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111461164B (zh) 样本数据集的扩容方法及模型的训练方法
CN109583468B (zh) 训练样本获取方法,样本预测方法及对应装置
CN109446889B (zh) 基于孪生匹配网络的物体追踪方法及装置
CN112100387B (zh) 用于文本分类的神经网络***的训练方法及装置
CN110009430B (zh) 作弊用户检测方法、电子设备及计算机可读存储介质
CN108875727B (zh) 图文标识的检测方法及装置、存储介质、处理器
CN111260220B (zh) 群控设备识别方法、装置、电子设备和存储介质
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN111626311B (zh) 一种异构图数据处理方法和装置
CN111401339A (zh) 识别人脸图像中的人的年龄的方法、装置及电子设备
CN109685805B (zh) 一种图像分割方法及装置
WO2024060684A1 (zh) 模型训练方法、图像处理方法、设备及存储介质
CN109726725A (zh) 一种基于大间隔类间互异性多核学习的油画作者识别方法
CN110110213A (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN113569070A (zh) 图像检测方法和装置、电子设备、存储介质
CN113592593A (zh) 序列推荐模型的训练及应用方法、装置、设备及存储介质
CN115859302A (zh) 源代码漏洞检测方法、装置、设备及存储介质
CN115099310A (zh) 训练模型、对企业进行行业分类的方法和装置
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN113869398A (zh) 一种不平衡文本分类方法、装置、设备及存储介质
CN112200862A (zh) 目标检测模型的训练方法、目标检测方法及装置
CN116578925A (zh) 基于特征画像的行为预测方法、装置及存储介质
US20230041338A1 (en) Graph data processing method, device, and computer program product
CN115544307A (zh) 基于关联矩阵的有向图数据特征提取与表达方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant