CN112766394B - 建模样本生成方法及装置 - Google Patents

建模样本生成方法及装置 Download PDF

Info

Publication number
CN112766394B
CN112766394B CN202110105926.7A CN202110105926A CN112766394B CN 112766394 B CN112766394 B CN 112766394B CN 202110105926 A CN202110105926 A CN 202110105926A CN 112766394 B CN112766394 B CN 112766394B
Authority
CN
China
Prior art keywords
samples
minority
classification
sample
total number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110105926.7A
Other languages
English (en)
Other versions
CN112766394A (zh
Inventor
盛帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202110105926.7A priority Critical patent/CN112766394B/zh
Publication of CN112766394A publication Critical patent/CN112766394A/zh
Application granted granted Critical
Publication of CN112766394B publication Critical patent/CN112766394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了建模样本生成方法、装置及电子设备,属于通信技术领域,其中,所述方法包括:剔除建模样本中满足预设条件的样本,其中,所述建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本;依据待生成样本的第一总数量、每个所述少数分类样本K近邻中多数分类样本的第二总数量,分别确定每个所述少数分类样本待生成样本的第三总数量;针对每个所述少数分类样本,按照预设规则计算所述少数分类样本的偏移点,其中,所述偏移点数量为所述第三总数量;分别依据各所述偏移点生成所述少数分类样本的所述待生成样本。本申请公开的建模样本生成方法所构建的建模样本中包含的各分类样本更加均衡。

Description

建模样本生成方法及装置
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种建模样本生成方法及装置。
背景技术
在反欺诈和异常检测的场景中,经常会使用有监督学习算法建立预测模型。在通常构造训练样本的过程中会存在训练样本不均衡的问题,具体表现为:一种分类的样本数量,小于甚至远远小于另一个分类的样本数量。
以未成年用户游戏消费投诉为例,通过历史消费订单数据及未成年投诉数据建立有监督算法模型时,将历史未成年消费投诉用户订单标记为异常样本,非投诉订单数据标记为正常样本,而小量的异常样本往往淹没在大量的正常样本中。在使用所构造的训练样本建模时,由于各分类样本不均衡,导致所建模型稳定性差。
发明内容
本申请实施例的目的是提供一种建模样本生成方法,能够解决现有的建模样本构建方案中存在的各分类样本不均衡的问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种建模样本生成方法,其中,所述方法包括:剔除建模样本中满足预设条件的样本,其中,所述建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本;依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本对应的待生成样本的第三总数量;针对每个所述少数分类样本,按照预设规则计算所述少数分类样本的偏移点,其中,所述偏移点数量为所述第三总数量;分别依据各所述偏移点生成所述少数分类样本的所述待生成样本。
第二方面,本申请实施例提供了一种建模样本生成装置,其中,所述装置包括:剔除模块,用于剔除建模样本中满足预设条件的样本,其中,所述建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本;
确定模块,用于依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本对应的待生成样本的第三总数量;计算模块,用于针对每个所述少数分类样本,按照预设规则计算所述少数分类样本的偏移点,其中,所述偏移点数量为所述第三总数量;生成模块,用于分别依据各所述偏移点生成所述少数分类样本的所述待生成样本。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
本申请实施例中,剔除建模样本中满足预设条件的样本;依据待生成样本的第一总数量、每个少数分类样本的K近邻中多数分类样本的第二总数量,分别确定每个少数分类样本对应的待生成样本的第三总数量;针对每个少数分类样本,按照预设规则计算少数分类样本的偏移点;分别依据各偏移点生成少数分类样本的待生成样本,一方面,可增加少数分类样本数量,使得训练样本的均衡性得以提升,最终可有效提升基于训练样本所训练模型的稳定性;第二方面,每个少数分类样本待生成样本的第三总数量由其在样本区间上的位置自适应决定,离决策边界越近,期望生成的样本数量越多,采用该种方式所生成的建模样本训练模型,能够提升模型的预测效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是表示本申请实施例的一种建模样本生成方法的步骤流程图;
图2是表示本申请实施例的一种建模样本生成装置的结构框图;
图3是表示本申请实施例的一种电子设备的结构框图;
图4是表示本申请实施例的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的建模样本生成方法进行详细地说明。
参照图1,示出了本申请实施例的一种建模样本生成方法的步骤流程图。
本申请实施例的建模样本生成方法包括以下步骤:
步骤101:剔除建模样本中满足预设条件的样本。
其中,建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本。第二数量远远大于第一数量。
本发明实施例中以一个二分类建模中所需要的一个样本集合{x,y},其中x为一个m×n的属性值集合,m为样本数量,n为属性数量,y为x对应的分类标签集合{0,1}。xs为少数分类样本集合,xl为多数分类样本集合,ms为少数分类样本的数量,ml则为多数分类样本的数量,ms<ml,且ms+ml=m为例,对本申请实施例的后续流程进说明。其中,ms即第一数量,ml即第二数量。
满足预设条件的样本为建模样本中的脏数据,预设条件可由本领域技术人员根据实际需求灵活设置,本申请实施例中对此不做具体限制。在实际实现过程中,依据样本K近邻样本的类型灵活设置预设条件。例如:针对一个样本,若该样本K近邻样本的类型均与其不同,则可将该样本确定为脏数据;再例如:针对一个样本,若该样本K近邻样本中与其类型不同的样本数量超出预设数量,则可将该样本确定为脏数据等。
步骤102:依据待生成样本的第一总数量、每个少数分类样本的K近邻中多数分类样本的第二总数量,分别确定每个少数分类样本对应的待生成样本的第三总数量。
在实际实现过程中,可使用k近邻算法计算建模样本中各样本的k近邻样本。针对每个少数分类样样本,统计其K近邻中多数分类样本的第二总数量。针对每个少数分类样本,基于第一总数量、第二总数量确定其对应的第三总数量的具体方式,可由本领域技术人员根据实际需求进行设置,本申请实施例中对此不做具体限制。
该种确定每个少数分类样本待生成样本的方式,由其在样本区间上的位置自适应决定,离决策边界越近,期望生成的样本数量越多。
步骤103:针对每个少数分类样本,按照预设规则计算该少数分类样本的偏移点。
其中,偏移点数量为第三总数量,每个少数分类样本对应的第三总数量可能相同也可能不同。
定义两个样本之间的相似度:假设u为一个少数分类样本,v为其k近邻的一个多数分类样本,两个样本都具备n个属性值,首先计算两个样本的余弦相似度。余弦相似度取值范围在[-1,1]之间,-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。透过使用相同计算方式得到的相似性,向量之间的规范化角度可以作为一个范围在[0,1]上的有界相似性函数。在计算单个少数分类样本的单个偏移点时,可在u到v相反的方向上,建立偏移点u′。
步骤104:分别依据各偏移点生成少数分类样本的待生成样本。
通过步骤103可为每个少数分类样本计算第三总数量的偏移点。基于每个偏移点分别生成一个待生成样本,则可得到少数分类样本对应的第三总数量的待生成样本。
步骤103至步骤104为为一个少数分类样本生成第三总数量的待生成样本的具体流程,在实际实现过程中,需重复执行上述流程为第一数量的各少数分类样本生成对应的第三总数量的待生成样本。至此,单次建模样本的样本扩充流程结束。
本申请实施例提供的建模样本生成方法,剔除建模样本中满足预设条件的样本;依据待生成样本的第一总数量、每个少数分类样本的K近邻中多数分类样本的第二总数量,分别确定每个少数分类样本对应的待生成样本的第三总数量;针对每个少数分类样本,按照预设规则计算少数分类样本的偏移点;分别依据各偏移点生成少数分类样本的待生成样本,一方面,可增加少数分类样本数量,使得训练样本的均衡性得以提升,最终可有效提升基于训练样本所训练模型的稳定性;第二方面,每个少数分类样本待生成样本的第三总数量由其在样本区间上的位置自适应决定,离决策边界越近,期望生成的样本数量越多,采用该种方式所生成的建模样本训练模型,能够提升模型的预测效果。
在一种可选地实施例中,剔除建模样本中满足预设条件的样本的步骤,包括以下子步骤:
子步骤一:针对各少数分类样本,计算少数分类样本的K近邻样本。
在k近邻计算时,可使用欧式距离、余弦距离等适用地距离计算模式;同时k近邻的计算结果,可能存在与样本差异过大问题,可以采用自适应k近邻的优化方法,保证所有的近邻与样本的差距都在一定范围内。
子步骤二:在少数分类样本的K邻近样本均为多数分类样本的情况下,将该少数分类样本从建模样本中剔除。
需要说明的是,子步骤二中仅是示例性地列举了一种在某个少数分类样本K近邻样本均为多数分类样本的情况下,将该少数分类样本剔除的方案,在实际实现过程中,还可以设置为某个少数分类样本K近邻样本中多数分类样本的数量大于第一预设阈值的情况下,将该少数分类样本剔除的方案。
子步骤三:针对各多数分类样本,计算多数分类样本的K近邻样本。
子步骤四:在多数分类样本的K近邻样本均为少数分类样本的情况下,将该多数分类样本从建模样本中剔除。
该种可选地剔除脏数据的方式,计算量小、脏数据定位精准。
在一种可选地实施例中,依据待生成样本的第一总数量、每个少数分类样本的K近邻中多数分类样本的第二总数量,分别确定每个少数分类样本对应的待生成样本的第三总数量的步骤,包括以下子步骤:
子步骤一:针对每个少数分类样本,依据少数分类样本的K近邻中多数分类样本的第二总数量,确定少数分类样本的K近邻中多数分类样本第一占比。
假设待生成样本总数量为mg,对于一个少数分类样本xsi,其k近邻中多数分类的样本数量ωi,可以得出其k近邻中多数分类样本的第一占比为:
其中,ri为标号为xsi的少数分类样本k近邻中多数分类样本的第一占比,ms为少数分类样本总数量。
子步骤二:对所有的第一占比进行标准化处理,得到每个少数分类样本对应的第一权重值。
对各少数分类样本对应的所有第一占比做标准化处理后,可以各少数分类样本对应的第一权重值。
可采用如下公式,计算少数分类样本对应的第一权重值:
其中,δi为标号为xsi的少数分类样本对应的第一权重值,ri为xsi的k近邻中多数分类样本的第一占比。
子步骤三:依据第一权重值和第一总数量,确定少数分类样本对应的待生成样本的第三总数量。
针对每个少数分类样本,依据该少数分类样本的第一权重值、第一总数量,确定少数分类样本对应的待生成样本的第三总数量时,可采用如下公式:
gi=δi×mg
其中,gi为标号为xsi的少数分类样本对应的第三总数量,δi为标号为xsi的少数分类样本对应的第一权重值,需要生成的所有待生成样本数量为mg
该种可选地自适应地确定各少数分类样本待生成样本的第三总数量的方式,可对不同的少数分类样本xsi分别赋予不同的权重,可提升所生成样本的可靠性。
在一种可选地实施例中,针对每个少数分类样本,按照预设规则计算该少数分类样本的单个偏移点的方式如下:
首先,针对每个少数分类样本,从少数分类样本的K近邻样本中选择一个目标多数分类样本。
在实际实现过程中,可从该少数分类样本的K近邻样本中随机选择一个目标多数分类样本。
其次,确定少数分类样本与目标多数分类样本的相似性和差值。
假设u为一个少数分类样本,v为其k近邻的一个多数分类样本,两个样本都具备n个属性值,计算少数分类样本与目标多数分类样本的相似性时,首先采用如下公式计算两个样本的余弦相似度:
其次,基于余弦相似度值确定这两个样本的相似度。余弦相似度取值范围在[-1,1]之间,-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中间的相似性或相异性。透过使用相同计算方式得到的相似度,向量之间的规范化角度可以作为一个范围在[0,1]上的有界相似性函数,两个样本的相似度可通过如下公式计算得到:
其中,ρuv为样本u、v的相似度。
两个样本相似度的计算,除可采用上述列举的余弦相似度计算实现,还可以使用有监督、无监督等分类模型,对两个样本进行预测得到。
计算u、v两个样本之间的差值可通过如下公式计算:
dif1=u-v
其中,dif1为u、v两个样本之间的差值。
最后,依据相似性、差值以及该少数分类样本,计算得到该少数分类样本的单个偏移点。
根据经典样本生成公式,同时为了避免过拟合,使用相似度ρuv控制随机性。相似度控制规则为:相似度越高,偏移的距离越远,可使得决策边界能够更清晰。
少数分类样本的单个偏移点可通过如下公式确定:
u′=u+rand(0,ρuv)×dif1
其中,u′表示偏移点,u、表示少数分类样本,rand(0,ρuv)表示从0到ρuv区间上任取一个值,dif1为u、v两个样本的差值。
上述流程为确定一个少数分类样本的一个偏移点的流程,在实际实现过程中,可重复执行上述确定单个少数分类样本的第三总数量个偏移点。
该种可选地确偏移点的方式,在少数分类的样本生成中,尤其在稠密区间上,尽可能在反方向上生成新样本,且样本生成数量由其在样本区间上的位置自适应决定,离决策边界越近,期望生成的样本数量越多,能够解决现有的样本生成算法过拟合的问题。
在一种可选地实施例中,分别依据各偏移点生成少数分类样本的待生成样本的步骤,包括以下子步骤:
子步骤一:针对每个少数分类样本对应的各偏移点,从少数分类样本的K近邻样本中选择一个目标少数分类样本。
在实际实现过程中,可从少数分类样本的K近邻样本中随机选择一个目标少数分类样本,目标少数分类样本可用e表示。本可选实施地实施例中,以为少数分类样本xsi,i=1,...,ms使用漂移点xsi′=xsi+rand(0,ρ)×(xsi-v)生成待生成样本为例进行说明。
子步骤二:确定偏移点与目标少数分类样本的差值。
偏移点与目标少数分类样本的差值可表示为:xsi′-e。
子步骤三:从预设相似度区间中随机选择一个目标相似度值。
预设区间可设置为(0,1)。
子步骤四:依据所述差值、少数分类样本以及目标相似度值,生成少数分类样本的单个待生成样本。
具体地,可基于如下公式生成一个待生成样本:
f=e+rand(0,1)×(xsi′-e)
其中,f表示待生成样本,e表示从少数分类样本的K近邻样本中选择一个目标少数分类样本,rand(0,1)表示从预设区间(0,1)中选择任意值,xsi′表示漂移点。
该可选实施例中的步骤一至步骤四为生成一个待生成样本的流程,在实际实现过程中,需重复迭代mg次生成全部待生成样本,其中,待成样本总数量为mg
本可选地实施例提供的生成样本的方式,计算量小、耗时短。
需要说明的是,本申请实施例提供的建模样本生成方法,执行主体可以为建模样本生成装置,或者该建模样本生成装置中的用于执行建模样本生成方法的控制模块。本申请实施例中后续以建模样本生成装置执行建模样本生成方法为例,说明本申请实施例提供的建模样本生成装置。
图2为实现本申请实施例的一种建模样本生成装置的结构框图。
本申请实施例的建模样本生成装置200包括:
剔除模块201,用于剔除建模样本中满足预设条件的样本,其中,所述建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本;
确定模块202,用于依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本对应的待生成样本的第三总数量;
计算模块203,用于针对每个所述少数分类样本,按照预设规则计算所述少数分类样本的偏移点,其中,所述偏移点数量为所述第三总数量;
生成模块204,用于分别依据各所述偏移点生成所述少数分类样本的所述待生成样本。
可选的,所述剔除模块包括:
第一子模块,用于针对各所述少数分类样本,计算所述少数分类样本的K近邻样本;
第二子模块,用于在所述少数分类样本的K近邻样本均为多数分类样本的情况下,将所述少数分类样本从所述建模样本中剔除;
第三子模块,用于针对各所述多数分类样本,计算所述多数分类样本的K近邻样本;
第四子模块,用于在所述多数分类样本的K近邻样本均为少数分类样本的情况下,将所述多数分类样本从所述建模样本中剔除。
可选的,所述确定模块包括:
第五子模块,用于针对每个所述少数分类样本,依据所述少数分类样本的K近邻中多数分类样本的第二总数量,确定所述少数分类样本的K近邻中多数分类样本的第一占比;
第六子模块,用于对所有的所述第一占比进行标准化处理,得到每个所述少数分类样本对应的第一权重值;
第七子模块,用于依据所述第一权重值和所述第一总数量,确定所述少数分类样本对应的待生成样本的第三总数量。
可选的,所述计算模块包括:
第八子模块,用于针对每个所述少数分类样本,从所述少数分类样本的K近邻样本中选择一个目标多数分类样本;
第九子模块,用于确定所述少数分类样本与所述目标多数分类样本的相似性和差值;
第十子模块,用于依据所述相似性、所述差值以及所述少数分类样本,计算得到所述少数分类样本的单个偏移点。
可选的,所述生成模块包括:
第十一子模块,用于针对每个所述少数分类样本对应的各所述偏移点,从所述少数分类样本的K近邻样本中选择一个目标少数分类样本;
第十二子模块,用于确定所述偏移点与所述目标少数分类样本的差值;
第十三子模块,用于从预设相似度区间中随机选择一个目标相似度值;
第十四子模块,用于依据所述差值、所述少数分类样本以及所述目标相似度值,生成所述少数分类样本的单个待生成样本。
本申请实施例提供的建模样本生成装置,剔除建模样本中满足预设条件的样本;依据待生成样本的第一总数量、每个少数分类样本的K近邻中多数分类样本的第二总数量,分别确定每个少数分类样本对应的待生成样本的第三总数量;针对每个少数分类样本,按照预设规则计算少数分类样本的偏移点;分别依据各偏移点生成少数分类样本的待生成样本,一方面,可增加少数分类样本数量,使得训练样本的均衡性得以提升,最终可有效提升基于训练样本所训练模型的稳定性;第二方面,每个少数分类样本待生成样本的第三总数量由其在样本区间上的位置自适应决定,离决策边界越近,期望生成的样本数量越多,采用该种方式所生成的建模样本训练模型,能够提升模型的预测效果。
本申请实施例中的建模样本生成装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的建模装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***,可以为iOS操作***,还可以为其他可能的操作***,本申请实施例不作具体限定。
本申请实施例提供的建模样本生成装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
可选地,如图3所示,本申请实施例还提供一种电子设备300,包括处理器301,存储器302,存储在存储器302上并可在所述处理器301上运行的程序或指令,该程序或指令被处理器301执行时实现上述建模样本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要注意的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图4为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、以及处理器410等部件。
本领域技术人员可以理解,电子设备400还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理***与处理器410逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器410,用于剔除建模样本中满足预设条件的样本,其中,所述建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本;
依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本待生成样本的第三总数量;
针对每个所述少数分类样本,按照预设规则计算所述少数分类样本的偏移点,其中,所述偏移点数量为所述第三总数量;
分别依据各所述偏移点生成所述少数分类样本的所述待生成样本。
本申请实施例提供的电子设备,剔除建模样本中满足预设条件的样本;依据待生成样本的第一总数量、每个少数分类样本的K近邻中多数分类样本的第二总数量,分别确定每个少数分类样本待生成样本的第三总数量;针对每个少数分类样本,按照预设规则计算少数分类样本的偏移点;分别依据各偏移点生成少数分类样本的待生成样本,一方面,可增加少数分类样本数量,使得训练样本的均衡性得以提升,最终可有效提升基于训练样本所训练模型的稳定性;第二方面,每个少数分类样本待生成样本的第三总数量由其在样本区间上的位置自适应决定,离决策边界越近,期望生成的样本数量越多,采用该种方式所生成的建模样本训练模型,能够提升模型的预测效果。
可选的,处理器410剔除建模样本中满足预设条件的样本时,具体用于:
针对各所述少数分类样本,计算所述少数分类样本的K近邻样本;
在所述少数分类样本的K近邻样本均为多数分类样本的情况下,将所述少数分类样本从所述建模样本中剔除;
针对各所述多数分类样本,计算所述多数分类样本的K近邻样本;
在所述多数分类样本的K近邻样本均为少数分类样本的情况下,将所述多数分类样本从所述建模样本中剔除。
可选的,处理器410依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本对应的待生成样本的第三总数量时,具体用于:
针对每个所述少数分类样本,依据所述少数分类样本的K近邻中多数分类样本的第二总数量,确定所述少数分类样本的K近邻中多数分类样本的第一占比;
对所有的所述第一占比进行标准化处理,得到每个所述少数分类样本对应的第一权重值;
依据所述第一权重值和所述第一总数量,确定所述少数分类样本对应的待生成样本的第三总数量。
可选的,处理器410针对每个所述少数分类样本,按照预设规则计算所述少数分类样本的单个偏移点时,具体用于:
针对每个所述少数分类样本,从所述少数分类样本的K近邻样本中选择一个目标多数分类样本;
确定所述少数分类样本与所述目标多数分类样本的相似性和差值;
依据所述相似性、所述差值以及所述少数分类样本,计算得到所述少数分类样本的单个偏移点。
可选的,处理器410分别依据各所述偏移点生成所述少数分类样本的所述待生成样本时,具体用于:
针对每个所述少数分类样本对应的各所述偏移点,从所述少数分类样本的K近邻样本中选择一个目标少数分类样本;
确定所述偏移点与所述目标少数分类样本的差值;
从预设相似度区间中随机选择一个目标相似度值;
依据所述差值、所述少数分类样本以及所述目标相似度值,生成所述少数分类样本的单个待生成样本。
应理解的是,本申请实施例中,输入单元404可以包括图形处理器(GraphicsProcessing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元406可包括显示面板4061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板4061。用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器409可用于存储软件程序以及各种数据,包括但不限于应用程序和操作***。处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述建模样本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access MemorV,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述建模样本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (8)

1.一种建模样本生成方法,其特征在于,所述方法包括:
剔除建模样本中满足预设条件的样本,其中,所述建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本;所述样本包括历史消费订单数据及未成年投诉数据;
依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本对应的待生成样本的第三总数量;
针对每个所述少数分类样本,从所述少数分类样本的K近邻样本中选择一个目标多数分类样本;
确定所述少数分类样本与所述目标多数分类样本的相似性和差值;
依据所述相似性、所述差值以及所述少数分类样本,计算得到所述少数分类样本的单个偏移点;其中,所述偏移点数量为所述第三总数量;
分别依据各所述偏移点生成所述少数分类样本的所述待生成样本。
2.根据权利要求1所述的方法,其特征在于,所述剔除建模样本中满足预设条件的样本的步骤,包括:
针对各所述少数分类样本,计算所述少数分类样本的K近邻样本;
在所述少数分类样本的K近邻样本均为多数分类样本的情况下,将所述少数分类样本从所述建模样本中剔除;
针对各所述多数分类样本,计算所述多数分类样本的K近邻样本;
在所述多数分类样本的K近邻样本均为少数分类样本的情况下,将所述多数分类样本从所述建模样本中剔除。
3.根据权利要求1所述的方法,其特征在于,依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本对应的待生成样本的第三总数量的步骤,包括:
针对每个所述少数分类样本,依据所述少数分类样本的K近邻中多数分类样本的第二总数量,确定所述少数分类样本的K近邻中多数分类样本的第一占比;
对所有的所述第一占比进行标准化处理,得到每个所述少数分类样本对应的第一权重值;
依据所述第一权重值和所述第一总数量,确定所述少数分类样本对应的待生成样本的第三总数量。
4.根据权利要求1所述的方法,其特征在于,分别依据各所述偏移点生成所述少数分类样本的所述待生成样本的步骤,包括:
针对每个所述少数分类样本对应的各所述偏移点,从所述少数分类样本的K近邻样本中选择一个目标少数分类样本;
确定所述偏移点与所述目标少数分类样本的差值;
从预设相似度区间中随机选择一个目标相似度值;
依据所述差值、所述少数分类样本以及所述目标相似度值,生成所述少数分类样本的单个待生成样本。
5.一种建模样本生成装置,其特征在于,所述装置包括:
剔除模块,用于剔除建模样本中满足预设条件的样本,其中,所述建模样本包括:第一数量的少数分类样本、第二数量的多数分类样本;所述样本包括历史消费订单数据及未成年投诉数据;
确定模块,用于依据待生成样本的第一总数量、每个所述少数分类样本的K近邻中所述多数分类样本的第二总数量,分别确定每个所述少数分类样本对应的待生成样本的第三总数量;
计算模块,用于针对每个所述少数分类样本,按照预设规则计算所述少数分类样本的偏移点,其中,所述偏移点数量为所述第三总数量;
生成模块,用于分别依据各所述偏移点生成所述少数分类样本的所述待生成样本;
所述计算模块包括,
第八子模块,用于针对每个所述少数分类样本,从所述少数分类样本的K近邻样本中选择一个目标多数分类样本;
第九子模块,用于确定所述少数分类样本与所述目标多数分类样本的相似性和差值;
第十子模块,用于依据所述相似性、所述差值以及所述少数分类样本,计算得到所述少数分类样本的单个偏移点。
6.根据权利要求5所述的装置,其特征在于,所述剔除模块包括:
第一子模块,用于针对各所述少数分类样本,计算所述少数分类样本的K近邻样本;
第二子模块,用于在所述少数分类样本的K近邻样本均为多数分类样本的情况下,将所述少数分类样本从所述建模样本中剔除;
第三子模块,用于针对各所述多数分类样本,计算所述多数分类样本的K近邻样本;
第四子模块,用于在所述多数分类样本的K近邻样本均为少数分类样本的情况下,将所述多数分类样本从所述建模样本中剔除。
7.根据权利要求5所述的装置,其特征在于,所述确定模块包括:
第五子模块,用于针对每个所述少数分类样本,依据所述少数分类样本的K近邻中多数分类样本的第二总数量,确定所述少数分类样本的K近邻中多数分类样本的第一占比;
第六子模块,用于对所有的所述第一占比进行标准化处理,得到每个所述少数分类样本对应的第一权重值;
第七子模块,用于依据所述第一权重值和所述第一总数量,确定所述少数分类样本对应的待生成样本的第三总数量。
8.根据权利要求5所述的装置,其特征在于,所述生成模块包括:
第十一子模块,用于针对每个所述少数分类样本对应的各所述偏移点,从所述少数分类样本的K近邻样本中选择一个目标少数分类样本;
第十二子模块,用于确定所述偏移点与所述目标少数分类样本的差值;
第十三子模块,用于从预设相似度区间中随机选择一个目标相似度值;
第十四子模块,用于依据所述差值、所述少数分类样本以及所述目标相似度值,生成所述少数分类样本的单个待生成样本。
CN202110105926.7A 2021-01-26 2021-01-26 建模样本生成方法及装置 Active CN112766394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110105926.7A CN112766394B (zh) 2021-01-26 2021-01-26 建模样本生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110105926.7A CN112766394B (zh) 2021-01-26 2021-01-26 建模样本生成方法及装置

Publications (2)

Publication Number Publication Date
CN112766394A CN112766394A (zh) 2021-05-07
CN112766394B true CN112766394B (zh) 2024-03-12

Family

ID=75705845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110105926.7A Active CN112766394B (zh) 2021-01-26 2021-01-26 建模样本生成方法及装置

Country Status (1)

Country Link
CN (1) CN112766394B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法
CN108647727A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类欠采样方法、装置、设备及介质
CN108647728A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类过采样方法、装置、设备及介质
CN109033148A (zh) * 2018-06-11 2018-12-18 广州大学 一种面向多分类的不平衡数据预处理方法、装置及设备
CN111539451A (zh) * 2020-03-26 2020-08-14 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN111598116A (zh) * 2019-02-21 2020-08-28 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201811698UA (en) * 2018-08-09 2020-03-30 Beijing Didi Infinity Technology & Development Co Ltd Systems and methods for allocating orders
US11392846B2 (en) * 2019-05-24 2022-07-19 Canon U.S.A., Inc. Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104766098A (zh) * 2015-04-30 2015-07-08 哈尔滨工业大学 一种分类器的构建方法
CN108647727A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类欠采样方法、装置、设备及介质
CN108647728A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类过采样方法、装置、设备及介质
CN109033148A (zh) * 2018-06-11 2018-12-18 广州大学 一种面向多分类的不平衡数据预处理方法、装置及设备
CN111598116A (zh) * 2019-02-21 2020-08-28 杭州海康威视数字技术股份有限公司 数据分类方法、装置、电子设备及可读存储介质
CN111539451A (zh) * 2020-03-26 2020-08-14 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112766394A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN107678845B (zh) 应用程序管控方法、装置、存储介质及电子设备
Lin et al. Particle swarm optimization for parameter determination and feature selection of support vector machines
US11221681B2 (en) Methods and apparatuses for recognizing dynamic gesture, and control methods and apparatuses using gesture interaction
WO2021155713A1 (zh) 基于权重嫁接的模型融合的人脸识别方法及相关设备
WO2018170454A2 (en) Using different data sources for a predictive model
CN110602120B (zh) 一种面向网络的入侵数据检测方法
CN112101437A (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN113435583A (zh) 基于联邦学习的对抗生成网络模型训练方法及其相关设备
Smelyakov et al. The neural network technologies effectiveness for face detection
EP4343616A1 (en) Image classification method, model training method, device, storage medium, and computer program
CN113051130A (zh) 结合注意力机制的lstm网络的移动云负载预测方法及***
KR101700030B1 (ko) 사전 정보를 이용한 영상 물체 탐색 방법 및 이를 수행하는 장치
CN113869377A (zh) 训练方法、装置及电子设备
CN112766394B (zh) 建模样本生成方法及装置
CN109961163A (zh) 性别预测方法、装置、存储介质及电子设备
CN116665282A (zh) 人脸识别模型训练方法、人脸识别方法及装置
Little et al. A multiscale spectral method for learning number of clusters
CN109872183A (zh) 智能服务评价方法、计算机可读存储介质和终端设备
CN116992937A (zh) 神经网络模型的修复方法和相关设备
CN113409096A (zh) 目标对象识别方法、装置、计算机设备及存储介质
CN113515701A (zh) 信息推荐方法及装置
CN112418441A (zh) 基于迁移学习的数据处理方法、装置、设备及存储介质
CN111797391A (zh) 高风险进程的处理方法、装置、存储介质及电子设备
Cao Intrusion Anomaly Detection Based on Pseudo-Count Exploration
CN113657353B (zh) 公式识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant