CN111582315A - 样本数据处理方法、装置及电子设备 - Google Patents

样本数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN111582315A
CN111582315A CN202010275349.1A CN202010275349A CN111582315A CN 111582315 A CN111582315 A CN 111582315A CN 202010275349 A CN202010275349 A CN 202010275349A CN 111582315 A CN111582315 A CN 111582315A
Authority
CN
China
Prior art keywords
sample
probability
data set
classification
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010275349.1A
Other languages
English (en)
Other versions
CN111582315B (zh
Inventor
李恒奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyu Information and Technology Co Ltd
Original Assignee
Shanghai Qiyu Information and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyu Information and Technology Co Ltd filed Critical Shanghai Qiyu Information and Technology Co Ltd
Priority to CN202010275349.1A priority Critical patent/CN111582315B/zh
Publication of CN111582315A publication Critical patent/CN111582315A/zh
Application granted granted Critical
Publication of CN111582315B publication Critical patent/CN111582315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种样本数据处理方法、装置、电子设备及计算机可读介质。该方法包括:将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;通过带有分类概率的样本集合中的每个样本生成样本概率集合;将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。本公开涉及的样本数据处理方法、装置、电子设备及计算机可读介质,能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题,减少机器学习模型中样本过拟合现象,提高机器学习模型训练效率和模型计算的准确度。

Description

样本数据处理方法、装置及电子设备
技术领域
本公开涉及计算机信息处理领域,具体而言,涉及一种样本数据处理方法、装置、电子设备及计算机可读介质。
背景技术
通常情况下机器学习模型需要对正样本(好样本)和负样本(坏样本)进行学习,正样本是正确分类出的类别所对应的样本,负样本原则上可以选取任何不是正确类别的其他样本。但是对于金融领域或者其他领域而言,正样本的选取是较容易的,比如在金融领域,用户金融风险分析的时候,可将未有过逾期的用户作为正样本,将已经违约的用户作为机器学习模型训练的负样本,但是对于正样本而言,负样本的数量是极少的,这种情况下产生的样本是不均衡的样本。
不均衡的样本,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学***衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率。
不均衡的样本在很多场景中存在,例如欺诈检测,风控识别,在这些样本中,黑样本(一般为存在问题的样本)的数量一般远少于白样本(正常样本)。目前对于不均衡样本处理,主流方法还是从抽样的角度去处理,比如进行欠采样或者过采样来提升坏样本的比例,但是对于抽样方法,会造成过拟合现象;而且采样改变了样本的真实分布,使得学习的模型是有偏的,这种不均衡的样本会给机器学习模型训练引入很多误差数据,最终可能导致训练出来的模型效果不够理想。
因此,需要一种新的样本数据处理方法、装置、电子设备及计算机可读介质。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
有鉴于此,本公开提供一种样本数据处理方法、装置、电子设备及计算机可读介质,能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题,减少机器学习模型中样本过拟合现象,提高机器学习模型训练效率和模型计算的准确度。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提出一种样本数据处理方法,该方法包括:将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;通过带有分类概率的样本集合中的每个样本生成样本概率集合;将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
可选地,还包括:通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型。
可选地,通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型,包括:将所述目标样本数据集合划分为训练数据集合和测试数据集合;基于所述训练数据集合对分布式梯度提升决策树模型进行训练,生成初始用户风险分析模型;以及通过所述测试数据对所述初始用户风险分析模型进行验证,在验证通过后生成所述用户风险分析模型。
可选地,将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,包括:通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型;以及将样本数据集合输入所述分类模型中,生成所述样本数据集合中每个样本的为所述目标分类的分类概率。
可选地,通过带有分类概率的样本集合中的每个样本生成样本概率集合,包括:将样本集合中的每个样本依据其对应的分类概率依次排列;以及确定头部比例和尾部比例;基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,生成所述样本概率集合。
可选地,基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,包括:按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本;为所述头部样本和所述尾部样本分配第一权重;以及为除所述头部样本和所述尾部样本外的其他样本分配第二权重。
可选地,将所述样本概率集合输入采样模型中,生成采样数据集合,包括:将所述样本概率集合输入SMOTE采样模型中,生成所述采样数据集合。
可选地,将所述样本概率集合输入SMOTE采样模型中,生成所述采样数据集合,包括:将所述样本概率集合输入SMOTE采样模型中;确定所述样本概率集合中的少数类样本;以及通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。
可选地,确定所述样本概率集合中的少数类样本,包括:确定所述样本概率集合中的样本概率分布;基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。
可选地,通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合,包括:确定所述少数样本的K个近邻样本,K为大于1的整数;从K个近邻样本中随机选取N个近邻样本,N为大于1的整数;对N个近邻样本进行线性差值以生成采样样本。
根据本公开的一方面,提出一种样本数据处理装置,该装置包括:分类模块;用于将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;概率模块,用于通过带有分类概率的样本集合中的每个样本生成样本概率集合;采样模块,用于将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及数据模块,用于通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
可选地,还包括:训练模块,用于通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型。
可选地,所述训练模块,包括:集合单元,用于将所述目标样本数据集合划分为训练数据集合和测试数据集合;训练单元,用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练,生成初始用户风险分析模型;以及验证单元,用于通过所述测试数据对所述初始用户风险分析模型进行验证,在验证通过后生成所述用户风险分析模型。
可选地,所述分类模块,包括:模型单元,用于通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型;以及计算单元,用于将样本数据集合输入所述分类模型中,生成所述样本数据集合中每个样本的为所述目标分类的分类概率。
可选地,所述概率模块,包括:排列单元,用于将样本集合中的每个样本依据其对应的分类概率依次排列;以及比例单元,用于确定头部比例和尾部比例;权重单元,用于基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,生成所述样本概率集合。
可选地,所述权重单元,还用于按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本;为所述头部样本和所述尾部样本分配第一权重;以及为除所述头部样本和所述尾部样本外的其他样本分配第二权重。
可选地,所述采样模块,还用于将所述样本概率集合输入SMOTE采样模型中,生成所述采样数据集合。
可选地,所述采样模块,包括:输入单元,用于将所述样本概率集合输入SMOTE采样模型中;少数单元,用于确定所述样本概率集合中的少数类样本;以及采样单元,用于通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。
可选地,所述少数单元,还用于确定所述样本概率集合中的样本概率分布;基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。
可选地,采样单元,还用于确定所述少数样本的K个近邻样本,K为大于1的整数;从K个近邻样本中随机选取N个近邻样本,N为大于1的整数;对N个近邻样本进行线性差值以生成采样样本。
根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。
根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。
根据本公开的样本数据处理方法、装置、电子设备及计算机可读介质,将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;通过带有分类概率的样本集合中的每个样本生成样本概率集合;将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合的方式,能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题,减少机器学习模型中样本过拟合现象,提高机器学习模型训练效率和模型计算的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种样本数据处理方法的流程图。
图2是根据一示例性实施例示出的一种样本数据处理方法的流程图。
图3是根据另一示例性实施例示出的一种样本数据处理方法的流程图。
图4是根据另一示例性实施例示出的一种样本数据处理方法的流程图。
图5是根据一示例性实施例示出的一种样本数据处理装置的框图。
图6是根据另一示例性实施例示出的一种样本数据处理装置的框图。
图7是根据一示例性实施例示出的一种电子设备的框图。
图8是根据一示例性实施例示出的一种计算机可读介质的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。
本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。
图1是根据一示例性实施例示出的一种样本数据处理方法的流程图。样本数据处理方法10至少包括步骤S102至S108。
如图1所示,在S102中,将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率。
在一个实施例中,可包括:通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型;以及将样本数据集合输入所述分类模型中,生成所述样本数据集合中每个样本的为所述目标分类的分类概率。
其中,XGBoost(eXtreme Gradient Boosting,极端梯度提升)是一种集成化的梯度提升决策树方法。
原始数据可为某金融网站上已注册的用户数据,为了对模型进行更准确的训练,原始数据可为在某金融网站上已经注册且进行过借款活动的用户,用户的在网时间可为1年以上。可依据用户的金融特征或者违约特征为用户分配标签,具体可例如违约用户和未违约用户,可为违约用户指定正标签,未违约用户指定负标签。将带有标签的用户数据输入极端梯度提升树模型中,经过训练,生成分类模型。
样本数据集合可为某金融网上新注册的用户集合,用户集合具体可为近半年注册的用户或者全体用户等,本公开不以此为限。将样本数据输入已经训练完毕的分类模型中,分类模型经过计算,输出样本数据集合中用户的违约用户或者未违约用户的的分类概率。
在S104中,通过带有分类概率的样本集合中的每个样本生成样本概率集合。
在一个实施例中,可包括:将样本集合中的每个样本依据其对应的分类概率依次排列;以及确定头部比例和尾部比例;基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,生成所述样本概率集合。
更具体的,可按照输出概率排序,可设置不同的比例已确定排序中的头部和尾部数据,头部和尾部数据可为预测不准的样本,更具体的,可将排序中前1%设置为头部数据,后5%设置为尾部数据,将这两部分数据的权重为0.01,不参与后续的采样过程。其余样本权重设置为1为正常样本,参与后续采样过程。
“通过带有分类概率的样本集合中的每个样本生成样本概率集合”的详细内容将在图3对应的实施例中进行详细说明。
在S106中,将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据。
在一个实施例中,可包括:将所述样本概率集合输入SMOTE采样模型中;确定所述样本概率集合中的少数类样本;以及通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。
可例如,使用SMOTE算法对权重为1的样本进行采样,生成新的坏样本与原始数据集混合提升坏样本占比。
在一个实施例中,确定所述样本概率集合中的少数类样本,包括:确定所述样本概率集合中的样本概率分布;基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。
其中,通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合,包括:确定所述少数样本的K个近邻样本,K为大于1的整数;从K个近邻样本中随机选取N个近邻样本,N为大于1的整数;对N个近邻样本进行线性差值以生成采样样本。
“将所述样本概率集合输入采样模型中,生成采样数据集合”的详细内容将在图4对应的实施例中进行详细说明。
在S108中,通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
采样数据集合中包含的是对当前少数样本进行采样生成的其他少数样本,在一个实施例中,采样样本可为本公开中的负样本,将通过采样生成的负样本和当前已有的样本数据集合进行合并,以生成样本数据集合。新生成的目标样本数据集合中包含的负样本数较原有的样本集合中的样本数多。
根据本公开的样本数据处理方法,将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;通过带有分类概率的样本集合中的每个样本生成样本概率集合;将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合的方式,能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题,减少机器学习模型中样本过拟合现象,提高机器学习模型训练效率和模型计算的准确度。
应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。
图2是根据一示例性实施例示出的一种样本数据处理方法的流程图。样本数据处理方法20是对样本数据处理方法10的补充说明。
如图2所示,在S202中,将所述目标样本数据集合划分为训练数据集合和测试数据集合。在使用目标样本数据集合训练模型之前,需要先将整个数据集分为训练集、测试集。训练集是用来训练模型的,通过尝试不同的方法和思路使用训练集来训练不同的模型,再通过测试集验证使用交叉验证来挑选最优的模型,通过不断的迭代来改善模型在验证集上的性能,还可通过测试集来评估模型的性能。
在S204中,基于所述训练数据集合对分布式梯度提升决策树模型进行训练,生成初始用户风险分析模型。LightGBM(Light Gradient Boosting Machine,分布式梯度提升决策树)是一种基于决策树算法的分布式梯度提升框架。
lightGBM主要有以下特点:基于Histogram的决策树算法;带深度限制的Leaf-wise的叶子生长策略;直方图做差加速;直接支持类别特征(Categorical Feature);Cache命中率优化;基于直方图的稀疏特征优化;多线程优化。
在S206中,通过所述测试数据集合对所述初始用户风险分析模型进行验证,在验证通过后生成所述用户风险分析模型。
测试数据集合存在就是为了对超参数的选择,因为训练集已经决定了参数了,再由训练集得出超参数,很容易造成过拟合,所以需要一个独立于训练集的数据,以对模型进行验证。
图3是根据另一示例性实施例示出的一种样本数据处理方法的流程图。图3所示的流程是对图1所示的流程中104“通过带有分类概率的样本集合中的每个样本生成样本概率集合”的详细描述。
如图3所示,在S302中,将样本集合中的每个样本依据其对应的分类概率依次排列。
在S304中,确定头部比例和尾部比例。头部比例可为1%,尾部比例可为5%。
在S306中,按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本。即为,在样本序列中,前1%排序的样本被定义为头部样本,后5%的样本被定义为尾部样本。
在S308中,基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,生成所述样本概率集合;包括:为所述头部样本和所述尾部样本分配第一权重;为除所述头部样本和所述尾部样本外的其他样本分配第二权重。
更具体的,可为头部和尾部样本分配较小的权重,可为0.01,其余样本分配权重较大,可为1。较小的权重在后续的计算中,产生的作用较小,有利于后续计算。
图4是根据另一示例性实施例示出的一种样本数据处理方法的流程图。图4所示的流程是对图1所示的流程中S108“将所述样本概率集合输入采样模型中,生成采样数据集合”的详细描述。
如图4所示,在S402中,将所述样本概率集合输入SMOTE采样模型中。
在S404中,确定所述样本概率集合中的样本概率分布。
在S406中,基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。
在S408中,通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。
在一个实施例中,可包括:确定所述少数样本的K个近邻样本,K为大于1的整数;从K个近邻样本中随机选取N个近邻样本,N为大于1的整数;对N个近邻样本进行线性差值以生成采样样本。
SMOTE算法的思想是合成新的少数类样本,合成的策略是对每个少数类样本a,从它的最近邻中随机选一个样本b,然后在a、b之间的连线上随机选一点作为新合成的少数类样本。
SMOTE算法流程可如下:
1、对于少数类中每一个样本a,以欧氏距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
2、根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本a,从其k近邻中随机选择若干个样本,假设选择的近邻为b。
3、对于每一个随机选出的近邻b,分别与原样本a按照如下的公式构建新的样本:c=a+rand(0,1)*|a-b|。
在一个实施例中,为了对目标样本的计算效率进行对比,可同时在原始数据集上也使用LightGBM建模,将利用原始数据和目标样本集合对LightGBM训练的结果进行对比。
比较结果发现:在原始数据训练集上AUC为0.71,测试集AUC为0.67;在选择性抽样数据训练集上AUC为0.73,测试集上为0.71;因此,通过选择性的选取样本进行SMOTE抽样,模型效果有一定的提升,而且没有出现严重的过拟合现象。
其中,AUC是ROC(接受者操作特征曲线)曲线下方面积。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(敏感性)为纵坐标,假阳性率(1-特异性)为横坐标绘制的曲线。AUC的大小是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率。
在一个实施例中,部分模型的参数如下:
XGBoost:
learning_rate=0.1;gamma=0;subsample=0.8;
n_estimators=110;max_depth=2;min_child_weight=1;
colsample_bytree=0.8;objective=binary:logistic;
nthread=4;seed=42。
LightGBM:
boosting_type=’gbdt’;objective=’binary’;
metric=’auc’;learning_rate=0.1;
n_estimators=80;max_depth=1;
num_leaves=25;max bin=40;
min_child_weight=2;bagging_fraction=0.6;
bagging_freq=0;feature_fraction=0.8。
本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图5是根据一示例性实施例示出的一种样本数据处理装置的框图。如图5所示,样本数据处理装置50包括:分类模块502,概率模块504,采样模块506,数据模块508。
分类模块502,用于将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;所述分类模块502包括:模型单元,用于通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型;以及计算单元,用于将样本数据集合输入所述分类模型中,生成所述样本数据集合中每个样本的为所述目标分类的分类概率。
概率模块504用于通过带有分类概率的样本集合中的每个样本生成样本概率集合;所述概率模块504包括:排列单元,用于将样本集合中的每个样本依据其对应的分类概率依次排列;以及比例单元,用于确定头部比例和尾部比例;权重单元,用于基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,生成所述样本概率集合。所述权重单元,还用于按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本;为所述头部样本和所述尾部样本分配第一权重;以及为除所述头部样本和所述尾部样本外的其他样本分配第二权重。
采样模块506用于将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;所述采样模块506还用于将所述样本概率集合输入SMOTE采样模型中,生成所述采样数据集合。
所述采样模块506包括:输入单元,用于将所述样本概率集合输入SMOTE采样模型中;
所述采样模块506包括:少数单元,用于确定所述样本概率集合中的少数类样本;以及所述少数单元,还用于确定所述样本概率集合中的样本概率分布;基于所述样本概率分布由所述样本概率集合中确定所述少数类样本。
所述采样模块506包括:采样单元,用于通过近邻算法基于所述少数样本生成采样样本以生成所述采样数据集合。所述采样单元,还用于确定所述少数样本的K个近邻样本,K为大于1的整数;从K个近邻样本中随机选取N个近邻样本,N为大于1的整数;对N个近邻样本进行线性差值以生成采样样本。
数据模块508用于通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
图6是根据另一示例性实施例示出的一种样本数据处理装置的框图。如图6所示,样本数据处理装置60包括:训练模块602,训练模块602还可包括:集合单元6022,训练单元6024,验证单元6026。
训练模块602用于通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型。
集合单元6022用于将所述目标样本数据集合划分为训练数据集合和测试数据集合;
训练单元6024用于基于所述训练数据集合对分布式梯度提升决策树模型进行训练,生成初始用户风险分析模型;以及
验证单元6026用于通过所述测试数据对所述初始用户风险分析模型进行验证,在验证通过后生成所述用户风险分析模型。
根据本公开的样本数据处理装置,将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;通过带有分类概率的样本集合中的每个样本生成样本概率集合;将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合的方式,能够在机器学习模型训练的过程中解决训练样本中正负样本数量不均衡的问题,减少机器学习模型中样本过拟合现象,提高机器学习模型训练效率和模型计算的准确度。
图7是根据一示例性实施例示出的一种电子设备的框图。
下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:至少一个处理单元710、至少一个存储单元720、连接不同***组件(包括存储单元720和处理单元710)的总线730、显示单元740等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元710可以执行如图1,图2,图3,图4中所示的步骤。
所述存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)7201和/或高速缓存存储单元7202,还可以进一步包括只读存储单元(ROM)7203。
所述存储单元720还可以包括具有一组(至少一个)程序模块7205的程序/实用工具7204,这样的程序模块7205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备700’(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器760可以通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,如图8所示,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。
所述软件产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能:将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;通过带有分类概率的样本集合中的每个样本生成样本概率集合;将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。
以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (10)

1.一种样本数据处理方法,其特征在于,包括:
将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;
通过带有分类概率的样本集合中的每个样本生成样本概率集合;
将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及
通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
2.如权利要求1所述的方法,其特征在于,还包括:
通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型。
3.如权利要求1-2中任一所述的方法,其特征在于,通过所述目标样本数据集合对机器学习模型进行训练,生成用户风险分析模型,包括:
将所述目标样本数据集合划分为训练数据集合和测试数据集合;
基于所述训练数据集合对分布式梯度提升决策树模型进行训练,生成初始用户风险分析模型;以及
通过所述测试数据对所述初始用户风险分析模型进行验证,在验证通过后生成所述用户风险分析模型。
4.如权利要求1-3中任一所述的方法,其特征在于,将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,包括:
通过带有目标分类标识标签的原始数据对所述极端梯度提升决策树模型进行训练生成所述分类模型;以及
将样本数据集合输入所述分类模型中,生成所述样本数据集合中每个样本的为所述目标分类的分类概率。
5.如权利要求1-4中任一所述的方法,其特征在于,通过带有分类概率的样本集合中的每个样本生成样本概率集合,包括:
将样本集合中的每个样本依据其对应的分类概率依次排列;以及
确定头部比例和尾部比例;
基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,生成所述样本概率集合。
6.如权利要求1-5中任一所述的方法,其特征在于,基于所述头部比例和所述尾部比例为所述样本集合中的每个样本分配权重,包括:
按照所述头部比例和所述尾部比例分别提取所述头部样本和所述尾部样本;
为所述头部样本和所述尾部样本分配第一权重;以及
为除所述头部样本和所述尾部样本外的其他样本分配第二权重。
7.如权利要求1-6中任一所述的方法,其特征在于,将所述样本概率集合输入采样模型中,生成采样数据集合,包括:
将所述样本概率集合输入SMOTE采样模型中,生成所述采样数据集合。
8.一种样本数据处理装置,其特征在于,包括:
分类模块,用于将样本数据集合输入分类模型中,生成所述样本数据集合中每个样本的分类概率,其中,所述分类概率用于标识所述样本为目标分类的概率;
概率模块,用于通过带有分类概率的样本集合中的每个样本生成样本概率集合;
采样模块,用于将所述样本概率集合输入采样模型中,生成采样数据集合,所述采样数据集合中包括多个采样数据;以及
数据模块,用于通过所述采样数据集合和所述样本数据集合生成目标样本数据集合。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010275349.1A 2020-04-09 2020-04-09 样本数据处理方法、装置及电子设备 Active CN111582315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010275349.1A CN111582315B (zh) 2020-04-09 2020-04-09 样本数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010275349.1A CN111582315B (zh) 2020-04-09 2020-04-09 样本数据处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111582315A true CN111582315A (zh) 2020-08-25
CN111582315B CN111582315B (zh) 2023-11-14

Family

ID=72124313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010275349.1A Active CN111582315B (zh) 2020-04-09 2020-04-09 样本数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111582315B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529112A (zh) * 2020-12-29 2021-03-19 中国地质科学院地质力学研究所 一种矿物识别的方法和装置
WO2022121032A1 (zh) * 2020-12-10 2022-06-16 广州广电运通金融电子股份有限公司 一种在联邦学习场景下的数据集划分方法及***
CN115544902A (zh) * 2022-11-29 2022-12-30 四川骏逸富顿科技有限公司 药店风险等级识别模型生成方法及药店风险等级识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496061A (zh) * 2011-11-25 2012-06-13 河海大学 基于主动学习的神经网络样本选择方法及其装置
US20150193431A1 (en) * 2013-03-12 2015-07-09 Iowa State University Research Foundation, Inc. Systems and methods for recognizing, classifying, recalling and analyzing information utilizing ssm sequence models
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN108345904A (zh) * 2018-01-26 2018-07-31 华南理工大学 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网***人信用评价方法
CN109635034A (zh) * 2018-11-08 2019-04-16 北京字节跳动网络技术有限公司 训练数据重采样方法、装置、存储介质及电子设备
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN110567720A (zh) * 2019-08-07 2019-12-13 东北电力大学 非平衡小样本场景下风机轴承故障深度对抗诊断方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496061A (zh) * 2011-11-25 2012-06-13 河海大学 基于主动学习的神经网络样本选择方法及其装置
US20150193431A1 (en) * 2013-03-12 2015-07-09 Iowa State University Research Foundation, Inc. Systems and methods for recognizing, classifying, recalling and analyzing information utilizing ssm sequence models
CN107341497A (zh) * 2016-11-11 2017-11-10 东北大学 结合选择性升采样的不均衡数据流加权集成分类预测方法
CN108345904A (zh) * 2018-01-26 2018-07-31 华南理工大学 一种基于随机敏感度采样的不平衡数据的集成学习算法
CN109325844A (zh) * 2018-06-25 2019-02-12 南京工业大学 多维数据下的网***人信用评价方法
CN109635034A (zh) * 2018-11-08 2019-04-16 北京字节跳动网络技术有限公司 训练数据重采样方法、装置、存储介质及电子设备
CN110263697A (zh) * 2019-06-17 2019-09-20 哈尔滨工业大学(深圳) 基于无监督学习的行人重识别方法、装置及介质
CN110567720A (zh) * 2019-08-07 2019-12-13 东北电力大学 非平衡小样本场景下风机轴承故障深度对抗诊断方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
YONG FANG ET AL: "Credit Card Fraud Detection Based on Machine Learning", 《COMPUTERS, MATERIALS & CONTINUA》 *
YONG FANG ET AL: "Credit Card Fraud Detection Based on Machine Learning", 《COMPUTERS, MATERIALS & CONTINUA》, 31 December 2019 (2019-12-31), pages 1 - 5 *
孙晓燕: "不平衡数据集分类问题研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
孙晓燕: "不平衡数据集分类问题研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, 15 August 2012 (2012-08-15), pages 5 *
陈圣灵: "面向工业大数据的不平衡数据处理方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
陈圣灵: "面向工业大数据的不平衡数据处理方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, 15 February 2020 (2020-02-15), pages 3 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022121032A1 (zh) * 2020-12-10 2022-06-16 广州广电运通金融电子股份有限公司 一种在联邦学习场景下的数据集划分方法及***
CN112529112A (zh) * 2020-12-29 2021-03-19 中国地质科学院地质力学研究所 一种矿物识别的方法和装置
CN112529112B (zh) * 2020-12-29 2021-10-08 中国地质科学院地质力学研究所 一种矿物识别的方法和装置
CN115544902A (zh) * 2022-11-29 2022-12-30 四川骏逸富顿科技有限公司 药店风险等级识别模型生成方法及药店风险等级识别方法

Also Published As

Publication number Publication date
CN111582315B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN111582315B (zh) 样本数据处理方法、装置及电子设备
CN112270546A (zh) 基于stacking算法的风险预测方法、装置和电子设备
CN113344700B (zh) 一种基于多目标优化的风控模型构建方法、装置和电子设备
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN111583017A (zh) 基于客群定位的风险策略生成方法、装置及电子设备
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN111199469A (zh) 用户还款模型生成方法、装置及电子设备
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN117236278B (zh) 一种基于数字孪生技术的芯片生产仿真方法及***
CN111861521A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN112420125A (zh) 分子属性预测方法、装置、智能设备和终端
CN112783513B (zh) 一种代码风险检查方法、装置及设备
CN114519508A (zh) 基于时序深度学习和法律文书信息的信用风险评估方法
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN111582313B (zh) 样本数据生成方法、装置及电子设备
CN111582647A (zh) 用户数据处理方法、装置及电子设备
CN113919432A (zh) 一种分类模型构建方法、数据分类方法及装置
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN111553685B (zh) 确定交易路由通道的方法、装置、电子设备和存储介质
CN111582649B (zh) 基于用户app独热编码的风险评估方法、装置和电子设备
CN111310931A (zh) 参数生成方法、装置、计算机设备及存储介质
CN113127342B (zh) 基于电网信息***特征选择的缺陷预测方法及装置
CN106485286B (zh) 一种基于局部敏感判别的矩阵分类模型
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN107291722B (zh) 一种描述词的分类方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant