CN112200271A - 一种训练样本确定方法、装置、计算机设备及存储介质 - Google Patents

一种训练样本确定方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112200271A
CN112200271A CN202011288666.3A CN202011288666A CN112200271A CN 112200271 A CN112200271 A CN 112200271A CN 202011288666 A CN202011288666 A CN 202011288666A CN 112200271 A CN112200271 A CN 112200271A
Authority
CN
China
Prior art keywords
target
training
sample
samples
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011288666.3A
Other languages
English (en)
Inventor
熊伟灼
杨青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Shanghai Youyang New Media Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youyang New Media Information Technology Co ltd filed Critical Shanghai Youyang New Media Information Technology Co ltd
Priority to CN202011288666.3A priority Critical patent/CN112200271A/zh
Publication of CN112200271A publication Critical patent/CN112200271A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种训练样本确定方法、装置、计算机设备及存储介质,通过确定训练样本集中每个训练样本降维处理后的目标训练样本;并获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,参考样本晚于训练样本;以及根据至少一个目标参考样本簇对所有目标训练样本进行聚类处理得到分别与每个目标参考样本簇对应的目标训练样本簇;进而按照比例信息分别从每个目标训练样本簇中确定用于模型训练的目标训练样本的方式,解决了因为训练模型和使用模型的时间差造成的模型效果衰减的情况,同时通过抽样可以减少用于对模型进行训练的训练样本的数量从而加快模型训练速度。

Description

一种训练样本确定方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种训练样本确定方法、装置、计算机设备及存储介质。
背景技术
一般来说模型建模的过程参见图1,其主要涉及到数据获取、样本筛选、数据清洗、特征工程和模型建立这5个步骤。
现有技术中,样本筛选会根据业务逻辑从数据中筛选出所有可以用到的训练样本进行机器学习建模,因为统计学建模本质也是对模型的参数估计,而针对参数估计问题训练样本量越大,参数估计误差可能越小,参数估计准确的可能性越大。
但是由于上述结论依赖于训练样本独立一致分布的假设,而该假设在实际情况中可能并不满足,这样往往造成模型表现下降的问题。并且,随着业务量的积累,使用的训练样本量会逐步增大,导致模型的训练时间较长。
发明内容
有鉴于此,为解决上述问题,本发明提供一种训练样本确定方法、装置、计算机设备及存储介质,以降低模型表现衰减的情况、提高模型训练效率。技术方案如下:
一种训练样本确定方法,包括:
确定训练样本集中每个训练样本降维处理后的目标训练样本;
获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,所述比例信息表征所述至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇中目标参考样本数量的比例,所述参考样本晚于所述训练样本;
根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇;
按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本。
优选的,所述确定训练样本集中每个训练样本降维处理后的目标训练样本,包括:
确定由多个训练样本构成的训练样本集,所述训练样本指示用户的多个维度特征;
对所述训练样本指示的多个维度特征进行特征分类得到所述训练样本指示的至少一个特征组,不同的特征组属于不同的特征类别;一个维度特征仅属于一个特征组;
将所述特征组输入至预训练的与所述特征组所属特征类别对应的特征信息确定模型得到用于表征所述特征组的特征信息;
其中,所述训练样本指示的至少一个特征组的特征信息构成所述训练样本降维处理后的目标训练样本。
优选的,与目标特征类别对应的特征信息确定模型的生成过程包括:
确定用于训练特征信息确定模型的第一样本;
对所述第一样本指示的多个维度特征进行特征分类得到所述第一样本指示的至少一个特征组;
根据所述第一样本指示的属于所述目标特征类别的特征组生成第二样本;
利用所述第二样本对待训练特征信息确定模型进行训练生成与所述目标特征类别对应的特征信息确定模型。
优选的,所述获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,包括:
确定参考样本集中每个参考样本降维处理后的目标参考样本;
对所有所述目标参考样本进行聚类处理得到至少一个目标参考样本簇;
根据各个所述目标参考样本簇中的目标参考样本数量生成比例信息。
优选的,所述根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇,包括:
计算所述目标训练样本分别与所述至少一个目标参考样本簇中每个目标参考样本簇的中心点之间的距离;
根据所述目标训练样本分别与所述至少一个目标参考样本簇中每个所述目标参考样本簇的中心点之间的距离,确定所述目标训练样本所属的目标参考样本簇;
将属于同一目标参考样本簇的所有目标训练样本确定为一个与所述目标参考样本簇对应的目标训练样本簇。
优选的,所述按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本,包括:
依据所述比例信息根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量;
按照距离所述目标训练样本簇的中心点的距离由近及远的顺序,从所述目标训练样本簇中抽取所述目标训练样本簇的抽样数量的目标训练样本。
优选的,所述依据所述比例信息根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量,包括:
确定每个所述目标训练样本簇中目标训练样本数量;
根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量;
其中,第一目标训练样本簇的抽取数量和第二目标训练样本簇的抽样数量之间的比例与所述比例信息表征的所述第一目标训练样本簇对应的目标参考样本簇中目标参考样本数量和所述第二目标训练样本簇对应的目标参考样本簇中目标参考样本数量的比例相同。
一种训练样本确定装置,包括:
目标训练样本确定单元,用于确定训练样本集中每个训练样本降维处理后的目标训练样本;
目标参考样本簇确定单元,用于获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,所述比例信息表征所述至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇中目标参考样本数量的比例,所述参考样本晚于所述训练样本;
目标训练样本簇确定单元,用于根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇;
样本抽样单元,用于按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本。
一种计算机设备,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现所述训练样本确定方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器加载并执行,实现所述训练样本确定方法的各步骤。
本申请实施例提供一种训练样本确定方法、装置、计算机设备及存储介质,通过确定训练样本集中每个训练样本降维处理后的目标训练样本;并获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,参考样本晚于训练样本;以及根据至少一个目标参考样本簇对所有目标训练样本进行聚类处理得到分别与每个目标参考样本簇对应的目标训练样本簇;进而按照比例信息分别从每个目标训练样本簇中确定用于模型训练的目标训练样本的方式,实现了对训练样本集和参考样本集的相似程度的度量,并通过从训练样本集中抽样用于模型训练的目标训练样本,保证了模型训练和模型应用时的客群分布的一致性,从而解决了因为训练模型和使用模型的时间差造成模型效果衰减的情况,同时通过抽样可以减少真正的训练集的数量从而加快模型训练速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种模型建模过程示意图;
图2为本申请实施例提供的一种简单高效的建模流程示意图;
图3为本申请实施例提供的一种训练样本确定方法流程图;
图4为本申请实施例提供的一种特征信息确定模型生成方法流程图;
图5为本申请实施例提供的一种Kmeans聚类样例示意图;
图6为本申请实施例提供的一种训练样本集的训练样本分布示意图;
图7为本申请实施例提供的一种抽样后的目标训练样本示意图;
图8为本申请实施例提供的一种训练样本确定装置的结构示意图;
图9为本申请实施例提供的计算机设备的一种实现方式的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术,在确定训练样本时,通常会根据业务逻辑从数据中筛选出所有可以用到的训练样本进行机器学习建模以生成模型,基于训练样本独立一致分布的假设,训练样本越多,对模型的训练效果越好。
然而,随着训练样本的增多,模型的训练时间越来越长。并且,独立一致分布的假设在实际情况中可能并不满足,这样往往造成模型表现下降的问题。
尤其是对于长周期模型而言,由于长周期模型需要用实际用户表现来评估模型效果,用于建立模型的训练样本的时间范围距离模型实际线上表现的观测之间有较长的时间差,模型真实应用时的客群和用于训练模型的客群(训练样本)可能有一定偏差,由此往往造成模型表现衰减。
举例说明,长周期模型可以为风控模型,数据可能需要经过至少一年的观测才可以作为用于对风控模型训练的训练样本,这样,若在2020.05.05训练风控模型,则训练样本至少为2019.05.05以前的数据,而训练出的风控模型实际是应用于对2020.05.05之后的数据的风险控制和风险提示,2020.05.05之后的数据和2019.05.05之前的数据之间存在一定偏差,往往造成风控模型对2020.050.05之后的数据的风险控制和风险提示表现衰减的情况。
由此,本申请实施例提一种训练样本确定方法、装置、计算机设备及存储介质,解决长周期模型应用和长周期模型建立存在时间差造成长周期模型表现衰减的问题,通过对训练样本集进行采样,保证用于训练长周期模型的客群和长周期模型真实应用时的客群分布一致,降低长周期模型表现衰减的情况;同时通过对训练样本的筛选,减小了训练样本数量,加快了长周期模型训练速度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在对本申请实施例提供的一种训练样本确定方法进行详细说明之前,先对本申请提供的训练样本确定方法所应用到的技术术语进行介绍。
XGB,一种集成学习算法
Kmeans,一种无监督分类算法
OOT集合,不可用于模型训练的数据集合,数据集合时间序列晚于用于模型训练的训练样本集。
本申请提出简单高效的建模流程参见图2,通过将用户的所有特征(上万维)分为几个大类,如信用类特征,欺诈类特征,兴趣类特征等,然后用XGB模型进行机器学习建模,每类特征建立一个子模型(特征信息确定模型),之后使用OOT集合做同样预处理(分类加用之前训练好的XGB子模型确定特征信息)后训练无监督分类模型,最后按照每个类别的比例从训练样本集中同比例抽样形成新的训练样本集。
下面对本申请实施例提供的一种训练样本确定方法流程图进行详细说明,具体请参见图3。
如图3所示,该方法包括:
S301、确定训练样本集中每个训练样本降维处理后的目标训练样本;
本申请实施例中,训练样本集由多个训练样本构成,训练样本指示用户的多个维度特征。以一个训练样本为例,对该训练样本指示的多个维度特征进行特征分类得到该训练样本指示的至少一个特征组(不同的特征组属于不同的特征类别,一个维度特征仅属于一个特征组);针对该训练样本指示的每个特征组,将该特征组输入至预训练的与该特征组所属特征类别对应的特征信息确定模型得到用于表征该特征组的特征信息。相应的,该训练样本指示的所有特征组的特征信息构成该训练样本降维处理后的目标训练样本。
示例性的,一个训练样本指示一个用户的特征,对一个用户的特征表征的维度有上万维,如用X表征一个用户的特征。
Figure BDA0002783201150000071
其中,X为一个用户的特征,x(m)为用户在第m个维度的特征,用户的特征X由用户在第1-m个维度上特征的集合构成,m为大于等于1的正整数。
一个训练样本包括一个用户在多个维度上的特征,该用户在每个维度上的特征均可以认为是训练样本指示的该用户的一个维度特征,这样,该训练样本指示该用户的多个维度特征。
预先设置多个特征类别,以及针对每个特征类别,预先设置该特征类别和维度的对应关系,一个特征类别可以对应一个或多个维度,一个维度仅对应一个特征类别。示例性的,特征类别可以为信用类特征、欺诈类特征、兴趣类特征等。
确定训练样本指示的用户的多个维度特征,从多个维度特征中确定所属维度对应同一特征类别的维度特征为一个特征组。这样,可以达到对训练样本指示的多个维度特征进行特征分类得到训练样本指示的各个特征组的目的,该将训练样本指示的各个特征组称为该训练样本指示的至少一个特征组。
示例性的,针对训练样本指示的至少一个特征组中的每个特征组,确定该特征组对应的特征类别,将该特征组输入至预训练的与所确定的特征类别对应的特征信息确定模型得到该特征组的特征组信息。这样,该训练样本指示的至少一个特征组的特征组信息构成目标训练样本,该目标训练样本可以认为是该训练样本的降维处理结果。
本申请实施例,针对每个特征类别,预先设置有与该特征类别对应的特征信息确定模型,不同的特征类别对应不同的特征信息确定模型。
图4为本申请实施例提供的一种特征信息确定模型生成方法流程图。
如图4所示,该方法包括:
S401、确定用于训练特征信息确定模型的第一样本;
本申请实施例,获取用于训练特征信息确定模型的第一样本,一个第一样本指示一个用户的特征,且第一样本中用于表征用户的特征的维度与上述训练样本中用于表征用户的特征的维度相同。相应的,第一样本也指示用户的多个维度特征。
S402、对第一样本指示的多个维度特征进行特征分类得到第一样本指示的至少一个特征组;
示例性的,对第一样本指示的多个维度特征进行特征分类得到第一样本指示的至少一个特征组,对第一样本指示的多个维度特征进行特征分类的方式请参照上文对训练样本指示的多个维度特征进行特征分类的描述,在此不做详细说明。
S403、根据第一样本指示的属于目标特征类别的特征组生成第二样本;
确定待生成的特征信息确定模型对应的特征类别,为了便于区分,本申请实施例将待生成的特征信息确定模型对应的特征类别称为目标特征类别。这样,根据第一样本指示的属于目标特征类别的特征组生成第二样本。
S404、利用第二样本对待训练特征信息确定模型进行训练生成与目标特征类别对应的特征信息确定模型。
本申请实施例中,以待训练特征信息确定模型对第二样本的特征信息的预测结果趋近于第二样本携带的目标特征信息为目标,对待训练特征信息确定模型进行训练,以生成与目标特征类别对应的特征信息确定模型。
示例性的,特征信息确定模型可以为XGB模型,将特征组输入至特征信息确定模型最终会输出一个0-1的数值。每个特征类别会有一个0-1的数值输出,从而将训练样本X(一个用户上万维的特征)降低到一个低维的向量,其中向量的维度由特征类别的个数确定如Xnew(n<<m),Xnew为训练样本X降维处理得到的目标训练样本。
Figure BDA0002783201150000081
S302、获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,比例信息表征不同的目标参考样本簇中目标参考样本数量的比例,参考样本晚于训练样本;
本申请实施例,确定参考样本集,参考样本集可以认为是上述OOT集合,参考样本集中的样本可以称为参考样本,参考样本不用于进行模型训练,并且,参考样本的产生时间晚于训练样本的产生时间,且参考样本的产生时间早于训练完成的模型的真实应用时间。
一个参考样本指示一个用户的特征,且参考样本中用于表征用户的特征的维度与上述训练样本中用于表征用户的特征的维度相同。相应的,参考样本也指示用户的多个维度特征。
针对参考样本集中每个参考样本,对该参考样本进行降维处理得到目标参考样本,这样,针对参考样本集中每个参考样本均可以得到一个目标参考样本,针对所有的目标参考样本进行聚类处理得到至少一个目标参考样本簇和比例信息,比例信息表征至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇的目标参考样本数量的比例。其中,第一参考样本簇为至少一个目标参考样本簇中的任意一个目标参考样本簇,第二参考样本簇也为至少一个目标参考样本簇中的目标参考样本簇,但第二参考样本簇不同于第一参考样本簇。
以至少一个目标参考样本簇包括3个目标参考样本簇,这3个目标参考样本簇分别为目标参考样本簇1、目标参考样本簇2和目标参考样本簇3为例,确定目标参考样本簇1中目标参考样本数量(目标参考样本数量1)、目标参考样本簇2中目标参考样本数量(目标参考样本数量2)、目标参考样本簇3中目标参考样本数量(目标参考样本数量3),则比例信息可以为目标参考样本数量1:目标参考样本数量2:目标参考样本数量3。
示例性的,在对训练样本集中每个训练样本进行降维处理得到训练样本X降维处理后的目标训练样本Xnew后,选取OOT集合,对OOT集合中的参考样本进行降维处理得到目标参考样本,然后使用Kmeans聚类将OOT集合中目标参考样本进行聚类得到聚类结果,聚类结果可以认为是Kmeans模型。聚类的目标是将所有目标参考样本分配到k个簇C=C1,C2…Ck,每个簇可以称为一个目标参考样本簇。每个簇的中心点为μi
Figure BDA0002783201150000101
X为每一个参考样本的向量表征,μi为每个目标参考样本簇中心的向量表征。
图5为Kmeans聚类样例,其中所有目标参考样本被分为四个目标参考样本簇C1,C2,C3,C4,四个目标参考样本簇的中心点分别为μ1(-1,-1),μ2(0,0),μ3(1,1),μ4(2,2),可以看到被分配到C3,C4这两个目标参考样本簇的目标参考样本的数量明显多于另外两个目标参考样本簇。
S303、根据至少一个目标参考样本簇对所有目标训练样本进行聚类处理得到分别与每个目标参考样本簇对应的目标训练样本簇;
示例性的,使用目标训练样本,用上一步训练好的Kmeans模型进行预测,将所有目标训练样本如xi分到K个目标参考样本簇,方法是计算xi到各个目标参考样本簇的距离,距离最小值为该目标训练样本所属的目标参考样本簇。
prediction(xi)=min[dist(xi,C1),dist(xi,C2),...,dist(xi,Ck)],其中,dist(xi,Ck)为目标训练样本xi到第K个目标参考样本簇的距离,prediction(xi)表征从各个目标参考样本簇中选取距离目标训练样本xi最近的目标参考样本簇,该选取的目标参考样本簇可以认为是目标训练样本所属的目标参考样本簇。
需要说明的是,可以将目标训练样本和目标参考样本簇的中心点之间的距离认为是目标训练样本簇和目标参考样本簇之间的距离。
这样,针对每个目标参考样本簇,可以由属于该目标参考样本簇的所有目标训练样本构成与该目标参考样本簇对应的目标训练样本簇。
S304、按照比例信息分别从每个目标训练样本簇中确定用于模型训练的目标训练样本。
本申请实施例提供的一种按照比例信息分别从每个目标训练样本簇中确定用于长周期模型训练的目标训练样本的方式可以为:依据比例信息根据各个目标训练样本簇中目标训练样本数量分别确定每个目标训练样本簇的抽样数量;按照距离目标训练样本簇的中心点的距离由近及远的顺序,从目标训练样本簇中抽取目标训练样本簇的抽样数量的目标训练样本。
示例性的,依据比例信息根据各个目标训练样本簇中目标训练样本数量分别确定每个目标训练样本簇的抽样数量,包括:确定每个目标训练样本簇中目标训练样本数量;根据各个目标训练样本簇中目标训练样本数量分别确定每个目标训练样本簇的抽样数量;其中,第一目标训练样本簇的抽取数量和第二目标训练样本簇的抽样数量之间的比例与比例信息表征的第一目标训练样本簇对应的目标参考样本簇中目标参考样本数量和第二目标训练样本簇对应的目标参考样本簇中目标参考样本数量的比例相同。
训练样本集的训练样本分布可以看图6,可以看到训练样本集的目标训练样本进行聚类后得到的四个目标训练样本簇分配的比较均匀,与OOT集合差异较大。由于OOT集合每个目标参考样本簇的比例和训练样本分配到每个目标训练样本簇的比例是不一致的,所以需要确保训练样本集不同目标训练样本簇中目标训练样本的比例与OOT集合比例一致。方法是按照同样的比例从训练样本集的所有目标训练样本中进行抽样,抽样的优先级是距离目标参考样本簇的中心点从近到远。
以目标训练样本簇C1为例,该目标训练样本簇可以表示为:
Figure BDA0002783201150000111
其中,
Figure BDA0002783201150000112
可以认为是属于目标训练样本簇C1的目标训练样本xn和目标训练样本簇C1之间的距离,这样,从目标训练样本簇C1中抽取目标训练样本时,优先从目标训练样本簇C1中抽取距离目标训练样本簇C1距离近的目标训练样本。
当发现某一个目标训练样本簇中目标训练样本的数量少于所需抽样数量时,减少其他目标训练样本簇中抽样数量绝对值,从而保证从各个目标训练样本簇中抽取的目标训练样本数量的比例与OOT集合一致。抽样后的目标训练样本可见图7,由图7可以看到抽样后的目标训练样本构成的各个目标训练样本簇中目标训练样本数量的比例基本和OOT集合保持一致。
需要说明的是,还有其他特性信息确定模型和无监督模型建立的方法,该方法普适性较高,所有有监督分类都可以用来训练特性信息确定模型,如逻辑回归吗,决策树,随机森林等,而无监督模型的聚类可以使用t-sne,dbscan等。
本申请实施例,确定用于模型训练的目标训练样本后,可以根据确定的目标训练样本进行模型训练以生成模型,进而真实应用所生成的模型进行预测。若根据确定的目标训练样本进行模型训练所生成的模型为风控模型时,本申请实施例提供的一种训练样本确定方法可以解决大数据风控建模人群表现随时间迁移的问题,本申请可以度量训练样本集和参考样本集的相似程度,并通过抽样保证真正的训练集(即,所确定的用于模型训练的目标训练样本构成的集合)和模型应用时的客群分布的一致性从而解决了因为训练模型和使用模型的时间差造成模型效果衰减的情况,同时本申请通过抽样可以减少真正的训练集的数量从而加快模型训练速度。
图8为本申请实施例提供的一种训练样本确定装置的结构示意图。如图8所示,该装置包括:
目标训练样本确定单元81,用于确定训练样本集中每个训练样本降维处理后的目标训练样本;
目标参考样本簇确定单元82,用于获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,比例信息表征至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇中目标参考样本数量的比例,参考样本晚于训练样本;
目标训练样本簇确定单元83,用于根据至少一个目标参考样本簇对所有目标训练样本进行聚类处理得到分别与每个目标参考样本簇对应的目标训练样本簇;
样本抽样单元84,用于按照比例信息分别从每个目标训练样本簇中确定用于模型训练的目标训练样本。
本申请实施例中,优选的,目标训练样本确定单元,包括:
训练样本集确定单元,用于确定由多个训练样本构成的训练样本集,训练样本指示用户的多个维度特征;
特征分类单元,用于对训练样本指示的多个维度特征进行特征分类得到训练样本指示的至少一个特征组,不同的特征组属于不同的特征类别;一个维度特征仅属于一个特征组;
特征信息确定单元,用于将特征组输入至预训练的与特征组所属特征类别对应的特征信息确定模型得到用于表征特征组的特征信息;
其中,训练样本指示的至少一个特征组的特征信息构成训练样本降维处理后的目标训练样本。
本申请实施例提供的一种训练样本确定装置还包括,特征信息确定模型生成单元,该特征信息确定模型生成单元包括:
第一样本确定单元,用于确定用于训练特征信息确定模型的第一样本;
特征组确定单元,用于对第一样本指示的多个维度特征进行特征分类得到第一样本指示的至少一个特征组;
第二样本确定单元,用于根据第一样本指示的属于目标特征类别的特征组生成第二样本;
模型训练单元,用于利用第二样本对待训练特征信息确定模型进行训练生成与目标特征类别对应的特征信息确定模型。
本申请实施例中,优选的,目标参考样本簇确定单元,包括:
目标参考样本确定单元,用于确定参考样本集中每个参考样本降维处理后的目标参考样本;
聚类单元,用于对所有目标参考样本进行聚类处理得到至少一个目标参考样本簇;
生成单元,用于根据各个目标参考样本簇中的目标参考样本数量生成比例信息。
本申请实施例中,优选的,目标训练样本簇确定单元包括:
计算单元,用于计算目标训练样本分别与至少一个目标参考样本簇中每个目标参考样本簇的中心点之间的距离;
第一确定单元,用于根据目标训练样本分别与至少一个目标参考样本簇中每个目标参考样本簇的中心点之间的距离,确定目标训练样本所属的目标参考样本簇;
第二确定单元,用于将属于同一目标参考样本簇的所有目标训练样本确定为一个与目标参考样本簇对应的目标训练样本簇。
本申请实施例中,优选的,样本抽样单元,包括:
第三确定单元,用于依据比例信息根据各个目标训练样本簇中目标训练样本数量分别确定每个目标训练样本簇的抽样数量;
抽样单元,用于按照距离目标训练样本簇的中心点的距离由近及远的顺序,从目标训练样本簇中抽取目标训练样本簇的抽样数量的目标训练样本。
本申请实施例中,优选的,第三确定单元,包括:
第一确定子单元,用于确定每个目标训练样本簇中目标训练样本数量;
第二确定子单元,用于根据各个目标训练样本簇中目标训练样本数量分别确定每个目标训练样本簇的抽样数量;
其中,第一目标训练样本簇的抽取数量和第二目标训练样本簇的抽样数量之间的比例与比例信息表征的第一目标训练样本簇对应的目标参考样本簇中目标参考样本数量和第二目标训练样本簇对应的目标参考样本簇中目标参考样本数量的比例相同。
如图9所示,为本申请实施例提供的计算机设备的一种实现方式的结构图,该计算机设备包括:
存储器901,用于存储程序;
处理器902,用于执行程序,程序具体用于:
确定训练样本集中每个训练样本降维处理后的目标训练样本;
获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,比例信息表征至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇中目标参考样本数量的比例,参考样本晚于训练样本;
根据至少一个目标参考样本簇对所有目标训练样本进行聚类处理得到分别与每个目标参考样本簇对应的目标训练样本簇;
按照比例信息分别从每个目标训练样本簇中确定用于模型训练的目标训练样本。
处理器902可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)。
控制设备还可以包括通信接口903以及通信总线904,其中,存储器901、处理器902以及通信接口903通过通信总线904完成相互间的通信。
本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,计算机程序被处理器加载并执行,实现上述的训练样本确定方法的各步骤,具体实现过程可以参照上述实施例相应部分的描述,本实施例不做赘述。
本申请实施例提供一种训练样本确定方法、装置、计算机设备及存储介质,通过确定训练样本集中每个训练样本降维处理后的目标训练样本;并获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,参考样本晚于训练样本;以及根据至少一个目标参考样本簇对所有目标训练样本进行聚类处理得到分别与每个目标参考样本簇对应的目标训练样本簇;进而按照比例信息分别从每个目标训练样本簇中确定用于模型训练的目标训练样本的方式,实现了对训练样本集和参考样本集的相似程度的度量,并通过从训练样本集中抽样用于模型训练的目标训练样本,保证了模型训练和模型应用时的客群分布的一致性,从而解决了因为训练模型和使用模型的时间差造成模型效果衰减的情况,同时通过抽样可以减少真正的训练集的数量从而加快模型训练速度。
以上对本发明所提供的一种训练样本确定方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种训练样本确定方法,其特征在于,包括:
确定训练样本集中每个训练样本降维处理后的目标训练样本;
获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,所述比例信息表征所述至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇中目标参考样本数量的比例,所述参考样本晚于所述训练样本;
根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇;
按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本。
2.根据权利要求1所述的方法,其特征在于,所述确定训练样本集中每个训练样本降维处理后的目标训练样本,包括:
确定由多个训练样本构成的训练样本集,所述训练样本指示用户的多个维度特征;
对所述训练样本指示的多个维度特征进行特征分类得到所述训练样本指示的至少一个特征组,不同的特征组属于不同的特征类别;一个维度特征仅属于一个特征组;
将所述特征组输入至预训练的与所述特征组所属特征类别对应的特征信息确定模型得到用于表征所述特征组的特征信息;
其中,所述训练样本指示的至少一个特征组的特征信息构成所述训练样本降维处理后的目标训练样本。
3.根据权利要求2所述的方法,其特征在于,与目标特征类别对应的特征信息确定模型的生成过程包括:
确定用于训练特征信息确定模型的第一样本;
对所述第一样本指示的多个维度特征进行特征分类得到所述第一样本指示的至少一个特征组;
根据所述第一样本指示的属于所述目标特征类别的特征组生成第二样本;
利用所述第二样本对待训练特征信息确定模型进行训练生成与所述目标特征类别对应的特征信息确定模型。
4.根据权利要求1所述的方法,其特征在于,所述获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,包括:
确定参考样本集中每个参考样本降维处理后的目标参考样本;
对所有所述目标参考样本进行聚类处理得到至少一个目标参考样本簇;
根据各个所述目标参考样本簇中的目标参考样本数量生成比例信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇,包括:
计算所述目标训练样本分别与所述至少一个目标参考样本簇中每个目标参考样本簇的中心点之间的距离;
根据所述目标训练样本分别与所述至少一个目标参考样本簇中每个所述目标参考样本簇的中心点之间的距离,确定所述目标训练样本所属的目标参考样本簇;
将属于同一目标参考样本簇的所有目标训练样本确定为一个与所述目标参考样本簇对应的目标训练样本簇。
6.根据权利要求5所述的方法,其特征在于,所述按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本,包括:
依据所述比例信息根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量;
按照距离所述目标训练样本簇的中心点的距离由近及远的顺序,从所述目标训练样本簇中抽取所述目标训练样本簇的抽样数量的目标训练样本。
7.根据权利要求6所述的方法,其特征在于,所述依据所述比例信息根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量,包括:
确定每个所述目标训练样本簇中目标训练样本数量;
根据各个所述目标训练样本簇中目标训练样本数量分别确定每个所述目标训练样本簇的抽样数量;
其中,第一目标训练样本簇的抽取数量和第二目标训练样本簇的抽样数量之间的比例与所述比例信息表征的所述第一目标训练样本簇对应的目标参考样本簇中目标参考样本数量和所述第二目标训练样本簇对应的目标参考样本簇中目标参考样本数量的比例相同。
8.一种训练样本确定装置,其特征在于,包括:
目标训练样本确定单元,用于确定训练样本集中每个训练样本降维处理后的目标训练样本;
目标参考样本簇确定单元,用于获取对参考样本集中参考样本降维处理后的目标参考样本进行聚类处理得到的至少一个目标参考样本簇和比例信息,所述比例信息表征所述至少一个目标参考样本簇中第一参考样本簇和第二参考样本簇中目标参考样本数量的比例,所述参考样本晚于所述训练样本;
目标训练样本簇确定单元,用于根据所述至少一个目标参考样本簇对所有所述目标训练样本进行聚类处理得到分别与每个所述目标参考样本簇对应的目标训练样本簇;
样本抽样单元,用于按照所述比例信息分别从每个所述目标训练样本簇中确定用于模型训练的目标训练样本。
9.一种计算机设备,其特征在于,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现如权利要求1-7任意一项所述的训练样本确定方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器加载并执行,实现如权利要求1-7任意一项所述的训练样本确定方法的各步骤。
CN202011288666.3A 2020-11-17 2020-11-17 一种训练样本确定方法、装置、计算机设备及存储介质 Pending CN112200271A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011288666.3A CN112200271A (zh) 2020-11-17 2020-11-17 一种训练样本确定方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011288666.3A CN112200271A (zh) 2020-11-17 2020-11-17 一种训练样本确定方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112200271A true CN112200271A (zh) 2021-01-08

Family

ID=74033620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011288666.3A Pending CN112200271A (zh) 2020-11-17 2020-11-17 一种训练样本确定方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112200271A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114418752A (zh) * 2022-03-28 2022-04-29 北京芯盾时代科技有限公司 无类型标签用户数据的处理方法、装置、电子设备和介质
CN116821724A (zh) * 2023-08-22 2023-09-29 腾讯科技(深圳)有限公司 多媒体处理网络生成方法、多媒体处理方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114418752A (zh) * 2022-03-28 2022-04-29 北京芯盾时代科技有限公司 无类型标签用户数据的处理方法、装置、电子设备和介质
CN116821724A (zh) * 2023-08-22 2023-09-29 腾讯科技(深圳)有限公司 多媒体处理网络生成方法、多媒体处理方法及装置
CN116821724B (zh) * 2023-08-22 2023-12-12 腾讯科技(深圳)有限公司 多媒体处理网络生成方法、多媒体处理方法及装置

Similar Documents

Publication Publication Date Title
CN110009171B (zh) 用户行为模拟方法、装置、设备及计算机可读存储介质
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN102541736B (zh) 一种软件可靠性执行过程加速测试方法
CN111738351A (zh) 模型训练方法、装置、存储介质及电子设备
CN111796957B (zh) 基于应用日志的交易异常根因分析方法及***
CN112200271A (zh) 一种训练样本确定方法、装置、计算机设备及存储介质
CN112215696A (zh) 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN112686312A (zh) 一种数据分类方法、装置及***
CN112560545B (zh) 一种识别表格方向的方法、装置及电子设备
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN111859057B (zh) 数据特征处理方法及数据特征处理装置
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN117235633A (zh) 机构分类方法、装置、计算机设备及存储介质
CN113988226B (zh) 数据脱敏有效性验证方法、装置、计算机设备及存储介质
CN115660101A (zh) 一种基于业务节点信息的数据服务提供方法及装置
CN115496157A (zh) 分类模型训练方法、装置、电子设备及存储介质
CN115630708A (zh) 一种模型更新方法、装置、电子设备、存储介质及产品
CN111654853B (zh) 一种基于用户信息的数据分析方法
CN114281664A (zh) 应用程序负载数据预测方法、装置及存储介质
CN114329966A (zh) 一种天然气管道远维控制***健康度评价方法及***
CN110968690B (zh) 词语的聚类划分方法和装置、设备以及存储介质
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN113298641A (zh) 诚信程度认知方法及装置
del Castillo et al. Fitting Tails by the Empirical Residual Coefficient of Variation: The ercv Package.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: B7-7-2, Yuxing Plaza, No.5, Huangyang Road, Yubei District, Chongqing

Applicant after: Chongqing duxiaoman Youyang Technology Co.,Ltd.

Address before: 201800 room j1328, 3 / F, building 8, 55 Huiyuan Road, Jiading District, Shanghai

Applicant before: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211220

Address after: 100193 Room 606, 6 / F, building 4, West District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Applicant after: Du Xiaoman Technology (Beijing) Co.,Ltd.

Address before: B7-7-2, Yuxing Plaza, No.5, Huangyang Road, Yubei District, Chongqing

Applicant before: Chongqing duxiaoman Youyang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210108