CN114511409A - 用户样本处理方法、装置及电子设备 - Google Patents

用户样本处理方法、装置及电子设备 Download PDF

Info

Publication number
CN114511409A
CN114511409A CN202210105659.8A CN202210105659A CN114511409A CN 114511409 A CN114511409 A CN 114511409A CN 202210105659 A CN202210105659 A CN 202210105659A CN 114511409 A CN114511409 A CN 114511409A
Authority
CN
China
Prior art keywords
user
sample
overdue
samples
existing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210105659.8A
Other languages
English (en)
Inventor
顾凌云
谢旻旗
魏玉民
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202210105659.8A priority Critical patent/CN114511409A/zh
Publication of CN114511409A publication Critical patent/CN114511409A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供一种用户样本处理方法、装置及电子设备,通过自适应的综合过采样法对低占比的逾期用户样本进行扩充,可以避免信息损失及信息权重增加带来的对模型的干扰,同时完成对样本占比进行平衡的需求。

Description

用户样本处理方法、装置及电子设备
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种用户样本处理方法、装置及电子设备。
背景技术
在金融业务风控的业务场景中,核心目标是有效识别出具有高逾期风险的用户并采取风控措施。同时因为该业务场景的特点,即逾期用户的数量远小于低非逾期用户。这就导致了在建模的过程中逾期用户的样本过少,可提取的特征信息不足,最终使得模型倾向于学习高占比的非逾期用户的样本,即模型预测的结果会偏向高占比的非逾期样本,这会导致模型的泛化能力下降,不能在实际生产环境中识别高逾期风险的用户,这与我们的风控目标是相反的。
为了解决这种数据样本不平衡的问题,在一些现有技术中采用欠采样及过采样的方式扩展样本。欠采样是指通过对高占比的非逾期用户样本进行不放回的随机抽样,并舍弃未被抽中的样本,以达到逾期样本与非逾期样本数量的均衡。但是这种方式会对样本信息造成损失,尤其在总样本量不大的情况下,可能损失重要的信息,造成模型欠拟合。过采样是指对低占比的逾期样本进行随机抽取复制,增加低占比样本的样本数量,但是这种直接复制的方式会造成某些信息权重的增加,最终导致模型的过拟合。
发明内容
为了克服现有技术中的上述不足,本申请的目的在于提供一种用户样本处理方法,所述方法包括:
获取第一用户样本集,所述第一用户样本集包括多个用户样本,所述用户样本包括多个表征用户特征信息的用户特征数据;
确定所述第一用户样本集中已有未逾期用户样本的第一数量及已有逾期用户样本的第二数量;其中,所述已有未逾期用户样本为不具有借贷逾期样本标签的用户样本,所述已有逾期用户样本为具有借贷逾期样本标签的用户样本;
根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量;
针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集;所述临近样本集包括与所述已有逾期用户样本之间的特征距离最近的第四数量的用户样本;
针对每个所述已有逾期用户样本的临近样本集,确定所述临近样本集中所述已有逾期用户样本的第一占比数据;
对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据;
根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量;
针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本;其中,每个所述新增逾期用户样本由所述已有逾期用户样本和该已有逾期用户样本的临近样本集中随机确定的一个其他已有逾期用户样本计算获得;
对各所述已有未逾期用户样本进行聚类处理,其中,聚类簇的个数为所述第二数量;
从每个所述聚类簇的中心抽样获得第二用户样本集,将所述第二用户样本集与所述已有逾期用户样本进行组合获得训练样本集;
对所述新增逾期用户样本进行切分,获得所述第二数量的第三用户样本集,分别将每个所述第三用户样本集和所述第二用户样本集进行组合,获得所述第二数量的测试样本集;
通过所述训练样本集对模型进行训练,通过所述测试样本集对模型进行测试,并计算所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值;
若所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值的差值在设定范围内,则将所述新增逾期用户样本和所述第一用户样本集进行组合,获得建模数据集。
在一种可能的实现方式中,所述根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量的步骤,包括:
通过以下公式计算所述第三数量G:
G=(m1-m2)*β,
其中,m1为所述第一数量,m2为所述第二数量,β属于(0,1]。
在一种可能的实现方式中,所述对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据的步骤,包括:
针对第i个已有逾期用户样本对应的第一占比数据ri,通过以下公式计算对应的第二占比数据
Figure BDA0003493847590000031
Figure BDA0003493847590000032
其中,n为所述已有逾期用户样本的第二数量。
在一种可能的实现方式中,所述针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本的步骤,包括:
针对第i个所述已有逾期用户样本xi,重复所述第五数量次从该已有逾期用户样本xi的临近样本集中随机确定的一个其他已有逾期用户样本xzi,并通过以下公式计算相应的新增逾期用户样本si
si=xi+(xzi-xi)×λ
其中,λ为属于(0,1]的自然数。
在一种可能的实现方式中,所述针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集的步骤,包括:
针对每个所述已有逾期用户样本,计算该已有逾期用户样本与其他用户样本之间所述用户特征数据的特征距离,所述特征距离包括欧式距离或曼哈顿距离;
获取与该已有逾期用户样本的所述特征距离最近的第四数量的用户样本作为该已有逾期用户样本的临近样本集。
在一种可能的实现方式中,所述根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量的步骤,包括:
通过以下公式计算所述第五数量gi
Figure BDA0003493847590000041
其中,G为所述第三数量,
Figure BDA0003493847590000042
为所述第二占比数据。
在一种可能的实现方式中,所述获取第一用户样本集的步骤,包括:
获取样本总集,将所述样本总集切分为所述第一用户样本集合和第四用户样本集;
所述方法还包括:
分别使用所述第一用户样本集、所述训练样本集及所述建模数据集训练的模型对所述第四用户样本集进行分类预测,根据预测结果的获取相应AUC评估指标值和KS评估指标值;
若所述建模数据集对应所述AUC评估指标值和KS评估指标值相较于所述第一用户样本集和所述训练样本集对应所述AUC评估指标值和KS评估指标值提高达到预设阈值,则确定所述建模数据集符合样本扩展要求。
本申请的另一目的在于提供一种用户样本处理装置,所述用户样本处理装置包括:
数据获取模块,用于获取第一用户样本集,所述第一用户样本集包括多个用户样本,所述用户样本包括多个表征用户特征信息的用户特征数据;
第一数据处理模块,用于确定所述第一用户样本集中已有未逾期用户样本的第一数量及已有逾期用户样本的第二数量;其中,所述已有未逾期用户样本为不具有借贷逾期样本标签的用户样本,所述已有逾期用户样本为具有借贷逾期样本标签的用户样本;
第二数据处理模块,用于根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量;
第三数据处理模块,用于针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集;所述临近样本集包括与所述已有逾期用户样本之间的特征距离最近的第四数量的用户样本;
第四数据处理模块,用于针对每个所述已有逾期用户样本的临近样本集,确定所述临近样本集中所述已有逾期用户样本的第一占比数据;
第五数据处理模块,用于对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据;
第六数据处理模块,用于根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量;
第七数据处理模块,用于针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本;其中,每个所述新增逾期用户样本由所述已有逾期用户样本和该已有逾期用户样本的临近样本集中随机确定的一个其他已有逾期用户样本计算获得;
第八数据处理模块,用于对各所述已有未逾期用户样本进行聚类处理,其中,聚类簇的个数为所述第二数量;
第九数据处理模块,用于从每个所述聚类簇的中心抽样获得第二用户样本集,将所述第二用户样本集与所述已有逾期用户样本进行组合获得训练样本集;
第十数据处理模块,用于对所述新增逾期用户样本进行切分,获得所述第二数量的第三用户样本集,分别将每个所述第三用户样本集和所述第二用户样本集进行组合,获得所述第二数量的测试样本集;
模型训练模块,用于通过所述训练样本集对模型进行训练,通过所述测试样本集对模型进行测试,并计算所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值;
样本组合模块,用于若所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值的差值在设定范围内,则将所述新增逾期用户样本和所述第一用户样本集进行组合,获得建模数据集。
本申请的另一目的在于提供一种电子设备,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本申请提供的用户样本处理方法。
本申请的另一目的在于提供一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现本申请提供的用户样本处理方法。
相对于现有技术而言,本申请具有以下有益效果:
本申请实施例提供一种用户样本处理方法、装置及电子设备,通过自适应的综合过采样法对低占比的逾期用户样本进行扩充,可以避免信息损失及信息权重增加带来的对模型的干扰,同时完成对样本占比进行平衡的需求。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的示意图;
图2为本申请实施例提供的用户样本处理方法的流程示意图;
图3为本申请实施例提供的用户样本处理装置的功能模块示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
请参照图1,图1是本申请实施例提供的电子设备100,所述电子设备100可以是,但不限于,服务器、台式个人电脑、笔记本电脑、工作站等具有数字处理能力的设备。所述电子设备100包括用户样本处理装置110、机器可读存储介质120及处理器130。
所述机器可读存储介质120、处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述用户样本处理装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述电子设备100的操作***(operatingsystem,OS)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述用户样本处理装置110所包括的软件功能模块及计算机程序等。
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。其中,机器可读存储介质120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
请参照图2,图2为应用于图1所示的电子设备100的一种用户样本处理方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S101,获取第一用户样本集,所述第一用户样本集包括多个用户样本,所述用户样本包括多个表征用户特征信息的用户特征数据。
在本实施例中,所述用户特征数据可以包括用户的年龄、工作类型、个人收入、学历、历史借贷情况、家庭收入、房产情况、社交网络等数据。
步骤S102,确定所述第一用户样本集中已有未逾期用户样本的第一数量及已有逾期用户样本的第二数量。其中,所述已有未逾期用户样本为不具有借贷逾期样本标签的用户样本,所述已有逾期用户样本为具有借贷逾期样本标签的用户样本。
步骤S103,根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量。
步骤S104,针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集。所述临近样本集包括与所述已有逾期用户样本之间的特征距离最近的第四数量的用户样本。
步骤S105,针对每个所述已有逾期用户样本的临近样本集,确定所述临近样本集中所述已有逾期用户样本的第一占比数据。
步骤S106,对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据。
步骤S107,根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量。
步骤S108,针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本。其中,每个所述新增逾期用户样本由所述已有逾期用户样本和该已有逾期用户样本的临近样本集中随机确定的一个其他已有逾期用户样本计算获得。
步骤S109,对各所述已有未逾期用户样本进行聚类处理,其中,聚类簇的个数为所述第二数量。
步骤S110,从每个所述聚类簇的中心抽样获得第二用户样本集,将所述第二用户样本集与所述已有逾期用户样本进行组合获得训练样本集。
步骤S111,对所述新增逾期用户样本进行切分,获得所述第二数量的第三用户样本集,分别将每个所述第三用户样本集和所述第二用户样本集进行组合,获得所述第二数量的测试样本集。
步骤S112,通过所述训练样本集对模型进行训练,通过所述测试样本集对模型进行测试,并计算所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值。
步骤S113,若所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值的差值在设定范围内,则将所述新增逾期用户样本和所述第一用户样本集进行组合,获得建模数据集。
在一种可能的实现方式中,步骤S103中可以通过以下公式计算所述第三数量G:
G=(m1-m2)*β,
其中,m1为所述第一数量,m2为所述第二数量,β属于(0,1]。当β等于1时最终新样本集中的未逾期样本与逾期样本的个数相同
在一种可能的实现方式中,步骤S104中可以针对每个所述已有逾期用户样本,计算该已有逾期用户样本与其他用户样本之间所述用户特征数据的特征距离,所述特征距离包括欧式距离或曼哈顿距离。
获取与该已有逾期用户样本的所述特征距离最近的第四数量的用户样本作为该已有逾期用户样本的临近样本集。
在一种可能的实现方式中,步骤S106可以针对第i个已有逾期用户样本对应的第一占比数据ri,通过以下公式计算对应的第二占比数据
Figure BDA0003493847590000101
Figure BDA0003493847590000111
其中,n为所述已有逾期用户样本的第二数量。
在一种可能的实现方式中,步骤S107中可以通过以下公式计算所述第五数量gi
Figure BDA0003493847590000112
其中,G为所述第三数量,
Figure BDA0003493847590000113
为所述第二占比数据。
在一种可能的实现方式中,步骤S108,中可以针对第i个所述已有逾期用户样本xi,重复所述第五数量次从该已有逾期用户样本xi的临近样本集中随机确定的一个其他已有逾期用户样本xzi,并通过以下公式计算相应的新增逾期用户样本si
si=xi+(xzi-xi)×λ
其中,λ为属于(0,1]的自然数。
在一种可能的实现方式中,在步骤S101中可以获取样本总集,将所述样本总集切分为所述第一用户样本集合和第四用户样本集。
在步骤S112之后,所述方法还包括:
步骤S113,分别使用所述第一用户样本集、所述训练样本集及所述建模数据集训练的模型对所述第四用户样本集进行分类预测,根据预测结果的获取相应AUC评估指标值和KS评估指标值。
步骤S114,若所述建模数据集对应所述AUC评估指标值和KS评估指标值相较于所述第一用户样本集和所述训练样本集对应所述AUC评估指标值和KS评估指标值提高达到预设阈值,则确定所述建模数据集符合样本扩展要求。
请参照图3,本实施例还提供一种用户样本处理装置110,用户样本处理装置110包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分,用户样本处理装置110可以包括数据获取模块101、第一数据处理模块102、第二数据处理模块103、第三数据处理模块104、第四数据处理模块105、第五数据处理模块106、第六数据处理模块107、第七数据处理模块108、第八数据处理模块109、第九数据处理模块110、第十数据处理模块111、模型训练模块112及样本组合模块113。
所述数据获取模块101,用于获取第一用户样本集,所述第一用户样本集包括多个用户样本,所述用户样本包括多个表征用户特征信息的用户特征数据。
本实施例中,所述数据获取模块101可用于执行图1所示的步骤S101,关于所述数据获取模块101的具体描述可参对所述步骤S101的描述。
所述第一数据处理模块102,用于确定所述第一用户样本集中已有未逾期用户样本的第一数量及已有逾期用户样本的第二数量。其中,所述已有未逾期用户样本为不具有借贷逾期样本标签的用户样本,所述已有逾期用户样本为具有借贷逾期样本标签的用户样本。
本实施例中,所述第一数据处理模块102可用于执行图1所示的步骤S102,关于所述第一数据处理模块102的具体描述可参对所述步骤S102的描述。
所述第二数据处理模块103,用于根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量。
本实施例中,所述第二数据处理模块103可用于执行图1所示的步骤S103,关于所述第二数据处理模块103的具体描述可参对所述步骤S103的描述。
所述第三数据处理模块104,用于针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集。所述临近样本集包括与所述已有逾期用户样本之间的特征距离最近的第四数量的用户样本。
本实施例中,所述第三数据处理模块104可用于执行图1所示的步骤S104,关于所述第三数据处理模块104的具体描述可参对所述步骤S104的描述。
所述第四数据处理模块105,用于针对每个所述已有逾期用户样本的临近样本集,确定所述临近样本集中所述已有逾期用户样本的第一占比数据。
本实施例中,所述第四数据处理模块105可用于执行图1所示的步骤S105,关于所述第四数据处理模块105的具体描述可参对所述步骤S105的描述。
所述第五数据处理模块106,用于对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据。
本实施例中,所述第五数据处理模块106可用于执行图1所示的步骤S106,关于所述第五数据处理模块106的具体描述可参对所述步骤S106的描述。
所述第六数据处理模块107,用于根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量。
本实施例中,所述第六数据处理模块107可用于执行图1所示的步骤S107,关于所述第六数据处理模块107的具体描述可参对所述步骤S107的描述。
所述第七数据处理模块108,用于针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本。其中,每个所述新增逾期用户样本由所述已有逾期用户样本和该已有逾期用户样本的临近样本集中随机确定的一个其他已有逾期用户样本计算获得。
本实施例中,所述第七数据处理模块108可用于执行图1所示的步骤S108,关于所述第七数据处理模块108的具体描述可参对所述步骤S108的描述。
所述第八数据处理模块109,用于对各所述已有未逾期用户样本进行聚类处理,其中,聚类簇的个数为所述第二数量。
本实施例中,所述第八数据处理模块109可用于执行图1所示的步骤S109,关于所述第八数据处理模块109的具体描述可参对所述步骤S109的描述。
所述第九数据处理模块110,用于从每个所述聚类簇的中心抽样获得第二用户样本集,将所述第二用户样本集与所述已有逾期用户样本进行组合获得训练样本集。
本实施例中,所述第九数据处理模块110可用于执行图1所示的步骤S110,关于所述第九数据处理模块110的具体描述可参对所述步骤S110的描述。
所述第十数据处理模块111,用于对所述新增逾期用户样本进行切分,获得所述第二数量的第三用户样本集,分别将每个所述第三用户样本集和所述第二用户样本集进行组合,获得所述第二数量的测试样本集。
本实施例中,所述第十数据处理模块111可用于执行图1所示的步骤S111,关于所述第十数据处理模块111的具体描述可参对所述步骤S111的描述。
所述模型训练模块112,用于通过所述训练样本集对模型进行训练,通过所述测试样本集对模型进行测试,并计算所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值。
本实施例中,所述模型训练模块112可用于执行图1所示的步骤S112,关于所述模型训练模块112的具体描述可参对所述步骤S112的描述。
所述样本组合模块113,用于若所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值的差值在设定范围内,则将所述新增逾期用户样本和所述第一用户样本集进行组合,获得建模数据集。
本实施例中,所述样本组合模块113可用于执行图1所示的步骤S113,关于所述样本组合模块113的具体描述可参对所述步骤S113的描述。
综上所述,本专利的方法就是通过自适应的综合过采样法对低占比的逾期用户样本进行扩充,可以避免信息损失及信息权重增加带来的对模型的干扰,同时完成对样本占比进行平衡的需求。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种用户样本处理方法,其特征在于,所述方法包括:
获取第一用户样本集,所述第一用户样本集包括多个用户样本,所述用户样本包括多个表征用户特征信息的用户特征数据;
确定所述第一用户样本集中已有未逾期用户样本的第一数量及已有逾期用户样本的第二数量;其中,所述已有未逾期用户样本为不具有借贷逾期样本标签的用户样本,所述已有逾期用户样本为具有借贷逾期样本标签的用户样本;
根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量;
针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集;所述临近样本集包括与所述已有逾期用户样本之间的特征距离最近的第四数量的用户样本;
针对每个所述已有逾期用户样本的临近样本集,确定所述临近样本集中所述已有逾期用户样本的第一占比数据;
对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据;
根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量;
针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本;其中,每个所述新增逾期用户样本由所述已有逾期用户样本和该已有逾期用户样本的临近样本集中随机确定的一个其他已有逾期用户样本计算获得;
对各所述已有未逾期用户样本进行聚类处理,其中,聚类簇的个数为所述第二数量;
从每个所述聚类簇的中心抽样获得第二用户样本集,将所述第二用户样本集与所述已有逾期用户样本进行组合获得训练样本集;
对所述新增逾期用户样本进行切分,获得所述第二数量的第三用户样本集,分别将每个所述第三用户样本集和所述第二用户样本集进行组合,获得所述第二数量的测试样本集;
通过所述训练样本集对模型进行训练,通过所述测试样本集对模型进行测试,并计算所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值;
若所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值的差值在设定范围内,则将所述新增逾期用户样本和所述第一用户样本集进行组合,获得建模数据集。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量的步骤,包括:
通过以下公式计算所述第三数量G:
G=(m1-m2)*β,
其中,m1为所述第一数量,m2为所述第二数量,β属于(0,1]。
3.根据权利要求1所述的方法,其特征在于,所述对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据的步骤,包括:
针对第i个已有逾期用户样本对应的第一占比数据ri,通过以下公式计算对应的第二占比数据
Figure FDA0003493847580000021
Figure FDA0003493847580000022
其中,n为所述已有逾期用户样本的第二数量。
4.根据权利要求1所述的方法,其特征在于,所述针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本的步骤,包括:
针对第i个所述已有逾期用户样本xi,重复所述第五数量次从该已有逾期用户样本xi的临近样本集中随机确定的一个其他已有逾期用户样本xzi,并通过以下公式计算相应的新增逾期用户样本si
si=xi+(xzi-xi)×λ
其中,λ为属于(0,1]的自然数。
5.根据权利要求1所述的方法,其特征在于,所述针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集的步骤,包括:
针对每个所述已有逾期用户样本,计算该已有逾期用户样本与其他用户样本之间所述用户特征数据的特征距离,所述特征距离包括欧式距离或曼哈顿距离;
获取与该已有逾期用户样本的所述特征距离最近的第四数量的用户样本作为该已有逾期用户样本的临近样本集。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量的步骤,包括:
通过以下公式计算所述第五数量gi
Figure FDA0003493847580000031
其中,G为所述第三数量,
Figure FDA0003493847580000032
为所述第二占比数据。
7.根据权利要求1所述的方法,其特征在于,
所述获取第一用户样本集的步骤,包括:
获取样本总集,将所述样本总集切分为所述第一用户样本集合和第四用户样本集;
所述方法还包括:
分别使用所述第一用户样本集、所述训练样本集及所述建模数据集训练的模型对所述第四用户样本集进行分类预测,根据预测结果的获取相应AUC评估指标值和KS评估指标值;
若所述建模数据集对应所述AUC评估指标值和KS评估指标值相较于所述第一用户样本集和所述训练样本集对应所述AUC评估指标值和KS评估指标值提高达到预设阈值,则确定所述建模数据集符合样本扩展要求。
8.一种用户样本处理装置,其特征在于,所述用户样本处理装置包括:
数据获取模块,用于获取第一用户样本集,所述第一用户样本集包括多个用户样本,所述用户样本包括多个表征用户特征信息的用户特征数据;
第一数据处理模块,用于确定所述第一用户样本集中已有未逾期用户样本的第一数量及已有逾期用户样本的第二数量;其中,所述已有未逾期用户样本为不具有借贷逾期样本标签的用户样本,所述已有逾期用户样本为具有借贷逾期样本标签的用户样本;
第二数据处理模块,用于根据所述第一数量及所述第二数量计算获得需要生成的新增逾期用户样本的第三数量;
第三数据处理模块,用于针对每个所述已有逾期用户样本,确定该已有逾期用户样本的临近样本集;所述临近样本集包括与所述已有逾期用户样本之间的特征距离最近的第四数量的用户样本;
第四数据处理模块,用于针对每个所述已有逾期用户样本的临近样本集,确定所述临近样本集中所述已有逾期用户样本的第一占比数据;
第五数据处理模块,用于对各所述已有逾期用户样本对应的第一占比数据进行标准化,获得第二占比数据;
第六数据处理模块,用于根据所述第三数量及所述第二占比数据,计算每个所述已有逾期用户样本需要对应生成的新增逾期用户样本的第五数量;
第七数据处理模块,用于针对每个所述已有逾期用户样本,生成对应的所述第五数量的新增逾期用户样本;其中,每个所述新增逾期用户样本由所述已有逾期用户样本和该已有逾期用户样本的临近样本集中随机确定的一个其他已有逾期用户样本计算获得;
第八数据处理模块,用于对各所述已有未逾期用户样本进行聚类处理,其中,聚类簇的个数为所述第二数量;
第九数据处理模块,用于从每个所述聚类簇的中心抽样获得第二用户样本集,将所述第二用户样本集与所述已有逾期用户样本进行组合获得训练样本集;
第十数据处理模块,用于对所述新增逾期用户样本进行切分,获得所述第二数量的第三用户样本集,分别将每个所述第三用户样本集和所述第二用户样本集进行组合,获得所述第二数量的测试样本集;
模型训练模块,用于通过所述训练样本集对模型进行训练,通过所述测试样本集对模型进行测试,并计算所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值;
样本组合模块,用于若所述训练样本集和所述测试样本集的AUC评估指标值和KS评估指标值的差值在设定范围内,则将所述新增逾期用户样本和所述第一用户样本集进行组合,获得建模数据集。
9.一种电子设备,其特征在于,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-7任意一项所述的方法。
10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现权利要求1-7任意一项所述的方法。
CN202210105659.8A 2022-01-28 2022-01-28 用户样本处理方法、装置及电子设备 Pending CN114511409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210105659.8A CN114511409A (zh) 2022-01-28 2022-01-28 用户样本处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210105659.8A CN114511409A (zh) 2022-01-28 2022-01-28 用户样本处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114511409A true CN114511409A (zh) 2022-05-17

Family

ID=81549384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210105659.8A Pending CN114511409A (zh) 2022-01-28 2022-01-28 用户样本处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114511409A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、***、装置及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、***、装置及介质
CN116862078B (zh) * 2023-09-04 2023-12-12 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、***、装置及介质

Similar Documents

Publication Publication Date Title
Kingrani et al. Estimating the number of clusters using diversity
CN111783875A (zh) 基于聚类分析的异常用户检测方法、装置、设备及介质
CN111581046A (zh) 数据异常检测方法、装置、电子设备及存储介质
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
WO2021254027A1 (zh) 一种可疑社团的识别方法、装置、存储介质和计算机设备
CN108833139B (zh) 一种基于类别属性划分的ossec报警数据聚合方法
CN108197795B (zh) 恶意团体账户识别方法、装置、终端及存储介质
CN111626842A (zh) 一种消费行为数据的分析方法和装置
CN110930218A (zh) 一种识别欺诈客户的方法、装置及电子设备
CN111639690A (zh) 基于关系图谱学习的欺诈分析方法、***、介质及设备
CN114168761A (zh) 多媒体数据的推送方法、装置、电子设备及存储介质
CN114511409A (zh) 用户样本处理方法、装置及电子设备
CN115081515A (zh) 能效评价模型构建方法、装置、终端及存储介质
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN113112186A (zh) 一种企业评估方法、装置及设备
CN112148880A (zh) 一种客服对话语料聚类方法、***、设备及存储介质
CN116385007A (zh) 数据检测方法、装置、计算机设备及计算机可读存储介质
CN110717653A (zh) 风险识别方法及装置和电子设备
CN115293809A (zh) 基于人工智能的台风暴雨风险评级方法及相关设备
CN113641825B (zh) 基于客观信息论的智慧法院***大数据处理方法及装置
CN110458707B (zh) 基于分类模型的行为评估方法、装置及终端设备
CN112395179B (zh) 一种模型训练方法、磁盘预测方法、装置及电子设备
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
CN113792749A (zh) 时间序列数据异常检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination