CN112990583A - 一种数据预测模型的入模特征确定方法及设备 - Google Patents

一种数据预测模型的入模特征确定方法及设备 Download PDF

Info

Publication number
CN112990583A
CN112990583A CN202110293684.9A CN202110293684A CN112990583A CN 112990583 A CN112990583 A CN 112990583A CN 202110293684 A CN202110293684 A CN 202110293684A CN 112990583 A CN112990583 A CN 112990583A
Authority
CN
China
Prior art keywords
characteristic
data
month
original
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110293684.9A
Other languages
English (en)
Other versions
CN112990583B (zh
Inventor
张巧丽
林荣吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110293684.9A priority Critical patent/CN112990583B/zh
Publication of CN112990583A publication Critical patent/CN112990583A/zh
Application granted granted Critical
Publication of CN112990583B publication Critical patent/CN112990583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请属于人工智能领域,涉及一种数据预测模型的入模特征确定方法及设备,所述方法包括:获取待预测的目标对象在预设时间段的历史数据提取多个原始特征变量,对各原始特征变量的特征值进行数据分箱操作,基于分箱结果获取各原始特征变量的特征画像;根据特征画像确定各原始特征变量是否存在数据偏移以及偏移类型,根据偏移类型得到多个第一特征集合,基于未发生数据偏移的原始特征变量生成第二特征集合;确定待预测的目标对象的预测场景,根据预测场景确定入模特征。本申请涉及区块链技术,所述历史数据可存储于区块链中。本申请通过对原始特征变量的特征画像,可实现对特征变量的是否入模进行量化判定,提高模型预测稳定性和准确性。

Description

一种数据预测模型的入模特征确定方法及设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种数据预测模型的入模特征确定方法、装置、计算机设备及存储介质。
背景技术
在时间跨度较长的模型预测场景中,比如产品在未来某时段的销量预测,招聘人员在未来某时段的留存预测等,这类模型预测场景是基于历史数据提取的多个入模特征进行数据预测,然而入模特征的分布和预测能力会因时间跨度较长发生波动,导致发生数据偏移。入模特征的数据偏移现象使得模型预测风险加大,为降低模型预测风险。
现有的方案是在将原始特征变量作为入模特征前直接剔除不稳定的原始特征变量,这种方式由于不能对原始特征变量是否入模进行量化判定,尤其无法确定是否将数据偏移类的原始特征变量入模,使得入模前的特性筛选的有效性低,无法筛选出最优的入模特征集,导致预测模型的预测稳定性和准确性不高。
发明内容
本申请实施例的目的在于提出一种数据预测模型的入模特征确定方法、装置、计算机设备及存储介质,以解决现有技术中无法对原始特征变量进行量化筛选得到最优入模特征集,导致预测模型的预测稳定性和准确性不高的问题。
为了解决上述技术问题,本申请实施例提供一种数据预测模型的入模特征确定方法,采用了如下所述的技术方案:
一种数据预测模型的入模特征确定方法,包括下述步骤:
获取待预测的目标对象在预设时间段的历史数据,从所述历史数据中提取多个原始特征变量,对各所述原始特征变量的特征值进行数据分箱操作,并基于分箱结果获取各所述原始特征变量的特征画像;
根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合,同时基于未发生数据偏移的原始特征变量生成第二特征集合;其中所述偏移类型包括特征分布偏移和特征与目标变量的函数关系偏移;
确定所述待预测的目标对象对应的预测场景,根据所述预测场景对应的场景预测配置信息从所述第二特征集合和所述多个第一特征集合中获取至少一个特征集合,将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征。
为了解决上述技术问题,本申请实施例还提供一种数据预测模型的入模特征确定装置,采用了如下所述的技术方案:
一种数据预测模型的入模特征确定装置,包括:
特征画像获取模块,用于获取待预测的目标对象在预设时间段的历史数据,从所述历史数据中提取多个原始特征变量,对各所述原始特征变量的特征值进行数据分箱操作,并基于分箱结果获取各所述原始特征变量的特征画像;
特征集合生成模块,用于根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合,同时基于未发生数据偏移的原始特征变量生成第二特征集合;其中所述偏移类型包括特征分布偏移和特征与目标变量的函数关系偏移;
入模特征获取模块,用于确定所述待预测的目标对象对应的预测场景,根据所述预测场景对应的场景预测配置信息从所述第二特征集合和所述多个第一特征集合中获取至少一个特征集合,将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的数据预测模型的入模特征确定方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的数据预测模型的入模特征确定方法的步骤。
与现有技术相比,本申请实施例提供的数据预测模型的入模特征确定方法、装置、计算机设备及存储介质主要有以下有益效果:
通过对原始特征变量的特征画像,通过量化方式对原始特征变量进行数据偏移分析,可以实现特征分布偏移、特征与目标变量的函数关系偏移等偏移现象的可量化判定,以此生成不同类型的特征集合,并基于预测场景获取与场景适配的特征集合,实现对特征变量是否入模进行量化判定,得到能够降低模型风险的特征变量作为入模特征,提高模型预测稳定性和准确性。此外本申请可以适用多种数据预测场景的入模特征选取,通用性较高。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,下面描述中的附图对应于本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性***架构图;
图2是根据本申请的数据预测模型的入模特征确定方法的一个实施例的流程图;
图3是根据本申请的数据预测模型的入模特征确定装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,***架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的数据预测模型的入模特征确定方法一般由服务器执行,相应地,数据预测模型的入模特征确定装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,其示出了根据本申请的数据预测模型的入模特征确定方法的一个实施例的流程图。所述的数据预测模型的入模特征确定方法包括以下步骤:
S201,获取待预测的目标对象在预设时间段的历史数据,从所述历史数据中提取多个原始特征变量,对各所述原始特征变量的特征值进行数据分箱操作,并基于分箱结果获取各所述原始特征变量的特征画像;
S202,根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合,同时基于未发生数据偏移的原始特征变量生成第二特征集合;其中所述偏移类型包括特征分布偏移和特征与目标变量的函数关系偏移;
S203,确定所述待预测的目标对象对应的预测场景,根据所述预测场景对应的场景预测配置信息从所述第二特征集合和所述多个第一特征集合中获取至少一个特征集合,将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征。
下面对上述步骤进行展开说明。
对于步骤S201,在本实施例中目标对象为存在预测需求的对象,包括存在行为预测的对象、存在销量预测的对象等,存在行为预测的对象比如在保险代理人招聘场景中的保险代理人在未来指定时间段内的行为预测。相对应的,所述历史数据为与预测需求相关的数据,比如行为预测时,所述历史数据为与行为相关的数据,包括目标对象的历史行为操作以及与历史行为操作相关联的数据。本实施例中预设时间段可以根据实际场景确定,比如6个月,获取预设时间段的历史数据,使得从历史数据提取的原始特征变量的数据具有一个时间跨度,采用本申请实施例的方案,在该时间跨度内原始特征变量的分布和预测能力的波动可以定量呈现和分析。
本实施例从所述历史数据中提取多个原始特征变量,具体为获取与目标对象相关的多个维度的特征变量,例如在智慧代理人招聘场景中,历史数据包括代理人的属性数据、培训数据、应用使用数据、工作数据,从中可提取出代理人基本信息、代理人招聘岗前班表现、特定应用的数据活跃情况、历史购买保单信息等维度的特征变量。在从所述历史数据中提取多个原始特征变量后,本实施例包括数据预处理的步骤,具体包括处理获取的历史数据中的脏数据、缺失值、异常值等,例如删除缺失率超过某一阈值(阈值根据情况自行设定,可取50%、70%、90%等)的特征变量。
在一些实施例中,所述对各所述原始特征变量的特征值进行数据分箱操作的步骤包括:判断所述原始特征变量的特征值的类型,若为离散型则将每个特征值作为一个分箱,若为连续型则采用等宽分箱或等频分箱的分箱方式生成多个分箱。在智慧代理人招聘场景中,由于等宽分箱易受异常值影响,对于连续型的原始特征变量优先采用等频分箱的模式。
在一些实施例中,在所述基于分箱结果获取各所述原始特征变量的特征画像的步骤之前,所述方法包括:获取多个数据偏移评价参数,基于所述数据偏移评价参数确定所述特征画像参数。本实施例基于获得的若干分箱,采用数据偏移评价参数来获取特征画像参数,通过特征画像参数得到原始特征变量的特征画像,其中所述数据偏移评价参数包括数据分箱PSI值、数据分箱IV值、数据分箱绝对命中率、数据分箱WOE和数据分箱相对命中率等,其中,IV全称为information value,指信息价值或信息量,用于评估特征变量对模型的贡献度),PSI全称为Population Stability Index,指群体稳定性指数,用于评估评估特征变量稳定性,woe全称叫Weight of Evidence,指证据权重,在本实施例中通过数据偏移评价参数在预设时间段内的数值变化来得到各所述特征画像参数,具体的,通过这些数据偏移评定参数可得到对应的变化值比如IV相对变化值、数据分箱绝对命中率变化值、数据分箱相对命中率变化值、数据分箱WOE变化值、数据分箱IV变化值等,进一步基于这些变化值得到所述特征画像参数。
下面具体说明特征画像参数的获取过程,在本申请一些实施例中,基于数据分箱PSI值、数据分箱IV值、数据分箱绝对命中率和数据分箱相对命中率这四个数据偏移评定参数来确定特征画像参数,具体得到的特征画像参数包括:逐月PSI值、逐月-整体PSI值、逐月-整体分箱IV波动系数、逐月-整体分箱绝对命中率波动系数、逐月-整体分箱相对命中率波动系数。本实施例针对每个原始特征变量基于所述四个数据偏移评定参数得到一组前述的特征画像参数。具体的,基于数据分箱PSI值、数据分箱IV值、数据分箱绝对命中率和数据分箱相对命中率这四个数据偏移评定参数计算各所述特征画像参数的过程具体如下:
1)计算各原始特征变量的逐月PSI值,计算公式为:
Figure BDA0002983480670000071
其中
Figure BDA0002983480670000072
代表训练集第i个分箱中样本数占总体样本的比例,
Figure BDA0002983480670000073
代表预测集第i个分箱中样本数占总体样本的比例。具体的,此处分箱数据的时间跨度为1个月,逐月PSI值的计算选择相邻两个月的样本分别为训练集、预测集,此计算结果表征每个月样本分布相对上个月样本分布的变化,假如上述预设时间段为六个月,则基于式1的输出结果可记为PSI2-1、PSI3-2、PSI4-3、PSI5-4、PSI6-5
2)计算各原始特征变量的逐月-整体PSI值,计算公式同式1。
与计算各原始特征变量的逐月PSI值的区别在于此处训练集为整体样本,预测集为每个月的样本,此计算结果表征每个月样本分布相对整体样本分布的变化。假如上述预设时间段为六个月,则训练集为6个月样本总和,预测集为每个月的样本,基于式1的输出结果可记为PSI1-all、PSI2-all、PSI3-all、PSI4-all、PSI5-all、PSI6-all
3)计算各原始特征变量的逐月-整体分箱IV波动系数,首先计算各原始特征变量的逐月IV值,计算公式为:
Figure BDA0002983480670000081
其中IVi代表第i个分箱的分箱IV值,pyi代表第i个分箱的正样本数与整体正样本数的比值,pni代表第i个分箱的负样本数与总体负样本数的比值。IV值代表特征本身的预测能力,假如上述预设时间段为六个月,则基于式2的输出结果可记为IV1、IV2、IV3、IV4、IV5、IV6
进一步地基于各原始特征变量的逐月IV值计算逐月-整体分箱IV波动系数,计算公式为:
Figure BDA0002983480670000082
其中
Figure BDA0002983480670000083
代表训练集第i个分箱的分箱IV值,
Figure BDA0002983480670000084
代表预测集第i个分箱的分箱IV值。具体的,训练集为整体样本,预测集为每个月的样本,此计算结果表征每个月样本的分箱预测能力相对总体样本的变化,假如上述预设时间段为六个月,则训练集为6个月样本总和,预测集为每个月的样本,基于式3的输出结果可记为IV1-all、IV2-all、IV3-all、IV4-all、IV5-all、IV6-all
4)计算各原始特征变量的逐月-整体分箱绝对命中率波动系数,计算公式为:
Figure BDA0002983480670000091
其中
Figure BDA0002983480670000092
代表训练集第i个分箱的绝对命中率,
Figure BDA0002983480670000093
代表预测集第i个分箱的绝对命中率。具体的,训练集为整体样本,预测集为每个月的样本,此计算结果表征每个月样本的分箱绝对命中率相对总体样本的变化,假如上述预设时间段为六个月,则训练集为6个月样本总和,预测集为每个月的样本,基于式4的输出结果可记为HR1-all、HR2-all、HR3-all、HR4-all、HR5-all、HR6-all
5)计算各原始特征变量的逐月-整体分箱相对命中率波动系数,计算公式为:
Figure BDA0002983480670000094
其中
Figure BDA0002983480670000095
代表训练集第i个分箱的相对命中率,
Figure BDA0002983480670000096
代表预测集第i个分箱的相对命中率。具体的,训练集为整体样本,预测集为每个月的样本,此计算结果表征每个月样本的分箱相对命中率相对总体样本的变化,假如上述预设时间段为六个月,则训练集为6个月样本总和,预测集为每个月的样本,基于式5的输出结果可记为RHR1-all、RHR2-all、RHR3-all、RHR4-all、RHR5-all、RHR6-all
当针对每个原始特征变量计算得到上述特征画像参数后,即可根据得到特征画像参数生成每个原始特征变量的特征画像。
对于步骤S202,本实施例通过对特征画像进行分析来对各所述原始特征变量进行分群,以得到多个特征集合。
对特征画像进行分析的结果是判断原始特征变量是否存在数据偏移,若无偏移则可基于无偏移的原始特征变量生成上述第二特征集合。假如上述预设时间段为六个月,特征画像参数逐月PSI值、逐月-整体PSI值、逐月-整体分箱IV波动系数、逐月-整体分箱绝对命中率波动系数、逐月-整体分箱相对命中率波动系数等将均小于其对应的预设阈值,表达式如下:
Figure BDA0002983480670000101
上述式6中的b、c、d、e均为预设阈值,满足上式的原始特征变量组合形成第二特征集合,便于后续说明,将此第二特征集合记为S1。
在一些实施例中,由上可知,各所述原始特征变量的特征画像包含多个特征画像参数;所述根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合的步骤包括:将各所述原始特征变量的特征画像参数依次与对应的预设阈值进行比较,当存在一个特征画像参数超出对应的预设阈值时,判定对应的原始特征变量存在数据偏移;根据存在数据偏移的原始特征变量的所有特征画像参数与对应的预设阈值的比较结果确定偏移类型,基于所述偏移类型生成与偏移类型对应的多个第一特征集合。具体的,首先将其中一个原始特征变量的特征画像参数依次与对应的预设阈值进行比较,当原始特征变量存在一个画像指标超出对应的预设阈值时,判定原始特征变量存在数据偏移;当判定存在数据偏移时,根据原始特征变量的所有特征画像指与对应的预设阈值的比较结果确定原始特征变量的偏移类型;之后对其它原始特征变量重复前述比较判断过程直到所有原始特征变量的偏移类型被确定;最后基于同一偏移类型的原始特征变量生成对应的特征集合,得到与偏移类型对应的多个第一特征集合。
在一些实施例中,由上可知,所述特征画像参数包括逐月PSI值、逐月-整体PSI值、逐月-整体分箱IV波动系数、逐月-整体分箱绝对命中率波动系数和逐月-整体分箱相对命中率波动系数;所述根据存在数据偏移的原始特征变量的所有特征画像参数与对应的预设阈值的比较结果确定偏移类型的步骤包括:当存在数据偏移的原始特征变量在所述预设时间段的所述逐月PSI值或所述逐月-整体PSI值的最大值不小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数的最大值均小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为所述特征分布偏移;当存在数据偏移的原始特征变量在预设时间段的所述逐月PSI值和所述逐月-整体PSI值的最大值小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数中的任意一个的最大值不小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为所述特征与目标变量的函数关系偏移;当存在数据偏移的原始特征变量在预设时间段的所述逐月PSI值或所述逐月-整体PSI值的最大值不小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数中的任意一个的最大值不小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为联合偏移,即同时存在所述特征分布偏移和所述特征与目标变量的函数关系偏移。
具体的,本实施例中的数据偏移分为特征分布P(x)偏移(简称分布偏移)和特征与目标变量的函数关系P(y|x)偏移(简称函数关系偏移)两种或其组合(联合偏移),对于分布偏移,通过逐月PSI值、逐月-整体PSI值来量化,值越大表示分布偏移程度越大,对于函数关系偏移,可用逐月-整体分箱IV波动系数、逐月-整体分箱绝对命中率波动系数和逐月-整体分箱相对命中率波动系数来量化,取值越大表示函数关系偏移程度越大。
上述的最大值是指每个参数的多个分箱取值的最大值,假如上述预设时间段为六个月,则原始特征变量仅分布偏移的表达式如下:
Figure BDA0002983480670000121
上述式7中的b、c、d、e均为预设阈值,max表示取各个值中的最大值,满足上式的原始特征变量组合形成一个第一特征集合,便于后续说明,将此特征集合记为S2。
假如上述预设时间段为六个月,则原始特征变量仅函数关系偏移的表达式如下:
Figure BDA0002983480670000122
上述式8中的b、c、d、e均为预设阈值,max表示取各个值中的最大值,满足上式的原始特征变量组合形成一个第一特征集合,便于后续说明,将此特征集合记为S3。
假如上述预设时间段为六个月,则原始特征变量联合偏移的表达式如下:
Figure BDA0002983480670000123
上述式9中的b、c、d、e均为预设阈值,max表示取各个值中的最大值,满足上式的原始特征变量组合形成一个第一特征集合,便于后续说明,将此特征集合记为S4。
对于步骤S203,在具体的预测场景中,不同的预测场景对入模特征的要求不同,一些对数据预测精度要求高的预测场景,则优先选择无数据偏移或数据偏移小的原始特征变量作为入模特征,一些对特征的多样性要求高的预测场景,则尽可能保留多的原始特征变量作为入模特征而降低对数据偏移的要求,故在本实施例中为不同预测场景提供对应的场景预测配置信息,所述场景预测配置信息包含预测场景对入模特征集的筛选条件,比如筛选条件为获取稳定性达到预设要求的入模特征集。
具体的,例如在智慧代理人招聘场景中,为保证模型的稳定性,降低模型风险,所述场景预测配置信息可为未发生数据偏移的原始特征变量对应的集合作为入模特征集,则仅将S1中原始特征变量作为入模特征。
在全量预测场景里,若可以基于全量测试集输出概率分布来确定模型输出标签,所述场景预测配置信息可为未发生数据偏移的原始特征变量对应的集合、以及发生偏移但能够用于确定模型输出标签的原始特征变量对应的集合作为入模特征集,则可将S2中的原始特征变量也入模,即入模特征集合为特征集S1与特征集S2的并集。
在全量预测场景下,若可以通过特征变换的方式消除原始特征变量的函数关系偏移,成为仅分布偏移或者稳定不偏移的特征,所述场景预测配置信息可为未发生数据偏移的原始特征变量对应的集合、将发生偏移但能够进行特征变换消除偏移影响的原始特征变量对应的集合作为入模特征集,则S3和S4变换后亦可入模,入模特征集合为特征集S1、S2、S3、S4的并集。
在一些实施例中,在所述将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征的步骤之前,所述方法还包括:获取所述获取的特征集合中的原始特征变量的逐月IV值,并根据各所述逐月IV值对所述获取的特征集合中的原始特征变量进行筛选,剔除所述逐月IV值不满足预设条件的原始特征变量,更新所述获取的特征集合。之后再将更新所述获取的特征集合中的原始变量特征作为入模特征。此步骤为筛选预测能力强的原始特征变量,具体使各逐月IV值中的最小值大于对应的预设阈值,假如上述预设时间段为六个月,则筛选表达式如下:
min(Iv1,IV2,IV3,IV4,IV5,Iv6)>a 式10
上式10中将逐月IV值的最小值小于预设阈值a的原始特征变量保留作为入模特征,min表示取各个值中的最小值。
本申请提供的数据预测模型的入模特征确定方法,通过对原始特征变量的特征画像,通过量化方式对原始特征变量进行数据偏移分析,可以实现特征分布偏移、特征与目标变量的函数关系偏移、联合偏移等偏移现象的可量化判定,以此生成不同类型的特征集合,并基于预测场景获取与场景适配的特征集合,实现对特征变量是否入模进行量化判定,得到能够降低模型风险的特征变量作为入模特征,提高模型预测稳定性和准确性。此外本申请可以适用多种数据预测场景的入模特征选取,通用性较高。
需要强调的是,为进一步保证信息的私密和安全性,待预测的目标对象可以存储于一区块链的节点中,所述获取待预测的目标对象在预设时间段的历史数据包括:将从至少一区块链节点中获取待预测的目标对象在预设时间段的历史数据。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机***环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器***、基于微处理器的***、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种数据预测模型的入模特征确定装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的数据预测模型的入模特征确定装置包括:特征画像获取模块301、特征集合生成模块302和入模特征获取模块30。其中,所述特征画像获取模块301用于获取待预测的目标对象在预设时间段的历史数据,从所述历史数据中提取多个原始特征变量,对各所述原始特征变量的特征值进行数据分箱操作,并基于分箱结果获取各所述原始特征变量的特征画像;所述特征集合生成模块302用于根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合,同时基于未发生数据偏移的原始特征变量生成第二特征集合;其中所述偏移类型包括特征分布偏移和特征与目标变量的函数关系偏移;所述入模特征获取模块303用于确定所述待预测的目标对象对应的预测场景,根据所述预测场景对应的场景预测配置信息从所述第二特征集合和所述多个第一特征集合中获取至少一个特征集合,将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征。
本实施例中预设时间段可以根据实际场景确定,比如6个月,获取预设时间段的历史数据,使得从历史数据提取的原始特征变量的数据具有一个时间跨度,采用本申请实施例的方案,在该时间跨度内原始特征变量的分布和预测能力的波动可以定量呈现和分析。
本实施例所述特征画像获取模块301从所述历史数据中提取多个原始特征变量,具体为获取与目标对象相关的多个维度的特征变量,例如在智慧代理人招聘场景中,具有代理人基本信息、代理人招聘岗前班表现、特定应用(如平安金管家APP)的数据活跃情况、历史购买保单信息等维度的特征变量。所述特征画像获取模块301在从所述历史数据中提取多个原始特征变量后,还用于进行数据预处理,具体参考上述方法实施例,在此不作展开。
在一些实施例中,所述特征画像获取模块301对各所述原始特征变量的特征值进行数据分箱操作时,具体用于:判断所述原始特征变量的特征值的类型,若为离散型则将每个特征值作为一个分箱,若为连续型则采用等宽分箱或等频分箱的分箱方式生成多个分箱。在智慧代理人招聘场景中,由于等宽分箱易受异常值影响,对于连续型的原始特征变量优先采用等频分箱的模式。
在一些实施例中,所述特征画像获取模块301在基于分箱结果获取各所述原始特征变量的特征画像的步骤之前,还用于:获取多个数据偏移评价参数,基于所述数据偏移评价参数确定所述特征画像参数。具体参考上述方法实施例,在此不作展开。
当所述特征画像获取模块301针对每个原始特征变量计算得到上述特征画像参数后,即可根据得到特征画像参数生成每个原始特征变量的特征画像。
本实施例所述特征集合生成模块302通过对特征画像进行分析来对各所述原始特征变量进行分群,以得到多个特征集合。对特征画像进行分析的结果是判断原始特征变量是否存在数据偏移,若无偏移则可基于无偏移的原始特征变量生成上述第二特征集合。
在一些实施例中,各所述原始特征变量的特征画像包含多个特征画像参数;所述特征集合生成模块302根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合时,具体用于:将各所述原始特征变量的特征画像参数依次与对应的预设阈值进行比较,当存在一个特征画像参数超出对应的预设阈值时,判定对应的原始特征变量存在数据偏移;根据存在数据偏移的原始特征变量的所有特征画像参数与对应的预设阈值的比较结果确定偏移类型,基于所述偏移类型生成与偏移类型对应的多个第一特征集合。具体参考上述方法实施例,在此不作展开。
在一些实施例中,所述特征画像参数包括逐月PSI值、逐月-整体PSI值、逐月-整体分箱IV波动系数、逐月-整体分箱绝对命中率波动系数和逐月-整体分箱相对命中率波动系数;所述特征集合生成模块302根据存在数据偏移的原始特征变量的所有特征画像参数与对应的预设阈值的比较结果确定偏移类型时,具体用于:当存在数据偏移的原始特征变量在所述预设时间段的所述逐月PSI值或所述逐月-整体PSI值的最大值不小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数的最大值均小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为所述特征分布偏移;当存在数据偏移的原始特征变量在预设时间段的所述逐月PSI值和所述逐月-整体PSI值的最大值小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数中的任意一个的最大值不小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为所述特征与目标变量的函数关系偏移;当存在数据偏移的原始特征变量在预设时间段的所述逐月PSI值或所述逐月-整体PSI值的最大值不小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数中的任意一个的最大值不小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为联合偏移,即同时存在所述特征分布偏移和所述特征与目标变量的函数关系偏移。具体参考上述方法实施例,在此不作展开。
在具体的预测场景中,不同的预测场景对入模特征的要求不同,一些对数据预测精度要求高的预测场景,则优先选择无数据偏移或数据偏移小的原始特征变量作为入模特征,一些对特征的多样性要求高的预测场景,则尽可能保留多的原始特征变量作为入模特征而降低对数据偏移的要求。具体参考上述方法实施例,在此不作展开。
在一些实施例中,所述入模特征获取模块30在将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征之前,还用于:获取所述获取的特征集合中的原始特征变量的逐月IV值,并根据各所述逐月IV值对所述获取的特征集合中的原始特征变量进行筛选,剔除所述逐月IV值不满足预设条件的原始特征变量,更新所述获取的特征集合。之后再将更新所述获取的特征集合中的原始变量特征作为入模特征。具体参考上述方法实施例,在此不作展开。
本申请提供的数据预测模型的入模特征确定装置,通过对原始特征变量的特征画像,通过量化方式对原始特征变量进行数据偏移分析,可以实现特征分布偏移、特征与目标变量的函数关系偏移、联合偏移等偏移现象的可量化判定,以此生成不同类型的特征集合,并基于预测场景获取与场景适配的特征集合,实现对特征变量是否入模进行量化判定,得到能够降低模型风险的特征变量作为入模特征,提高模型预测稳定性和准确性。此外本申请可以适用多种数据预测场景的入模特征选取,通用性较高。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。所述计算机设备4包括通过***总线相互通信连接存储器41、处理器42、网络接口43,所述存储器41中存储有计算机可读指令,所述处理器42执行所述计算机可读指令时实现上述方法实施例中所述的数据预测模型的入模特征确定方法的步骤,并具有与上述数据预测模型的入模特征确定方法相对应的有益效果,在此不作展开。
需要指出的是,图中仅示出了具有存储器41、处理器42、网络接口43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
在本实施例中,所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作***和各类应用软件,例如对应于上述数据预测模型的入模特征确定方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行对应于所述数据预测模型的入模特征确定方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据预测模型的入模特征确定方法的步骤,并具有与上述数据预测模型的入模特征确定方法相对应的有益效果,在此不作展开。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术实施例本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术实施例进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种数据预测模型的入模特征确定方法,其特征在于,包括下述步骤:
获取待预测的目标对象在预设时间段的历史数据,从所述历史数据中提取多个原始特征变量,对各所述原始特征变量的特征值进行数据分箱操作,并基于分箱结果获取各所述原始特征变量的特征画像;
根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合,同时基于未发生数据偏移的原始特征变量生成第二特征集合;其中所述偏移类型包括特征分布偏移和特征与目标变量的函数关系偏移;
确定所述待预测的目标对象对应的预测场景,根据所述预测场景对应的场景预测配置信息从所述第二特征集合和所述多个第一特征集合中获取至少一个特征集合,将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征。
2.根据权利要求1所述的数据预测模型的入模特征确定方法,其特征在于,各所述原始特征变量的特征画像包含多个特征画像参数;
所述根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合的步骤包括:
将各所述原始特征变量的特征画像参数依次与对应的预设阈值进行比较,当存在一个特征画像参数超出对应的预设阈值时,判定对应的原始特征变量存在数据偏移;
根据存在数据偏移的原始特征变量的所有特征画像参数与对应的预设阈值的比较结果确定偏移类型,基于所述偏移类型生成与偏移类型对应的多个第一特征集合。
3.根据权利要求2所述的数据预测模型的入模特征确定方法,其特征在于,所述特征画像参数包括逐月PSI值、逐月-整体PSI值、逐月-整体分箱IV波动系数、逐月-整体分箱绝对命中率波动系数和逐月-整体分箱相对命中率波动系数;
所述根据存在数据偏移的原始特征变量的所有特征画像参数与对应的预设阈值的比较结果确定偏移类型的步骤包括:
当存在数据偏移的原始特征变量在所述预设时间段的所述逐月PSI值或所述逐月-整体PSI值的最大值不小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数的最大值均小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为所述特征分布偏移;
当存在数据偏移的原始特征变量在预设时间段的所述逐月PSI值和所述逐月-整体PSI值的最大值小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数中的任意一个的最大值不小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为所述特征与目标变量的函数关系偏移;
当存在数据偏移的原始特征变量在预设时间段的所述逐月PSI值或所述逐月-整体PSI值的最大值不小于对应的预设阈值,且所述逐月-整体分箱IV波动系数、所述逐月-整体分箱绝对命中率波动系数和所述逐月-整体分箱相对命中率波动系数中的任意一个的最大值不小于对应的预设阈值,则判定存在数据偏移的原始特征变量的偏移类型为联合偏移,即同时存在所述特征分布偏移和所述特征与目标变量的函数关系偏移。
4.根据权利要求3所述的数据预测模型的入模特征确定方法,其特征在于,在所述基于分箱结果获取各所述原始特征变量的特征画像的步骤之前,所述方法包括:
获取多个数据偏移评价参数,基于所述数据偏移评价参数确定所述特征画像参数;其中所述数据偏移评价参数包括数据分箱PSI值、数据分箱IV值、数据分箱绝对命中率和数据分箱相对命中率。
5.根据权利要求1至4任一项所述的数据预测模型的入模特征确定方法,其特征在于,所述对各所述原始特征变量的特征值进行数据分箱操作的步骤包括:
判断所述原始特征变量的特征值的类型,若为离散型则将每个特征值作为一个分箱,若为连续型则采用等宽分箱或等频分箱的分箱方式生成多个分箱。
6.根据权利要求1至4任一项所述的数据预测模型的入模特征确定方法,其特征在于,在所述将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征的步骤之前,所述方法还包括:
获取所述获取的特征集合中的原始特征变量的逐月IV值,并根据各所述逐月IV值对所述获取的特征集合中的原始特征变量进行筛选,剔除所述逐月IV值不满足预设条件的原始特征变量,更新所述获取的特征集合。
7.根据权利要求1至4任一项所述的数据预测模型的入模特征确定方法,其特征在于,所述获取待预测的目标对象在预设时间段的历史数据包括:
将从至少一区块链节点中获取待预测的目标对象在预设时间段的历史数据。
8.一种数据预测模型的入模特征确定装置,其特征在于,包括:
特征画像获取模块,用于获取待预测的目标对象在预设时间段的历史数据,从所述历史数据中提取多个原始特征变量,对各所述原始特征变量的特征值进行数据分箱操作,并基于分箱结果获取各所述原始特征变量的特征画像;
特征集合生成模块,用于根据所述特征画像确定各所述原始特征变量是否存在数据偏移,以及在存在数据偏移时确定所述原始特征变量所属的偏移类型,根据所述偏移类型得到对应的多个第一特征集合,同时基于未发生数据偏移的原始特征变量生成第二特征集合;其中所述偏移类型包括特征分布偏移和特征与目标变量的函数关系偏移;
入模特征获取模块,用于确定所述待预测的目标对象对应的预测场景,根据所述预测场景对应的场景预测配置信息从所述第二特征集合和所述多个第一特征集合中获取至少一个特征集合,将获取的特征集合中的原始特征变量作为所述数据预测模型的入模特征。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的数据预测模型的入模特征确定方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的数据预测模型的入模特征确定方法的步骤。
CN202110293684.9A 2021-03-19 2021-03-19 一种数据预测模型的入模特征确定方法及设备 Active CN112990583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110293684.9A CN112990583B (zh) 2021-03-19 2021-03-19 一种数据预测模型的入模特征确定方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110293684.9A CN112990583B (zh) 2021-03-19 2021-03-19 一种数据预测模型的入模特征确定方法及设备

Publications (2)

Publication Number Publication Date
CN112990583A true CN112990583A (zh) 2021-06-18
CN112990583B CN112990583B (zh) 2023-07-25

Family

ID=76334443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110293684.9A Active CN112990583B (zh) 2021-03-19 2021-03-19 一种数据预测模型的入模特征确定方法及设备

Country Status (1)

Country Link
CN (1) CN112990583B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113923006A (zh) * 2021-09-30 2022-01-11 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
WO2022126961A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 针对数据偏移的目标对象行为预测方法及其相关设备
CN115880053A (zh) * 2022-12-05 2023-03-31 中电金信软件有限公司 一种评分卡模型的训练方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014201515A1 (en) * 2013-06-18 2014-12-24 Deakin University Medical data processing for risk prediction
US20170228651A1 (en) * 2016-02-10 2017-08-10 Grand Rounds Data driven featurization and modeling
CN111080338A (zh) * 2019-11-11 2020-04-28 中国建设银行股份有限公司 用户数据的处理方法、装置、电子设备及存储介质
CN111178639A (zh) * 2019-12-31 2020-05-19 北京明略软件***有限公司 一种基于多模型融合实现预测的方法及装置
CN111931848A (zh) * 2020-08-10 2020-11-13 中国平安人寿保险股份有限公司 数据的特征提取方法、装置、计算机设备及存储介质
US20210035021A1 (en) * 2019-07-29 2021-02-04 Elan SASSON Systems and methods for monitoring of a machine learning model
CN112508118A (zh) * 2020-12-16 2021-03-16 平安科技(深圳)有限公司 针对数据偏移的目标对象行为预测方法及其相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014201515A1 (en) * 2013-06-18 2014-12-24 Deakin University Medical data processing for risk prediction
US20170228651A1 (en) * 2016-02-10 2017-08-10 Grand Rounds Data driven featurization and modeling
US20210035021A1 (en) * 2019-07-29 2021-02-04 Elan SASSON Systems and methods for monitoring of a machine learning model
CN111080338A (zh) * 2019-11-11 2020-04-28 中国建设银行股份有限公司 用户数据的处理方法、装置、电子设备及存储介质
CN111178639A (zh) * 2019-12-31 2020-05-19 北京明略软件***有限公司 一种基于多模型融合实现预测的方法及装置
CN111931848A (zh) * 2020-08-10 2020-11-13 中国平安人寿保险股份有限公司 数据的特征提取方法、装置、计算机设备及存储介质
CN112508118A (zh) * 2020-12-16 2021-03-16 平安科技(深圳)有限公司 针对数据偏移的目标对象行为预测方法及其相关设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022126961A1 (zh) * 2020-12-16 2022-06-23 平安科技(深圳)有限公司 针对数据偏移的目标对象行为预测方法及其相关设备
CN113923006A (zh) * 2021-09-30 2022-01-11 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
CN113923006B (zh) * 2021-09-30 2024-02-02 北京淇瑀信息科技有限公司 设备数据认证方法、装置及电子设备
CN115880053A (zh) * 2022-12-05 2023-03-31 中电金信软件有限公司 一种评分卡模型的训练方法及装置
CN115880053B (zh) * 2022-12-05 2024-05-31 中电金信软件有限公司 一种评分卡模型的训练方法及装置

Also Published As

Publication number Publication date
CN112990583B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110119413B (zh) 数据融合的方法和装置
CN112990583B (zh) 一种数据预测模型的入模特征确定方法及设备
CN112766649B (zh) 基于多评分卡融合的目标对象评价方法及其相关设备
CN112148987A (zh) 基于目标对象活跃度的消息推送方法及相关设备
WO2022126961A1 (zh) 针对数据偏移的目标对象行为预测方法及其相关设备
CN112365202B (zh) 一种多目标对象的评价因子筛选方法及其相关设备
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN112308173B (zh) 基于多评价因子融合的多目标对象评价方法及其相关设备
CN112182118B (zh) 基于多数据源的目标对象预测方法及其相关设备
CN112529477A (zh) 信用评估变量筛选方法、装置、计算机设备及存储介质
CN112861662A (zh) 基于人脸和交互文本的目标对象行为预测方法及相关设备
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN113205403A (zh) 一种企业信用等级的计算方法、装置、存储介质及终端
CN111931848A (zh) 数据的特征提取方法、装置、计算机设备及存储介质
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN113506023A (zh) 工作行为数据分析方法、装置、设备及存储介质
CN111950623A (zh) 数据稳定性监控方法、装置、计算机设备及介质
CN115757075A (zh) 任务异常检测方法、装置、计算机设备及存储介质
CN115545753A (zh) 一种基于贝叶斯算法的合作伙伴预测方法及相关设备
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备
CN115713424A (zh) 风险评估方法、风险评估装置、设备及存储介质
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN112084408A (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN112926659A (zh) 实例异常判定方法、装置、计算机设备及存储介质
CN117934173A (zh) 风险分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant