CN111523995A - 一种模型迁移的特征值确定方法、装置及设备 - Google Patents
一种模型迁移的特征值确定方法、装置及设备 Download PDFInfo
- Publication number
- CN111523995A CN111523995A CN202010312789.XA CN202010312789A CN111523995A CN 111523995 A CN111523995 A CN 111523995A CN 202010312789 A CN202010312789 A CN 202010312789A CN 111523995 A CN111523995 A CN 111523995A
- Authority
- CN
- China
- Prior art keywords
- data
- proportion
- box
- value
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000013508 migration Methods 0.000 title claims abstract description 29
- 230000005012 migration Effects 0.000 title claims abstract description 29
- 230000001186 cumulative effect Effects 0.000 claims description 31
- 238000010586 diagram Methods 0.000 description 17
- 238000009826 distribution Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000002265 prevention Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004900 laundering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/214—Database migration support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Development Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Complex Calculations (AREA)
Abstract
本说明书实施例公开了一种基于模型迁移的特征值确定方法、装置以及设备,方案包括:获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;获取所述第一数据分箱的数据在第二特征维度的特征值;将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。
Description
技术领域
本申请涉及数据风险防控技术领域,尤其涉及一种模型迁移的特征值确 定方法、装置及设备。
背景技术
随着信息技术的不断发展,越来越多的行为可以通过网络实现。在通过 网络实现这些行为的过程中,会产生大量的数据(简称大数据)。于是,通 过对大数据进行分析,可以识别出某些数据所对应的行为是否是异常行为, 进而存在风险。例如,当某个非企业账户每天产生大量的交易数据时,该账 户就可能有违规经营或者洗钱等风险。
为了尽可能的通过对于数据的分析,识别出潜在的风险,利用历史数据 构建的数据驱动的风险防控模型,应运而生。但是,若在一个新开展的业务 场景中进行风险防控,由于缺乏历史数据,无法对模型进行训练等原因,导 致在初始阶段构建风控模型存在较大困难。
综上,如何能够在历史数据不够充足的情况下,对于数据风险进行防控, 仍是亟待解决的问题。
发明内容
本说明书实施例提供一种基于模型迁移的特征值确定方法、装置及设备, 以解决历史数据不够充足的情况下,对于数据风险进行防控的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于模型迁移的特征值确定方法,包括:
获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源 场景数据集中的占比信息;
在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配 的第二数据分箱;
获取所述第一数据分箱的数据在第二特征维度的特征值;
将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特 征值。
本说明书实施例提供的一种基于模型迁移的特征值确定装置,包括:
占比信息获取模块,用于获取源场景数据集的基于第一特征维度的第一 数据分箱的数据在所述源场景数据集中的占比信息;
占比匹配模块,用于在目标场景数据集中基于所述第一特征维度确定与 所述占比信息相匹配的第二数据分箱;
特征值获取模块,用于获取所述第一数据分箱的数据在第二特征维度的 特征值;
特征值确定模块,用于将所述特征值确定为所述第二数据分箱的数据在 所述第二特征维度的特征值。
本说明书实施例提供的一种基于模型迁移的特征值确定设备,
包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所 述至少一个处理器执行,以使所述至少一个处理器能够:
获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源 场景数据集中的占比信息;
在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配 的第二数据分箱;
获取所述第一数据分箱的数据在第二特征维度的特征值;
将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特 征值。
由以上本说明书实施例提供的技术方案可见,在本说明书实施例中,可 以利用源场景数据集中基于第一特征维度的分箱数据的占比信息来确定在第 一特征维度中目标场景的分箱情况,然后将源场景数据集中的分箱数据在第 二特征维度的特征值确定为目标场景的分箱数据在第二特征维度的特征值, 从而可以使源场景数据迁移至目标场景中,使目标场景历史数据不够充足的 情况下,也可以对数据风险进行防控,为新业务的开展提高了一定的保障。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下 面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人 员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的 附图。
图1为本说明书实施例提供的一种基于模型迁移的特征值确定方法流程 图;
图2为一种源场景数据分箱的示意图;
图3为基于图2的源场景得到的一种目标场景数据分箱的示意图;
图4为一种源场景数据分箱的示意图;
图5为基于图4的源场景得到的一种目标场景数据分箱的示意图;
图6为本说明书实施例提供的一种基于模型迁移的特征值确定装置结构 示意图;
图7为本说明书实施例提供的一种基于模型迁移的特征值确定设备结构 示意图。
具体实施方式
发明人研究发现,为了解决历史数据不够充足的情况下,对于数据风险 进行防控的问题,通常的方法是,等待新开展的业务运行一段时间,积累到 足够的数据后,再采用这些数据构建风控模型。这意味着新开展的业务在运 行初期无法得到有效的风险控制。在这段时期内,如果没有识别和阻拦恶意 用户的诈骗等行为,往往会给开展该业务的平台,以及参与该业务的用户带 来巨大的损失。
为了解决在历史数据不够充足的情况下,对于数据风险进行防控的问题, 学术界和工业界都进行了大量的探索和实践。例如:一种方式是通过专家经 验进行初始化模型设计。但专家经验存在主观偏差,且人力成本高,效率低 下。另一种方式是利用无标签业务数据,通过无监督算法挖掘潜在的模式。 但无监督学习的难度较大,且无监督算法挖掘得到的潜在模式,与需要解决 的特定问题不一定直接相关,往往还需要结合专家业务经验,进行启发式的 模型设计。
发明人发现在实际应用中,会存在许多相似的场景,例如,对于某一电 子支付平台,此平台可以为用户提供特色的存款业务,通常情况下,年轻人 更喜欢使用电子平台进行存款,并考虑到年轻人收入情况,在30至40岁的 年龄的人使用电子存款的较多,这样年龄与电子存款的使用情况之间就可以 存在类似正态分布的分布曲线;现新出现了一款线下存款业务,考虑到同样 是存款业务,只不过此业务是线下进行的,所以,此业务的使用情况与年龄 分布也会呈现类似正态分布的分布曲线,但由于是新的业务,没有太多的历 史数据,故考虑到电子平台进行存款与线下进行存款同样都可以存在类似正 态分布的分布曲线,即两者的分布情况是相似的,是否可以借鉴电子平台的 经验或者模型来分析此款新的线下业务的风险情况。
发明人发现迁移学习可以试图利用相似的源场景数据和经验,迁移到目 标场景中,解决目标场景中历史数据不够充足的情况下,模型构建的问题。 但在实际应用中,由于某些原因,源场景的数据只能用于构建模型,获得模 型参数,无法将源场景的原始数据和目标场景进行融合,例如在金融风控建 模场景中,由于数据安全和隐私等要求,通常A机构的原始用户行为数据, 无法放在B机构融合使用,从而使得传统的迁移方法在该场景中并不适用。
为获得本说明书实施例中的方案,发明人发现,衡量迁移模型hs(x)在迁 移场景DT中的结构风险RT可以表示为:
进行估算可得到:
并且,由贝叶斯定理可知,联合概率分布
p(x,y)=p(x|y)p(y)=p(y|x)p(x)。
从经验风险的分析可知,如果假设先验概率或后验概率其中一项不变, 则通过对分布进行校准,使得源场景训练的模型可以在目标场景中的经验风 险最小。
本说明书实施例中,假设源场景和目标场景的后验分布相同,即 pT(x|y)p(y)=pS(y|x)p(x),但先验分布发生漂移,即pT(x)≠pS(x),可以 得到:
由此可知,源场景中训练样本在目标场景中的概率,可以通过 pT(x)/pS(x)进行校准,从而降低源场景模型在目标场景中预测泛化误差。 由于源场景的样本无法与目标场景融合进行训练,因此,无法先利用目标场 景的pT(x)先验分布信息,对源场景做加权处理。
在源场景中基于DT训练模型h,即在源场景中求解以下问题,使得在源 场景中泛化误差最小:
当源场景模型训练完成后,在目标场景中,使得在目标场景中的泛化误 差与源场景泛化误差的差异最小,从而使得模型在目标场景中的性能也与源 场景尽量相似,则可以转化为优化以下问题:
由于pT(x|y)p(y)=pS(y|x)p(x),在源场景训练完成后,hS(x)固定, 如果假设模型参数保持不变,则问题可以转化为:
即可以通过对目标场景特征分布做操作,使得pT(x)和pS(x)的分布最接 近,得到模型最优结果。
因此,本说明书实施例提供了一种基于模型迁移的特征值确定方法、装 置以及设备。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合 本说明书一个或多个实施例中的附图,对本说明书实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而 不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出 创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1是本说明书实施例提供的基于模型迁移的特征值确定方法流程图, 包括以下步骤:
步骤100:获取源场景数据集的基于第一特征维度的第一数据分箱的数据 在所述源场景数据集中的占比信息。
数据分箱可以是按照某种规则将数据进行分类,可以把一段连续或离散 的值切分成若干段,每一段的值看成一个分类。
源场景可以是具有大量可进行模型构建的已知信息的场景,在实际应用 中可以按照某个特定维度将源场景数据集进行分箱处理。例如,对于某消费 业务,源场景数据集可以是此业务中用户的历史消费记录,使用此业务的用 户具有年龄特征,可以按照年龄这一特征维度将源场景数据集进行分箱处理; 又如,对于某理财业务,使用此业务的用户具有收入特征,可以按照收入这 一特征维度将源场景数据集进行分箱处理,等等。具体特征维度可以根据实 际需求进行选择,这里不作限定。
本说明书实施例中,所述占比信息可以具体可以是指一个第一数据分箱 内的数据在源场景数据集中的占比。例如,源场景中有100个数据,其中一 个数据分箱中的数据为20个,此数据分箱的数据在所述源场景数据集中的占 比信息可以为20%。
步骤102:在目标场景数据集中基于所述第一特征维度确定与所述占比信 息相匹配的第二数据分箱。
目标场景可以理解为与所述源场景相同或相似的场景,其与源场景具有 相同或相近的特征维度,例如,源场景为某线上平台的一款理财业务,目标 场景为某线下平台的一款理财业务,两者都为理财业务,具有相同的应用场 景,可以具有相同或相近的特征维度。
本说明书实施例中可以基于与源场景相同的第一特征维度对目标场景数 据集进行分箱处理,具体的可以根据第一数据分箱的数据在所述源场景数据 集中的占比信息来确定目标场景数据集的数据分箱,为与源场景中的数据分 箱区别开来,这里将目标场景数据集的数据分箱称为第二数据分箱。
步骤104:获取所述第一数据分箱的数据在第二特征维度的特征值。
机器学习中,进行模型构建数据可以具有多个特征维度,可以利用特征 工程获得数据的特征,特征工程是通过对原始数据的处理和加工,将原始数 据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征 是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或 转换得到的。
在本说明书实施例中,使用一个特征维度可能不足以描述数据的特征, 还可以利用第二特征维度进行数据的描述,第二特征维度可以是与第一特征 维度具有一定联系的维度,例如,第一特征维度为用户的年龄,用户的购买 力与用户的年龄具有一定的联系,可以将第二特征维度选定为用户的购买力。 为完成模型迁移的特征值的确定,本说明书实施例中还可以获取第二特征维 度的特征值。
步骤106:将所述特征值确定为所述第二数据分箱的数据在所述第二特征 维度的特征值。
在本说明书实施例中,可以将第二特征维度的特征值确定为所述第二数 据分箱的数据在所述第二特征维度的特征值,以便完成模型迁移。
如图1所示的基于模型迁移的特征值确定方法,可以利用源场景数据集 中基于第一特征维度的分箱数据的占比信息来确定在第一特征维度中目标场 景的分箱情况,然后将源场景数据集中的分箱数据在第二特征维度的特征值 确定为目标场景的分箱数据在第二特征维度的特征值,从而可以使源场景数 据迁移至目标场景中,使目标场景历史数据不够充足的情况下,也可以对数 据风险进行防控,为新业务的开展提供了保障。
本说明书实施例中,步骤102中所述在目标场景数据集中基于所述第一 特征维度确定与所述占比信息相匹配的第二数据分箱,具体可以包括:
确定所述第二数据分箱的左端点在所述第一特征维度对应的起始特征值;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱 包含的所述第一特征维度的特征值,计算所述第二数据分箱包含的数据在所 述目标场景数据集中所占的比例与所述占比信息对应的比例的差值,直至所 述差值小于或等于第一预设阈值;
将所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与 所述占比信息对应的比例的差值小于或等于第一预设阈值时,所述第二数据 分箱包含的所述第一特征维度的全部特征值确定为所述第二数据分箱的分箱 取值范围。
在实际应用中,目标场景数据的分箱情况是根据源场景的分箱情况相关 的,假设源场景为A平台的一项电子信贷场景,通过平台数据可以获知用户 相关的信息,例如,交易信息、还款信息等,目标场景为B平台的一项信用 卡业务,由于此项***业务是新业务,还没有大量的历史信息或者历史信 息缺失,在一些风控管理中,需要迁移使用A平台的风控模型来对B平台进 行风控管理。假设第一特征维度为年龄,年龄可以设置为0至100岁,源场 景数据集基于年龄进行分箱处理,将年龄0-20岁设置为第一个第一数据分箱, 第一个第一数据分箱内的数据个数在原场景数据集中的占比为20%;假设目 标场景中,从有限个历史信息中获知,目标场景的用户年龄段为16岁至75 岁,可以将16岁确定为起始特征值,判断16岁对应的数据个数在目标场景 数据集中所占的比例是否与20%相同或相近,若刚好与20%相同或相近,则 可以确定第二数据分箱的第一个数据分箱取值范围为16岁,而通常会小于 20%,则可以将16岁确定为第二数据分箱的第一个数据分箱的左端点值,然 后依次以每次加1的方式增加年龄值,计算从16岁开始的年龄段中对应的数 据个数在目标场景数据集中所占情况,直到达到20%,停止计算,此时对应 的年龄值为第二数据分箱的第一个数据分箱的右端点值,假设为35岁,则可 以第二数据分箱的第一个数据分箱取值范围为16岁至35岁;之后针对第二 数据分箱的第二个分箱可以从35岁开始,依次增加年龄值计算占比情况,进 而确定第二数据分箱的第二个数据分箱取值范围,进而可以确定整个第二数 据分箱的分箱情况。在实际应用中,前述达到20%,可以理解为第二数据分 箱包含的数据在目标场景数据集中所占的比例与占比信息对应的比例,即 20%的差值小于或等于第一预设阈值,其中第一预设阈值可以根据实际需求设 定,例如0.1%等。
本说明书实施例中,所述确定所述第二数据分箱的左端点在第一特征维 度对应的起始特征值,具体可以包括:
按照所述第一特征维度递增的方向,当所述第二数据分箱是所述目标场 景数据集的起始数据分箱时,将所述目标场景数据集中所述第一特征维度的 最小特征值确定为所述起始特征值;
当所述第二数据分箱是所述目标场景数据集的非起始数据分箱时,将所 述目标场景数据集中所述第二数据分箱的前一个数据分箱的右端点值确定为 所述起始特征值。
在实际应用中,数据分箱的分箱的取值范围通常会采用左开右闭的区间 表示,例如按照年龄维度进行分箱,得到一个分箱的取值范围为(20,35],则 表示此分箱表示一个从年龄大于20岁,至年龄小于等于35岁的范围。
本说明书实施例中可以从目标场景中第一特征维度的起始开始确定第二 数据分箱的取值范围,延续上例,假设目标场景的用户年龄段为16岁至75 岁,16岁为第一特征维度的起始位置,可以将16岁作为目标场景数据集中所 述第一特征维度的最小特征值确定为所述起始特征值;当判断第二分箱中的 第二个分箱时,可以以第一个分箱的右端点值35岁作为起始特征值。
本说明书实施例中,所述第一特征维度的特征值可以为数值类型,所述 按照设定顺序,依次增加所述第二数据分箱包含的所述第一特征维度的特征 值,具体可以包括:
按照所述第一特征维度的特征值增大的方向,依次增加所述第二数据分 箱包含的所述第一特征维度的特征值。
如上例,可以按照年龄增长的方向,依次增加第二数据分箱包含的年龄 值。需要说明的是,第一特征维度的特征值的类型还可以是其他类型,例如 文字、符号、颜色等,所述设定顺序可以根据实际需求进行设定,这里不作 具体限定,只要能够满足需求即可。
本说明书实施例中,所述第二特征维度的特征值,具体可以包括:证据 权重的值。
证据权重(WOE,weight of evidence),是衡量正常样本和违约样本分布 的差异方法,可以将特征的值规范到相近的尺度上。
为更清楚的说明本说明书实施例中的内容,下面结合图2和图3进行说 明,图2为一种源场景数据分箱的示意图,图3为基于图2的源场景得到的 一种目标场景数据分箱的示意图,其中第二特征维度可以为证据权重。
根据本说明书实施例中的方法可以由图2中所述的源场景的第一数据分 箱情况得到图3中目的场景的第二数据分箱情况,大概过程可以包括:假设 将源场景中的数据为10-40岁用户的数据,将其为五个数据分箱,第一个第一 数据分箱内的数据个数在源场景数据集中的占比为V1=20%,证据权重值 W1=0.5;第二个第一数据分箱内的数据个数在源场景数据集中的占比为 V2=25%,证据权重值W2=0.3;第三个第一数据分箱内的数据个数在源场景 数据集中的占比为V3=25%,证据权重值W3=0.1;第四个第一数据分箱内的 数据个数在源场景数据集中的占比为V4=15%,证据权重值W4=0;第五个第 一数据分箱内的数据个数在源场景数据集中的占比为V5=15%,证据权重值 W5=-0.2。假设目标场景针对的是18岁及以上的用户,以18岁作为第一个第 二数据分箱的起点,计算18岁对应的数据个数在目标场景数据集中的占比, 通常会较小,假设小于20%,则依次增加第一个第二数据分箱的右端点的年 龄值,直至第一个第二数据分箱中数据个数在目标场景数据集中的占比为 20%,或者接近20%,其中接近可以理解为第一个第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例,即20%, 的差值小于或等于根据实际需求设定的第一预设阈值,停止第一个第二数据 分箱的右端点的年龄值的增加,将此时的年龄值确定为第一个第二数据分箱 的右端点,图3所示第一个第二数据分箱的右端点为25岁,然后将第一个第 一数据分箱对应的WOE值确定为第一个第二数据分箱的WOE值。以此类推 可以获得图3所示的第二数据分箱的情况。
在实际应用中,所述占比信息具体可以包括所述第一数据分箱的左端点 对应的第一累计占比信息,以及所述第一数据分箱的右端点对应的第二累计 占比信息,所述在目标场景数据集中基于所述第一特征维度确定与所述占比 信息相匹配的第二数据分箱,具体可以包括:
确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值;在 所述第一特征维度,小于所述起始特征值的数据在所述目标场景数据集中的 占比为第一累积占比;所述第一累积占比与所述第一累积占比信息相匹配;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱 的右端点在所述第一特征维度对应的特征值,直至小于所述右端点对应的特 征值的数据在所述目标场景数据集中的占比为第二累积占比;所述第二累积 占比与所述第二累积占比信息相匹配。
所述占比信息,也可以是指累计占比信息,可以包括数据分箱左端点对 应的第一累计占比信息,以及右端点对应的第二累计占比信息。累计占比可 以指,小于某一端点对应的特征值的数据在所述目标场景数据集中的占比。
为更清楚的说明,继续以上述图2所示的内容为例,假设源场景数据中 只包含大于10岁的数据,第一个第一数据分箱为从大于10岁至小于或等于 16岁年龄段的数据分箱,其占比信息可以包括左端点对应的第一累计占比信 息,以及右端点对应的第二累计占比信息,具体可以对应的表示为第一累计 占比为0,第二累计占比为20%;第二个第一数据分箱为从大于16岁至小于 或等于20岁年龄段的数据分箱,对应的第一累计占比为20%,第二累计占比 为45%;第三个第一数据分箱为从大于20岁至小于或等于24岁年龄段的数 据分箱,对应的第一累计占比为45%,第二累计占比为70%;第四个第一数 据分箱为从大于24岁至小于或等于30岁年龄段的数据分箱,对应的第一累 计占比为70%,第二累计占比为85%;第五个第一数据分箱为从大于30岁至 小于或等于40岁年龄段的数据分箱,对应的第一累计占比为85%,第二累计 占比为100%。同理,可以按照设定顺序,依次增加第二数据分箱的右端点在 年龄值,直至小于所述右端点对应的年龄值在目标场景数据集中的占比为第 二累积占比,从而确定第二数据分箱的情况。其中,所述设定顺序可以根据 实际需求进行设定,例如降序、降序等,这不作具体限定。
本说明书实施例中可以适用于多种场合,所述第二特征维度的特征值, 具体可以包括:用户购买力的值。
为提高模型迁移的准确性,本说明书实施例中所述的方法,还可以包括:
确定所述源场景数据集的数据个数;
从目标场景的原始数据集中,选取所述数据个数的数据构成所述目标场 景数据集。
将目标场景与源场景设定为包含相同数量数据的数据集,可提高目标场 景与源场景的相似度,进而可以提高模型迁移的准确性。
在实际应用中,利用离散化处理的特征构建的模型,可以使模型更稳定, 可以降低模型过拟合的风险。数据分箱,可以包括卡方分箱、等距分箱、等 频分箱以及自定义分箱等等,可以根据实际需求选择合适的分箱方式,可以 单独选择一种分箱方式,也可以选择使用多种方式。
其中,等距分箱可以是从最小值A到最大值B之间,均分为M等份,每 个区间长度W=(B-A)/M,则区间边界值为A+W,A+2W,…,A+(M-1)W, 其中可以只考虑边界,每个等份里面的实例数量可能不等。
等频分箱中区间的边界值要经过选择,使得每个区间包含大致相等的实 例数量,如M=10,可以表示每个区间应该包含大约10%的实例。
本说明书实施例所述的方法,还可以包括:
对所述目标场景数据集的数据基于所述第一特征维度进行等频分箱,得 到n个数据分箱;
所述在目标场景数据集中基于所述第一特征维度确定与所述占比相匹配 的第二数据分箱,具体包括:
从所述n个数据分箱中,确定所述第二数据分箱的对应的起始数据分箱;
以所述起始数据分箱为基准,依次累加后续的数据分箱,得到数据分箱 集合,计算所述数据分箱集合中包含的数据在所述目标场景集中所占的比例 与所述占比信息对应的比例的差值,直至所述差值小于或等于第二预设阈值;
合并所述数据分箱集合中的数据分箱,得到所述第二数据分箱。
为提高计算效率,在实际应用中,可以将目标场景数据集的数据基于第 一特征维度进行等频分箱,通过将分箱后的数据进行累加得到第二数据分箱。
本说明书实施例中第二特征维度还可以包括购买力,购买力(purchasing power)可以指在一定时期内对于商品的购买能力指数。其中,购买能力指数 可以是指按照一定的评估方法计算出的表示用户购买能力的指标。
为更清楚的说明本说明书实施例中内容,以第一特征维度为年龄,第二 特征维度为对某物品的购买力进行说明。图4为一种源场景的数据分箱的示 意图,图5为基于图4的源场景得到的一种目标场景的数据分箱示意图。
如图4所示,假设图4为某平台中某一产品的购买力与用户人群年龄的 关系图,其中用户可以是此平台的注册用户,在进行注册时,可以填写用户 资料,例如年龄、学历、收入、住址等信息。在实际应用中,可以将用户按 照年龄从小到大排序,每10岁的数据划分为一个分箱,假设年龄在大于10 岁且小于或等于20岁的占比为0.15,对应的购买力为10;年龄在大于20岁 且小于或等于30岁的占比为0.45,对应的购买力为45;年龄在大于30岁且小于或等于40岁的占比为0.3,对应的购买力为60;年龄在大于40岁且小于 或等于50岁的占比为0.05,对应的购买力为30;年龄在大于50岁且小于或 等于60岁的占比为0.03,对应的购买力为10;年龄在大于60岁且小于或等 于70岁的占比为0.02,对应的购买力为5;70岁以上的占比为0,可以不进 行计算。相应的这些分箱的占比信息也可以理解为对应年龄在10至20岁的 第一个分箱的累计占比为0.15,也可以表示为(0,0.15];对应年龄在20至30岁的第二个分箱的累计占比为0.6,也可以表示为(0.15,0.6];对应年龄在30 至40岁的第三个分箱的累计占比为0.9,也可以表示为(0.6,0.9];对应年龄 在40至50岁的第四个分箱的累计占比为0.95,也可以表示为(0.9,0.95];对 应年龄在50至60岁的第五个分箱的累计占比为0.98,也可以表示为(0.95, 0.98];对应年龄在60至70岁的第六个分箱的累计占比为1,也可以表示为(0.98, 1.00]。
假设某平台推出了一款新产品或业务,此产品或业务对应的用户年龄与 购买力的分布趋势与图4中源场景相似,只是针对的主要群体在年龄上可能 有些差距,可以利用图4中的存在的大量已知数据构建模型,利用模型迁移 获得可应用于新产品的模型,其中在获得了上述源场景数据集的基于第一特 征维度,即年龄的第一数据分箱的数据在所述源场景数据集中的占比信息后, 可以将目标场景数据集的数据基于第一特征维度(年龄)进行等频分箱,得 到n个数据分箱,其中,n为大于0的自然数;假设n=100,将目标场景数据集的数据基于年龄等频分为100个原始分箱,即每个原始分箱中的数据占目 标场景数据集的1%,假设目标场景的用户是从16岁开始的用户(包括16岁), 可以将16岁对应的分箱确定为第二数据分箱的对应的起始数据分箱,然后按 照年龄的增长方向开始依次累加后续的数据分箱,由于目标场景中每个分箱 中的数据占目标场景数据集的1%,要达到源场景第一个数据分箱的占比0.15, 也就是使目标场景的第一个数据分箱的数据达到目标场景数据集的15%,可 以将15个占比1%的原始分箱合并累加,假设第15个原始分箱对应的是22 岁,则可以得到目标场景的第一个数据分箱为(含)16岁至(含)22岁的年 龄段,进而可以确定其对应的购买力为10;然后继续确定与源场景第二个数 据分箱对应的目标场景的第二个数据分箱,具体可以包括,继续第16个原始 分箱开始合并累加,由于源场景第二个数据分箱的占比0.45,可以从第16个 原始分箱开始的45个占比1%的原始分箱合并累加,也就是可以把第16个至 第60个原始分箱合并累加得到占比为0.45的第二个数据分箱,假设第60个 原始分箱对应的年龄为35岁,则可以得到目标场景的第二个数据分箱为(含) 23岁至(含)35岁的年龄段,进而可以确定其对应的购买力为45;依次类推, 可以计算得到与4中所示的第一数据分箱对应的第二数据分箱,最终可以得 到图5中所示的适用于目标场景的年龄与购买力关系示意图。需要说明的是, 当n取值为100,即等频划分100个分箱后,后续在进行分箱取值范围的合并 计算过程时,就可以以分箱为单位进行合并后占比的计算,因为每个原始分 箱内的数据占比已经是目标场景数据集的1%,计算效率更高。
需要说明的是,本说明书实施例中n的取值可以为任一符合需求的数值, 上述仅是为了更清楚的说明本说明书实施例的原理进行的举例说明,在实际 应用中,可以任意选择合适的第一特征维度、第二特征维度、预设阈值、设 定顺序等内容,只要能够满足实际需求即可,这里可以不作具体限定。
基于图1所示的基于模型迁移的特征值确定方法,本说明书实施例还对 应提供了一种基于模型迁移的特征值确定装置,如图6所示,所述装置可以 包括:
占比信息获取模块600,用于获取源场景数据集的基于第一特征维度的第 一数据分箱的数据在所述源场景数据集中的占比信息;
占比匹配模块602,用于在目标场景数据集中基于所述第一特征维度确定 与所述占比信息相匹配的第二数据分箱;
特征值获取模块604,用于获取所述第一数据分箱的数据在第二特征维度 的特征值;
特征值确定模块606,用于将所述特征值确定为所述第二数据分箱的数据 在所述第二特征维度的特征值。
其中,所述占比匹配模块602,具体可以用于:
确定所述第二数据分箱的左端点在所述第一特征维度对应的起始特征值;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱 包含的所述第一特征维度的特征值,计算所述第二数据分箱包含的数据在所 述目标场景数据集中所占的比例与所述占比信息对应的比例的差值,直至所 述差值小于或等于预设阈值;
将所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与 所述占比信息对应的比例的差值小于或等于第一预设阈值时,所述第二数据 分箱包含的所述第一特征维度的全部特征值确定为所述第二数据分箱的分箱 取值范围。
其中,所述占比信息具体可以包括所述第一数据分箱的左端点对应的第 一累计占比信息,以及所述第一数据分箱的右端点对应的第二累计占比信息, 所述占比匹配模块602,具体可以用于:
确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值;在 所述第一特征维度,小于所述起始特征值的数据在所述目标场景数据集中的 占比为第一累积占比;所述第一累积占比与所述第一累积占比信息相匹配;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱 的右端点在所述第一特征维度对应的特征值,直至小于所述右端点对应的特 征值的数据在所述目标场景数据集中的占比为第二累积占比;所述第二累积 占比与所述第二累积占比信息相匹配。
本说明书实施例中所述装置,还可以包括数据选取模块,用于:
确定所述源场景数据集的数据个数;
从目标场景的原始数据集中,选取所述数据个数的数据构成所述目标场 景数据集。
本说明书实施例中所述装置,还可以包括等频分箱模块,用于:
对所述目标场景数据集的数据基于所述第一特征维度进行等频分箱,得 到n个数据分箱;
所述占比匹配模块602,具体可以用于:
从所述n个数据分箱中,确定所述第二数据分箱的对应的起始数据分箱;
以所述起始数据分箱为基准,依次累加后续的数据分箱,得到数据分箱 集合,计算所述数据分箱集合中包含的数据在所述目标场景集中所占的比例 与所述占比信息对应的比例的差值,直至所述差值小于或等于第二预设阈值;
合并所述数据分箱集合中的数据分箱,得到所述第二数据分箱。
基于图1所示的基于模型迁移的特征值确定方法,本说明书实施例还对 应提供了一种基于模型迁移的特征值确定设备,如图7所示,该设备700,可 以包括:
至少一个处理器710;以及,
与所述至少一个处理器710通信连接的存储器730;其中,
所述存储器730存储有可被所述至少一个处理器执行的指令720,所述指 令720被所述至少一个处理器710执行,以使所述至少一个处理器710能够:
获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源 场景数据集中的占比信息;
在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配 的第二数据分箱;
获取所述第一数据分箱的数据在第二特征维度的特征值;
将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特 征值。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同 相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同 之处。尤其,对于图3所示的电子券发送设备而言,由于其基本相似于方法 实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的 改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改 进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程 的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进 的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一 个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件 (Programmable Logic Device,PLD)(例如现场可编程门阵列(FieldProgrammable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由 用户对器件编程来确定。由设计人员自行编程来把一个数字符***“集成”在一 片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而 且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器 (logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类 似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件 描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL (AlteraHardware Description Language)、Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只 需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中, 就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理 器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如 软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式, 控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、 Microchip PIC18F26K20以及Silicone LabsC8051F320,存储器控制器还可以 被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计 算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑 编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌 入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬 件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的 结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的 软件模块又可以是硬件部件内的结构。
上述实施例阐明的***、装置、模块或单元,具体可以由计算机芯片或 实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算 机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相 机电话、智能电话、个人数字符助理、媒体播放器、导航设备、电子邮件设 备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组 合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然, 在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或 计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘 存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程 图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流 程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算 机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使 得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功 能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或 多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的 处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图 一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出 接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。 内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由 任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他 类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储 器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、 数字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其 他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的 信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排 他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包 括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包 括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者 设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机 程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软 件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含 有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述, 例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类 型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中 实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处 理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备 在内的本地和远程计算机存储介质中。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术 人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所 作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (15)
1.一种基于模型迁移的特征值确定方法,包括:
获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;
在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;
获取所述第一数据分箱的数据在第二特征维度的特征值;
将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。
2.根据权利要求1所述的方法,所述在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱,具体包括:
确定所述第二数据分箱的左端点在所述第一特征维度对应的起始特征值;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱包含的所述第一特征维度的特征值,计算所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于第一预设阈值;
将所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值小于或等于第一预设阈值时,所述第二数据分箱包含的所述第一特征维度的全部特征值确定为所述第二数据分箱的分箱取值范围。
3.根据权利要求2所述的方法,所述确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值,具体包括:
按照所述第一特征维度递增的方向,当所述第二数据分箱是所述目标场景数据集的起始数据分箱时,将所述目标场景数据集中所述第一特征维度的最小特征值确定为所述起始特征值;
当所述第二数据分箱是所述目标场景数据集的非起始数据分箱时,将所述目标场景数据集中所述第二数据分箱的前一个数据分箱的右端点值确定为所述起始特征值。
4.根据权利要求2所述的方法,所述第一特征维度的特征值为数值类型,所述按照设定顺序,依次增加所述第二数据分箱包含的所述第一特征维度的特征值,具体包括:
按照所述第一特征维度的特征值增大的方向,依次增加所述第二数据分箱包含的所述第一特征维度的特征值。
5.根据权利要求1所述的方法,所述占比信息具体包括所述第一数据分箱的左端点对应的第一累计占比信息,以及所述第一数据分箱的右端点对应的第二累计占比信息,所述在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱,具体包括:
确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值;在所述第一特征维度,小于所述起始特征值的数据在所述目标场景数据集中的占比为第一累积占比;所述第一累积占比与所述第一累积占比信息相匹配;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱的右端点在所述第一特征维度对应的特征值,直至小于所述右端点对应的特征值的数据在所述目标场景数据集中的占比为第二累积占比;所述第二累积占比与所述第二累积占比信息相匹配。
6.根据权利要求1所述的方法,所述特征值,具体包括:证据权重。
7.根据权利要求1所述的方法,还包括:
确定所述源场景数据集的数据个数;
从目标场景的原始数据集中,选取所述数据个数的数据构成所述目标场景数据集。
8.根据权利要求1所述的方法,还包括:
对所述目标场景数据集的数据基于所述第一特征维度进行等频分箱,得到n个数据分箱;
所述在目标场景数据集中基于所述第一特征维度确定与所述占比相匹配的第二数据分箱,具体包括:
从所述n个数据分箱中,确定所述第二数据分箱的对应的起始数据分箱;
以所述起始数据分箱为基准,依次累加后续的数据分箱,得到数据分箱集合,计算所述数据分箱集合中包含的数据在所述目标场景集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于第二预设阈值;
合并所述数据分箱集合中的数据分箱,得到所述第二数据分箱。
9.根据权利要求8所述的方法,所述n取值为100。
10.一种基于模型迁移的特征值确定装置,包括:
占比信息获取模块,用于获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;
占比匹配模块,用于在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;
特征值获取模块,用于获取所述第一数据分箱的数据在第二特征维度的特征值;
特征值确定模块,用于将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。
11.根据权利要求10所述的装置,所述占比匹配模块,具体用于:
确定所述第二数据分箱的左端点在所述第一特征维度对应的起始特征值;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱包含的所述第一特征维度的特征值,计算所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于第一预设阈值;
将所述第二数据分箱包含的数据在所述目标场景数据集中所占的比例与所述占比信息对应的比例的差值小于或等于第一预设阈值时,所述第二数据分箱包含的所述第一特征维度的全部特征值确定为所述第二数据分箱的分箱取值范围。
12.根据权利要求10所述的装置,所述占比信息具体包括所述第一数据分箱的左端点对应的第一累计占比信息,以及所述第一数据分箱的右端点对应的第二累计占比信息,所述占比匹配模块,具体用于:
确定所述第二数据分箱的左端点在第一特征维度对应的起始特征值;在所述第一特征维度,小于所述起始特征值的数据在所述目标场景数据集中的占比为第一累积占比;所述第一累积占比与所述第一累积占比信息相匹配;
在所述目标场景数据集中,按照设定顺序,依次增加所述第二数据分箱的右端点在所述第一特征维度对应的特征值,直至小于所述右端点对应的特征值的数据在所述目标场景数据集中的占比为第二累积占比;所述第二累积占比与所述第二累积占比信息相匹配。
13.根据权利要求10所述的装置,还包括数据选取模块,用于:
确定所述源场景数据集的数据个数;
从目标场景的原始数据集中,选取所述数据个数的数据构成所述目标场景数据集。
14.根据权利要求10所述的装置,还包括等频分箱模块,用于:
对所述目标场景数据集的数据基于所述第一特征维度进行等频分箱,得到n个数据分箱;
所述占比匹配模块,具体用于:
从所述n个数据分箱中,确定所述第二数据分箱的对应的起始数据分箱;
以所述起始数据分箱为基准,依次累加后续的数据分箱,得到数据分箱集合,计算所述数据分箱集合中包含的数据在所述目标场景集中所占的比例与所述占比信息对应的比例的差值,直至所述差值小于或等于第二预设阈值;
合并所述数据分箱集合中的数据分箱,得到所述第二数据分箱。
15.一种基于模型迁移的特征值确定设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取源场景数据集的基于第一特征维度的第一数据分箱的数据在所述源场景数据集中的占比信息;
在目标场景数据集中基于所述第一特征维度确定与所述占比信息相匹配的第二数据分箱;
获取所述第一数据分箱的数据在第二特征维度的特征值;
将所述特征值确定为所述第二数据分箱的数据在所述第二特征维度的特征值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312789.XA CN111523995B (zh) | 2020-04-20 | 2020-04-20 | 一种模型迁移的特征值确定方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010312789.XA CN111523995B (zh) | 2020-04-20 | 2020-04-20 | 一种模型迁移的特征值确定方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111523995A true CN111523995A (zh) | 2020-08-11 |
CN111523995B CN111523995B (zh) | 2023-03-17 |
Family
ID=71911844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010312789.XA Active CN111523995B (zh) | 2020-04-20 | 2020-04-20 | 一种模型迁移的特征值确定方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111523995B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222177A (zh) * | 2021-05-11 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 模型迁移方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160112510A1 (en) * | 2014-10-17 | 2016-04-21 | International Business Machines Corporation | Managing migration of an application from a source to a target |
CN108764915A (zh) * | 2018-04-26 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 模型训练方法、数据类型识别方法和计算机设备 |
CN109711461A (zh) * | 2018-12-25 | 2019-05-03 | 中国人民解放军战略支援部队航天工程大学 | 基于主成分分析的迁移学习图片分类方法及其装置 |
CN110458598A (zh) * | 2019-07-04 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 场景适配方法、装置及电子设备 |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
-
2020
- 2020-04-20 CN CN202010312789.XA patent/CN111523995B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160112510A1 (en) * | 2014-10-17 | 2016-04-21 | International Business Machines Corporation | Managing migration of an application from a source to a target |
CN108764915A (zh) * | 2018-04-26 | 2018-11-06 | 阿里巴巴集团控股有限公司 | 模型训练方法、数据类型识别方法和计算机设备 |
CN109711461A (zh) * | 2018-12-25 | 2019-05-03 | 中国人民解放军战略支援部队航天工程大学 | 基于主成分分析的迁移学习图片分类方法及其装置 |
CN110458598A (zh) * | 2019-07-04 | 2019-11-15 | 阿里巴巴集团控股有限公司 | 场景适配方法、装置及电子设备 |
CN110569428A (zh) * | 2019-08-08 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种推荐模型的构建方法、装置及设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222177A (zh) * | 2021-05-11 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 模型迁移方法、装置及电子设备 |
CN113222177B (zh) * | 2021-05-11 | 2024-02-27 | 支付宝(杭州)信息技术有限公司 | 模型迁移方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111523995B (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934706B (zh) | 一种基于图结构模型的交易风险控制方法、装置以及设备 | |
Eismann et al. | Predicting the costs of serverless workflows | |
WO2020024716A1 (zh) | 一种针对新场景的预测模型训练方法及装置 | |
CN109934697A (zh) | 一种基于图结构模型的信用风险控制方法、装置以及设备 | |
CN111080304B (zh) | 一种可信关系识别方法、装置及设备 | |
CN108596410B (zh) | 一种风控事件自动处理方法及装置 | |
CN110020427B (zh) | 策略确定方法和装置 | |
CN109003091A (zh) | 一种风险防控处理方法、装置及设备 | |
CN110634030A (zh) | 应用的业务指标挖掘方法、装置及设备 | |
US11829455B2 (en) | AI governance using tamper proof model metrics | |
CN110134860B (zh) | 用户画像生成方法、装置和设备 | |
CN113849166A (zh) | 智慧水环境积木式零代码开发平台 | |
CN110033092B (zh) | 数据标签生成、模型训练、事件识别方法和装置 | |
CN114372566A (zh) | 图数据的增广、图神经网络训练方法、装置以及设备 | |
CN111523995B (zh) | 一种模型迁移的特征值确定方法、装置及设备 | |
CN113010562B (zh) | 一种信息推荐的方法以及装置 | |
US11663676B2 (en) | Cognitive management of multiple subaccounts | |
CN109903140A (zh) | 一种信用服务推荐方法、装置及设备 | |
CN116308738B (zh) | 一种模型训练的方法、业务风控的方法及装置 | |
CN115456801B (zh) | 个人信用的人工智能大数据风控***、方法和存储介质 | |
CN116882767A (zh) | 一种基于不完善异构关系网络图的风险预测方法及装置 | |
CN113222177B (zh) | 模型迁移方法、装置及电子设备 | |
Zuo et al. | ProSGPV: an R package for variable selection with second-generation p-values | |
CN111784162A (zh) | 一种业务***的健康指数评价方法、装置以及设备 | |
CN111401641A (zh) | 业务数据处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40036329 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |