CN110738476A

CN110738476A - 一种样本迁移方法、装置及设备

Info

Publication number: CN110738476A
Application number: CN201910905305.XA
Authority: CN
Inventors: 王骏; 陈弢
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-31
Anticipated expiration: 2039-09-24
Also published as: CN110738476B

Abstract

公开了一种样本迁移方法、装置及设备。通过本说明书实施例所提供的方案，抽取业务已经成熟的源领域中的源样本，以及少量的目标域中的目标域样本，分别比较出相同特征和不同特征，对于相同特征，进行高维映射后的适配，对于不同特征则进行补齐，从而得到修正后的源样本和目标域样本，并且合并得到可用于目标域的融合样本集合。

Description

一种样本迁移方法、装置及设备

技术领域

本说明书实施例涉及信息技术领域，尤其涉及一种样本迁移方法、装置及设备。

背景技术

风控模型的建立无法绕过模型训练阶段，而训练阶段需要有一定周期的业务数据积累和打标数据。在实际应用中，则经常会遇到在某个环境中，从零基础上发展某些已经成熟业务。

例如，第三方支付在国内已经很成熟，但是需要在某外国开展业务时，业务场景虽然类似，但是环境则不一样，在业务开展初期只有非常少量的样本积累，这导致这些业务在上线初期很难以当地的数据训练和建立有效的风控模型和策略进行风险防控。

基于此，需要一种可靠的样本迁移方案。

发明内容

本申请实施例的目的是提供一种可靠的样本迁移。

为解决上述技术问题，本申请实施例是这样实现的：

一种样本迁移方法，包括：

获取源样本集合和目标域样本集合，其中，所述源样本和目标域样本包含数量相同的特征，所述源样本和目标域样本应用于类似的业务领域；

确定出源样本和目标域样本中所包含的相同特征以及不同特征；

针对相同特征，将源样本和目标域样本映射至同一高维空间，确定出相同特征下，源样本集合和目标域样本集合中最近接的特征值分布，根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值；

针对不同特征，根据源样本集合中所述不同特征的取值，补齐所述目标域样本中的不同特征的特征值；

合并所述特征值变更后的源样本集合和目标域样本集合，生成融合样本集合，以用于在目标域中进行模型训练。

对应的，本说明书实施例还提供一种样本迁移装置，包括：

样本获取模块，样本获取装置获取源样本集合和目标域样本集合，其中，所述源样本和目标域样本包含数量相同的特征，所述源样本和目标域样本应用于类似的业务领域；

特征确定模块，确定出源样本和目标域样本中所包含的相同特征以及不同特征；

相同特征变换模块，针对相同特征，将源样本和目标域样本映射至同一高维空间，确定出相同特征下，源样本集合和目标域样本集合中最近接的特征值分布，根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值；

不同特征变换模块，针对不同特征，根据源样本集合中所述不同特征的取值，补齐所述目标域样本中的不同特征的特征值；

融合模块，合并所述特征值变更后的源样本集合和目标域样本集合，生成融合样本集合，以用于在目标域中进行模型训练。

通过本说明书实施例所提供的方案，抽取业务已经成熟的源领域中的源样本，以及少量的目标域中的目标域样本，分别比较出相同特征和不同特征，对于相同特征，进行高维映射后的适配，对于不同特征则进行补齐，从而得到修正后的源样本和目标域样本，并且合并得到可用于目标域的融合样本集合。由于目标域样本和源域样本本就属于类似的业务场景，通过前述方式使得目标域样本和源域样本的特征值分布大致相当，提升了融合样本集合的数量和在目标域中的可靠性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书实施例。

此外，本说明书实施例中的任一实施例并不需要达到上述的全部效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种样本迁移方法的流程示意图；

图2为本说明书实施例所提供的一种特征描述的示意图；

图3为本说明书实施例所给出的补齐目标域样本特征的示意图；

图4是本说明书实施例提供的一种样本迁移装置的结构示意图；

图5是用于配置本说明书实施例方法的一种设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于保护的范围。

首先对于本说明书实施例所中涉及的一些概念进行解释：

源域：指是可以作为样本迁移的源业务领域，比如中国境内成熟的第三方支付领域，在该领域红，样本数量多，训练出来的模型成熟可靠。

源样本：应用于源域中的样本，每个样本都已经得到欺诈交易或者正常交易的标签打标。

源样本集合：由源样本所构成的集合，集合中元素数量较多。

目标域：指需要进行样本迁移的目标领域，比如境外某个国家开展的第三方支付领域，目标域中的业务与源域中的业务场景类似。

目标域样本：应用于目标域中的样本，由于业务在境外是刚开展，因此目标域样本较少。

目标域样本集合：由目标域样本所构成的集合，集合中元素数量较少。

以下结合附图，详细说明本说明书各实施例提供的技术方案。如图1所示，图1是本说明书实施例提供的一种样本迁移方法的流程示意图，该流程具体包括如下步骤：

S101，获取源样本集合和目标域样本集合，其中，所述源样本和目标域样本包含数量相同的特征。

首先需要说明的是，样本是由多个特征所组成的，同时，每个特征都会有相应的特征值。在源样本中，由于业务已经成熟，特征和特征值都是已经确定可知的。以及，每个源样本都可以有明确的标签。换言之，源样本中的特征数量是确定的，每个样本中的特征值也是确定的。

同时，针对目标域样本，由于需要进行样本迁移，因此目标域样本中的特征数量需要与源样本中相同。一种实施方式可以是，在创建目标域样本时，即将目标域样本中的特征数量确定为等于源样本中的特征数量确定。

S103，确定出源样本和目标域样本中所包含的相同特征以及不同特征。

本说明书实施例中所指的不同特征是指源样本中有而目标域样本中没有的特征。

如果一个特征是目标域样本中存在而源样本不存在，在这个过程中可以视为冗余特征，进行删除。实际上，由于业务类型相似，因此目标域样本在建立时，其所包含的特征也往往是与源样本相同，或者更少。如图2所示，图2为本说明书实施例所提供的一种特征描述的示意图。图中的重叠部分即表示为相同特征，显然，相同特征可以是一个或者多个。

S105，针对相同特征，将源样本和目标域样本映射至同一高维空间，确定出相同特征下，源样本集合和目标域样本集合中最近接的特征值分布，根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值。

具体而言，可以采用各种函数变换，将源样本和目标域样本同时映射至同一高维空间。例如采用线性变换，或者多项式变换，或者高斯变换等等。

采用函数变换进行高维映射的目的在于，在低维空间中，由于目标域和目标域所处的环境不同，同一特征的特征值很难看出彼此间的联系。例如，对于特征“月消费额度”或者特征“可信用透支额度”，在国内的环境下与在国外的环境下，直接进行特征值的比较或者迁移显然是不可行的。

但是，在样本数据量足够多时，可以知道“月消费额度”或者“可信用透支额度”即使在不同的领域环境下其分布方式也会存在相似的规律，例如，均服从高斯分布，只不过在不同域上高斯分布的参数不同而已。因此，如果经过合适的多维映射，在某个高维空间上，仍然可以看出国内域的“月消费额度”与国外域的“月消费额度”的特征值分布非常接近。具体的表现即为，在根据“月消费额度”进行了高维映射之后，源样本和目标域样本在该高维空间中特征值比较接近，聚类效果较为明显。

在实际应用中，潜在的规律是多元的，因此，可以采用不同的高维映射方式分别进行映射，进而比较在高维空间的聚类效果，从而得到源样本集合和目标域样本集合中最近接的特征值分布，进而，针对该相同特征，将源样本和目标域样本中该相同特征的特征值均替换为高维空间下的特征值。

一种可实施的方式即为，通过采用不同的映射函数，或者调整映射函数中的映射参数，设定计算步长对源样本集合和目标域样本集合进行多次映射。在每次映射之后，即计算在高维空间中，源样本的平均特征值和目标域样本的平均特征值的差。进而，确定出多次映射所得到的差的最小值，显然，在差取到最小值时，即可以确定在该映射后的高维空间中源样本和目标域样本足够靠近，此时最小值所对应的特征值分布为二者最接近的特征值分布。

进一步地，可以知道，最小值所对应的映射函数即为该相同特征所对应的目标分布适配映射函数。对于任一源样本集合和目标域样本集合中样本，针对该相同特征，都可以采用所述目标分布适配映射函数进行映射，得到变更后的样本的特征值。

S107，针对不同特征，根据源样本集合中所述不同特征的取值，补齐所述目标域样本中的不同特征的特征值。

如前所述，不同特征指的是在源样本中有而目标域样本中没有的特征。换言之，一开始目标域样本在建立的时候，就不会包含源样本中没有的特征，或者目标域样本中存在而源样本不存在的特征在处理过程中去除了。

对应的，为使目标域样本和源样本保持一致，此时可以将不同特征添加至目标域样本中。如图3所示，图3为本说明书实施例所给出的补齐目标域样本特征的示意图。

在补齐特征之后，对于目标域样本中不同特征的特征值，可以基于预设值进行填充(预设值可以基于经验设定)。或者，也可以基于源样本集合中该不同特征的统计值(例如平均值、中位数、众数、最大值/最小值等等)进行填充。一般而言，由于业务场景类似，采用平均值比较符合实际应用需要。

S109，合并所述特征值变更后的源样本集合和目标域样本集合，生成融合样本集合，以用于在目标域中进行模型训练。

通过前述方式，对于源样本集合中的源样本，通过高维映射变更了其中的相同特征的特征值；对于目标域样本集合中的目标域样本，通过高维映射变更了其中的相同特征的特征值，且，通过特征补齐得到了不同特征下的特征值。并且，保证了源样本和目标域样本的特征相同，特征值分布相近。

因此，可以将变更可特征值之后的源样本集合和目标域样本集合进行合并，并作为训练样本，应用于目标域中进行模型训练，以得到在目标域中可用的风控模型。

在一种实施方式中，将源样本和目标域样本映射至同一高维空间时，可以针对每一个相同特征，逐一的进行映射。即逐一将所述源样本和目标域样本的相同特征的特征值映射至同一高维空间，并且确定在当前的相同特征下的高维空间中，源样本集合和目标域样本集合中最接近的特征值分布。

在这种方式下，每一个相同特征都会存在一个对应的映射函数，各相同特征的所对应的目标分布适配映射函数的形式、参数都可能不一样。在变更相同特征的特征值也将需要采用不同的目标分布适配映射函数。在这种方式下，各源样本集合和目标域样本集合中的每一个相同特征都可以保证有足够靠近的特征分布，转后之后所得到的样本更为准确。

在一种实施方式中，还可以将部分/全量的相同特征采用一个函数批量映射至同一高维空间，例如，采用多项式映射函数进行映射。在这种方式下，确定特征值分布时也需要在部分/全量的相同特征下的高维空间中进行相应的确定，在分布确定，并且得到了对应的目标分布适配映射函数之后进行特征值转换时，也需要对应的将部分/全量相同特征的特征值进行转换。在这种方式，将多个相同特征视为一个整体进行变换，在相同特征较多时可以有效提高计算效率，节省时间。

在一种实施方式中，由于源样本集合和目标域样本集合中都是已经打标的样本，同时，由于源样本集合中的数量足够多，因此在合并时，可以合并所述特征值变更后的部分或者全部源样本集合和全量目标域样本集合，得到融合样本集合。

进一步地，在挑选部分源样本集合中的部分样本进行合并式，可以随机的进行挑选，例如，随机选取50％的源样本，或者根据某些条件有针对性选取一些样本，例如，选取最近一段时间窗口期内的部分源样本，在源样本数量足够多时，通过选取部分源样本，可以在保障样本数的前提下，提高融合样本集合在目标域进行风险模型训练的效率

对应的，本说明书实施例还提供一种样本迁移装置装置，如图4所示，图4是本说明书实施例提供的一种样本迁移装置的结构示意图，包括：

样本获取模块401，样本获取装置获取源样本集合和目标域样本集合，其中，所述源样本和目标域样本包含数量相同的特征，所述源样本和目标域样本应用于类似的业务领域；

特征确定模块403，确定出源样本和目标域样本中所包含的相同特征以及不同特征；

相同特征变换模块405，针对相同特征，将源样本和目标域样本映射至同一高维空间，确定出相同特征下，源样本集合和目标域样本集合中最近接的特征值分布，根据所述最接近的特征值分布变更各样本的相同特征下的特征值为高维空间下的特征值；

不同特征变换模块407，针对不同特征，根据源样本集合中所述不同特征的取值，补齐所述目标域样本中的不同特征的特征值；

融合模块409，合并所述特征值变更后的源样本集合和目标域样本集合，生成融合样本集合，以用于在目标域中进行模型训练。

进一步地，所述相同特征变换模块405，通过调整映射函数或者映射函数中的参数，将相同特征的特征值映射至同一高维空间；当在所述高维空间中，源样本集合和目标域样本集合的样本特征值的平均值最小时，确定此时的特征值分布为最接近的特征值分布。

进一步地，所述相同特征变换模块405，逐一将所述源样本和目标域样本的相同特征的特征值映射至同一高维空间，确定在当前的相同特征下的高维空间中，源样本集合和目标域样本集合中最接近的特征值分布。

进一步地，所述相同特征变换模块405，将所述源样本和目标域样本的全量相同特征的特征值映射至同一高维空间，确定在全量的相同特征下的高维空间中，源样本集合和目标域样本集合中最接近的特征值分布。

进一步地，所述不同特征变换模块407，针对任一不同特征，确定源样本集合中该不同特征的平均值，在所述目标域样本中添加该不同特征，且，在目标域样本中该不同特征的取值为所述平均值。

进一步地，所述融合模块409，合并所述特征值变更后的部分或者全部源样本集合和全量目标域样本集合。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现图1所示的样本迁移方法。

图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图1所示的样本迁移方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的***、方法、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的方法实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种样本迁移方法，包括：

2.如权利要求1所述的方法，针对相同特征，将源样本和目标域样本映射至同一高维空间，确定出相同特征下，源样本集合和目标域样本集合中最接近的特征值分布，包括：

通过调整映射函数或者映射函数中的参数，将相同特征的特征值映射至同一高维空间；

当在所述高维空间中，源样本集合和目标域样本集合的样本特征值的平均值最小时，确定此时的特征值分布为最接近的特征值分布。

3.如权利要求1所述的方法，针对相同特征，将源样本和目标域样本映射至同一高维空间，包括：

逐一将所述源样本和目标域样本的相同特征的特征值映射至同一高维空间，相应的，所述确定出相同特征下，源样本集合和目标域样本集合中最接近的特征值分布，包括：

确定在当前的相同特征下的高维空间中，源样本集合和目标域样本集合中最接近的特征值分布。

4.如权利要求1所述的方法，针对相同特征，将源样本和目标域样本映射至同一高维空间，包括：

所述源样本和目标域样本的部分/全量相同特征的特征值映射至同一高维空间，相应，所述确定出相同特征下，源样本集合和目标域样本集合中最接近的特征值分布，包括：

确定在部分/全量的相同特征下的高维空间中，源样本集合和目标域样本集合中最接近的特征值分布。

5.如权利要求1所述的方法，根据源样本集合中所述不同特征的取值，补齐所述目标域样本中的不同特征的特征值，包括：

针对任一不同特征，确定源样本集合中该不同特征的平均值，在所述目标域样本中添加该不同特征，且，在目标域样本中该不同特征的取值为所述平均值。

6.如权利要求1所述的方法，合并所述特征值变更后的源样本集合和目标域样本集合，包括：

合并所述特征值变更后的部分或者全部源样本集合和全量目标域样本集合。

7.一种样本迁移装置，包括：

8.如权利要求7所述的装置，所述相同特征变换模块，通过调整映射函数或者映射函数中的参数，将相同特征的特征值映射至同一高维空间；当在所述高维空间中，源样本集合和目标域样本集合的样本特征值的平均值最小时，确定此时的特征值分布为最接近的特征值分布。

9.如权利要求7所述的装置，所述相同特征变换模块，逐一将所述源样本和目标域样本的相同特征的特征值映射至同一高维空间，确定在当前的相同特征下的高维空间中，源样本集合和目标域样本集合中最接近的特征值分布。

10.如权利要求7所述的装置，所述相同特征变换模块，将所述源样本和目标域样本的全量相同特征的特征值映射至同一高维空间，确定在全量的相同特征下的高维空间中，源样本集合和目标域样本集合中最接近的特征值分布。

11.如权利要求7所述的装置，所述不同特征变换模块，针对任一不同特征，确定源样本集合中该不同特征的平均值，在所述目标域样本中添加该不同特征，且，在目标域样本中该不同特征的取值为所述平均值。

12.如权利要求7所述的装置，所述融合模块，合并所述特征值变更后的部分或者全部源样本集合和全量目标域样本集合。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至6任一项所述的方法。