CN110570312B

CN110570312B - 样本数据获取方法、装置、计算机设备和可读存储介质

Info

Publication number: CN110570312B
Application number: CN201910876986.1A
Authority: CN
Inventors: 林仕锋; 侯皓龄
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2021-05-28
Anticipated expiration: 2039-09-17
Also published as: CN110570312A

Abstract

本申请涉及一种样本数据获取方法、装置、计算机设备和可读存储介质。所述样本数据获取方法包括：基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集；所述交易样本集包括多个交易样本，所述交易样本包括交易主体在预设时间段内的交易数据；对所述多个交易样本子集分别进行聚类，得到多个类簇；分别从所述多个类簇包括的交易样本中采样，得到多个目标样本；所述多个目标样本用于训练目标模型。采用本方法能够在根据交易样本集训练目标模型时，减小计算资源的消耗，提升模型训练的计算效率。

Description

样本数据获取方法、装置、计算机设备和可读存储介质

技术领域

本发明涉及金融科技技术领域，特别是涉及一种样本数据获取方法、装置、计算机设备和可读存储介质。

背景技术

随着计算机技术在各个行业的快速发展，越来越多的传统行业都在逐步向科技化发展，传统金融业亦在逐步向金融科技转变。

在金融科技中，存在大量数据处理的场景，例如，根据客户的交易数据训练算法模型，模型用于对客户的属性进行分类；传统技术中，一般采用全量数据进行模型训练，存在的问题是：金融机构的交易量巨大，每日至少数十万量级，甚至达到千万量级，基于全量数据的模型训练过程，将严重消耗计算资源，且数据的处理效率低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在金融数据处理中，降低计算资源消耗、提升数据处理效率的样本数据获取方法、装置、计算机设备和可读存储介质。

第一方面，本申请实施例提供了一种样本数据获取方法，所述样本数据获取方法包括：

基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集；所述交易样本集包括多个交易样本，所述交易样本包括交易主体在预设时间段内的交易数据；

对所述多个交易样本子集分别进行聚类，得到多个类簇；

分别从所述多个类簇包括的交易样本中采样，得到多个目标样本；所述多个目标样本用于训练目标模型。

在其中一个实施例中，所述基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集之前，还包括：

根据预置的黑标样本表，检测所述多个交易样本中是否存在黑标样本，得到检测结果；

若所述检测结果为所述多个交易样本中存在黑标样本，则将所述黑标样本从所述交易样本集中剔除，得到剔除后的交易样本集；

所述基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集，包括：

基于所述剔除后的交易样本集中交易数据的数据量，对所述剔除后的交易样本集进行分块，得到多个交易样本子集。

在其中一个实施例中，所所述交易样本还包括与所述交易主体对应的主体标识，所述根据预置的黑标样本表，检测所述多个交易样本中是否存在黑标样本，得到检测结果，包括：

检测所述主体标识是否存在于所述黑标样本表中；

若所述主体标识存在于所述黑标样本表中，则得到的测检结果为所述多个交易样本中存在黑标样本，并将所述主体标识对应的所述交易样本确定为所述黑标样本。

在其中一个实施例中，所述基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集，包括：

根据所述交易样本集中交易数据的数据量，确定划分时间段；

根据所述时间段，将所述交易样本集划分为所述多个交易样本子集。

在其中一个实施例中，所述对所述多个交易样本子集分别进行聚类，得到多个类簇，包括：

从当前交易样本子集中随机选取部分交易样本；

根据选取到的所述部分交易样本对所述当前交易样本子集进行聚类迭代，得到与所述当前交易样本子集对应的多个类簇。

在其中一个实施例中，所述聚类迭代的过程包括：

计算选取到的所述部分交易样本中各交易样本之间的欧式距离；

检测计算得到的所述欧式距离是否小于预设阈值；

将所述欧式距离小于所述阈值的交易样本归于同一个类簇中。

在其中一个实施例中，所述分别从所述多个类簇包括的交易样本中采样，得到多个目标样本，包括：

确定各个类簇的采样数量；不同的类簇对应的采样数量相同；

分别从所述多个类簇包括的交易样本中按所述采样数量进行采样，得到所述多个目标样本。

在其中一个实施例中，所述目标模型的训练方法包括：

获取多个黑标样本；

根据所述多个黑标样本和所述多个目标样本，训练目标模型。

第二方面，本申请实施例提供一种样本数据获取装置，所述样本数据获取装置包括：

划分模块，用于基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集；所述交易样本集包括多个交易样本，所述交易样本包括交易主体在预设时间段内的交易数据；

聚类模块，用于对所述多个交易样本子集分别进行聚类，得到多个类簇；

采样模块，用于分别从所述多个类簇包括的交易样本中采样，得到多个目标样本；所述多个目标样本用于训练目标模型。

在其中一个实施例中，所述装置还包括：

检测模块，用于根据预置的黑标样本表，检测所述多个交易样本中是否存在黑标样本，得到检测结果；

剔除模块，用于若所述检测结果为所述多个交易样本中存在黑标样本，则将所述黑标样本从所述交易样本集中剔除，得到剔除后的交易样本集；

所述划分模块还用于，基于所述剔除后的交易样本集中交易数据的数据量，对所述剔除后的交易样本集进行分块，得到多个交易样本子集。

在其中一个实施例中，所述交易样本还包括与所述交易主体对应的主体标识，所述检测模块包括：

检测单元，用于检测所述主体标识是否存在于所述黑标样本表中；

第一确定单元，用于若所述主体标识存在于所述黑标样本表中，则得到的测检结果为所述多个交易样本中存在黑标样本，并将所述主体标识对应的所述交易样本确定为所述黑标样本。

在其中一个实施例中，所述划分模块包括：

第二确定单元，用于根据所述交易样本集中交易数据的数据量，确定划分时间段；

划分单元，用于根据所述时间段，将所述交易样本集划分为所述多个交易样本子集。

在其中一个实施例中，所述聚类模块包括：

选取单元，用于从当前交易样本子集中随机选取部分交易样本；

聚类单元，用于根据选取到的所述部分交易样本对所述当前交易样本子集进行聚类迭代，得到与所述当前交易样本子集对应的多个类簇。

在其中一个实施例中，聚类单元的聚类迭代的过程包括：

检测计算得到的所述欧式距离是否小于预设阈值；

在其中一个实施例中，所述采样模块包括：

第三确定单元，用于确定各个类簇的采样数量；不同的类簇对应的采样数量相同；

采样单元，用于分别从所述多个类簇包括的交易样本中按所述采样数量进行采样，得到所述多个目标样本。

在其中一个实施例中，所述装置还包括：

获取模块，用于获取多个黑标样本；

目标模型训练模块，用于根据所述多个黑标样本和所述多个目标样本，训练目标模型。

第三方面，本申请实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的方法的步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集；所述交易样本集包括多个交易样本，所述交易样本包括交易主体在预设时间段内的交易数据；对所述多个交易样本子集分别进行聚类，得到多个类簇；分别从所述多个类簇包括的交易样本中采样，得到多个目标样本；所述多个目标样本用于训练目标模型；由此，对交易样本集进行分块，对分块后得到的每个交易样本子集分别进行聚类，从聚类得到的每个类簇中采样，得到覆盖交易样本集中全部交易数据范围的多个目标样本；在根据交易样本集训练目标模型时，只需根据采样得到的多个目标样本进行训练即可，大大减小了计算资源消耗，提升了模型训练的计算效率；避免了传统技术中，根据交易样本集中的全部交易数据进行模型训练，由于全部交易数据量巨大所造成的消耗计算资源、数据处理效率低的问题。

附图说明

图1为一个实施例提供的样本数据获取方法的应用环境图；

图2为一个实施例提供的样本数据获取方法的流程示意图；

图3为一个实施例提供的样本数据获取方法的流程示意图；

图4为一个实施例提供的样本数据获取方法的流程示意图；

图5为一个实施例提供的样本数据获取方法的流程示意图；

图6为一个实施例提供的样本数据获取方法的流程示意图；

图7为一个实施例提供的样本数据获取装置的结构框图；

图8为一个实施例提供的目标模型的训练方法的流程示意图；

图9为一个实施例提供的样本数据获取装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的样本数据获取方法，可以应用于如图1所示的计算机设备，该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存样本数据获取方法的数据。

本申请实施例提供的样本数据获取方法、装置、计算机设备和可读存储介质，旨在解决传统技术在金融数据处理场景中，根据全量数据进行模型训练，造成的计算资源严重消耗、数据处理效率低的技术问题。下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体地实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

需要说明的是，本申请实施例提供的样本数据获取方法，其执行主体可以是样本数据获取装置，该样本数据获取装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明。

请参考图2，其示出了本申请实施例提供的一种样本数据获取方法的流程图，如图2所示，本实施例样本数据获取方法可以包括以下步骤：

步骤S100，基于交易样本集中交易数据的数据量，对交易样本集进行分块，得到多个交易样本子集。

其中，交易样本集包括多个交易样本，交易样本包括交易主体在预设时间段内的交易数据。交易主体可以是金融机构的客户，如自然人客户或企业客户；预设时间段根据业务场景对目标模型训练数据的要求范围确定，例如，预设时间段是两个月或三个月，等等。交易数据具体是客户在该预设时间段内的交易操作数据，例如，客户在该预设时间段内发生一次交易操作，则产生一条与该客户对应的交易数据，即交易流水。

对于金融结构而言，例如银行，每天的交易流水量巨大，至少达到数十万量级，大型银行甚至达到千万量级。以金融科技中的反洗钱场景为例，目标模型需要根据客户的交易数据进行训练，训练完成后，模型用于判断客户是否存在洗钱嫌疑；传统技术中，该目标模型的训练是基于该预设时间段内的全量交易数据进行的，这将严重消耗计算资源，且数据的处理效率低下。

本实施例中，计算机设备基于交易样本集中交易数据的数据量，对交易样本集进行分块，得到多个交易样本子集；具体地，根据数据量的大小对交易样本集按时间区间分块，例如，交易样本集中客户交易数据的数据量若巨大，则将交易样本集按单日进行分块，得到多个交易样本子集；交易样本集中客户交易数据的数据量若较大，则将交易样本集按周进行分块，得到多个交易样本子集，等等，分块后再对每个交易样本子集分别进行计算。在其它实施例中，对交易样本集还可以按交易数据的交易类型进行分块，本实施例在此不做具体限制。

步骤S200，对多个交易样本子集分别进行聚类，得到多个类簇。

本实施例根据交易样本集中交易数据的数据量大小，对该交易样本集按时间区间分块，得到多个交易样本子集后，对每个交易样本子集分别进行聚类，得到多个类簇；可以理解的是，对于多个交易样本，在同一特征维度下，样本特征是存在差异的；例如，特征维度为职业时，普通学生交易频次与交易金额均非常低、普通白领每日有固定消费记录，普通小商贩交易频次很高且每笔金额不高，即样本特征各不相同；在其它的特征维度下，如年龄、交易时间段等，各交易样本的样本特征也均存在差异。

本实施例中，计算机设备对多个交易样本子集分别进行聚类，得到多个类簇的过程，具体是通过计算两个交易样本的特征之间的欧式距离来判断这两个交易样本是否归于同一类簇的；例如，设定特征维度为职业，在该特征维度下，若两个交易样本特征之间的欧式距离小于预设阈值，则将这两个交易样本归为同一类簇；若两个交易样本特征之间的欧式距离不小于该阈值，则确定这两个交易样本不属于同一类簇；由此，对于交易样本子集中样本特征各异的多个交易样本，计算机设备通过聚类，将同一纬度下特征相似的交易样本归为同一类簇；在其它实施例中，还可以通过计算两个交易样本的特征之间的曼哈顿距离或汉明距离来得到多个类簇，本实施例在此不做具体限制。

步骤S300，分别从多个类簇包括的交易样本中采样，得到多个目标样本。

其中，多个目标样本用于训练目标模型；在本实施例中，每个类簇分别是特征相似的交易样本的集合，计算机设备分别从多个类簇包括的交易样本中采样，并使用采样得到的多个目标样本参与目标模型的训练；可以理解的是，由于多个目标样本分别是从多个类簇中采样得到的，因此，多个目标样本可以覆盖到交易样本集中全部交易数据的数据范围。

本实施例通过基于交易样本集中交易数据的数据量，对交易样本集进行分块，得到多个交易样本子集；交易样本集包括多个交易样本，交易样本包括交易主体在预设时间段内的交易数据；对多个交易样本子集分别进行聚类，得到多个类簇；分别从多个类簇包括的交易样本中采样，得到多个目标样本；多个目标样本用于训练目标模型；由此，对交易样本集进行分块，对分块后得到的每个交易样本子集分别进行聚类，从聚类得到的每个类簇中采样，得到覆盖交易样本集中全部交易数据的数据范围的多个目标样本；在根据交易样本集训练目标模型时，只需根据采样得到的多个目标样本进行训练即可，大大减小了计算资源消耗，提升了模型训练的计算效率；避免了传统技术中，根据交易样本集中的全部交易数据进行模型训练，由于全部交易数据量巨大所造成的消耗计算资源、数据处理效率低的问题。

图3为另一个实施例提供的样本数据获取方法的流程示意图。在上述图2所示实施例的基础上，本实施例样本数据获取方法，步骤S100之前，还包括：

步骤S410，根据预置的黑标样本表，检测多个交易样本中是否存在黑标样本，得到检测结果。

具体地，本实施例以金融科技中的反洗钱场景为例，对本实施例做详细说明。在反洗钱场景中，银行需要定期向央行上报有洗钱嫌疑的客户信息，上报信息通常包括可疑客户的客户号、所有关联账户号、最后交易时间、以及相应的交易流水记录等；所有历史已上报的可疑客户信息均会记录在银行反洗钱***的“可疑客户表”中；在本实施例中，黑标样本表可以是根据该“可疑客户表”确定的，黑标样本表中包括的黑标数据是与记录在该可疑客户表中的可疑交易主体相一致的。

本实施例中，黑标数据可以是可疑客户表中的可疑交易主体的身份标识，检测多个交易样本中是否存在黑标样本，具体可以是将交易样本对应的主体标识与黑标样本表中可疑交易主体的身份标识进行匹配，若匹配成功，则将该主体标识对应的交易样本确定为黑标样本，主体标识可以是交易主体的身份标识，本实施例检测结果可以是多个交易样本中存在黑标样本或多个交易样本中不存在黑标样本。

步骤S420，若检测结果为多个交易样本中存在黑标样本，则将黑标样本从交易样本集中剔除，得到剔除后的交易样本集。

在反洗钱场景中，目标模型需要根据客户的账户交易数据进行训练，训练完成后的模型用于判断客户是否存在洗钱嫌疑，因此，确保白标样本集及黑标样本集的样本类别准确性是目标模型效果的重要影响因素。

相比于正常的交易账户，有洗钱嫌疑的账户非常少，即白标样本众多，黑标样本数量很少，黑标样本集要全部用于模型训练，黑标样本集中包括的少量黑标样本均是历史被确认有洗钱嫌疑的样本，因此，模型训练时不必考虑黑标样本集中样本类别的准确性。具体地，在反洗钱应用场景中，本实施例样本数据获取方法具体是获取用于参与目标模型训练的多个白标样本的方法。

在交易样本集中，可能存在已被记录在可疑客户表中的可疑交易主体相关的交易数据，可以理解的是，可疑交易主体并非每天的交易行为都是可疑的，例如，可疑交易主体可能是因为之前某段时间内的交易次数超过一定阈值而被判定为有洗钱嫌疑，但在交易样本集中，该可疑交易主体在预设时间段内可能仅包括一条交易流水数据；传统技术中，基于交易样本集中全量数据的模型训练，存在误将该可疑交易主体对应的交易流水数据作为白标样本参与模型的训练的风险，这会导致模型的效果下降。

本实施例中，若检测结果为多个交易样本中存在黑标样本，则基于黑标样本表，将交易样本集中确定为黑标样本的交易样本从交易样本集中剔除，得到剔除后的交易样本集，由此，确保了剔除后的交易样本集中交易样本的准确性，即确保了剔除后的交易样本集中白标样本的准确性。

进一步地，本实施例步骤S100包括：

步骤S110，基于剔除后的交易样本集中交易数据的数据量，对剔除后的交易样本集进行分块，得到多个交易样本子集。

本实施例中，计算机设备将黑标样本从交易样本集中剔除后，得到剔除后的交易样本集，剔除后的交易样本集中包括的交易样本是确定无洗钱嫌疑的正常交易样本，即白标样本；根据该剔除后的交易样本集中交易数据的数据量，将该剔除后的交易样本集按时间区间分块，分块后得到多个交易样本子集。

在另一实施例中，作为一种实施方式，参加图4，图4为该实施例提供的样本数据获取方法的流程示意图，在上述图3所示实施例的基础上，该实施例中，交易样本还包括与交易主体对应的主体标识，该实施例中，步骤S410包括：

步骤S4101，检测主体标识是否存在于黑标样本表中。

作为一种实施方式，主体标识可以是交易主体的客户号，黑标样本表包括可疑客户表中记录的的可疑交易主体的客户号；需要说明的是，客户在申请银行账号时，银行***都会为该客户分配一个唯一对应的客户号，作为该客户在银行***内的唯一身份标识，银行交易***中的每一条交易数据都会记录相应的发起方与接收方的客户号及账户号。

检测主体标识是否存在于黑标样本表中，即将交易样本集中交易主体的客户号与黑标样本表中包括的可疑交易主体的客户号进行匹配。

步骤S4102，若主体标识存在于黑标样本表中，则得到的测检结果为多个交易样本中存在黑标样本，并将主体标识对应的交易样本确定为黑标样本。

若交易样本集中交易主体的客户号与黑标样本表中包括的可疑交易主体的客户号匹配成功，则确定匹配成功的客户号对应的交易样本为黑标样本，将交易样本集中可疑交易主体对应的交易样本从交易样本集中剔除，得到剔除后的交易样本集，该剔除后的交易样本集为确定的不包括黑标样本的白标样本集。

本实施例通过根据预置的黑标样本表，检测多个交易样本中是否存在黑标样本，得到检测结果；若检测结果为多个交易样本中存在黑标样本，则将黑标样本从交易样本集中剔除，得到剔除后的交易样本集；基于剔除后的交易样本集中交易数据的数据量，对剔除后的交易样本集进行分块，得到多个交易样本子集；再根据交易样本子集进行聚类及采样，提升了交易样本集中交易样本的准确性及可靠性，确保剔除后的交易样本集中的交易主体无任何可疑交易行为，基于该剔除后的交易样本集进行模型训练时，可以增强模型对黑标样本及白标样本的区分度，提升了模型效果。

图5为另一个实施例提供的样本数据获取方法的流程示意图。在上述图2所示实施例的基础上，本实施例步骤S100包括：

步骤S110，根据交易样本集中交易数据的数据量，确定划分时间段。

在本实施例中，具体地，可以设定数据量区间，若交易样本集中交易数据的数据量大于该数据量区间的上限值，则确定划分时间段为按天划分；若交易样本集中交易数据的数据量处于该数据量区间中，则确定划分时间段为按周划分；若交易样本集中交易数据的数据量小于该数据量区间的下限值，则确定划分时间段为按月划分，即交易样本集中交易数据的数据量越大，则划分时间段对应的时间区间越短，由此，可以减小划分时间段对应的数据量，加快计算速度。

步骤S120，根据时间段，将交易样本集划分为多个交易样本子集。

根据确定的划分时间段，将交易样本集划分为多个交易样本子集，例如，对于交易样本集，将交易样本的交易数据产生的时间在同一天的交易样本归在同一交易样本子集中，即将交易样本集按天划分；或者，对于交易样本集，将交易样本的交易数据产生的时间在同一周的交易样本归为同一交易样本子集中，即将交易样本集按周划分；或者，对于交易样本集，将交易样本的交易数据产生的时间在同一月的交易样本归为同一交易样本子集中，即将交易样本集按月划分，等等。

本实施例根据交易样本集中交易数据的数据量，确定划分时间段，根据时间段，将交易样本集划分为多个交易样本子集，再对每个交易样本子集进行聚类、采样，得到多个目标样本用于目标模型的训练；由此，计算机设备对每个分块数据单独计算，将大大减小对计算资源的需求，作为一种实施方式，可以将分块得到的多个交易样本子集分别送至多个分布式计算节点中进行并行计算，大大加快了计算速度。

图6为另一个实施例提供的样本数据获取方法的流程示意图。在上述图2所示实施例的基础上，本实施例步骤S200包括：

步骤S210，从当前交易样本子集中随机选取部分交易样本。

传统技术中，是将交易样本集中的所有交易数据，即全量数据，作为白标样本，与黑标样本一起进行模型训练的；存在的问题是，在反洗钱场景中，相比于正常交易账户，有洗钱嫌疑的账户是非常少的，白标样本与黑标样本的样本数量悬殊，甚至达到数百万比一，样本严重不平衡，白标样本数量众多，黑标样本由于数量珍贵，一般均要全部用于模型训练，这就导致样本类别倾斜，模型在训练过程中由于样本类别的严重倾斜，可能学习不到黑标样本的特征，而只是重复学习白标样本的样本特征，造成模型的可用性差。

本实施例中，作为一种实施方式，对交易样本集进行分块，得到多个交易样本子集，再对每个交易样本子集进行聚类，将同一特征维度下具有相似特征的交易样本归在同一类簇中，再从每个类簇中进行采样，得到多个目标样本，即得到多个用于目标模型训练的白标样本；由此，对于每个交易样本子集，选择具有代表性的、具有明显特征的白标样本供目标模型学习，而对于同一类簇中重复度高的交易样本仅学习一定量即可，本实施例通过聚类，从每个交易样本子集中选择出值得目标模型学习的目标样本参与模型训练，避免了传统技术中，模型在训练过程中由于样本类别的严重倾斜，学习不到黑标样本的特征，而只是重复学习全部白标样本的样本特征，造成模型的可用性差的问题。

本实施例对每个交易样本子集进行聚类时，从当前交易样本子集中随机选取部分交易样本。

步骤S220，根据选取到的部分交易样本对当前交易样本子集进行聚类迭代，得到与当前交易样本子集对应的多个类簇。

根据选取到的部分交易样本对当前交易样本子集进行聚类迭代，得到与当前交易样本子集对应的多个类簇；具体地，本实施例采用K-Means算法来进行聚类，聚类时采用小批量方式来加速聚类过程，在每一轮聚类迭代中，计算机设备从当前的交易样本子集中随机选择其中一部分交易样本作为该轮计算聚类的数据，由此，通过小批量聚类的方式，本实施例在保证聚类效果的情况下，加快聚类算法的收敛速度，避免了传统技术中，每轮聚类迭代均采用全部数据所造成的聚类速度慢的问题。

在本实施例中，具体地，聚类迭代的过程包括：

步骤a,计算选取到的部分交易样本中各交易样本之间的欧式距离。

步骤b,检测计算得到的欧式距离是否小于预设阈值。

步骤c,将欧式距离小于阈值的交易样本归于同一个类簇中。

具体地，交易样本集中，每个交易样本的每一个特征，均是根据相应的特征法则得到的数值，如当天交易金额、10日内流出交易笔数，等等；本实施例对于每一轮的聚类迭代，是计算选取到的部分交易样本中各交易样本之间的欧式距离来迭代的，即在同一特征维度下，将两个交易样本的特征值代入欧氏距离计算公式，计算这两个交易样本之间的欧氏距离；若这两个交易样本特征之间的欧式距离小于预设阈值，则将这两个交易样本归在同一类簇中，直至将交易样本子集中的所有交易样本分别归在各个类簇中。

本实施例通过从当前交易样本子集中随机选取部分交易样本，根据选取到的部分交易样本对当前交易样本子集进行聚类迭代，得到与当前交易样本子集对应的多个类簇，加快了交易样本子集的聚类速度。

图7为另一个实施例提供的样本数据获取方法的流程示意图。在上述图2所示实施例的基础上，步骤S300包括：

步骤S310，确定各个类簇的采样数量；不同的类簇对应的采样数量相同。

本实施例中，为了对样本数量少的类簇进行充分的学习，避免数据倾斜，对于每个类簇，设置相同的采样数量，即计算机设备采用相同的采样数量对各个类簇进行采样。

步骤S320，分别从多个类簇包括的交易样本中按采样数量进行采样，得到多个目标样本。

在聚类结果中，各类簇的特征不尽相同，例如，特征维度是“职业”时，交易样本子集中类似白领交易行为的交易数据占大多数，而类似学生交易行为的交易数据则偏少，即，交易样本子集中类似白领交易行为的类簇中的样本数量多，而类似学生交易行为的类簇中的样本数量少，若随机或按各类簇中样本数量等比例采样的话，会导致交易样本子集中各类簇采样得到的样本数量倾斜失衡，这样目标模型在学习目标样本特征的时候，目标模型无法充分学习到类似学生交易行为的目标样本的特征，导致模型的分类效果降低。

本实施例中，对每个交易样本子集中的每个类簇，采用相同的采样数量进行采样，得到的多个目标样本中，每个类簇中，贡献的目标样本的数量都是相同的，因此，在模型训练时，目标模型可以均匀的学习各个类簇中目标样本的特征，避免了数据倾斜，提升了目标模型的特征学习效果，进一步提升了目标模型的模型分类效果。

参考图8，其示出了本申请实施例提供的一种目标模型的训练方法的流程图，如图8所示，本实施例目标模型的训练方法包括以下步骤：

步骤S10，获取多个黑标样本。

在反洗钱场景中，由于具有洗钱嫌疑的客户非常少，黑标样本的数量珍贵，在目标模型训练时，获取多个黑标样本全部用于算法训练与验证。

步骤S20，根据多个黑标样本和多个目标样本，训练目标模型。

白标样本数量众多，本实施例采用图2-图7中所示的任一实施方式，对交易样本集进行处理，得到多个目标样本，即多个白标样本，多个白标样本覆盖交易样本集中所有交易数据的数据范围，且多个白标样本是从交易样本中抽取到的具有明显白标样本特征的样本，计算机设备根据采样得到的多个白标样本与全部的黑标样本训练目标模型，训练好的目标模型用于判断交易主体是否具有洗钱嫌疑，大大提升了目标模型的预测准确性。

应该理解的是，虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种样本数据获取装置，包括：

划分模块10，用于基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集；所述交易样本集包括多个交易样本，所述交易样本包括交易主体在预设时间段内的交易数据；

聚类模块20，用于对所述多个交易样本子集分别进行聚类，得到多个类簇；

采样模块30，用于分别从所述多个类簇包括的交易样本中采样，得到多个目标样本；所述多个目标样本用于训练目标模型。

可选地，所述装置还包括：

所述划分模块10还用于，基于所述剔除后的交易样本集中交易数据的数据量，对所述剔除后的交易样本集进行分块，得到多个交易样本子集。

可选地，所述交易样本还包括与所述交易主体对应的主体标识，所述检测模块包括：

可选地，所述划分模块10包括：

可选地，所述聚类模块20包括：

可选地，聚类单元的聚类迭代的过程包括：

检测计算得到的所述欧式距离是否小于预设阈值；

可选地，所述采样模块30包括：

可选地，所述装置还包括：

获取模块，用于获取多个黑标样本；

本实施例提供的样本数据获取装置，可以执行上述样本数据获取方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于样本数据获取装置的具体限定可以参见上文中对于样本数据获取方法的限定，在此不再赘述。上述样本数据获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，还提供了一种如图1所示的计算机设备，该计算机设备可以是服务器。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据获取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本数据获取方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体地计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

基于交易样本集中交易数据的数据量，对交易样本集进行分块，得到多个交易样本子集；交易样本集包括多个交易样本，交易样本包括交易主体在预设时间段内的交易数据；

对多个交易样本子集分别进行聚类，得到多个类簇；

分别从多个类簇包括的交易样本中采样，得到多个目标样本；多个目标样本用于训练目标模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Ramb微秒)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

对多个交易样本子集分别进行聚类，得到多个类簇；

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种样本数据获取方法，其特征在于，所述方法包括：

基于交易样本集中交易数据的数据量的大小，对所述交易样本集按时间区间进行分块，得到多个交易样本子集；所述交易样本集包括多个交易样本，所述交易样本包括交易主体在预设时间段内的交易数据，所述交易样本为白标样本，所述白标样本为非可疑交易主体在所述预设时间段内的交易数据；

对所述多个交易样本子集分别进行聚类，得到多个类簇，每个类簇中包括同一特征维度下特征相似的交易样本；

分别从所述多个类簇包括的交易样本中采样，得到多个目标样本；所述多个目标样本用于训练目标模型；

其中，所述分别从所述多个类簇包括的交易样本中采样，得到多个目标样本，包括：

分别从所述多个类簇包括的交易样本中按所述采样数量进行采样，得到所述多个目标样本；

所述目标模型的训练方法包括：

获取多个黑标样本，所述黑标样本为历史被确认的可疑交易主体的交易数据；所述多个交易样本的数量大于所述多个黑标样本的数量；

根据所述多个黑标样本和所述多个目标样本，训练所述目标模型。

2.根据权利要求1所述的方法，其特征在于，所述基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述交易样本还包括与所述交易主体对应的主体标识，所述根据预置的黑标样本表，检测所述多个交易样本中是否存在黑标样本，得到检测结果，包括：

检测所述主体标识是否存在于所述黑标样本表中；

4.根据权利要求1所述的方法，其特征在于，所述基于交易样本集中交易数据的数据量，对所述交易样本集进行分块，得到多个交易样本子集，包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述多个交易样本子集分别进行聚类，得到多个类簇，包括：

从当前交易样本子集中随机选取部分交易样本；

6.根据权利要求5所述的方法，其特征在于，所述聚类迭代的过程包括：

检测计算得到的所述欧式距离是否小于预设阈值；

7.一种样本数据获取装置，其特征在于，所述装置包括：

划分模块，用于基于交易样本集中交易数据的数据量的大小，对所述交易样本集按时间区间进行分块，得到多个交易样本子集；所述交易样本集包括多个交易样本，所述交易样本包括交易主体在预设时间段内的交易数据，所述交易样本为白标样本，所述白标样本为非可疑交易主体在所述预设时间段内的交易数据；

聚类模块，用于对所述多个交易样本子集分别进行聚类，得到多个类簇，每个类簇中包括同一特征维度下特征相似的交易样本；

采样模块，用于分别从所述多个类簇包括的交易样本中采样，得到多个目标样本；所述多个目标样本用于训练目标模型；

其中，所述采样模块包括第三确定单元和采样单元：

所述第三确定单元，用于确定各个类簇的采样数量；不同的类簇对应的采样数量相同；

所述采样单元，用于分别从所述多个类簇包括的交易样本中按所述采样数量进行采样，得到所述多个目标样本；

所述装置还包括：

获取模块，用于获取多个黑标样本，所述黑标样本为历史被确认的可疑交易主体的交易数据；所述多个交易样本的数量大于所述多个黑标样本的数量；

目标模型训练模块，用于根据所述多个黑标样本和所述多个目标样本，训练所述目标模型。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。