CN116881333A

CN116881333A - 潜客挖掘方法、装置、电子设备及可读存储介质

Info

Publication number: CN116881333A
Application number: CN202310897801.1A
Authority: CN
Inventors: 辛治运; 鹿群; 陈海雯; 黎豪; 陈圣松; 徐秋石
Original assignee: Gf Securities Co ltd
Current assignee: Gf Securities Co ltd
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-10-13

Abstract

本申请提供了一种潜客挖掘方法、装置、电子设备和可读存储介质，其中，该方法包括：根据历史产品购买记录以及客户信息集合生成第一训练样本集，再基于第一训练样板及对初始挖掘模型进行训练，得到第一中间模型，并基于第一中间模型的预测结果及产品聚类信息，得到第二训练样本集。基于第二训练样本集对第一中间模型进行训练，得到第二中间模型，并基于第二中间模型的预测结果，得到第三训练样本集。基于第三训练样本集对第二中间模型进行训练，得到目标潜客挖掘模型，然后将第三正样本集输入目标潜客挖掘模型中进行预测，得到潜客信息。本申请通过多次基于训练样本对模型进行训练，最终得到目标潜客挖掘模型，从而获得潜客信息，保证结果准确性。

Description

潜客挖掘方法、装置、电子设备及可读存储介质

技术领域

本申请涉及潜客挖掘技术领域，具体而言，涉及一种潜客挖掘方法、装置、电子设备及可读存储介质。

背景技术

随着计算机技术的不断发展，越来越多的企业开始利用计算机技术挖掘企业的潜在客户。

目前，普遍通过两种方式挖掘企业的潜在客户。一种方式是不区分具体的产品，仅采用通用的智能模型挖掘一般的潜在客户，并应用到所有的产品中。另一种方式是采用业务规则划分客群，按照划分的客群进行产品推荐。例如，对某个产品划分若干主题，并为各主题人为指定若干符合规则的客户作为该主题的客群。

但是，目前的挖掘潜在客户的方法均存在准确性的问题。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种潜客挖掘方法、装置、电子设备及可读存储介质，以解决现有技术中挖掘结果准确性不足的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请一实施例提供了一种潜客挖掘方法，包括：

根据历史产品购买记录以及客户信息集合，生成第一训练样本集，所述第一训练样本集中包括：第一正样本集以及第一负样本集，所述第一正样本集中包括购买过任一产品的客户信息，所述第一负样本集中包括未购买过任何产品的客户信息；

基于所述第一训练样本集对初始挖掘模型进行训练，得到第一中间模型，并基于所述第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，所述第二训练样本集中包括：第二正样本集以及第二负样本集，所述第二正样本集中包括购买过各产品类的客户信息，所述第二负样本集中包括未购买过各产品类的客户信息；

基于所述第二训练样本集对所述第一中间模型进行训练，得到第二中间模型，并基于所述第二中间模型的预测结果，得到第三训练样本集，所述第三训练样本集中包括：第三正样本集以及第三负样本集，所述第三正样本集中包括购买过各产品的客户信息以及产品信息，所述第三负样本集中包括未购买过各产品的客户以及产品信息；

基于所述第三训练样本集对所述第二中间模型进行训练，得到目标潜客挖掘模型；

将所述第三正样本集输入所述目标潜客挖掘模型中进行预测，得到潜客信息。

可选的，所述根据历史产品购买记录以及客户信息集合，生成第一训练样本集，包括：

根据所述历史产品购买记录，确定已购买客户；

根据所述已购买客户的标识，从所述客户信息集合中读取所述已购买客户的客户信息，并将已购买客户的客户信息增加至所述第一正样本集；

从所述客户信息集合中读取不属于所述已购买客户的客户信息，得到待选未购买客户信息；

对所述待选未购买客户信息进行欠采样处理，得到所述第一负样本集。

可选的，所述基于所述第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，包括：

将所述第一正样本集中各客户信息输入所述第一中间模型，得到所述第一中间模型的预测结果，所述第一中间模型的预测结果用于指示各客户购买任一产品的概率；

根据所述第一中间模型的预测结果确定所述客户信息集合中的多个目标客户信息；

对产品集合中的产品进行聚类，得到多个产品类；

根据所述多个目标客户信息以及所述多个产品类，得到所述第二训练样本集。

可选的，所述根据所述第一中间模型的预测结果确定所述客户信息集合中的多个目标客户信息，包括：

按照所述预测结果所指示的所述概率，对所述客户信息集合中各客户信息进行排序，得到客户信息序列；

按照所述客户信息序列中的客户信息顺序，筛选所述客户信息序列中的第一预设数量的客户信息作为所述多个目标客户信息。

可选的，所述根据所述多个目标客户信息以及所述多个产品类，得到所述第二训练样本集，包括：

根据各所述目标客户信息，确定各客户对应的至少一个产品类；

根据各目标客户信息以及各客户对应的各产品类，生成所述第二正样本集；

从所述客户信息集合中读取不属于所述目标客户信息的负客户信息；

根据所述负客户信息，生成所述第二负样本集。

可选的，所述基于所述第二中间模型的预测结果，得到第三训练样本集，包括：

将所述第二正样本集中各客户信息输入所述第二中间模型，得到所述第二中间模型的预测结果，所述第二中间模型的预测结果用于指示各客户购买各产品类中任一产品的概率；

根据所述第二中间模型的预测结果确定第二预设数量的待选客户信息；

根据各待选客户信息，得到所述第三训练样本集。

可选的，所述根据各待选客户信息，得到所述第三训练样本集，包括：

根据各待选客户信息以及所述历史产品购买记录，确定各待选客户信息对应的已购买产品；

将各待选客户信息以及各待选客户信息对应的已购买产品作为一个正样本增加至所述第三正样本集中；

从所述客户信息集合中读取不属于所述待选客户信息的客户信息，并根据不属于所述待选客户信息的客户信息，生成所述第三负样本集。

第二方面，本申请另一实施例提供了一种潜客挖掘装置，包括：

生成模块，用于根据历史产品购买记录以及客户信息集合，生成第一训练样本集，所述第一训练样本集中包括：第一正样本集以及第一负样本集，所述第一正样本集中包括购买过任一产品的客户信息，所述第一负样本集中包括未购买过任何产品的客户信息；

第一训练模块，用于基于所述第一训练样本集对初始挖掘模型进行训练，得到第一中间模型，并基于所述第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，所述第二训练样本集中包括：第二正样本集以及第二负样本集，所述第二正样本集中包括购买过各产品类的客户信息，所述第二负样本集中包括未购买过各产品类的客户信息；

第二训练模块，用于基于所述第二训练样本集对所述第一中间模型进行训练，得到第二中间模型，并基于所述第二中间模型的预测结果，得到第三训练样本集，所述第三训练样本集中包括：第三正样本集以及第三负样本集，所述第三正样本集中包括购买过各产品的客户信息以及产品信息，所述第三负样本集中包括未购买过各产品的客户以及产品信息；

第三训练模块，用于基于所述第三训练样本集对所述第二中间模型进行训练，得到目标潜客挖掘模型；

预测模块，用于将所述第三正样本集输入所述目标潜客挖掘模型中进行预测，得到潜客信息。

可选的，所述生成模块具体用于：

根据所述历史产品购买记录，确定已购买客户；

可选的，所述第一训练模块具体用于：

对产品集合中的产品进行聚类，得到多个产品类；

可选的，所述第一训练模块具体用于：

根据所述负客户信息，生成所述第二负样本集。

可选的，所述第二训练模块具体用于：

可选的，根据各待选客户信息，得到所述第三训练样本集。

所述第二训练模块具体用于：

第三方面，本申请另一实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面所述方法的步骤。

第四方面，本申请另一实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面所述方法的步骤。

本申请的有益效果是：根据历史产品购买记录以及客户信息集合，生成第一训练样本集，基于第一训练样本集对初始挖掘模型进行训练得到第一中间模型，从而得到第一中间模型的预测结果，由于第一训练样本中第一正样本集中包括购买过任一产品的客户信息，第一负样本集中包括未购买过任何产品的客户信息，所以第一中间模型的预测结果可以表征客户信息集合中满足购买过任一产品的客户信息这一条件的客户信息，从而进行初步的潜在客户的挖掘。

基于第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，基于第二训练样本集对第一中间模型进行训练，得到第二中间模型，从而得到第二中间模型的预测结果，因为第二训练样本集中第二正样本集包括购买过各产品类的客户信息，第二负样本集中包括未购买过各产品类的客户信息，因此第二中间模型的预测结果可以表征购买过各产品类的客户信息，从而在初步潜客挖掘的基础上，对各产品类中的潜客进行进一步挖掘。

基于第二中间模型的预测结果，得到第三训练样本集，基于第三训练样本集对第二中间模型进行训练，得到目标潜客挖掘模型，因为第三训练样本集中正样本集包括购买过各产品的客户信息及产品信息，第三负样本集中包括未购买过各产品的客户以及产品信息，因此目标潜客挖掘模型最终的预测结果可以表征各产品的潜在客户的信息，从而在各产品类的潜客进行进一步挖掘，得到每个产品的潜客信息。

通过初始挖掘模型、第一中间模型和第二中间模型训练得到目标潜客挖掘模型，其中，利用第一样本集合进行训练并利用训练得到的第一中间模型进行预测可以看作是整体粗排，基于第一中间模型的预测结果生成第二样本集合并利用第二中间模型进行预测可以看作是大类粗排，基于第二中间模型的预测结果生成第三样本集合并利用目标潜客模型进行预测可以看作是产品精排，经过整体粗排、大类粗排以及产品精排这三个递进的步骤，能够阶梯式地缩小客群范围，从而在基本不损失预测精度的前提下，最大程度地减少计算资源，从而实现获得每个产品的潜客信息，提高准确度，同时减轻计算负担。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例提供的一种潜客挖掘方法的应用场景示意图；

图2是本申请实施例提供的一种潜客挖掘方法的流程示意图；

图3是本申请实施例提供的一种获取第一训练样本集的方法的流程示意图；

图4是本申请实施例提供的一种获取第二训练样本集的方法的流程示意图；

图5是本申请实施例提供的一种获取多个目标客户信息的方法的流程示意图；

图6是本申请实施例提供的一种获取第二训练样本集的方法的具体流程示意图；

图7是本申请实施例提供的一种获取第三训练样本集的方法的流程示意图；

图8是本申请实施例提供的一种获取第三训练样本集的方法的具体流程示意图；

图9是本申请实施例提供的一种潜客挖掘装置的结构示意图；

图10是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

目前，普遍通过两种方式挖掘企业的潜在客户。一种方式是不区分具体的产品，仅采用通用的智能模型挖掘一般的潜在客户，并应用到所有的产品中。另一种方式是采用业务规则划分客群，按照划分的客群进行产品推荐。例如，对某个产品划分若干主题，并为各主题人为指定若干符合规则的客户作为该主题的客群。但是这两种方法均存在准确性不足的问题。

为了提升准确度，可以建立通用的定向潜客挖掘模型为每个产品挖掘潜客。但是这种方法需要付出巨大的计算成本。例如，需要针对千万级的客户和上千只的产品进行潜客挖掘，每次预测需要进行百千次的计算，有限的计算资源可能导致该方法不可行。

基于上述问题，本申请可以根据历史产品购买记录以及客户信息集合生成第一训练样本集，再基于第一训练样板及对初始挖掘模型进行训练，得到第一中间模型，并基于第一中间模型的预测结果及产品聚类信息，得到第二训练样本集。基于第二训练样本集对第一中间模型进行训练，得到第二中间模型，并基于第二中间模型的预测结果，得到第三训练样本集。基于第三训练样本集对第二中间模型进行训练，得到目标潜客挖掘模型，然后将第三正样本集输入目标潜客挖掘模型中进行预测，得到潜客信息。通过上述方法中，根据不同样本多次进行模型训练，得到最终的目标潜客挖掘模型，从而得到潜客信息，可以在提高准确率的同时，降低计算难度。

接下来，对本申请中潜客挖掘方法的应用场景进行介绍。参照图1，数据库可以用于储存客户信息和产品信息。当进行潜客挖掘时，服务器可以从数据库中获取客户信息和产品信息，从而生成第一训练样本集。然后服务器基于第一训练样板及对初始挖掘模型进行训练，得到第一中间模型。基于第一中间模型的预测结果及由数据库获取的产品信息得到的产品聚类信息，得到第二训练样本集。然后服务器基于第二训练样本集对第一中间模型进行训练，得到第二中间模型，并基于第二中间模型的预测结果，得到第三训练样本集。基于第三训练样本集对第二中间模型进行训练，得到目标潜客挖掘模型，然后将第三正样本集输入目标潜客挖掘模型中进行预测，得到潜客信息。

以下参照图2对潜客挖掘方法进行介绍：

S201、根据历史产品购买记录以及客户信息集合，生成第一训练样本集，第一训练样本集中包括：第一正样本集以及第一负样本集，第一正样本集中包括购买过任一产品的客户信息，第一负样本集中包括未购买过任何产品的客户信息。

可选的，客户信息集合中可以包括海量的客户信息，客户信息可以包括客户基本信息、客户资产信息、交易持仓信息及行情信息。

示例性的，客户基本信息可以包括客户性别、客户年龄、所在省份、城市、所属分公司、所述营业部、开户时长、客户类型和客户级别等，客户基本信息用于表示客户的基本属性。

客户资产信息可以包括客户净资产、资产余额、持有产品市值、场内产品市值、场外产品市值、不同类型产品的持有市值等，客户资产信息用于表征客户的购买能力及产品偏好等属性。

交易持仓信息可以包括客户历史交易和持有的产品、股票、基金的信息。示例性的，产品可以是ETF产品，以ETF产品的交易信息为例，交易持仓信息包括客户过去半年购买ETF产品的次数、平均金额、平均风险等级、标准差、各产品类型ETF购买次数、各资产类型ETF购买次数、平均收益率、同类基金平均收益率、产品夏普比率均值、产品最大回撤率均值、产品alpha指数均值、产品beta指数均值、产品单位净值均值等。交易持仓信息用于表征客户的产品偏好和风险偏好信息。

值得一提的是，客户信息还可以包括客户股票、基金及客户持仓数据等相关信息。

可选的，根据历史产品购买记录，将客户信息集合中所有购买过任一产品的客户的客户信息作为第一正样本集，将历史产品购买记录中所有未购买过任一产品的客户的客户信息作为第一负样本集。

S202、基于第一训练样本集对初始挖掘模型进行训练，得到第一中间模型，并基于第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，第二训练样本集中包括：第二正样本集以及第二负样本集，第二正样本集中包括购买过各产品类的客户信息，第二负样本集中包括未购买过各产品类的客户信息。

可选的，在基于第一训练样本集对初始挖掘模型进行训练前，还可以通过特征工程对第一训练样本集中的客户信息进行处理。示例性的，特征工程可以包括空缺值填补及离散变量独热(one-hot)编码等。其中，空缺值填补可以填补客户信息中部分特征丢失的情况，确保训练结果的稳定性。离散变量one-hot编码可以将离散的客户信息进行数值化处理，确保训练结果的准确性。

可选的，初始挖掘模型可以是随机森林模型。利用随机森林模型高准确性、可并行的优势，将第一训练样本集输入随机森林模型中进行训练，得到第一中间模型，第一中间模型可以通过获取每个客户购买任一产品的概率，将概率从高到低进行排序，第一中间模型的预测结果可以指示排序前预设数量个客户进行筛选，得到第二训练样本集。示例性的，第一中间模型的预测结果可以指示50万个客户。

可选的，可以通过随机网格对第一中间模型进行调参，改变第一中间模型的深度、最大特征数、叶结点最小样本数等，从而降低第一中间模型的计算复杂度。

可选的，基于第一中间模型中的预测结果及产品聚类信息，并结合客户信息结合得到第二训练样本。

可选的，产品聚类信息可以通过将多个产品进行分类获得。具体的，由于多个产品中部分产品具有强相似性，可以将具有强相似性的产品分为一个产品类，该产品类中的产品具有一定共性。

S203、基于第二训练样本集对第一中间模型进行训练，得到第二中间模型，并基于第二中间模型的预测结果，得到第三训练样本集，第三训练样本集中包括：第三正样本集以及第三负样本集，第三正样本集中包括购买过各产品的客户信息以及产品信息，第三负样本集中包括未购买过各产品的客户以及产品信息。

可选的，第一中间模型训练完成后即可以作为第二中间模型，相应的，第二中间模型也可以是随机森林模型。第二中间模型可以通过获取每个客户购买每一产品类中任一产品的概率，将概率从高到低进行排序，根据各个客户购买各产品类的概率得到第二中间模型的预测结果，再根据预测结果确定各产品类中的各个产品的潜在客户的客户信息。

可选的，基于第二中间模型的预测结果确定第三训练样本集，第三训练样本集包括第三正样本集以及第三负样本集，第三正样本集中包括购买过各产品的客户信息和产品信息，值得注意的是，第三正样本集中各产品的客户信息和产品信息可以指预设时间内有交易记录的客户-产品对。示例性的，预设时间可以为三个月。第三负样本集包括客户信息集合中每一个客户与任意一个未购买过的产品组成的客户-产品对。

S204、基于第三训练样本集对第二中间模型进行训练，得到目标潜客挖掘模型。

可选的，可以是通过将第二中间模型的预测结果中的多个客户信息和对应的产品信息做内积计算获得新的客户-产品对，该新的客户-产品对可以表征客户和产品之间的关系。可以将该客户-产品对作为第三训练样本集中的信息，对第二中间模型进行训练，提高模型输出结果的准确性。

可选的，目标潜客挖掘模型也可以是随机森林模型。

S205、将第三正样本集输入目标潜客挖掘模型中进行预测，得到潜客信息。

可选的，在将第三正样本集输入目标潜客挖掘模型中进行预测之前，可以对第三正样本集中的客户信息进行筛选，保留与产品相关的特征，去除与产品无关的特征。再将筛选后的第三正样本集输入目标潜客挖掘模型中。

可选的，目标潜客挖掘模型可以通过获取每个客户购买每一产品的概率，将概率从高到低进行排序，根据排序前预设数量个客户确定目标潜客挖掘模型的预测结果，将上述预测结果中的客户信息作为潜客信息。示例性的，可以将排序前1万个客户的客户信息作为目标潜客挖掘模型的预测结果包括的客户信息。

本实施例中，根据历史产品购买记录以及客户信息集合，生成第一训练样本集，基于第一训练样本集对初始挖掘模型进行训练得到第一中间模型，从而得到第一中间模型的预测结果，由于第一训练样本中第一正样本集中包括购买过任一产品的客户信息，第一负样本集中包括未购买过任何产品的客户信息，所以第一中间模型的预测结果可以表征客户信息集合中满足购买过任一产品的客户信息这一条件的客户信息，从而进行初步的潜在客户的挖掘。

以下参照图3对上述步骤S201中根据历史产品购买记录以及客户信息集合，生成第一训练样本集，进行详细介绍：

S301、根据历史产品购买记录，确定已购买客户。

可选的，历史产品购买记录可以从数据库中获得。具体的，如果客户购买过任一产品，则历史产品购买记录中有客户和产品对应标识，如果客户没有购买过任何产品，则历史产品购买记录中不会存储客户及产品的对应标识，或者客户对应的产品项为空。

S302、根据已购买客户的标识，从客户信息集合中读取已购买客户的客户信息，并将已购买客户的客户信息增加至第一正样本集。

可选的，根据历史产品购买记录中客户和产品对应的标识，从客户信息集合中读取已购买客户的客户信息。其中客户信息集合包含数据库中所有客户的信息。示例性的，如果针对A企业的各类产品进行潜在客户的挖掘，则客户信息集合中包括了A企业所有客户的客户信息。

S303、从客户信息集合中读取不属于已购买客户的客户信息，得到待选未购买客户信息。

可选的，选取历史产品购买记录中未存储客户及产品的对应标识，或者客户对应的产品项为空的客户信息，得到待选未购买客户信息。

S304、对待选未购买客户信息进行欠采样处理，得到第一负样本集。

可选的，由于可能出现未购买任何产品的客户信息远超过购买过任一产品的客户信息，因此待选未购买客户信息可能远超过第一正样本集。此时需要对待选未购买客户信息进行欠采样处理，得到第一负样本集。具体的，欠采样处理可以通过消除部分数据实现多组分类数据集的类分布。示例性的，第一正样本集中包括100个客户信息，待选未购买客户信息为10000个客户信息，则需要对待选未购买客户信息进行欠采样处理，使待选未购买客户信息为1000个，保证第一正样本集与第一负样本集的比例合理，减小计算工作量。

本实施例中，通过根据历史产品购买记录，确定已购买客户，根据已购买客户的标识，从客户信息集合中读取已购买客户的客户信息，并将已购买客户的客户信息增加至第一正样本集，从客户信息集合中读取不属于已购买客户的客户信息，得到待选未购买客户信息，对待选未购买客户信息进行欠采样处理，得到第一负样本集，从而保证第一正样本集与第一负样本集的比例合理，减小计算工作量。

在介绍完如何获得第一正样本集和第一负样本集后，参照图4对上述步骤S202中基于第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，进行介绍：

S401、将第一正样本集中各客户信息输入第一中间模型，得到第一中间模型的预测结果，第一中间模型的预测结果用于指示各客户购买任一产品的概率。

可选的，第一正样本集中各客户信息可以包括满足购买过任一产品的客户信息。

可选的，第一中间模型的预测结果可以指示各个客户购买任一产品的概率。示例性的，A客户购买任一产品的概率为90％，B客户购买任一产品的概率为80％，C客户购买任一产品的概率为40％，D客户购买任一产品的概率为60％。

S402、根据第一中间模型的预测结果确定客户信息集合中的多个目标客户信息。

可选的，根据第一中间模型的预测结果，将各个客户中购买任一产品的概率高的预设数量的客户作为可能购买产品的潜在客户。示例性的，参照上述步骤S401中的举例，若需要获取2个潜在客户，则目标客户可以是A客户和B客户。

可选的，预设数量越高，计算越复杂，预设数量越低，计算越轻松。

S403、对产品集合中的产品进行聚类，得到多个产品类。

可选的，根据产品集合中各产品的相似度对产品进行聚类，得到多个产品类。

作为一种可能的实施方式，可以使用K-means聚类方法对产品进行聚类。K-means聚类方法根据各个产品信息中的内在关系，通过迭代寻找K个簇(Cluster)的一种划分方案，使得聚类结果对应的损失函数最小，聚类结果即包括一个产品类中的所有产品。

示例性的，K-means聚类方法可以根据各个产品信息中如下特征对产品进行划分：产品风险等级、资产类型、平均收益率(日/月/年)、近一年收益率标准差、近一年同类平均收益率、近一年平均夏普比率、近一年平均单位净值、管理费率、发行时间、上市时间等。

S404、根据多个目标客户信息以及多个产品类，得到第二训练样本集。

可选的，根据大概率购买产品的客户的客户信息和多个产品类，区分出购买过各产品类中任一产品的客户的客户信息，作为第二训练样本集的第二正样本集。将没有购买过产品的客户的客户信息作为第二负样本集。

可选的，可以根据客户信息中客户的历史产品的交易记录确定客户是否购买过该产品类，将购买过各产品类的客户信息作为第二正样本集，将未购买过各产品类的客户信息作为第二负样本集。

示例性的，A客户购买过a产品类，未购买过b产品类和c产品类，B客户购买过a产品类和c产品类，未购买过b产品类，C客户购买过c产品类，未购买过a产品类和b产品类。因此，第二正样本集中包括：a产品类中包括A客户和B客户，b产品类中不包括客户，c产品类中包括B客户和C客户。第二负样本集中可以包括：a产品类中包括C客户，b产品类中包括A客户、B客户和C客户，c产品类中包括A客户。

值得说明的是，第二负样本集中的客户信息可能远多于第二正样本集中的客户信息，则可以对第二负样本集做欠采样处理，使第二负样本集与第二正样本集保持平衡。

本实施例中，通过将第一正样本集中各客户信息输入第一中间模型，得到第一中间模型的预测结果，根据第一中间模型的预测结果确定客户信息集合中的多个目标客户信息，并对产品集合中的产品进行聚类，得到多个产品类，再根据多个目标客户信息以及多个产品类，得到第二训练样本集，实现对可能购买任一产品的潜在客户的进一步挖掘，得到可能购买各产品类的潜在客户，从而提高准确性的同时减轻计算负担。

以下参照图5对上述步骤S402中根据第一中间模型的预测结果确定客户信息集合中的多个目标客户信息，进行详细介绍：

S501、按照预测结果所指示的概率，对客户信息集合中各客户信息进行排序，得到客户信息序列。

可选的，按照第一中间模型的预测结果指示的各客户购买任一产品的概率，对客户信息集合中各客户的客户信息进行排序，得到客户信息序列。

可选的，可以按照其预测结果所指示的概率从高到低进行排序，得到的客户信息序列中，越靠前的客户越有可能购买产品。

S502、按照客户信息序列中的客户信息顺序，筛选客户信息序列中的第一预设数量的客户信息作为多个目标客户信息。

可选的，第一预设数量越大，目标客户信息越多，初步筛选出的潜在客户越多，但是模型计算量越高。第一预设数据越小，目标客户信息越少，初步筛选出的潜在客户越少，模型的计算量也越小。

示例性的，参照上述步骤S401中的举例，设置第一预设数量为3，则目标客户可以为A客户、B客户和D客户。

本实施例中，首先按照预测结果所指示的概率，对客户信息集合中各客户信息进行排序，得到客户信息序列，然后按照客户信息序列中的客户信息顺序，筛选客户信息序列中的第一预设数量的客户信息作为多个目标客户信息，从量级较大客户信息集合中筛选出小量级的目标客户信息，使目标客户具有很大的购买产品的概率，为后续的计算减小负担，其确保筛选的准确率。

接下来，参照图6对上述步骤S404中，根据多个目标客户信息以及多个产品类，得到第二训练样本集，进行介绍：

S601、根据各目标客户信息，确定各客户对应的至少一个产品类。

可选的，根据各目标客户的信息中客户的历史产品的交易记录，确定各客户历史购买过的至少一个产品所属于的产品类。

S602、根据各目标客户信息以及各客户对应的各产品类，生成第二正样本集。

可选的，第二正样本集中，在多个产品类中可能包括同一客户，也可能不包括任何一个客户，此时该产品类为空。

S603、从客户信息集合中读取不属于目标客户信息的负客户信息。

可选的，可以基于客户信息集合中的历史产品的交易记录，将没有购买过该产品类的客户信息作为负客户信息，也可以选择客户信息集合中不属于目标客户信息的客户信息，作为负客户信息。

S604、根据负客户信息，生成第二负样本集。

可选的，将所有负客户信息进行集合，得到第二负样本集。第二负样本集中，多个产品类可能包括同一客户，也可能不包括任何一个客户，此时该产品类为空。

本实施例中，通过根据各目标客户信息，确定各客户对应的至少一个产品类，根据各目标客户信息以及各客户对应的各产品类，生成第二正样本集，第二正样本集包括购买过各产品类的客户信息，再从客户信息集合中读取不属于目标客户信息的负客户信息，根据负客户信息，生成第二负样本集，第二负样本集包括未购买过各产品类的客户信息，从而确定各产品类对应的潜客范围，为后面对各产品类进一步的潜客挖掘打下基础，提高预测准确度。

接下来，参照图7对上述步骤S203中基于第二中间模型的预测结果，得到第三训练样本集，进行解释：

S701、将第二正样本集中各客户信息输入第二中间模型，得到第二中间模型的预测结果，第二中间模型的预测结果用于指示各客户购买各产品类中任一产品的概率。

可选的，第二正样本集中各客户信息可以包括满足在购买过各个产品类中任一产品的客户信息。

可选的，第二中间模型的预测结果可以指示各个客户购买各产品类的概率。

示例性的，E客户购买a产品类的概率为20％，F客户购买a产品的概率为35％，G客户购买a产品的概率为26％。

S702、根据第二中间模型的预测结果确定第二预设数量的待选客户信息。

可选的，根据第二中间模型的预测结果，对第二中间模型的预测结果所指示的概率进行排序，在各个产品类中，将概率高的第二预设数量客户作为潜在客户，该潜在客户的客户信息作为待选客户信息。

示例性的，若第二预设数量为2，则在a产品类的潜在客户为F客户和G客户。

S703、根据各待选客户信息，得到第三训练样本集。

可选的，根据各待选客户信息中的历史交易记录，判断各待选客户信息中是否有购买各产品类中产品的记录，从而得到第三训练样本集。

本实施例中，通过将第二正样本集中各客户信息输入第二中间模型，得到第二中间模型的预测结果，第二中间模型的预测结果用于指示各客户购买各产品类中任一产品的概率，根据第二中间模型的预测结果确定第二预设数量的待选客户信息，根据各待选客户信息，得到第三训练样本集，从而根据各客户购买各产品类的概率确定各产品类的潜在客户，进一步提高潜客挖掘的准确性。

以下参照图8对上述步骤S703中，根据各待选客户信息，得到第三训练样本集，进行说明：

S801、根据各待选客户信息以及历史产品购买记录，确定各待选客户信息对应的已购买产品。

可选的，待选客户信息包括可能购买过各产品类中任一产品的客户的客户信息。

S802、将各待选客户信息以及各待选客户信息对应的已购买产品作为一个正样本增加至第三正样本集中。

可选的，将各待选客户信息以及各待选客户信息对应的已购买产品作为一个客户-产品对，该客户-产品对为一个正样本，将各产品类中的待选客户信息及其购买的产品组成客户-产品对，并将其组成第三正样本集。

示例性的，a产品类对应的待选客户包括P客户,Q客户及I客户，a产品类中包括X产品，Y产品和Z产品。P客户购买过X产品，Q客户购买过Y产品，I客户购买过Z产品。则可以生成三个正样本，分别为P客户-X产品、Q客户-Y产品和I客户-Z产品。将上述三个正样本作为a产品类的正样本集，将所有产品类的正样本集相加，组成第三正样本集。

S803、从客户信息集合中读取不属于待选客户信息的客户信息，并根据不属于待选客户信息的客户信息，生成第三负样本集。

可选的，可以从客户信息集合中每个不属于待选客户信息的客户随机选择一个没有购买过的产品，组成客户-产品对，作为负样本，从而生成第三负样本集。

值得说明的是，由于客户信息集合中负样本可能远多于正样本，因此可以对负样本进行欠采样处理，并根据处理后的负样本生成第三负样本集。

本实施例中，根据各待选客户信息以及历史产品购买记录，确定各待选客户信息对应的已购买产品，将各待选客户信息以及各待选客户信息对应的已购买产品作为一个正样本增加至第三正样本集中，然后从客户信息集合中读取不属于待选客户信息的客户信息，并根据不属于待选客户信息的客户信息，生成第三负样本集，从而获得第三训练样本集，为训练第二中间模型打下基础，从而获取每个产品对应的潜在客户。

基于同一发明构思，本申请实施例中还提供了与潜客挖掘方法对应的潜客挖掘装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述潜客挖掘方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图9所示，为本申请提供的一种潜客挖掘装置的示意图，所述装置包括：生成模块901、第一训练模块902、第二训练模块903、第三训练模型904和预测模块905；其中：

生成模块901，用于根据历史产品购买记录以及客户信息集合，生成第一训练样本集，所述第一训练样本集中包括：第一正样本集以及第一负样本集，所述第一正样本集中包括购买过任一产品的客户信息，所述第一负样本集中包括未购买过任何产品的客户信息；

第一训练模块902，用于基于所述第一训练样本集对初始挖掘模型进行训练，得到第一中间模型，并基于所述第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，所述第二训练样本集中包括：第二正样本集以及第二负样本集，所述第二正样本集中包括购买过各产品类的客户信息，所述第二负样本集中包括未购买过各产品类的客户信息；

第二训练模块903，用于基于所述第二训练样本集对所述第一中间模型进行训练，得到第二中间模型，并基于所述第二中间模型的预测结果，得到第三训练样本集，所述第三训练样本集中包括：第三正样本集以及第三负样本集，所述第三正样本集中包括购买过各产品的客户信息以及产品信息，所述第三负样本集中包括未购买过各产品的客户以及产品信息；

第三训练模块904，用于基于所述第三训练样本集对所述第二中间模型进行训练，得到目标潜客挖掘模型；

预测模块905，用于将所述第三正样本集输入所述目标潜客挖掘模型中进行预测，得到潜客信息。

所述生成模块901具体用于：

根据所述历史产品购买记录，确定已购买客户；

所述第一训练模块902具体用于：

对产品集合中的产品进行聚类，得到多个产品类；

所述第一训练模块902具体用于：

根据所述负客户信息，生成所述第二负样本集。

所述第二训练模块903具体用于：

根据各待选客户信息，得到所述第三训练样本集。

所述第二训练模块903具体用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本申请实施例还提供了一种电子设备，如图10所示，为本申请实施例提供的电子设备结构示意图，包括：处理器1001、存储器1002，可选的，还可以包括总线。所述存储器1002存储有所述处理器1001可执行的机器可读指令(比如，图9中的装置中生成模块901、第一训练模块902、第二训练模块903、第三训练模型904和预测模块905对应的执行指令等)，当电子设备运行时，所述处理器1001与所述存储器1002之间通过总线通信，所述机器可读指令被所述处理器1001执行时执行上述潜客挖掘方法。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器1001运行时执行上述潜客挖掘方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种潜客挖掘方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据历史产品购买记录以及客户信息集合，生成第一训练样本集，包括：

根据所述历史产品购买记录，确定已购买客户；

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一中间模型的预测结果以及产品聚类信息，得到第二训练样本集，包括：

对产品集合中的产品进行聚类，得到多个产品类；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一中间模型的预测结果确定所述客户信息集合中的多个目标客户信息，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述多个目标客户信息以及所述多个产品类，得到所述第二训练样本集，包括：

根据所述负客户信息，生成所述第二负样本集。

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二中间模型的预测结果，得到第三训练样本集，包括：

根据各待选客户信息，得到所述第三训练样本集。

7.根据权利要求6所述的方法，其特征在于，所述根据各待选客户信息，得到所述第三训练样本集，包括：

8.一种潜客挖掘装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述的潜客挖掘方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一所述的潜客挖掘方法的步骤。