CN107578294A

CN107578294A - 用户行为预测方法、装置及电子设备

Info

Publication number: CN107578294A
Application number: CN201710896690.7A
Authority: CN
Inventors: 彭晓茂; 龚建
Original assignee: Beijing Xiaodu Information Technology Co Ltd
Current assignee: Beijing Xiaodu Information Technology Co Ltd
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2018-01-12
Anticipated expiration: 2037-09-28
Also published as: WO2019061905A1; CN107578294B

Abstract

本公开实施例公开了一种用户行为预测方法、装置及电子设备，所述方法包括：获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；对所述用户行为训练数据集进行训练，得到用户行为预测模型；根据所述用户行为预测模型对测试用户进行预设业务行为预测。通过本公开实施例提供的技术方案，对于用户进行行为预测，从而获取最有可能下单的目标用户群体，进而就可以在目标用户群体中选择全部或者部分用户执行发送优惠券、代金券等预设措施。该技术方案在发展新用户、促进用户订单方面更具针对性，成功率高，同时还降低了发展新用户所花费的成本。

Description

用户行为预测方法、装置及电子设备

技术领域

本公开涉及行为预测技术领域，具体涉及一种用户行为预测方法、装置及电子设备。

背景技术

随着互联网技术的发展，越来越多的商家或者服务提供商通过互联网渠道来推广产品和服务，并力求在推广产品和服务的基础上争取更多的用户订单，以提升现有资源的利用率，为商家或者服务提供商创造更多的价值。目前很多商家或者服务提供商通常采用向大众随机发送优惠信息、发送优惠券或代金券的形式来吸引用户下单，但这种方式缺乏针对性，成功率低，需要花费的成本较高。

发明内容

本公开实施例提供一种用户行为预测方法、装置及电子设备。

第一方面，本公开实施例中提供了一种用户行为预测方法。

具体的，所述用户行为预测方法，包括：

获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；

对所述用户行为训练数据集进行训练，得到用户行为预测模型；

根据所述用户行为预测模型对测试用户进行预设业务行为预测。

结合第一方面，本公开在第一方面的第一种实现方式中，所述获取用户行为训练数据集，包括：

获取预设历史时间段内历史用户数据，其中，所述历史用户数据包括预设业务历史用户数据、未发生预设业务用户数据；

获取历史用户特征数据；

关联所述历史用户数据与历史用户特征数据，得到预设业务历史用户训练数据和未发生预设业务用户训练数据，形成所述用户行为训练数据集。

结合第一方面，本公开在第一方面的第一种实现方式中，所述获取历史用户特征数据，包括：

为所述历史用户数据设置类别标签，形成类别向量；

获取历史用户原始特征数据，形成特征向量，其中，所述历史用户原始特征数据包括多个特征值；

计算所述特征向量与所述类别向量之间的相关值；

确定所述相关值的绝对值大于预设相关阈值的特征向量队列；

取所述特征向量队列前预设数量的特征向量元素作为历史用户特征数据。

结合第一方面，本公开在第一方面的第一种实现方式中，所述对所述用户行为训练数据集进行训练，得到用户行为预测模型，包括：

将所述预设业务历史用户训练数据作为正样本，将所述未发生预设业务用户训练数据作为负样本进行训练，得到所述用户行为预测模型。

结合第一方面，本公开在第一方面的第一种实现方式中，所述对用户行为训练数据集进行训练，得到用户行为预测模型，包括：

获取预设业务历史用户训练数据和未发生预设业务用户训练数据；

对所述预设业务历史用户训练数据和未发生预设业务用户训练数据进行数值化；

根据训练数据类型和分类结果目标类型确定分类函数；

将数值化后的预设业务历史用户训练数据作为正样本，将数值化后的未发生预设业务用户训练数据作为负样本，训练确定所述分类函数的参数，得到所述用户行为预测模型。

结合第一方面或第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，所述根据所述用户行为预测模型对测试用户进行预设业务行为预测，包括：

获取测试用户特征数据；

将所述测试用户特征数据输入至所述用户行为预测模型，得到对于测试用户的行为预测结果。

其中，所述测试用户为未发生预设业务行为用户。

结合第一方面、第一方面的第一种实现方式或第一方面的第二种实现方式，在本公开在第一方面的第三种实现方式中，所述获取历史用户特征数据之后，所述方法还包括：

确定历史用户特征数据中的特征值是否为非数值特征值；

将所述非数值特征值转换为数值特征值。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式或第一方面的第三种实现方式，在本公开在第一方面的第四种实现方式中，所述方法还包括：

获取正样本与负样本的数量比例绝对值；

当所述数量比例绝对值大于预设比例阈值时，对于数量大的样本进行数量降采样。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式或第一方面的第四种实现方式，在本公开在第一方面的第五种实现方式中，还包括：

对于测试用户的行为预测结果进行排序；

取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施；

取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式或第一方面的第五种实现方式，在本公开在第一方面的第六种实现方式中，还包括：

获取执行了预设措施的测试用户的行为反馈信息；

获取所述测试用户的特征数据；

关联所述测试用户的行为反馈信息与所述测试用户的特征数据，作为训练数据加入所述用户行为训练数据集。

第二方面，本公开实施例中提供了一种用户行为预测装置。

具体的，所述用户行为预测装置，包括：

第一获取模块，被配置为获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；

训练模块，被配置为对所述用户行为训练数据集进行训练，得到用户行为预测模型；

预测模块，被配置为根据所述用户行为预测模型对测试用户进行预设业务行为预测。

结合第二方面，本公开在第二方面的第一种实现方式中，所述第一获取模块包括：

第一获取子模块，被配置为获取预设历史时间段内历史用户数据，其中，所述历史用户数据包括预设业务历史用户数据、未发生预设业务用户数据；

第二获取子模块，被配置为获取历史用户特征数据；

关联子模块，被配置为关联所述历史用户数据与历史用户特征数据，得到预设业务历史用户训练数据和未发生预设业务用户训练数据，形成所述用户行为训练数据集。

结合第二方面，本公开在第二方面的第一种实现方式中，所述第二获取子模块包括：

第一设置单元，被配置为为所述历史用户数据设置类别标签，形成类别向量；

获取单元，被配置为获取历史用户原始特征数据，形成特征向量，其中，所述历史用户原始特征数据包括多个特征值；

确定单元，被配置为确定所述相关值的绝对值大于预设相关阈值的特征向量队列；

计算单元，被配置为计算所述特征向量与所述类别向量之间的相关值；

第二设置单元，被配置为将所述特征向量队列前预设数量的特征向量元素设置为历史用户特征数据。

结合第二方面，本公开在第二方面的第一种实现方式中，所述训练模块被配置为：

结合第二方面，本公开在第二方面的第一种实现方式中，所述训练模块包括：

第三获取子模块，被配置为获取预设业务历史用户训练数据和未发生预设业务用户训练数据；

数值化子模块，被配置为对所述预设业务历史用户训练数据和未发生预设业务用户训练数据进行数值化；

确定子模块，被配置为根据训练数据类型和分类结果目标类型确定分类函数；

训练子模块，被配置为将数值化后的预设业务历史用户训练数据作为正样本，将数值化后的未发生预设业务用户训练数据作为负样本，训练确定所述分类函数的参数，得到所述用户行为预测模型。

结合第二方面或第二方面的第一种实现方式，本公开在第二方面的第二种实现方式中，所述预测模块包括：

第四获取子模块，被配置为获取测试用户特征数据；

预测子模块，被配置为将所述测试用户特征数据输入至所述用户行为预测模型，得到对于测试用户的行为预测结果。

其中，所述测试用户为未发生预设业务行为用户。

结合第二方面、第二方面的第一种实现方式或第二方面的第二种实现方式，在本公开在第二方面的第三种实现方式中，所述装置还包括：

确定模块，被配置为确定历史用户特征数据中的特征值是否为非数值特征值；

转换模块，被配置为将所述非数值特征值转换为数值特征值。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式或第二方面的第三种实现方式，在本公开在第二方面的第四种实现方式中，所述装置还包括：

第二获取模块，被配置为获取正样本与负样本的数量比例绝对值；

降采样模块，被配置为当所述数量比例绝对值大于预设比例阈值时，对于数量大的样本进行数量降采样。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式或第二方面的第四种实现方式，在本公开在第二方面的第五种实现方式中，还包括：

排序模块，被配置为对于测试用户的行为预测结果进行排序；

第一执行模块，被配置为取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施；

第二执行模块，被配置为取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式或第二方面的第五种实现方式，在本公开在第二方面的第六种实现方式中，还包括：

第三获取模块，被配置为获取执行了预设措施的测试用户的行为反馈信息；

第四获取模块，被配置为获取所述测试用户的特征数据；

关联模块，被配置为关联所述测试用户的行为反馈信息与所述测试用户的特征数据，作为训练数据加入所述用户行为训练数据集。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持用户行为预测装置执行上述第一方面中用户行为预测方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述用户行为预测装置还可以包括通信接口，用于用户行为预测装置与其他设备或通信网络通信。

第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储用户行为预测装置所用的计算机指令，其包含用于执行上述第一方面中用户行为预测方法为用户行为预测装置所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

上述技术方案，通过对于用户进行行为预测，从而获取最有可能下单的目标用户群体，进而就可以在目标用户群体中选择全部或者部分用户执行发送优惠券、代金券等预设措施。该技术方案在发展新用户、促进用户订单方面更具针对性，成功率高，同时还降低了发展新用户所花费的成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的用户行为预测方法的流程图；

图2示出根据图1所示实施方式的步骤S101的流程图；

图3示出根据图2所示实施方式的步骤S202的流程图；

图4示出根据图1所示实施方式的步骤S102的流程图；

图5示出根据图1所示实施方式的步骤S103的流程图；

图6示出根据本公开另一实施方式的用户行为预测方法中数值特征值转换步骤的流程图；

图7示出根据本公开另一实施方式的用户行为预测方法中样本降采样步骤的流程图；

图8示出根据本公开另一实施方式的用户行为预测方法中执行预设措施步骤的流程图；

图9示出根据本公开另一实施方式的用户行为预测方法中用户行为训练数据集更新步骤的流程图；

图10示出根据本公开一实施方式的用户行为预测装置的结构框图；

图11示出根据图10所示实施方式的第一获取模块1001的结构框图；

图12示出根据图11所示实施方式的第二获取子模块1102的结构框图；

图13示出根据图10所示实施方式的训练模块1002的结构框图；

图14示出根据图10所示实施方式的预测模块1003的结构框图；

图15示出根据本公开另一实施方式的用户行为预测装置中数值特征值转换部分的结构框图；

图16示出根据本公开另一实施方式的用户行为预测装置中样本降采样部分的结构框图；

图17示出根据本公开另一实施方式的用户行为预测装置中执行预设措施部分的结构框图；

图18示出根据本公开另一实施方式的用户行为预测装置中用户行为训练数据集更新部分的结构框图；

图19示出根据本公开一实施方式的电子设备的结构框图；

图20是适于用来实现根据本公开一实施方式的用户行为预测方法的计算机***的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

本公开实施例提供的技术方案，通过对于用户进行行为预测，从而获取最有可能下单的目标用户群体，进而就可以在目标用户群体中选择全部或者部分用户执行发送优惠券、代金券等预设措施。该技术方案在发展新用户、促进用户订单方面更具针对性，成功率高，同时还降低了发展新用户所花费的成本。

图1示出根据本公开一实施方式的用户行为预测方法的流程图。如图1所示，所述用户行为预测方法包括以下步骤S101-S103：

在步骤S101中，获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；

在步骤S102中，对所述用户行为训练数据集进行训练，得到用户行为预测模型；

在步骤S103中，根据所述用户行为预测模型对测试用户进行预设业务行为预测。

考虑到在推广一个产品或者服务的时候，如果采取传统上对于全部用户发送优惠券、发送优惠推广短信的方式的话，推广成本较高，而且由于其中绝大多数的用户都未产生过新业务数据，从而使得业务推广的难度增加，效果不良。因此，在该实施方式中，首先采用预设的筛选方法获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据，然后对于所述用户行为训练数据集进行训练，得到用户行为预测模型，最后根据所述用户行为预测模型对于测试用户进行预设业务行为预测，得到用户行为预测结果，得知哪些用户更有可能接受新业务发生下单行为，后续再在目标用户群体中选择全部或者部分用户执行发送优惠券、代金券等预设措施。该技术方案在发展新用户、促进用户订单方面更具针对性，成功率高，同时还降低了发展新用户所花费的成本。

其中，所述预设业务可以为某一商家或者服务提供商提供的各种业务，包括已上线业务，也包括处于推广期的新业务。

在本实施例的一个可选实现方式中，如图2所示，所述步骤S101，即获取用户行为训练数据集的步骤，包括步骤S201-S203：

在步骤S201中，获取预设历史时间段内历史用户数据，其中，所述历史用户数据包括预设业务历史用户数据、未发生预设业务用户数据；

在步骤S202中，获取历史用户特征数据；

在步骤S203中，关联所述历史用户数据与历史用户特征数据，得到预设业务历史用户训练数据和未发生预设业务用户训练数据，形成所述用户行为训练数据集。

其中，所述用户数据包括：发生订单的数量、订单类型、订单时间、订单内容、订单价格、订单反馈等数据中的一种或多种；所述特征数据包括：姓名、性别、手机号码、年龄、行业、人生阶段、长期兴趣、活动区域、下单或访问频率、优惠敏感程度、对于平台资源的偏好程度、客单价、对于平台的潜在价值中的一种或多种。

在该实现方式中，先获取预设历史时间段内的历史用户数据，为了提高用户行为预测的针对性，本实现方式选择预设历史时间段内预设业务的历史用户数据，以及没有发生预设业务行为的用户数据作为训练数据。其中，所述用户数据包括：发生订单的数量、订单类型、订单时间、订单内容、订单价格、订单反馈等数据中的一种或多种，所述没有发生预设业务行为的用户数据还可以包括被执行过预设措施但未发生预设业务行为的用户数据，以及未被执行过预设措施且未发生预设业务行为的用户数据，所述预设措施包括：发送优惠信息、发送优惠券、发送代金券、开通返现权限、加送积分、附送赠品、附送增值服务中的一种或多种。

在实际应用中，上述用户数据可能只能反映出相关的订单信息，不能够体现出用户的兴趣、喜好等信息，为了更准确地对于行为进行预测，在该实现方式中，还综合考虑用户的其他特征数据，比如姓名、性别、手机号码、年龄、行业、人生阶段、长期兴趣、活动区域、下单或访问频率、优惠敏感程度、对于平台资源的偏好程度、客单价、对于平台的潜在价值等特征数据。

所述用户特征数据的获取可采用多种方式，比如可以从同一应用程序的其他模块或者其他应用程序积累的用户特征数据中获取，当然也可以采用其他获取方式，比如社会调查等等。举例来说，公司A开发有多个应用，而公司A为了更好地对用户进行管理，其对用户在不同应用上的行为进行了整合和建模，形成了涵盖用户各个方面行为的用户特征数据库，那么对于公司A的子公司或者合作公司而言，其与公司A之间的数据互通合法且较为方便，因而可以从公司A用户特征数据库中获取所需用户的特征数据。

在获得历史用户数据以及相应用户的特征数据后，对其进行关联，将得到的多个新的数据作为用户行为训练数据集，后续用于训练用户行为预测模型。在进行数据关联时，考虑到不同的用户数据或者用户特征数据有可能标引值不同，而且，同一手机号有可能会注册多个账户，存在多条数据记录，因此，为了提高数据关联的准确性，去除重复数据，在本实现方式中，通过用户的唯一标识信息，比如手机号，来对用户数据和用户特征数据进行关联。

在本实施例的一个可选实现方式中，如图3所示，所述步骤S202，即获取历史用户特征数据的步骤，包括步骤S301-S305：

在步骤S301中，为所述历史用户数据设置类别标签，形成类别向量；

在步骤S302中，获取历史用户原始特征数据，形成特征向量，其中，所述历史用户原始特征数据包括多个特征值；

在步骤S303中，计算所述特征向量与所述类别向量之间的相关值；

在步骤S304中，确定所述相关值的绝对值大于预设相关阈值的特征向量队列；

在步骤S305中，将所述特征向量队列前预设数量的特征向量元素设置为历史用户特征数据。

考虑到一个用户的特征数据有可能有很多，如果对于每个特征值都进行关联和计算的话，势必会增加过多不必要的工作量，降低效率，因此，在本实现方式中，对于用户特征数据进行有针对性的选择，选择一些与预定业务相关的特征值进行关联和计算，这样既能降低工作量，提高效率，还能够提高用户行为预测的准确性。

在本实现方式中，首先为得到的历史用户数据设置类别标签，形成类别向量，比如，可将正样本的类别标签设置为1，将负样本的类别标签设置为0；然后获取这些历史用户的原始特征数据，形成特征向量，其中，原始特征数据中包括用户所有的特征值，比如，用户i的特征向量v_i可表示为v_i＝[x₁,x₂,x₃,…x_n]，其中，x₁,x₂,x₃,…x_n表示用户i的n个特征值；之后计算特征向量与类别向量之间的相关值r，r的取值为：r∈[-1,1]，若r＞0，表明两个向量正相关，若r＜0，表明两个向量负相关，若r＝0，表明两个向量线性不相关，可见，r的绝对值越大表明两个向量的相关性越强，因此，可将相关值的绝对值大于预设相关阈值的特征向量队列中，前预设数量的特征向量元素作为历史用户特征数据，比如，可选择特征向量队列的前6个特征向量元素作为历史用户特征数据，参与用户行为预测模型的训练。

其中，预设相关阈值的具体取值可根据实际应用的情况确定，本公开不作具体限定。

在本实施例的一个可选实现方式中，所述步骤S102，即对所述用户行为训练数据集进行训练，得到用户行为预测模型的步骤，包括：

进一步地，在本实施例的一个可选实现方式中，如图4所示，所述步骤S102，即对所述用户行为训练数据集进行训练，得到用户行为预测模型的步骤，包括步骤S401-S404：

在步骤S401中，获取预设业务历史用户训练数据和未发生预设业务用户训练数据；

在步骤S402中，对所述预设业务历史用户训练数据和未发生预设业务用户训练数据进行数值化；

在步骤S403中，根据训练数据类型和分类结果目标类型确定分类函数；

在步骤S404中，将数值化后的预设业务历史用户训练数据作为正样本，将数值化后的未发生预设业务用户训练数据作为负样本，训练确定所述分类函数的参数，得到所述用户行为预测模型。

在该实施方式中，在训练用户行为预测模型时，将预设业务历史用户训练数据作为正样本，将未发生预设业务用户训练数据作为负样本。其中，用户行为预测模型的训练方法可采用多种训练方法，本公开不作具体限定，所有可行、合理的训练方法均落入本公开的保护范围内，比如支持向量机方法、逻辑回归算法等。在实际应用中，可根据训练数据的类型和特点和对于模型分类结果类型的具体要求来选择合适的模型和训练方法。

考虑到很多分类算法仅支持数值向量型，因此需要首先对于训练数据进行数值化处理，比如可以使用哑变量编码方法，将各个训练数据展开成多个取值为0-100的特征，然后再选择适合的分类函数、训练确定分类函数的参数，得到用户行为预测模型。

在本实施例的一个可选实现方式中，如图5所示，所述步骤S103，即根据所述用户行为预测模型对测试用户进行预设业务行为预测的步骤，包括步骤S501-S502：

在步骤S501中，获取测试用户特征数据；

在步骤S502中，将所述测试用户特征数据输入至所述用户行为预测模型，得到对于测试用户的行为预测结果。

其中，所述测试用户为未发生预设业务行为用户，所述未发生预设业务行为用户可以包括被执行过预设措施但未发生预设业务行为的用户，也可以包括未被执行过预设措施且未发生预设业务行为的用户。

在该实现方式中，在得到用户行为预测模型后，将测试用户特征数据输入，即可得到对于测试用户的行为预测结果。其中，所述测试用户特征数据可包含姓名、性别、手机号码、年龄、行业、人生阶段、长期兴趣、活动区域、下单或访问频率、优惠敏感程度、对于平台资源的偏好程度、客单价、对于平台的潜在价值等特征值。当所述用户行为预测模型为直接输出样本概率值的模型时，所述预测结果就是该测试用户发生预设业务行为的概率有多大。基于所述预测结果，就可以判断出某一测试用户发生预设业务行为的可能性，比如下单的可能性，继而选择其中的一些测试用户执行预设措施，这种就可以做到有针对性地实施预设措施，提高预设措施的成功回报率。

其中，测试用户特征数据可根据上述获得历史用户特征数据的方式来获得，在此不作赘述。

在本实施例的一个可选实现方式中，如图6所示，所述步骤S202，即获取历史用户特征数据之后，所述方法还包括步骤S601-S602：

在步骤S601中，确定历史用户特征数据中的特征值是否为非数值特征值；

在步骤S602中，将所述非数值特征值转换为数值特征值。

上文提及，所述用户特征数据包含姓名、性别、手机号码、年龄、行业、人生阶段、长期兴趣、活动区域、下单或访问频率、优惠敏感程度、对于平台资源的偏好程度、客单价、对于平台的潜在价值等多种类型的特征值，为了更准确地记录各个特征数据，有的特征值是数值形式的，有的特征值是枚举值形式的，即一项特征值包含一个或多个枚举值，比如性别特征的枚举值集合可表示为{男、女}，在这种情况下，考虑到模型训练时用到的分类算法仅支持数值向量型数据，因此需要对上述枚举型特征值进行编码，比如使用哑变量编码方法将各个特征值的枚举值变换为取值在一预设区间的数值，然后再进行模型训练，比如对于一男性用户，可将其性别特征枚举值集合变换为{“性别_男”∶1，”性别_女”∶0}。

在本实施例的一个可选实现方式中，如图7所示，所述方法还包括对于数量较大的样本进行降采样的步骤，即所述方法还包括步骤S701-S702：

在步骤S701中，获取正样本与负样本的数量比例绝对值；

在步骤S702中，当所述数量比例绝对值大于预设比例阈值时，对于数量大的样本进行数量降采样。

在实际应用中，未发生预设业务用户的数量可能会远大于预设业务历史用户的数量，即负样本的数量远大于正样本的数量，这样就会导致正样本数量不足，正负样本比例严重失衡，从而降低用户行为预测模型的预测准确率，无法支持有效的用户行为预测及用户预设措施执行活动。在这种情况下，可通过计算正样本与负样本的数量比例绝对值获取数量较大的样本类型，然后再对数量大的样本进行数量降采样，使得正负样本的数量比例维持在一预设范围内，比如正负样本数量的比例为1:3。

另外，在选择预测模型时，可选择直接输出样本概率值的模型，如逻辑回归模型等。

在本实施例的一个可选实现方式中，如图8所示，所述方法还包括步骤S801-S803：

在步骤S801中，对于测试用户的行为预测结果进行排序；

在步骤S802中，取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施；

在步骤S803中，取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。

在该实现方式中，可根据测试用户的行为预测结果，视实际应用的需要，选择全部或者部分测试用户执行预设措施，如上文所述，所述预设措施包括：发送优惠信息、发送优惠券、发送代金券、开通返现权限、加送积分、附送赠品、附送增值服务中的一种或多种。比如，可以对于测试用户的行为预测结果进行排序，预测结果排序靠前的测试用户被认为是非常有可能产生订单的用户，那么就取前几名测试用户执行预设措施，进一步提高预设措施的成功回报率。

为了对比预设措施的激励效果，可以取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施，取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施，其中，第一预设数量和第二预设数量可以根据实际应用的情况确定，两者的值可以相同也可以不同，类似地，第一预设措施和第二预设措施也可以根据实际应用的情况确定，两者的值可以相同也可以不同。

比如，可以取序列前第一预设数量的测试用户作为第一分组，执行第一预设措施，随机取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施；也可以随机取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施，再随机取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。

在本实施例的一个可选实现方式中，如图9所示，所述方法还包括步骤S901-S903：

在步骤S901中，获取执行了预设措施的测试用户的行为反馈信息；

在步骤S902中，获取所述测试用户的特征数据；

在步骤S903中，关联所述测试用户的行为反馈信息与所述测试用户的特征数据，作为训练数据加入所述用户行为训练数据集。

在该实现方式中，为了获得更多的训练数据，丰富行为训练数据集，提高预测结果的正确率，在对某些测试用户执行了预设措施后，还获取这些用户的行为反馈信息，并将这些用户的行为反馈信息与其特征数据相关联，形成新的训练数据加入所述用户行为训练数据集中。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图10示出根据本公开一实施方式的用户行为预测装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图10所示，所述用户行为预测装置包括第一获取模块1001、训练模块1002和预测模块1003：

第一获取模块1001，被配置为获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；

训练模块1002，被配置为对所述用户行为训练数据集进行训练，得到用户行为预测模型；

预测模块1003，被配置为根据所述用户行为预测模型对测试用户进行预设业务行为预测。

考虑到在推广一个产品或者服务的时候，如果采取传统上对于全部用户发送优惠券、发送优惠推广短信的方式的话，推广成本较高，而且由于其中绝大多数的用户都未产生过新业务数据，从而使得业务推广的难度增加，效果不良。因此，在该实施方式中，第一获取模块1001采用预设的筛选方法获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据，训练模块1002对于所述用户行为训练数据集进行训练，得到用户行为预测模型，预测模块1003根据所述用户行为预测模型对于测试用户进行预设业务行为预测，得到用户行为预测结果，得知哪些用户更有可能接受新业务发生下单行为，后续再在目标用户群体中选择全部或者部分用户执行发送优惠券、代金券等预设措施。该技术方案在发展新用户、促进用户订单方面更具针对性，成功率高，同时还降低了发展新用户所花费的成本。

在本实施例的一个可选实现方式中，如图11所示，所述第一获取模块1001包括第一获取子模块1101、第二获取子模块1102和关联子模块1103：

第一获取子模块1101，被配置为获取预设历史时间段内历史用户数据，其中，所述历史用户数据包括预设业务历史用户数据、未发生预设业务用户数据；

第二获取子模块1102，被配置为获取历史用户特征数据；

关联子模块1103，被配置为关联所述历史用户数据与历史用户特征数据，得到预设业务历史用户训练数据和未发生预设业务用户训练数据，形成所述用户行为训练数据集。

在该实现方式中，第一获取子模块1101获取预设历史时间段内的历史用户数据，为了提高用户行为预测的针对性，本实现方式选择预设历史时间段内预设业务的历史用户数据，以及没有发生预设业务行为的用户数据作为训练数据。其中，所述用户数据包括：发生订单的数量、订单类型、订单时间、订单内容、订单价格、订单反馈等数据中的一种或多种，所述没有发生预设业务行为的用户数据还可以包括被执行过预设措施但未发生预设业务行为的用户数据，以及未被执行过预设措施且未发生预设业务行为的用户数据，所述预设措施包括：发送优惠信息、发送优惠券、发送代金券、开通返现权限、加送积分、附送赠品、附送增值服务中的一种或多种。

第二获取子模块1102对于用户特征数据的获取可采用多种方式，比如可以从同一应用程序的其他模块或者其他应用程序积累的用户特征数据中获取，当然也可以采用其他获取方式，比如社会调查等等。举例来说，公司A开发有多个应用，而公司A为了更好地对用户进行管理，其对用户在不同应用上的行为进行了整合和建模，形成了涵盖用户各个方面行为的用户特征数据库，那么对于公司A的子公司或者合作公司而言，其与公司A之间的数据互通合法且较为方便，因而可以从公司A用户特征数据库中获取所需用户的特征数据。

在获得历史用户数据以及相应用户的特征数据后，关联子模块1103对其进行关联，将得到的多个新的数据作为用户行为训练数据集，后续用于训练用户行为预测模型。在进行数据关联时，考虑到不同的用户数据或者用户特征数据有可能标引值不同，而且，同一手机号有可能会注册多个账户，存在多条数据记录，因此，为了提高数据关联的准确性，去除重复数据，在本实现方式中，通过用户的唯一标识信息，比如手机号，来对用户数据和用户特征数据进行关联。

在本实施例的一个可选实现方式中，如图12所示，所述第二获取子模块1102包括第一设置单元1201、获取单元1202、计算单元1203、确定单元1204和第二设置单元1205：

第一设置单元1201，被配置为为所述历史用户数据设置类别标签，形成类别向量；

获取单元1202，被配置为获取历史用户原始特征数据，形成特征向量，其中，所述历史用户原始特征数据包括多个特征值；

计算单元1203，被配置为计算所述特征向量与所述类别向量之间的相关值；

确定单元1204，被配置为确定所述相关值的绝对值大于预设相关阈值的特征向量队列；

第二设置单元1205，被配置为将所述特征向量队列前预设数量的特征向量元素设置为历史用户特征数据。

在本实现方式中，第一设置单元1201为得到的历史用户数据设置类别标签，形成类别向量，比如，可将正样本的类别标签设置为1，将负样本的类别标签设置为0；获取单元1202获取这些历史用户的原始特征数据，形成特征向量，其中，原始特征数据中包括用户所有的特征值，比如，用户i的特征向量v_i可表示为v_i＝[x₁,x₂,x₃,…x_n]，其中，x₁,x₂,x₃,…x_n表示用户i的n个特征值；计算单元1203计算特征向量与类别向量之间的相关值r，r的取值为：r∈[-1,1]，若r＞0，表明两个向量正相关，若r＜0，表明两个向量负相关，若r＝0，表明两个向量线性不相关，可见，r的绝对值越大表明两个向量的相关性越强，因此，确定单元1204确定得到所述相关值的绝对值大于预设相关阈值的特征向量队列，第二设置单元1205将所述特征向量队列中前预设数量的特征向量元素作为历史用户特征数据，比如，可选择相关值的绝对值大于0.5的前6个特征向量元素作为历史用户特征数据，参与用户行为预测模型的训练。

在本实施例的一个可选实现方式中，所述训练模块被配置为：

进一步地，在本实施例的一个可选实现方式中，如图13所示，所述训练模块1002包括第三获取子模块1301、数值化子模块1302、确定子模块1303和训练子模块1304：

第三获取子模块1301，被配置为获取预设业务历史用户训练数据和未发生预设业务用户训练数据；

数值化子模块1302，被配置为对所述预设业务历史用户训练数据和未发生预设业务用户训练数据进行数值化；

确定子模块1303，被配置为根据训练数据类型和分类结果目标类型确定分类函数；

训练子模块1304，被配置为将数值化后的预设业务历史用户训练数据作为正样本，将数值化后的未发生预设业务用户训练数据作为负样本，训练确定所述分类函数的参数，得到所述用户行为预测模型。

在该实施方式中，在训练用户行为预测模型时，将第三获取子模块1301获取的预设业务历史用户训练数据作为正样本，将未发生预设业务用户训练数据作为负样本。其中，用户行为预测模型的训练方法可采用多种训练方法，本公开不作具体限定，所有可行、合理的训练方法均落入本公开的保护范围内，比如支持向量机方法、逻辑回归算法等。在实际应用中，可根据训练数据的类型和特点和对于模型分类结果类型的具体要求来选择合适的模型和训练方法。

考虑到很多分类算法仅支持数值向量型，因此需要通过数值化子模块1302对于训练数据进行数值化处理，比如可以使用哑变量编码方法，将各个训练数据展开成多个取值为0-100的特征，然后再通过确定子模块1303选择适合的分类函数，训练子模块1304训练确定分类函数的参数，得到用户行为预测模型。

在本实施例的一个可选实现方式中，如图14所示，所述预测模块1003包括第四获取子模块1401和预测子模块1402：

第四获取子模块1401，被配置为获取测试用户特征数据；

预测子模块1402，被配置为将所述测试用户特征数据输入至所述用户行为预测模型，得到对于测试用户的行为预测结果。

在该实现方式中，在得到用户行为预测模型后，预测子模块1402将第四获取子模块1401获取的测试用户特征数据输入，即可得到对于测试用户的行为预测结果。其中，所述测试用户特征数据可包含姓名、性别、手机号码、年龄、行业、人生阶段、长期兴趣、活动区域、下单或访问频率、优惠敏感程度、对于平台资源的偏好程度、客单价、对于平台的潜在价值等特征值。当所述用户行为预测模型为直接输出样本概率值的模型时，所述预测结果就是该测试用户发生预设业务行为的概率有多大。基于所述预测结果，就可以判断出某一测试用户发生预设业务行为的可能性，比如下单的可能性，继而选择其中的一些测试用户执行预设措施，这种就可以做到有针对性地实施预设措施，提高预设措施的成功回报率。

在本实施例的一个可选实现方式中，如图15所示，所述装置还包括确定模块1501和转换模块1502：

确定模块1501，被配置为确定历史用户特征数据中的特征值是否为非数值特征值；

转换模块1502，被配置为将所述非数值特征值转换为数值特征值。

上文提及，所述用户特征数据包含姓名、性别、手机号码、年龄、行业、人生阶段、长期兴趣、活动区域、下单或访问频率、优惠敏感程度、对于平台资源的偏好程度、客单价、对于平台的潜在价值等多种类型的特征值，为了更准确地记录各个特征数据，有的特征值是数值形式的，有的特征值是枚举值形式的，即一项特征值包含一个或多个枚举值，比如性别特征的枚举值集合可表示为{男、女}，在这种情况下，考虑到模型训练时用到的分类算法仅支持数值向量型数据，因此需要通过转换模块1502对确定模块1501确定上述枚举型特征值进行编码，比如使用哑变量编码方法将各个特征值的枚举值变换为取值在一预设区间的数值，然后再进行模型训练，比如对于一男性用户，可将其性别特征枚举值集合变换为{“性别_男”∶1，”性别_女”∶0}。

在本实施例的一个可选实现方式中，如图16所示，所述装置还包括第二获取模块1601和降采样模块1602：

第二获取模块1601，被配置为获取正样本与负样本的数量比例绝对值；

降采样模块1602，被配置为当所述数量比例绝对值大于预设比例阈值时，对于数量大的样本进行数量降采样。

在实际应用中，未发生预设业务用户的数量可能会远大于预设业务历史用户的数量，即负样本的数量远大于正样本的数量，这样就会导致正样本数量不足，正负样本比例严重失衡，从而降低用户行为预测模型的预测准确率，无法支持有效的用户行为预测及用户预设措施执行活动。在这种情况下，可通过第二获取模块1601获取正样本与负样本的数量比例绝对值获取数量较大的样本类型，然后再通过降采样模块1602对数量大的样本进行数量降采样，使得正负样本的数量比例维持在一预设范围内，比如正负样本数量的比例为1∶3。

在本实施例的一个可选实现方式中，如图17所示，所述装置还包括排序模块1701、第一执行模块1702和第二执行模块1703：

排序模块1701，被配置为对于测试用户的行为预测结果进行排序；

第一执行模块1702，被配置为取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施；

第二执行模块1703，被配置为取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。

在该实现方式中，可根据测试用户的行为预测结果，视实际应用的需要，选择全部或者部分测试用户执行预设措施，如上文所述，所述预设措施包括：发送优惠信息、发送优惠券、发送代金券、开通返现权限、加送积分、附送赠品、附送增值服务中的一种或多种。比如，可以通过排序模块1701对于测试用户的行为预测结果进行排序，预测结果排序靠前的测试用户被认为是非常有可能产生订单的用户，那么就取前几名测试用户执行预设措施，进一步提高预设措施的成功回报率。

为了对比预设措施的激励效果，可以通过第一执行模块1702取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施，通过第二执行模块1703取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施，其中，第一预设数量和第二预设数量可以根据实际应用的情况确定，两者的值可以相同也可以不同，类似地，第一预设措施和第二预设措施也可以根据实际应用的情况确定，两者的值可以相同也可以不同。

比如，可以通过第一执行模块1702取序列前第一预设数量的测试用户作为第一分组，执行第一预设措施，通过第二执行模块1703随机取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施；也可以通过第一执行模块1702随机取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施，再通过第二执行模块1703随机取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。

在本实施例的一个可选实现方式中，如图18所示，所述装置还包括第三获取模块1801、第四获取模块1802和关联模块1803：

第三获取模块1801，被配置为获取执行了预设措施的测试用户的行为反馈信息；

第四获取模块1802，被配置为获取所述测试用户的特征数据；

关联模块1803，被配置为关联所述测试用户的行为反馈信息与所述测试用户的特征数据，作为训练数据加入所述用户行为训练数据集。

在该实现方式中，为了获得更多的训练数据，丰富行为训练数据集，提高预测结果的正确率，在对某些测试用户执行了预设措施后，还通过第三获取模块1801获取这些用户的行为反馈信息，关联模块1803将这些用户的行为反馈信息与第四获取模块1802获得的相应特征数据相关联，形成新的训练数据加入所述用户行为训练数据集中。

本公开还公开了一种电子设备，图19示出根据本公开一实施方式的电子设备的结构框图，如图19所示，所述电子设备1900包括存储器1901和处理器1902；其中，

所述存储器1901用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1902执行以实现：

所述一条或多条计算机指令还可被所述处理器1902执行以实现：

所述获取用户行为训练数据集，包括：

获取历史用户特征数据；

所述获取历史用户特征数据，包括：

为所述历史用户数据设置类别标签，形成类别向量；

计算所述特征向量与所述类别向量之间的相关值；

将所述特征向量队列前预设数量的特征向量元素设置为历史用户特征数据。

所述对所述用户行为训练数据集进行训练，得到用户行为预测模型，包括：

所述对用户行为训练数据集进行训练，得到用户行为预测模型，包括：

根据训练数据类型和分类结果目标类型确定分类函数；

所述根据所述用户行为预测模型对测试用户进行预设业务行为预测，包括：

获取测试用户特征数据；

所述测试用户为未发生预设业务行为用户。

所述获取历史用户特征数据之后，还包括：

确定历史用户特征数据中的特征值是否为非数值特征值；

将所述非数值特征值转换为数值特征值。

还包括：

获取正样本与负样本的数量比例绝对值；

还包括：

对于测试用户的行为预测结果进行排序；

还包括：

获取执行了预设措施的测试用户的行为反馈信息；

获取所述测试用户的特征数据；

图20适于用来实现根据本公开实施方式的用户行为预测方法的计算机***的结构示意图。

如图20所示，计算机***2000包括中央处理单元(CPU)2001，其可以根据存储在只读存储器(ROM)2002中的程序或者从存储部分2008加载到随机访问存储器(RAM)2003中的程序而执行上述图1-8所示的实施方式中的各种处理。在RAM2003中，还存储有***2000操作所需的各种程序和数据。CPU2001、ROM2002以及RAM2003通过总线2004彼此相连。输入/输出(I/O)接口2005也连接至总线2004。

以下部件连接至I/O接口2005：包括键盘、鼠标等的输入部分2006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分2007；包括硬盘等的存储部分2008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分2009。通信部分2009经由诸如因特网的网络执行通信处理。驱动器2010也根据需要连接至I/O接口2005。可拆卸介质2011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2010上，以便于从其上读出的计算机程序根据需要被安装入存储部分2008。

特别地，根据本公开的实施方式，上文参考图1描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行图1-8的用户行为预测方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分2009从网络上被下载和安装，和/或从可拆卸介质2011被安装。

附图中的流程图和框图，图示了按照本公开各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

本公开公开了A1、一种用户行为预测方法，所述方法包括：获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；对所述用户行为训练数据集进行训练，得到用户行为预测模型；根据所述用户行为预测模型对测试用户进行预设业务行为预测。A2、根据A1所述的方法，所述获取用户行为训练数据集，包括：获取预设历史时间段内历史用户数据，其中，所述历史用户数据包括预设业务历史用户数据、未发生预设业务用户数据；获取历史用户特征数据；关联所述历史用户数据与历史用户特征数据，得到预设业务历史用户训练数据和未发生预设业务用户训练数据，形成所述用户行为训练数据集。A3、根据A2所述的方法，所述获取历史用户特征数据，包括：为所述历史用户数据设置类别标签，形成类别向量；获取历史用户原始特征数据，形成特征向量，其中，所述历史用户原始特征数据包括多个特征值；计算所述特征向量与所述类别向量之间的相关值；确定所述相关值的绝对值大于预设相关阈值的特征向量队列；将所述特征向量队列前预设数量的特征向量元素设置为历史用户特征数据。A4、根据A2所述的方法，所述对所述用户行为训练数据集进行训练，得到用户行为预测模型，包括：将所述预设业务历史用户训练数据作为正样本，将所述未发生预设业务用户训练数据作为负样本进行训练，得到所述用户行为预测模型。A5、根据A4所述的方法，所述对用户行为训练数据集进行训练，得到用户行为预测模型，包括：获取预设业务历史用户训练数据和未发生预设业务用户训练数据；对所述预设业务历史用户训练数据和未发生预设业务用户训练数据进行数值化；根据训练数据类型和分类结果目标类型确定分类函数；将数值化后的预设业务历史用户训练数据作为正样本，将数值化后的未发生预设业务用户训练数据作为负样本，训练确定所述分类函数的参数，得到所述用户行为预测模型。A6、根据A1所述的方法，所述根据所述用户行为预测模型对测试用户进行预设业务行为预测，包括：获取测试用户特征数据；将所述测试用户特征数据输入至所述用户行为预测模型，得到对于测试用户的行为预测结果。A7、根据A6所述的方法，所述测试用户为未发生预设业务行为用户。A8、根据A2所述的方法，所述获取历史用户特征数据之后，所述方法还包括：确定历史用户特征数据中的特征值是否为非数值特征值；将所述非数值特征值转换为数值特征值。A9、根据A4所述的方法，所述方法还包括：获取正样本与负样本的数量比例绝对值；当所述数量比例绝对值大于预设比例阈值时，对于数量大的样本进行数量降采样。A10、根据A1所述的方法，还包括：对于测试用户的行为预测结果进行排序；取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施；取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。A11、根据A10所述的方法，还包括：获取执行了预设措施的测试用户的行为反馈信息；获取所述测试用户的特征数据；关联所述测试用户的行为反馈信息与所述测试用户的特征数据，作为训练数据加入所述用户行为训练数据集。

本公开公开了B12、一种用户行为预测装置，所述装置包括：第一获取模块，被配置为获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；训练模块，被配置为对所述用户行为训练数据集进行训练，得到用户行为预测模型；预测模块，被配置为根据所述用户行为预测模型对测试用户进行预设业务行为预测。B13、根据B12所述的装置，所述第一获取模块包括：第一获取子模块，被配置为获取预设历史时间段内历史用户数据，其中，所述历史用户数据包括预设业务历史用户数据、未发生预设业务用户数据；第二获取子模块，被配置为获取历史用户特征数据；关联子模块，被配置为关联所述历史用户数据与历史用户特征数据，得到预设业务历史用户训练数据和未发生预设业务用户训练数据，形成所述用户行为训练数据集。B14、根据B13所述的装置，所述第二获取子模块包括：第一设置单元，被配置为为所述历史用户数据设置类别标签，形成类别向量；获取单元，被配置为获取历史用户原始特征数据，形成特征向量，其中，所述历史用户原始特征数据包括多个特征值；计算单元，被配置为计算所述特征向量与所述类别向量之间的相关值；确定单元，被配置为确定所述相关值的绝对值大于预设相关阈值的特征向量队列；第二设置单元，被配置为将所述特征向量队列前预设数量的特征向量元素设置为历史用户特征数据。B15、根据B13所述的装置，所述训练模块被配置为：将所述预设业务历史用户训练数据作为正样本，将所述未发生预设业务用户训练数据作为负样本进行训练，得到所述用户行为预测模型。B16、根据B15所述的装置，所述训练模块包括：第三获取子模块，被配置为获取预设业务历史用户训练数据和未发生预设业务用户训练数据；数值化子模块，被配置为对所述预设业务历史用户训练数据和未发生预设业务用户训练数据进行数值化；确定子模块，被配置为根据训练数据类型和分类结果目标类型确定分类函数；训练子模块，被配置为将数值化后的预设业务历史用户训练数据作为正样本，将数值化后的未发生预设业务用户训练数据作为负样本，训练确定所述分类函数的参数，得到所述用户行为预测模型。B17、根据B12所述的装置，所述预测模块包括：第四获取子模块，被配置为获取测试用户特征数据；预测子模块，被配置为将所述测试用户特征数据输入至所述用户行为预测模型，得到对于测试用户的行为预测结果。B18、根据B17所述的装置，所述测试用户为未发生预设业务行为用户。B19、根据B13所述的装置，所述装置还包括：确定模块，被配置为确定历史用户特征数据中的特征值是否为非数值特征值；转换模块，被配置为将所述非数值特征值转换为数值特征值。B20、根据B15所述的装置，还包括：第二获取模块，被配置为获取正样本与负样本的数量比例绝对值；降采样模块，被配置为当所述数量比例绝对值大于预设比例阈值时，对于数量大的样本进行数量降采样。B21、根据B12所述的装置，还包括：排序模块，被配置为对于测试用户的行为预测结果进行排序；第一执行模块，被配置为取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施；第二执行模块，被配置为取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。B22、根据B21所述的装置，还包括：第三获取模块，被配置为获取执行了预设措施的测试用户的行为反馈信息；第四获取模块，被配置为获取所述测试用户的特征数据；关联模块，被配置为关联所述测试用户的行为反馈信息与所述测试用户的特征数据，作为训练数据加入所述用户行为训练数据集。

本公开公开了C23、一种电子设备，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现：获取用户行为训练数据集，其中，所述用户行为训练数据集包括预设历史时间段内历史用户数据和历史用户特征数据；对所述用户行为训练数据集进行训练，得到用户行为预测模型；根据所述用户行为预测模型对测试用户进行预设业务行为预测。C24、根据C23所述的电子设备，所述获取用户行为训练数据集，包括：获取预设历史时间段内历史用户数据，其中，所述历史用户数据包括预设业务历史用户数据、未发生预设业务用户数据；获取历史用户特征数据；关联所述历史用户数据与历史用户特征数据，得到预设业务历史用户训练数据和未发生预设业务用户训练数据，形成所述用户行为训练数据集。C25、根据C24所述的电子设备，所述获取历史用户特征数据，包括：为所述历史用户数据设置类别标签，形成类别向量；获取历史用户原始特征数据，形成特征向量，其中，所述历史用户原始特征数据包括多个特征值；计算所述特征向量与所述类别向量之间的相关值；确定所述相关值的绝对值大于预设相关阈值的特征向量队列；取所述特征向量队列前预设数量的特征向量元素作为历史用户特征数据。C26、根据C24所述的电子设备，所述对所述用户行为训练数据集进行训练，得到用户行为预测模型，包括：将所述预设业务历史用户训练数据作为正样本，将所述未发生预设业务用户训练数据作为负样本进行训练，得到所述用户行为预测模型。C27、根据C26所述的电子设备，所述对用户行为训练数据集进行训练，得到用户行为预测模型，包括：获取预设业务历史用户训练数据和未发生预设业务用户训练数据；对所述预设业务历史用户训练数据和未发生预设业务用户训练数据进行数值化；根据训练数据类型和分类结果目标类型确定分类函数；将数值化后的预设业务历史用户训练数据作为正样本，将数值化后的未发生预设业务用户训练数据作为负样本，训练确定所述分类函数的参数，得到所述用户行为预测模型。C28、根据C23所述的电子设备，所述根据所述用户行为预测模型对测试用户进行预设业务行为预测，包括：获取测试用户特征数据；将所述测试用户特征数据输入至所述用户行为预测模型，得到对于测试用户的行为预测结果。C29、根据C28所述的电子设备，所述测试用户为未发生预设业务行为用户。C30、根据C24所述的电子设备，所述获取历史用户特征数据之后，还包括：确定历史用户特征数据中的特征值是否为非数值特征值；将所述非数值特征值转换为数值特征值。C31、根据C26所述的电子设备，还包括：获取正样本与负样本的数量比例绝对值；当所述数量比例绝对值大于预设比例阈值时，对于数量大的样本进行数量降采样。C32、根据C23所述的电子设备，还包括：对于测试用户的行为预测结果进行排序；取序列中第一预设数量的测试用户作为第一分组，执行第一预设措施；取序列中第二预设数量的测试用户作为第二分组，执行第二预设措施。C33、根据C32所述的电子设备，还包括：获取执行了预设措施的测试用户的行为反馈信息；获取所述测试用户的特征数据；关联所述测试用户的行为反馈信息与所述测试用户的特征数据，作为训练数据加入所述用户行为训练数据集。

本公开还公开了D34、一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如A1-A11任一项所述的方法。

Claims

1.一种用户行为预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取用户行为训练数据集，包括：

获取历史用户特征数据；

3.根据权利要求2所述的方法，其特征在于，所述获取历史用户特征数据，包括：

为所述历史用户数据设置类别标签，形成类别向量；

计算所述特征向量与所述类别向量之间的相关值；

4.根据权利要求2所述的方法，其特征在于，所述对所述用户行为训练数据集进行训练，得到用户行为预测模型，包括：

5.一种用户行为预测装置，其特征在于，所述装置包括：

6.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现：

7.根据权利要求6所述的电子设备，其特征在于，所述获取用户行为训练数据集，包括：

获取历史用户特征数据；

8.根据权利要求7所述的电子设备，其特征在于，所述获取历史用户特征数据，包括：

为所述历史用户数据设置类别标签，形成类别向量；

计算所述特征向量与所述类别向量之间的相关值；

9.根据权利要求7所述的电子设备，其特征在于，所述对所述用户行为训练数据集进行训练，得到用户行为预测模型，包括：

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现如权利要求1-4任一项所述的方法。