CN110889716A

CN110889716A - 识别潜在注册用户的方法及装置

Info

Publication number: CN110889716A
Application number: CN201910935469.7A
Authority: CN
Inventors: 李勇; 徐丰力; 朴景华; 卢中县; 徐裕键; 张良伦; 金德鹏
Original assignee: Hangzhou Weituo Technology Co Ltd; Tsinghua University
Current assignee: Hangzhou Weituo Technology Co Ltd; Tsinghua University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-03-17

Abstract

本实施例提供一种识别潜在注册用户的方法及装置，该方法包括：获取第一预设时间段的用户画像数据及用户行为数据；对获取到的用户画像数据及用户行为数据进行特征提取；将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；其中，分类模型根据已确定注册转化结果的样本数据进行训练后得到。该方法不仅对用户画像此类静态数据进行分析，还对用户行为数据此类动态数据进行分析，能够全面客观的反应用户成为注册用户的潜在可能性。将提取的特征数据输入至机器学习分类模型，获得用户转化为注册用户的概率，能够有效提高预测的时效性，且能够对每个用户进行预测，对用户的定向营销效果较强。

Description

识别潜在注册用户的方法及装置

技术领域

本发明涉及数据分析领域，尤其涉及一种识别潜在注册用户的方法及装置。

背景技术

随着互联网的发展，电子商务已经渗透到了生活的方方面面。电子商务行业发展迅速，消费者已养成网购消费***台以及熟人网络传播，能有效降低电商平台获得新的顾客的成本，是电子商务行业未来重要的发展方向。

社交电商是一个新兴的领域，目前对于社交电商的研究还停留在定性的、政策性的阶段，对于其定量的、理论性的研究仍处于非常缺乏的状态。在社交电商场景下，除了普通用户，还有一种特殊的用户，被称为注册用户。注册用户可以分享推荐商品、邀请新的用户并从中获取一定金钱回报。普通用户可以通过缴纳一定费用等一些系列方式转化为注册用户。注册用户对于电商平台销售商品、获取新的顾客等方面都具有深远的意义。因此，预测普通用户在未来一段时间内是否会转化为注册用户是一个非常有价值的问题。

目前的方法主要为：获取用户离线数据；根据识别码将不同数据源的数据融合形成离线知识库；对离线数据进行归一化、离散化及属性约简等预处理；根据定制的标签规则对离线数据进行特征提取，构建用户基础标签；对标签数据进行权重及时间衰减因子处理，建立基于质量保证集QPS聚类算法的用户画像离线预测模型；利用预测模型对离线知识库进行数据聚类挖掘，得到移动端的电商用户画像；对于在线行为数据进行分布式处理再和离线模型融合。

目前的方法存在以下几点局限：(1)使用的数据仅是用户画像数据，没有对于用户订单数据等进行分析；(2)方法实现过程中性能较差；(3)现有方法更倾向于在交易链路上通过一定的逻辑将用户分流，而不是对每个用户进行预测，对用户的定向营销效果较差。

发明内容

为了解决上述问题，本实施例提供一种识别潜在注册用户的方法及装置。

第一方面，本实施例提供一种识别潜在注册用户的方法，包括：获取第一预设时间段的用户画像数据及用户行为数据；对获取到的用户画像数据及用户行为数据进行特征提取；将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；其中，所述分类模型根据已确定注册转化结果的样本数据进行训练后得到。

进一步地，所述用户行为数据至少包括：用户订单数据、用户点击数据和用户受邀数据中的一种。

进一步地，对获取到的用户画像数据及用户行为数据进行特征提取，包括：确定在第一预设时间段的用户行为指标值，将所述指标值作为用户行为数据的特征值。

进一步地，所述获取第一预设时间段的用户画像数据及用户行为数据之前，还包括：从历史数据中获取多个有行为记录的用户样本，并对所有此类用户进行用户画像数据及用户行为数据的特征提取；将已转化为注册用户的样本数据和特征数据的组合，作为一个正样本，将未转化为注册用户的样本数据和特征数据的组合，作为一个负样本；利用得到的多个正样本和多个负样本，对所述分类模型进行训练。

进一步地，所述获得第二预设时间段用户转化为注册用户的概率之后，还包括：根据所述概率结合预设阈值，从所有用户中确定能够转化为注册用户的用户列表；相应地，所述输出结果，具体为：输出能够转化为注册用户的用户名单；其中，所述预设阈值，根据正样本和负样本的比例确定。

进一步地，所述多个正样本和所述多个负样本，包括训练集样本和验证集样本，相应地，所述对所述分类模型进行训练之后，还包括：利用所述验证集样本，对所述分类模型进行验证，根据验证结果对所述预设阈值进行调整，进行阈值调整的评价指标包括召回率或评估精度。

进一步地，所述输出结果之后，还包括：每隔第三预设时间段，从最近的历史数据中获取多个有行为记录的用户样本作为更新样本，并对所有更新样本进行用户画像数据及用户行为数据的特征提取；将已转化为注册用户的更新样本数据和特征数据的组合，作为一个正更新样本，将未转化为注册用户的更新样本数据和特征数据的组合，作为一个负更新样本；利用得到的多个正更新样本和多个负更新样本，对所述分类模型进行训练及验证，并调整所述预设阈值；其中，所述第三预设时间段大于或等于所述第二预设时间段。

第二方面，本实施例提供一种识别潜在注册用户的装置，包括：数据获取模块，用于获取第一预设时间段的用户画像数据及用户行为数据；特征提取模块，用于对获取到的用户画像数据及用户行为数据进行特征提取；处理模块，用于将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；其中，所述分类模型根据已确定注册转化结果的样本数据进行训练后得到。

第三方面，本实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本发明第一方面识别潜在注册用户的方法的步骤。

第四方面，本实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面识别潜在注册用户的方法的步骤。

本实施例提供的识别潜在注册用户的方法及装置，获取第一预设时间段的用户画像数据及用户行为数据，不仅对用户画像此类静态数据进行分析，还对用户行为数据此类动态数据进行分析，能够全面客观的反应用户成为注册用户的潜在可能性。将提取的特征数据输入至预设的机器学习分类模型，获得用户转化为注册用户的概率，能够有效提高预测的时效性，且能够对每个用户进行预测，对用户的定向营销效果较强。

附图说明

为了更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例提供的识别潜在注册用户的方法流程图；

图2为本实施例提供的用户平均受邀次数同注册用户转化率之间的关系图；

图3为本实施例提供的用户购买次数同注册用户转化率之间的关系图；

图4为本实施例提供的用户平均交互次数同注册用户转化率之间的关系图；

图5为本实施例提供的识别潜在注册用户的装置结构图；

图6为本实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本实施例的目的、技术方案和优点更加清楚，下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解的是，尽管在下文中采用术语“第一”、“第二”等来描述预设时间段，但这些信息不应限于这些术语，这些术语仅用来将同一类型的事物彼此区分开。

图1为本实施例提供的识别潜在注册用户的方法流程图，如图1所示，本实施例提供一种识别潜在注册用户的方法，包括：

101，获取第一预设时间段的用户画像数据及用户行为数据。

在101中，第一预设时间段可以是1、3、7、15、30天，如获取过去30天的用户画像数据及用户行为数据。同时，第二预设时间段也可以是1、3、7、15、30天，二个时间段并无相互限制。确定的可以是普通用户在未来1、3、7、15、30内是否会转化为注册用户及其转化概率，具体的时间段根据训练的样本数据确定。例如，训练样本为30天的用户画像数据及用户行为数据，已确定的注册转化结果为未来7天内的转化结果，则获取的第一预设时间段数据为过去30天的数据，预测的第二时间段的概率相应为未来7天的概率。另外，第一时间段和第二时间段可以为多个，例如，获取过去30天的数据，分别预测用户未来7天和未来15天的概率，或者获取过去15天、30天的数据，分别预测用户未来7天的概率。

用户画像数据是用户的静态数据，可以包括用户ID、用户的注册时间及用户成为普通用户的时间。用户行为数据是用户的动态数据，主要包括用户在购买、点击浏览和与其它用户交互的数据。

102，对获取到的用户画像数据及用户行为数据进行特征提取。

在102中，用户画像数据及用户行为数据数据流大，需从中选取合适的指标作为特征数据。

103，将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；其中，所述机器学习分类模型根据已确定注册转化结果的样本和对应的特征数据进行训练后得到。

在103中，预设的机器学习分类模型是通过已确定注册转化结果的样本和对应的特征数据训练后得到的，样本数据是预先已经转化结果并已经根据画像数据及行为数据提取得到特征数据的用户样本数据。作为优选方案，样本数据获取的是第一预设时间段的用户画像数据及用户行为数据，已确定的注册转化结果为第二预设时间段的已知转化结果。

建立机器学习分类模型后，通过大量的此类样本用户进行训练，从而得到预设的机器学习分类模型，对于后续待识别的用户，将获取的特征数据输入至机器学习分类模型，能够快速准确得到相应的能够转化为注册用户的概率。例如，机器学习模型可选择随机森林模型、神经网络、SVM、逻辑回归模型和决策树等。若为随机森林模型，信息增益函数选择基尼指数。

本实施例提供的识别潜在注册用户的方法，获取第一预设时间段的用户画像数据及用户行为数据，不仅对用户画像此类静态数据进行分析，还对用户行为数据此类动态数据进行分析，能够全面客观的反应用户成为注册用户的潜在可能性。将提取的特征数据输入至预设的机器学习分类模型，获得用户转化为注册用户的概率，能够有效提高预测的时效性，且能够对每个用户进行预测，对用户的定向营销效果较强。

基于上述实施例的内容，作为一种可选实施例，所述用户行为数据至少包括：用户订单数据、用户点击数据和用户受邀数据中的一种。

用户订单数据为用户已成功的订单相关数据，包括订单创建时间，及第一预设时间段的订单数量。Lo C，Frankowsi D，Leskovec J等人发现在Pinterest平台中，保存和点击行为是购买的长期信号，搜索和关注是购买的短期信号。通过用户保存，点击，搜索和关注的社交交互信息，可以在最多28天前预测出用户的购买行为。

拒绝规避效应：通过观察用户平均受邀次数同注册用户转化率之间的关系，可以发现随着平均邀约次数的增加，注册用户转化率也在升高，呈现出显著地正相关关系。图2为本实施例提供的用户平均受邀次数同注册用户转化率之间的关系图，如图2所示，这一结果表明，随着注册用户的邀约次数上升，不仅普通用户的绝对转化数量会上升，其转化效率也会显著上升。因此，平均邀约次数高的注册用户下属的普通用户的转化概率显著更高。数据分析的实证结果与拒绝规避效应的预测一致，故本实施例中选择用户受邀数据，可将平均邀约次数作为一个行为指标。

心理账户效应：通过观测普通用户购买次数和注册用户转化率之间的关系，可以发现随着购买次数的增加，注册用户转化率也在升高，图3为本实施例提供的用户购买次数同注册用户转化率之间的关系图，如图3所示。由于存在自购折扣的机制，购买频次高的用户转化为注册用户的预期收益较高，且转化成本较其已在购买中付出的沉没成本较低，在心理账户效应机制的预测下应由较高的转化潜力，与数据分析所得结果相符。因此，本发明实施选择用户订单数据和用户点击数据，如可将购买次数作为一个行为指标。

社交赋能效应：通过观测注册用户与普通用户之间的交互次数和注册用户转化率之间的关系，发现随着注册用户与普通用户的交互次数增加，注册用户转化率在前期有升高趋势，图4为本实施例提供的用户平均交互次数同注册用户转化率之间的关系图，如图4所示。交互频次刻画了注册用户与普通用户间的社交关系强弱，因此观测结果与社交赋能效应预测相符，即普通用户更倾向于接受来自好友的邀约。也可选择注册用户与普通用户的交互次数作为行为指标。具体参见表1：

表1

本实施例中，用户行为数据包括，用户订单数据、用户点击数据及用户受邀数据，能够客观的反应用户转化为注册用户的特征属性。

基于上述实施例的内容，作为一种可选实施例，对获取到的用户画像数据及用户行为数据进行特征提取，包括：分别根据用户订单数据、用户点击数据及或用户受邀数据，确定在第一预设时间段的用户行为指标值，将所述指标值作为用户行为数据的特征值。

用户行为指标值反应用户行为的次数。例如，用户订单数据在第一预设时间段内的行为指标值包括，在第一预设时间段内的订单数。

进一步地，确定在第一预设时间段的用户行为指标值包括，分别根据用户订单数据、用户点击数据或用户受邀数据，确定特征数据对应的指标值，所述指标值包括：所述第一预设时间段用户浏览店铺商品详情的次数、用户的订单数、用户受邀次数、用户成为普通用户的时间顺序号、用户成为普通用户到最后一次收到邀请的时长、店铺的订单数以及店铺的注册用户转化率。

为了从用户动态行为与静态属性数据中筛选出有价值的行为特征，本实施例结合已有的社交行为与经济行为理论进行行为特征工程设计，并采用数据驱动的方式定量分析各行为特征的预测能力。本实施例重点检验了拒绝规避效应、心理账户效应、社交赋能效应在预测普通用户转化行为中的应用。其中，拒绝规避效应阐明了用户会因为避免伤好友的面子而接受其邀请，且多次邀请更难拒绝；而心理账户效应表明用户在决策时倾向于综合考虑已投入的沉没成本与预期收益；社交赋能效应预测用户由于对社交好友的信任和偏好，更倾向于接受来自他们的推荐。为了阐述方便，本方案首先定义了指标值如下。

根据上述列出的用户的行为指标值，第一预设时间段可以是一系列时间段，例如为1、3、7、30天。本实施例挑选出了以下13个特征：该用户前1、3、7、30天的商详曝光次数(即用户浏览店铺商品详情的次数)，该用户前30天的注册用户招募页曝光次数(即用户受邀次数)，该用户所属店铺的订单数(即店铺的订单数)，该用户前1、3、7、30天的订单数，该用户是该店铺第几个普通用户(即用户成为普通用户的时间顺序号)，该用户最后一次收到邀请的时间减去成为普通用户的时间，该用户所在店铺注册用户转化百分比(即店铺的注册用户转化率)，详见表2。

表2

本实施例中，指标值包括：用户浏览店铺商品详情的次数、用户的订单数、用户受邀次数、用户成为普通用户的时间顺序号、用户成为普通用户到最后一次收到邀请的时长、店铺的订单数以及店铺的注册用户转化率，能够客观的反应用户转化为注册用户的特征属性。

基于上述实施例的内容，作为一种可选实施例，所述获取第一预设时间段的用户画像数据及用户行为数据之前，还包括：从历史数据中获取多个有行为记录的用户样本，并对所有此类用户进行用户画像数据及用户行为数据的特征提取；将已转化为注册用户的样本数据和特征数据的组合，作为一个正样本，将未转化为注册用户的样本数据和特征数据的组合，作为一个负样本；利用得到的多个正样本和多个负样本，对所述分类模型进行训练。

从历史数据中生成某用户是否在特定时间点未来1、3、7、15、30天转化为注册用户的真值。具体而言，如果该用户在过去30天有行为记录，且在未来1、3、7、15、30天内转化为注册用户，那么为正样本；如果用户在过去30天有行为记录，且在未来1、3、7、15、30天内没有转化为注册用户，那么为负样本。最后，将特征和标签拼接到一起，制作出训练集样本进行训练。

本实施例中，通过将已转化为注册用户的样本数据和特征数据的组合，作为一个正样本，将未转化为注册用户的样本数据和特征数据的组合，作为一个负样本，从而训练后得到预设的机器学习分类模型，有利于识别潜在注册用户的准确性。

基于上述实施例的内容，作为一种可选实施例，所述获得第二预设时间段用户转化为注册用户的概率之后，还包括：根据所述概率结合预设阈值，从所有用户中确定能够转化为注册用户的用户列表；相应地，所述输出结果，具体为：输出能够转化为注册用户的用户名单；所述预设阈值，根据正样本和负样本的比例确定。

由于业务需求的多变性，本实施例支持名单输出和概率输出两种方式。其中，名单输出是经过阈值判定后的高转化潜力用户名单，概率输出是没有经过阈值判定，过去有活跃记录的所有用户uid及其转化概率。

由于转化成为注册用户的人数远远少于不转化成注册用户的人数，所以会出现正负样本类别不平衡问题。为了解决该问题，本方案引入了“阈值移动”方法，即直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将下面的算式嵌入到其决策过程中：

其中y代表预设阈值，m⁺代表正样本的个数，m^-代表负样本的个数。具体实施过程中，可将输出的概率与预设阈值比较，大于该阈值则输出到潜在注册用户名单中。

本实施例，根据所述概率结合预设阈值，从所有用户中确定能够转化为注册用户的用户列表，输出能够转化为注册用户的用户名单，输出结果更为直观。预设阈值根据正样本和负样本的比例确定，从而能够客观反映潜在注册用户真实情况。

基于上述实施例的内容，作为一种可选实施例，所述多个正样本和所述多个负样本，包括训练集样本和验证集样本，相应地，所述对所述分类模型进行训练之后，还包括：利用所述验证集样本，对所述分类模型进行验证，根据验证结果对所述预设阈值进行调整，进行阈值调整的评价指标包括召回率或评估精度。

在获得训练样本的同时，将特征和标签拼接到一起，制作出训练集和验证集样本。训练集样本用于模型的训练，训练完成后，采用生成的验证集样本，对模型进行验证，在上述预设阈值y上下进行阈值调整。进行阈值调整的评价指标包括召回率，评估精度等。本实施例，根据验证结果对所述预设阈值进行调整，进一步客观的反映潜在注册用户在所有用户终的比例情况。

基于上述实施例的内容，作为一种可选实施例，所述输出结果之后，还包括：每隔第三预设时间段，从最近的历史数据中获取多个有行为记录的用户样本作为更新样本，并对所有更新样本进行用户画像数据及用户行为数据的特征提取；将已转化为注册用户的更新样本数据和特征数据的组合，作为一个正更新样本，将未转化为注册用户的样本数据和特征数据的组合，作为一个负更新样本；利用得到的多个正更新样本和多个负更新样本，对所述分类模型进行训练及验证，并调整所述预设阈值；其中，所述第三预设时间段大于或等于所述第二预设时间段。

更新样本用来对预设阈值进行更新，在模型的具体应用中，根据业务需求，可每日都进行预测决策，本实施例进行预测的用户集合为过去三十天内有活跃记录的所有用户。每隔第三预设时间段，如30天(即每月进行)，从最近的每日预测的样本中选取有预测结果的部分样本，作为训练集和验证集，对分类模型再次进行训练和验证，并进行预设阈值的调整。调整后的阈值为分类模型在后续的***识别中使用，例如，每天都进行***识别，获取的是过去30天(第一预设时间段)的数据，预测的是未来15天(第二预设时间段)的概率，需等待预测结果出来后，进行阈值的更新，因此第三预设时间段需大于等于第二时间段。优选每个月根据最近有识别结果的用户数据，调整预设阈值，用新的预设阈值进行用户名单的输出，从而能够根据预测过程中使用场景的实时变化，调整预测模型和预测阈值，保证模型的实时可靠性。

图5为本实施例提供的识别潜在注册用户的装置结构图，如图5所示，该识别潜在注册用户的装置包括：数据获取模块501、特征提取模块502和处理模块503。其中，数据获取模块501用于获取第一预设时间段的用户画像数据及用户行为数据；特征提取模块502用于对获取到的用户画像数据及用户行为数据进行特征提取；处理模块503用于将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；其中，所述分类模型根据已确定注册转化结果的样本数据进行训练后得到。

第一预设时间段可以是1、3、7、15、30天，确定的也可以是普通用户在未来1、3、7、15、30内是否会转化为注册用户及其转化概率，根据样本数据确定。用户画像数据是用户的静态数据，可以包括用户ID、用户的注册时间及用户成为普通用户的时间。用户行为数据是用户的动态数据，主要包括用户在购买、点击浏览和与其它用户交互的数据。数据获取模块501同时获取用户画像数据及用户行为数据。

用户画像数据及用户行为数据数据流大，需通过特征提取模块502从中选取合适的指标值作为特征数据。

处理模块503中预设机器学习分类模型，该机器学习分类模型是通过已确定注册转化结果的样本和对应的特征数据训练后得到的，样本数据是预先已经转化结果并已经根据画像数据及行为数据提取得到特征数据的用户样本数据。建立机器学习分类模型后，通过大量的此类样本用户进行训练，从而得到预设的机器学习分类模型，对于后续待识别的用户，将获取的特征数据输入至机器学习分类模型，能够快速准确得到相应的能够转化为注册用户的概率。例如，机器学习模型选择随机森林模型，随机森林的信息增益函数选择基尼指数。

本实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本实施例提供的识别潜在注册用户的装置，获取第一预设时间段的用户画像数据及用户行为数据，不仅对用户画像此类静态数据进行分析，还对用户行为数据此类动态数据进行分析，能够全面客观的反应用户成为注册用户的潜在可能性。将提取的特征数据输入至预设的机器学习分类模型，获得用户转化为注册用户的概率，能够有效提高预测的时效性，且能够对每个用户进行预测，对用户的定向营销效果较强。

图6为本实施例提供的一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)601、通信接口(CommunicationsInterface)602、存储器(memory)603和总线604，其中，处理器601，通信接口602，存储器603通过总线604完成相互间的通信。通信接口602可以用于电子设备的信息传输。处理器601可以调用存储器603中的逻辑指令，以执行包括如下的方法：获取第一预设时间段的用户画像数据及用户行为数据；对获取到的用户画像数据及用户行为数据进行特征提取；将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；其中，所述分类模型根据已确定注册转化结果的样本数据进行训练后得到。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明上述各方法实施例的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取第一预设时间段的用户画像数据及用户行为数据；对获取到的用户画像数据及用户行为数据进行特征提取；将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；其中，所述分类模型根据已确定注册转化结果的样本数据进行训练后得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种识别潜在注册用户的方法，其特征在于，包括：

获取第一预设时间段的用户画像数据及用户行为数据；

对获取到的用户画像数据及用户行为数据进行特征提取；

将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；

其中，所述分类模型根据已确定注册转化结果的样本数据进行训练后得到。

2.根据权利要求1所述的识别潜在注册用户的方法，其特征在于，所述用户行为数据至少包括：用户订单数据、用户点击数据和用户受邀数据中的一种。

3.根据权利要求2所述的识别潜在注册用户的方法，其特征在于，对获取到的用户画像数据及用户行为数据进行特征提取，包括：

分别根据用户订单数据、用户点击数据或用户受邀数据，确定在第一预设时间段的用户行为指标值，将所述指标值作为用户行为数据的特征值。

4.根据权利要求1所述的识别潜在注册用户的方法，其特征在于，所述获取第一预设时间段的用户画像数据及用户行为数据之前，还包括：

从历史数据中获取多个有行为记录的用户样本，并对所有此类用户进行用户画像数据及用户行为数据的特征提取；

将已转化为注册用户的样本数据和特征数据的组合，作为一个正样本，将未转化为注册用户的样本数据和特征数据的组合，作为一个负样本；

利用得到的多个正样本和多个负样本，对所述分类模型进行训练。

5.根据权利要求4所述的识别潜在注册用户的方法，其特征在于，所述获得第二预设时间段用户转化为注册用户的概率之后，还包括：

根据所述概率结合预设阈值，从所有用户中确定能够转化为注册用户的用户列表；

相应地，所述输出结果，具体为：

输出能够转化为注册用户的用户名单；

其中，所述预设阈值，根据正样本和负样本的比例确定。

6.根据权利要求5所述的识别潜在注册用户的方法，其特征在于，所述多个正样本和所述多个负样本，包括训练集样本和验证集样本，相应地，所述对所述分类模型进行训练之后，还包括：

利用所述验证集样本，对所述分类模型进行验证，根据验证结果对所述预设阈值进行调整，进行阈值调整的评价指标包括召回率或评估精度。

7.根据权利要求5所述的识别潜在注册用户的方法，其特征在于，所述方法，还包括：

每隔第三预设时间段，从最近的历史数据中获取多个有行为记录的用户样本作为更新样本，并对所有更新样本进行用户画像数据及用户行为数据的特征提取；

将已转化为注册用户的更新样本数据和特征数据的组合，作为一个正更新样本，将未转化为注册用户的更新样本数据和特征数据的组合，作为一个负更新样本；

利用得到的多个正更新样本和多个负更新样本，对所述分类模型进行训练及验证，并调整所述预设阈值；

其中，所述第三预设时间段大于或等于所述第二预设时间段。

8.一种识别潜在注册用户的装置，其特征在于，包括：

数据获取模块，用于获取第一预设时间段的用户画像数据及用户行为数据；

特征提取模块，用于对获取到的用户画像数据及用户行为数据进行特征提取；

处理模块，用于将提取的特征数据输入至预设的机器学习分类模型，获得第二预设时间段用户转化为注册用户的概率，并输出结果；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述识别潜在注册用户的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述识别潜在注册用户的方法的步骤。