CN115587120A

CN115587120A - 一种用户数据处理方法和***

Info

Publication number: CN115587120A
Application number: CN202211219463.8A
Authority: CN
Inventors: 王联军; 沈福恩; 马平男; 王有兵
Original assignee: Hangzhou Yatuo Information Technology Co ltd
Current assignee: Hangzhou Yatuo Information Technology Co ltd
Priority date: 2022-09-30
Filing date: 2022-09-30
Publication date: 2023-01-10
Anticipated expiration: 2042-09-30
Also published as: CN115587120B

Abstract

本发明涉及大数据分析技术领域中的一种用户数据处理方法和***，包括以下步骤：获取初始用户分层指标数据和分层数量，并构建累计人数占比关于累计分值占比的初始洛伦兹曲线；基于初始洛伦兹曲线获取第一分层点，并获取第一分层数据；获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据，并构建累计人数占比关于累计分值占比的重置洛伦兹曲线；基于重置洛伦兹曲线获取第二分层点，并获取第二分层数据；循环构建重置洛伦兹曲线的步骤，并基于重置洛伦兹曲线获取第n分层点，根据第n分层点获取第n分层数据，具有用户分层更合理的优点，突破了人工干预导致用户分层不精确的瓶颈。

Description

一种用户数据处理方法和***

技术领域

本发明涉及大数据分析技术领域，具体涉及一种用户数据处理方法和***。

背景技术

基于大数据的用户分层分类方法是无监督算法在工业领域的一种应用，目前被频繁应用于解决该类问题的方案有聚类和RFM方法，其中聚类算法基于样本间指标数据的距离或者样本分布的密集程度对目标数据进行聚类，RFM方法基于用户近度、频度、值度三个重要指标对数据的等频或等距划分，继而采用专家打分或聚类的方式进行用户分层。

然而，上述两种分层分类方式均为较为成熟的用户分层分类方式，二者均为依据指标的不同特点对样本进行划分，不足点在于聚类算法业务解释相对复杂，聚类算法本身不够具备解释性，无法表明清楚聚类时用户的分层分类依据，而RFM方法存在较多的人工干预，并非局部最优算法。

发明内容

本发明针对现有技术中的缺点，提供了一种用户数据处理方法和***，具有用户分层更合理的优点，突破了人工干预导致用户分层不精确的瓶颈。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种用户数据处理方法，包括以下步骤：

获取初始用户分层指标数据和分层数量，并构建累计人数占比关于累计分值占比的初始洛伦兹曲线；

基于所述初始洛伦兹曲线获取第一分层点，并根据所述第一分层点获取第一分层数据；

获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据，并基于所述剩余用户分层指标数据，构建累计人数占比关于累计分值占比的重置洛伦兹曲线；

基于所述重置洛伦兹曲线获取第二分层点，并根据所述第二分层点获取第二分层数据；

循环构建重置洛伦兹曲线的步骤，并基于所述重置洛伦兹曲线获取第n分层点，并根据所述第n分层点获取第n分层数据，其中n为大于2的正整数，且n＝分层数量-1。

可选的，获取初始用户分层指标数据，包括以下步骤：

获取设定周期内的用户样本数据，根据分层数量和标准分层规则，将所述用户样本数据进行标准化分层，得到标准化层级；

计算标准化分层后，各个层级对应的用户样本数据的累计分值总和以及累计人数总和；

基于各个层级对应的所述累计分值总和以及累计人数总和，计算各个层级对应的累计分值占比以及累计人数占比，生成初始用户分层指标数据。

可选的，基于所述初始洛伦兹曲线获取第一分层点，包括以下步骤：

构建所述初始洛伦兹曲线的绝对平等线；

获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。

可选的，还包括以下步骤：

获取每组分层点对应的累计分值占比和累计人数占比，以及各组累计分值占比对应的累计分值总和、累计人数总和，其中，所述分层点为第一分层点、第二分层点或第n分层点；

基于各组累计分值占比对应的累计分值总和以及累计人数总和，将每组所述分层点对应的关键分值指标值作为用户分层指标，并基于所述用户分层指标将所述用户样本数据进行优化分层。

可选的，各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中，每个用户的资产管理规模。

可选的，各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中，每个用户的活跃度、贡献度以及忠诚度的分值之和。

一种用户数据处理***，包括曲线构建单元、第一获取单元、重置构建单元、第二获取单元以及循环构建单元；

所述曲线构建单元用于，获取初始用户分层指标数据和分层数量，并构建累计人数占比关于累计分值占比的初始洛伦兹曲线；

所述第一获取单元用于，基于所述初始洛伦兹曲线获取第一分层点，并根据所述第一分层点获取第一分层数据；

所述重置构建单元用于，获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据，并基于所述剩余用户分层指标数据，构建累计人数占比关于累计分值占比的重置洛伦兹曲线；

所述第二获取单元用于，基于所述重置洛伦兹曲线获取第二分层点，并根据所述第二分层点获取第二分层数据；

所述循环构建单元用于，循环构建重置洛伦兹曲线的步骤，并基于所述重置洛伦兹曲线获取第n分层点，并根据所述第n分层点获取第n分层数据，其中n为大于2的正整数，且n＝分层数量-1。

可选的，所述曲线构建单元包括标准化分层单元、计算单元以及数据生成单元；

所述标准化分层单元用于，获取设定周期内的用户样本数据，根据分层数量和标准分层规则，将所述用户样本数据进行标准化分层，得到标准化层级；

所述计算单元用于，计算标准化分层后，各个层级对应的用户样本数据的累计分值总和以及累计人数总和；

所述数据生成单元用于，基于各个层级对应的所述累计分值总和以及累计人数总和，计算各个层级对应的累计分值占比以及累计人数占比，生成初始用户分层指标数据。

可选的，第一获取单元包括绝对平等线构建单元和第三获取单元；

所述绝对平等线构建单元用于，构建所述初始洛伦兹曲线的绝对平等线；

所述第三获取单元用于，获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。

可选的，还包括第四获取单元和优化分层单元；

所述第四获取单元用于，获取每组分层点对应的累计分值占比和累计人数占比，以及各组累计分值占比对应的累计分值总和、累计人数总和，其中，所述分层点为第一分层点、第二分层点或第n分层点；

所述优化分层单元用于，基于各组累计分值占比对应的累计分值总和以及累计人数总和，将每组所述分层点对应的关键分值指标值作为用户分层指标，并基于所述用户分层指标将所述用户样本数据进行优化分层。

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

通过使用洛伦兹曲线对用户进行精细化、合理化分层，由于分层过程中采用的用户分层相关数据均采用该企业本身数据，因此相对于统一的用户分层划分标准，本实施例所描述的用户分层方法通过借用洛伦兹曲线进行数据分析，使得该用户分层的方法更为适用于存在营运情况不同的各家企业，同时本发明全程基于洛伦兹曲线进行数据分析，不存在人工干预问题，且分层依据更为清晰。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例一提出的一种用户数据处理方法的流程图；

图2为本实施例一提出的一种用户数据处理方法的洛伦兹曲线和绝对平等线的曲线图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例一

如图1所示，一种用户数据处理方法，包括以下步骤：获取初始用户分层指标数据和分层数量，并构建累计人数占比关于累计分值占比的初始洛伦兹曲线，其中，获取初始用户分层指标数据，包括以下步骤：获取设定周期内的用户样本数据，根据分层数量和标准分层规则，将用户样本数据进行标准化分层，得到标准化层级。

在实际对用户的分层过程中，以银行用户的分层为例，银行会根据用户的资产管理对用户进行分层，然而通常采用的分层方法是通过统一划分标准进行的用户分层，然而由于银行所在的地理位置、周围环境、银行规模等情况均存在差异，因此，对于单个银行而言，采用统一的划分标准进行用户分层则不具备分层参考性，与银行本身运营状况相差甚远。

基于此，本实施例通过在标准化层级的划分基础上，进一步优化划分机制，以使用户分层更符合各家银行本身的营运情况，对用户进行精准化分层，具体地，获取设定周期内的用户样本数据，其中，设定周期可以为半年、一年或两年，具体可根据实际情况进行修改设定，而用户样本数据则指的是在设定周期内，此家银行所有用户的资产管理规模(aum)，即每个用户在银行的存款、理财等财产总额，而资产管理规模可以具体计算为每个用户的月日均资产管理规模，月日均资产管理规模值越高证明用户与银行的关系越紧密、对银行的利润贡献越高，因此选取用户的月日均资产管理规模来衡量用户的实际价值和潜在价值，并对其进行分层。

进一步的，设定分层数量为k，然后根据统一划分标准，即标准划分规则，将用户样本数据进行标准化划分，例如，设定分层数量k为5，则银行的统一划分标准即标准分层规则可能为0～1000万元为第一标准化划分层级，1000万元～2000万元为第二标准化划分层级，2000万元～3000万元为第三标准化划分层级，3000万元～4000万元为第四标准化划分层级，4000万元～5000万元为第五标准化划分层级，从而得到五层标准化层级。

进一步地，计算标准化分层后，各个层级对应的用户样本数据的累计分值总和以及累计人数总和，即计算每个标准化层级内，所有用户各自的资产管理规模并相加，以及每个标准化层级内的总人数，其中，各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中，每个用户的资产管理规模；然后基于各个层级对应的累计分值总和以及累计人数总和，计算各个层级对应的累计分值占比以及累计人数占比，生成初始用户分层指标数据，其中各个层级对应的累计分值占比的计算方法为该层级对应的累计分值总和与所有层级的累计分值总和的比值，累计人数占比的计算方法为该层级对应的累计人数总和与所有层级的累计人数总和的比值，然后就将各个层级对应的累计分值占比以及累计人数占比汇总为初始用户分层指标数据，并根据初始用户分层指标数据绘制初始洛伦兹曲线。

如图2所示，基于初始洛伦兹曲线获取第一分层点，并根据第一分层点获取第一分层数据，具体地，基于初始洛伦兹曲线获取第一分层点，包括以下步骤：构建初始洛伦兹曲线的绝对平等线；获取绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点，其中，图2中，OA为绝对平等线，且绝对平等线为与横坐标成45°的直线，而OBA为初始洛伦兹曲线，此时可通过计算机软件程序，获取计算到第一分层点在初始洛伦兹曲线中的横纵坐标，即第一分层点的累计分值占比和累计人数占比，形成第一分层数据。

其中，由于洛伦兹曲线中的点距离绝对平均线的距离，可以理解为，距离绝对平均线的距离越远，则用户分值的梯度性变化越大，需要对于属于该用户分值范围内的银行用户进行层级划分。

进一步地，获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据，并基于剩余用户分层指标数据，构建累计人数占比关于累计分值占比的重置洛伦兹曲线；基于重置洛伦兹曲线获取第二分层点，并根据第二分层点获取第二分层数据；循环构建重置洛伦兹曲线的步骤，并基于重置洛伦兹曲线获取第n分层点，并根据第n分层点获取第n分层数据，其中n为大于2的正整数，且n＝分层数量-1。

获取到第一分层点后，将累计分值占比高于第一分层点地剩余用户分层指标数据作为一个整体，然后采用与获取第一分层点相同的方法，在剩余用户分层指标数据中获取第二分层点以及第二分层数据，同样的，若设置的分层数量k为5，则依次获取第三分层点、第三分层点数据、第四分层点和第四分层数据，且在进行下一步重置洛伦兹曲线前，需判断n是否等于k-1，若是，则停止重置洛伦兹曲线，并根据所获取的各组分层点对用户进行分层，并生成用户分层评估报告，若否，则继续判断n是否小于k-1，若是，则继续重置洛伦兹曲线，并继续获取分层点，若否，则根据所获取的各组分层点对用户进行分层，并生成用户分层评估报告。

更进一步地，获取每组分层点对应的累计分值占比和累计人数占比，以及各组累计分值占比对应的累计分值总和、累计人数总和，其中，分层点为第一分层点、第二分层点或第n分层点；基于各组累计分值占比对应的累计分值总和以及累计人数总和，将每组分层点对应的关键分值指标值作为用户分层指标，并基于用户分层指标将用户样本数据进行优化分层。

获取到各个分层点即分层点对应的累计分值总和以及累计人数总和后，根据分层点对应的累计分值总和以及累计人数总和计算分层点对应的关键分值指标，并将分层点所对应的关键分值指标作为分层依据，从而对银行的用户进行精准化分层，其中，本实施例中所说的分层点所对应的关键分值指标即为分层点所对应的用户的资产管理规模，由于分层过程中采用的用户分层相关数据均采用该银行本身数据，因此相对于统一的用户分层划分标准，本实施例所描述的分层方法更为适用于存在营运情况不同的各家银行，同时本实施例全程基于洛伦兹曲线进行数据分析，不存在人工干预问题，且分层依据更为清晰。

另一方面，需要说明的是本实施例所采用的对用户数据的分层处理方法并不局限于银行用户，还适用于任何需要对用户进行划分层级的企业用户，例如，某商家平台对平台用户的层级划分、某软件开发者对软件使用者的层级划分等等，在此不做限定。

实施例二

本实施例与实施例一不同之处在与，各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中，每个用户的活跃度、贡献度以及忠诚度的分值之和，即对用户的评价依据并不单一取决于用户的资产管理情况，而通过每个用户的活跃度、贡献度以及忠诚度的评分值进行整体评价，形成用户分值，此时，用户的样本数据中的累计分值总和即为活跃度评分、贡献度评分以及忠诚度评分之和，然后采用与实施例一相同的方法，对用户进行分层。

实施例三

一种用户数据处理***，包括曲线构建单元、第一获取单元、重置构建单元、第二获取单元以及循环构建单元；曲线构建单元用于，获取初始用户分层指标数据和分层数量，并构建累计人数占比关于累计分值占比的初始洛伦兹曲线，其中，曲线构建单元包括标准化分层单元、计算单元以及数据生成单元；标准化分层单元用于，获取设定周期内的用户样本数据，根据分层数量和标准分层规则，将用户样本数据进行标准化分层，得到标准化层级。

进一步地，计算单元用于，计算标准化分层后，各个层级对应的用户样本数据的累计分值总和以及累计人数总和，即计算每个标准化层级内，所有用户各自的资产管理规模并相加，以及每个标准化层级内的总人数，其中，各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中，每个用户的资产管理规模；然后数据生成单元基于各个层级对应的累计分值总和以及累计人数总和，计算各个层级对应的累计分值占比以及累计人数占比，生成初始用户分层指标数据，其中各个层级对应的累计分值占比的计算方法为该层级对应的累计分值总和与所有层级的累计分值总和的比值，累计人数占比的计算方法为该层级对应的累计人数总和与所有层级的累计人数总和的比值，然后将各个层级对应的累计分值占比以及累计人数占比汇总为初始用户分层指标数据，并根据初始用户分层指标数据绘制初始洛伦兹曲线。

第一获取单元用于，基于初始洛伦兹曲线获取第一分层点，并根据第一分层点获取第一分层数据，具体地，第一获取单元包括绝对平等线构建单元和第三获取单元；绝对平等线构建单元用于，构建初始洛伦兹曲线的绝对平等线；第三获取单元用于，获取绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点，此时可通过计算机软件程序，获取计算到第一分层点在初始洛伦兹曲线中的横纵坐标，即第一分层点的累计分值占比和累计人数占比，形成第一分层数据。

进一步地，重置构建单元用于，获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据，并基于剩余用户分层指标数据，构建累计人数占比关于累计分值占比的重置洛伦兹曲线；第二获取单元用于，基于重置洛伦兹曲线获取第二分层点，并根据第二分层点获取第二分层数据；循环构建单元用于，循环构建重置洛伦兹曲线的步骤，并基于重置洛伦兹曲线获取第n分层点，并根据第n分层点获取第n分层数据，其中n为大于2的正整数，且n＝分层数量-1。

更进一步地，用户数据处理***还包括第四获取单元和优化分层单元；第四获取单元用于，获取每组分层点对应的累计分值占比和累计人数占比，以及各组累计分值占比对应的累计分值总和、累计人数总和，其中，分层点为第一分层点、第二分层点或第n分层点；优化分层单元用于，基于各组累计分值占比对应的累计分值总和以及累计人数总和，将每组分层点对应的关键分值指标值作为用户分层指标，并基于用户分层指标将用户样本数据进行优化分层。

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明方法的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种用户数据处理方法，其特征在于，包括以下步骤：

循环构建重置洛伦兹曲线的步骤，并基于所述重置洛伦兹曲线获取第n分层点，根据所述第n分层点获取第n分层数据，其中n为大于2的正整数，且n＝分层数量-1。

2.根据权利要求1所述的一种用户数据处理方法，其特征在于，获取初始用户分层指标数据，包括以下步骤：

3.根据权利要求2所述的一种用户数据处理方法，其特征在于，基于所述初始洛伦兹曲线获取第一分层点，包括以下步骤：

构建所述初始洛伦兹曲线的绝对平等线；

4.根据权利要求2所述的一种用户数据处理方法，其特征在于，还包括以下步骤：

5.根据权利要求2所述的一种用户数据处理方法，其特征在于，各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中，每个用户的资产管理规模。

6.根据权利要求2所述的一种用户数据处理方法，其特征在于，各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中，每个用户的活跃度、贡献度以及忠诚度的分值之和。

7.一种用户数据处理***，其特征在于，包括曲线构建单元、第一获取单元、重置构建单元、第二获取单元以及循环构建单元；

8.根据权利要求7所述的一种用户数据处理***，其特征在于，所述曲线构建单元包括标准化分层单元、计算单元以及数据生成单元；

9.根据权利要求8所述的一种用户数据处理***，其特征在于，第一获取单元包括绝对平等线构建单元和第三获取单元；

10.根据权利要求8所述的一种用户数据处理***，其特征在于，还包括第四获取单元和优化分层单元；

所述第四获取单元用于，获取每组分层点对应的累计分值占比和劣迹人数占比，以及各组累计分值占比对应的累计分值总和、累计人数总和，其中，所述分层点为第一分层点、第二分层点或第n分层点；

所述优化分层单元用于，基于各组累计分值占比对应的累计分值总和记忆累计人数总和，将每组所述分层点对应的关键分值指标值作为用户分层指标，并基于所述用户分层指标将所述用户样本数据进行优化分层。