CN115587120A - 一种用户数据处理方法和*** - Google Patents

一种用户数据处理方法和*** Download PDF

Info

Publication number
CN115587120A
CN115587120A CN202211219463.8A CN202211219463A CN115587120A CN 115587120 A CN115587120 A CN 115587120A CN 202211219463 A CN202211219463 A CN 202211219463A CN 115587120 A CN115587120 A CN 115587120A
Authority
CN
China
Prior art keywords
layering
user
point
acquiring
cumulative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211219463.8A
Other languages
English (en)
Other versions
CN115587120B (zh
Inventor
王联军
沈福恩
马平男
王有兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yatuo Information Technology Co ltd
Original Assignee
Hangzhou Yatuo Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yatuo Information Technology Co ltd filed Critical Hangzhou Yatuo Information Technology Co ltd
Priority to CN202211219463.8A priority Critical patent/CN115587120B/zh
Publication of CN115587120A publication Critical patent/CN115587120A/zh
Application granted granted Critical
Publication of CN115587120B publication Critical patent/CN115587120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据分析技术领域中的一种用户数据处理方法和***,包括以下步骤:获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;基于初始洛伦兹曲线获取第一分层点,并获取第一分层数据;获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并构建累计人数占比关于累计分值占比的重置洛伦兹曲线;基于重置洛伦兹曲线获取第二分层点,并获取第二分层数据;循环构建重置洛伦兹曲线的步骤,并基于重置洛伦兹曲线获取第n分层点,根据第n分层点获取第n分层数据,具有用户分层更合理的优点,突破了人工干预导致用户分层不精确的瓶颈。

Description

一种用户数据处理方法和***
技术领域
本发明涉及大数据分析技术领域,具体涉及一种用户数据处理方法和***。
背景技术
基于大数据的用户分层分类方法是无监督算法在工业领域的一种应用,目前被频繁应用于解决该类问题的方案有聚类和RFM方法,其中聚类算法基于样本间指标数据的距离或者样本分布的密集程度对目标数据进行聚类,RFM方法基于用户近度、频度、值度三个重要指标对数据的等频或等距划分,继而采用专家打分或聚类的方式进行用户分层。
然而,上述两种分层分类方式均为较为成熟的用户分层分类方式,二者均为依据指标的不同特点对样本进行划分,不足点在于聚类算法业务解释相对复杂,聚类算法本身不够具备解释性,无法表明清楚聚类时用户的分层分类依据,而RFM方法存在较多的人工干预,并非局部最优算法。
发明内容
本发明针对现有技术中的缺点,提供了一种用户数据处理方法和***,具有用户分层更合理的优点,突破了人工干预导致用户分层不精确的瓶颈。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种用户数据处理方法,包括以下步骤:
获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;
基于所述初始洛伦兹曲线获取第一分层点,并根据所述第一分层点获取第一分层数据;
获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于所述剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;
基于所述重置洛伦兹曲线获取第二分层点,并根据所述第二分层点获取第二分层数据;
循环构建重置洛伦兹曲线的步骤,并基于所述重置洛伦兹曲线获取第n分层点,并根据所述第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量-1。
可选的,获取初始用户分层指标数据,包括以下步骤:
获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将所述用户样本数据进行标准化分层,得到标准化层级;
计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和;
基于各个层级对应的所述累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据。
可选的,基于所述初始洛伦兹曲线获取第一分层点,包括以下步骤:
构建所述初始洛伦兹曲线的绝对平等线;
获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。
可选的,还包括以下步骤:
获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,所述分层点为第一分层点、第二分层点或第n分层点;
基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组所述分层点对应的关键分值指标值作为用户分层指标,并基于所述用户分层指标将所述用户样本数据进行优化分层。
可选的,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的资产管理规模。
可选的,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的活跃度、贡献度以及忠诚度的分值之和。
一种用户数据处理***,包括曲线构建单元、第一获取单元、重置构建单元、第二获取单元以及循环构建单元;
所述曲线构建单元用于,获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;
所述第一获取单元用于,基于所述初始洛伦兹曲线获取第一分层点,并根据所述第一分层点获取第一分层数据;
所述重置构建单元用于,获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于所述剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;
所述第二获取单元用于,基于所述重置洛伦兹曲线获取第二分层点,并根据所述第二分层点获取第二分层数据;
所述循环构建单元用于,循环构建重置洛伦兹曲线的步骤,并基于所述重置洛伦兹曲线获取第n分层点,并根据所述第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量-1。
可选的,所述曲线构建单元包括标准化分层单元、计算单元以及数据生成单元;
所述标准化分层单元用于,获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将所述用户样本数据进行标准化分层,得到标准化层级;
所述计算单元用于,计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和;
所述数据生成单元用于,基于各个层级对应的所述累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据。
可选的,第一获取单元包括绝对平等线构建单元和第三获取单元;
所述绝对平等线构建单元用于,构建所述初始洛伦兹曲线的绝对平等线;
所述第三获取单元用于,获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。
可选的,还包括第四获取单元和优化分层单元;
所述第四获取单元用于,获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,所述分层点为第一分层点、第二分层点或第n分层点;
所述优化分层单元用于,基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组所述分层点对应的关键分值指标值作为用户分层指标,并基于所述用户分层指标将所述用户样本数据进行优化分层。
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
通过使用洛伦兹曲线对用户进行精细化、合理化分层,由于分层过程中采用的用户分层相关数据均采用该企业本身数据,因此相对于统一的用户分层划分标准,本实施例所描述的用户分层方法通过借用洛伦兹曲线进行数据分析,使得该用户分层的方法更为适用于存在营运情况不同的各家企业,同时本发明全程基于洛伦兹曲线进行数据分析,不存在人工干预问题,且分层依据更为清晰。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例一提出的一种用户数据处理方法的流程图;
图2为本实施例一提出的一种用户数据处理方法的洛伦兹曲线和绝对平等线的曲线图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例一
如图1所示,一种用户数据处理方法,包括以下步骤:获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线,其中,获取初始用户分层指标数据,包括以下步骤:获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将用户样本数据进行标准化分层,得到标准化层级。
在实际对用户的分层过程中,以银行用户的分层为例,银行会根据用户的资产管理对用户进行分层,然而通常采用的分层方法是通过统一划分标准进行的用户分层,然而由于银行所在的地理位置、周围环境、银行规模等情况均存在差异,因此,对于单个银行而言,采用统一的划分标准进行用户分层则不具备分层参考性,与银行本身运营状况相差甚远。
基于此,本实施例通过在标准化层级的划分基础上,进一步优化划分机制,以使用户分层更符合各家银行本身的营运情况,对用户进行精准化分层,具体地,获取设定周期内的用户样本数据,其中,设定周期可以为半年、一年或两年,具体可根据实际情况进行修改设定,而用户样本数据则指的是在设定周期内,此家银行所有用户的资产管理规模(aum),即每个用户在银行的存款、理财等财产总额,而资产管理规模可以具体计算为每个用户的月日均资产管理规模,月日均资产管理规模值越高证明用户与银行的关系越紧密、对银行的利润贡献越高,因此选取用户的月日均资产管理规模来衡量用户的实际价值和潜在价值,并对其进行分层。
进一步的,设定分层数量为k,然后根据统一划分标准,即标准划分规则,将用户样本数据进行标准化划分,例如,设定分层数量k为5,则银行的统一划分标准即标准分层规则可能为0~1000万元为第一标准化划分层级,1000万元~2000万元为第二标准化划分层级,2000万元~3000万元为第三标准化划分层级,3000万元~4000万元为第四标准化划分层级,4000万元~5000万元为第五标准化划分层级,从而得到五层标准化层级。
进一步地,计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和,即计算每个标准化层级内,所有用户各自的资产管理规模并相加,以及每个标准化层级内的总人数,其中,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的资产管理规模;然后基于各个层级对应的累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据,其中各个层级对应的累计分值占比的计算方法为该层级对应的累计分值总和与所有层级的累计分值总和的比值,累计人数占比的计算方法为该层级对应的累计人数总和与所有层级的累计人数总和的比值,然后就将各个层级对应的累计分值占比以及累计人数占比汇总为初始用户分层指标数据,并根据初始用户分层指标数据绘制初始洛伦兹曲线。
如图2所示,基于初始洛伦兹曲线获取第一分层点,并根据第一分层点获取第一分层数据,具体地,基于初始洛伦兹曲线获取第一分层点,包括以下步骤:构建初始洛伦兹曲线的绝对平等线;获取绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点,其中,图2中,OA为绝对平等线,且绝对平等线为与横坐标成45°的直线,而OBA为初始洛伦兹曲线,此时可通过计算机软件程序,获取计算到第一分层点在初始洛伦兹曲线中的横纵坐标,即第一分层点的累计分值占比和累计人数占比,形成第一分层数据。
其中,由于洛伦兹曲线中的点距离绝对平均线的距离,可以理解为,距离绝对平均线的距离越远,则用户分值的梯度性变化越大,需要对于属于该用户分值范围内的银行用户进行层级划分。
进一步地,获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;基于重置洛伦兹曲线获取第二分层点,并根据第二分层点获取第二分层数据;循环构建重置洛伦兹曲线的步骤,并基于重置洛伦兹曲线获取第n分层点,并根据第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量-1。
获取到第一分层点后,将累计分值占比高于第一分层点地剩余用户分层指标数据作为一个整体,然后采用与获取第一分层点相同的方法,在剩余用户分层指标数据中获取第二分层点以及第二分层数据,同样的,若设置的分层数量k为5,则依次获取第三分层点、第三分层点数据、第四分层点和第四分层数据,且在进行下一步重置洛伦兹曲线前,需判断n是否等于k-1,若是,则停止重置洛伦兹曲线,并根据所获取的各组分层点对用户进行分层,并生成用户分层评估报告,若否,则继续判断n是否小于k-1,若是,则继续重置洛伦兹曲线,并继续获取分层点,若否,则根据所获取的各组分层点对用户进行分层,并生成用户分层评估报告。
更进一步地,获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,分层点为第一分层点、第二分层点或第n分层点;基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组分层点对应的关键分值指标值作为用户分层指标,并基于用户分层指标将用户样本数据进行优化分层。
获取到各个分层点即分层点对应的累计分值总和以及累计人数总和后,根据分层点对应的累计分值总和以及累计人数总和计算分层点对应的关键分值指标,并将分层点所对应的关键分值指标作为分层依据,从而对银行的用户进行精准化分层,其中,本实施例中所说的分层点所对应的关键分值指标即为分层点所对应的用户的资产管理规模,由于分层过程中采用的用户分层相关数据均采用该银行本身数据,因此相对于统一的用户分层划分标准,本实施例所描述的分层方法更为适用于存在营运情况不同的各家银行,同时本实施例全程基于洛伦兹曲线进行数据分析,不存在人工干预问题,且分层依据更为清晰。
另一方面,需要说明的是本实施例所采用的对用户数据的分层处理方法并不局限于银行用户,还适用于任何需要对用户进行划分层级的企业用户,例如,某商家平台对平台用户的层级划分、某软件开发者对软件使用者的层级划分等等,在此不做限定。
实施例二
本实施例与实施例一不同之处在与,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的活跃度、贡献度以及忠诚度的分值之和,即对用户的评价依据并不单一取决于用户的资产管理情况,而通过每个用户的活跃度、贡献度以及忠诚度的评分值进行整体评价,形成用户分值,此时,用户的样本数据中的累计分值总和即为活跃度评分、贡献度评分以及忠诚度评分之和,然后采用与实施例一相同的方法,对用户进行分层。
实施例三
一种用户数据处理***,包括曲线构建单元、第一获取单元、重置构建单元、第二获取单元以及循环构建单元;曲线构建单元用于,获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线,其中,曲线构建单元包括标准化分层单元、计算单元以及数据生成单元;标准化分层单元用于,获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将用户样本数据进行标准化分层,得到标准化层级。
在实际对用户的分层过程中,以银行用户的分层为例,银行会根据用户的资产管理对用户进行分层,然而通常采用的分层方法是通过统一划分标准进行的用户分层,然而由于银行所在的地理位置、周围环境、银行规模等情况均存在差异,因此,对于单个银行而言,采用统一的划分标准进行用户分层则不具备分层参考性,与银行本身运营状况相差甚远。
基于此,本实施例通过在标准化层级的划分基础上,进一步优化划分机制,以使用户分层更符合各家银行本身的营运情况,对用户进行精准化分层,具体地,获取设定周期内的用户样本数据,其中,设定周期可以为半年、一年或两年,具体可根据实际情况进行修改设定,而用户样本数据则指的是在设定周期内,此家银行所有用户的资产管理规模(aum),即每个用户在银行的存款、理财等财产总额,而资产管理规模可以具体计算为每个用户的月日均资产管理规模,月日均资产管理规模值越高证明用户与银行的关系越紧密、对银行的利润贡献越高,因此选取用户的月日均资产管理规模来衡量用户的实际价值和潜在价值,并对其进行分层。
进一步的,设定分层数量为k,然后根据统一划分标准,即标准划分规则,将用户样本数据进行标准化划分,例如,设定分层数量k为5,则银行的统一划分标准即标准分层规则可能为0~1000万元为第一标准化划分层级,1000万元~2000万元为第二标准化划分层级,2000万元~3000万元为第三标准化划分层级,3000万元~4000万元为第四标准化划分层级,4000万元~5000万元为第五标准化划分层级,从而得到五层标准化层级。
进一步地,计算单元用于,计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和,即计算每个标准化层级内,所有用户各自的资产管理规模并相加,以及每个标准化层级内的总人数,其中,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的资产管理规模;然后数据生成单元基于各个层级对应的累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据,其中各个层级对应的累计分值占比的计算方法为该层级对应的累计分值总和与所有层级的累计分值总和的比值,累计人数占比的计算方法为该层级对应的累计人数总和与所有层级的累计人数总和的比值,然后将各个层级对应的累计分值占比以及累计人数占比汇总为初始用户分层指标数据,并根据初始用户分层指标数据绘制初始洛伦兹曲线。
第一获取单元用于,基于初始洛伦兹曲线获取第一分层点,并根据第一分层点获取第一分层数据,具体地,第一获取单元包括绝对平等线构建单元和第三获取单元;绝对平等线构建单元用于,构建初始洛伦兹曲线的绝对平等线;第三获取单元用于,获取绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点,此时可通过计算机软件程序,获取计算到第一分层点在初始洛伦兹曲线中的横纵坐标,即第一分层点的累计分值占比和累计人数占比,形成第一分层数据。
其中,由于洛伦兹曲线中的点距离绝对平均线的距离,可以理解为,距离绝对平均线的距离越远,则用户分值的梯度性变化越大,需要对于属于该用户分值范围内的银行用户进行层级划分。
进一步地,重置构建单元用于,获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;第二获取单元用于,基于重置洛伦兹曲线获取第二分层点,并根据第二分层点获取第二分层数据;循环构建单元用于,循环构建重置洛伦兹曲线的步骤,并基于重置洛伦兹曲线获取第n分层点,并根据第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量-1。
获取到第一分层点后,将累计分值占比高于第一分层点地剩余用户分层指标数据作为一个整体,然后采用与获取第一分层点相同的方法,在剩余用户分层指标数据中获取第二分层点以及第二分层数据,同样的,若设置的分层数量k为5,则依次获取第三分层点、第三分层点数据、第四分层点和第四分层数据,且在进行下一步重置洛伦兹曲线前,需判断n是否等于k-1,若是,则停止重置洛伦兹曲线,并根据所获取的各组分层点对用户进行分层,并生成用户分层评估报告,若否,则继续判断n是否小于k-1,若是,则继续重置洛伦兹曲线,并继续获取分层点,若否,则根据所获取的各组分层点对用户进行分层,并生成用户分层评估报告。
更进一步地,用户数据处理***还包括第四获取单元和优化分层单元;第四获取单元用于,获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,分层点为第一分层点、第二分层点或第n分层点;优化分层单元用于,基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组分层点对应的关键分值指标值作为用户分层指标,并基于用户分层指标将用户样本数据进行优化分层。
获取到各个分层点即分层点对应的累计分值总和以及累计人数总和后,根据分层点对应的累计分值总和以及累计人数总和计算分层点对应的关键分值指标,并将分层点所对应的关键分值指标作为分层依据,从而对银行的用户进行精准化分层,其中,本实施例中所说的分层点所对应的关键分值指标即为分层点所对应的用户的资产管理规模,由于分层过程中采用的用户分层相关数据均采用该银行本身数据,因此相对于统一的用户分层划分标准,本实施例所描述的分层方法更为适用于存在营运情况不同的各家银行,同时本实施例全程基于洛伦兹曲线进行数据分析,不存在人工干预问题,且分层依据更为清晰。
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明方法的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员,在不脱离本发明的精神和范围的情况下,当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变,均仍属于本发明的技术方案的范围内。

Claims (10)

1.一种用户数据处理方法,其特征在于,包括以下步骤:
获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;
基于所述初始洛伦兹曲线获取第一分层点,并根据所述第一分层点获取第一分层数据;
获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于所述剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;
基于所述重置洛伦兹曲线获取第二分层点,并根据所述第二分层点获取第二分层数据;
循环构建重置洛伦兹曲线的步骤,并基于所述重置洛伦兹曲线获取第n分层点,根据所述第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量-1。
2.根据权利要求1所述的一种用户数据处理方法,其特征在于,获取初始用户分层指标数据,包括以下步骤:
获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将所述用户样本数据进行标准化分层,得到标准化层级;
计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和;
基于各个层级对应的所述累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据。
3.根据权利要求2所述的一种用户数据处理方法,其特征在于,基于所述初始洛伦兹曲线获取第一分层点,包括以下步骤:
构建所述初始洛伦兹曲线的绝对平等线;
获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。
4.根据权利要求2所述的一种用户数据处理方法,其特征在于,还包括以下步骤:
获取每组分层点对应的累计分值占比和累计人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,所述分层点为第一分层点、第二分层点或第n分层点;
基于各组累计分值占比对应的累计分值总和以及累计人数总和,将每组所述分层点对应的关键分值指标值作为用户分层指标,并基于所述用户分层指标将所述用户样本数据进行优化分层。
5.根据权利要求2所述的一种用户数据处理方法,其特征在于,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的资产管理规模。
6.根据权利要求2所述的一种用户数据处理方法,其特征在于,各个层级对应的用户样本数据的累计分值总和为各个层级对应的用户样本数据中,每个用户的活跃度、贡献度以及忠诚度的分值之和。
7.一种用户数据处理***,其特征在于,包括曲线构建单元、第一获取单元、重置构建单元、第二获取单元以及循环构建单元;
所述曲线构建单元用于,获取初始用户分层指标数据和分层数量,并构建累计人数占比关于累计分值占比的初始洛伦兹曲线;
所述第一获取单元用于,基于所述初始洛伦兹曲线获取第一分层点,并根据所述第一分层点获取第一分层数据;
所述重置构建单元用于,获取累计分值占比高于第一分层点的累计分值占比的剩余用户分层指标数据,并基于所述剩余用户分层指标数据,构建累计人数占比关于累计分值占比的重置洛伦兹曲线;
所述第二获取单元用于,基于所述重置洛伦兹曲线获取第二分层点,并根据所述第二分层点获取第二分层数据;
所述循环构建单元用于,循环构建重置洛伦兹曲线的步骤,并基于所述重置洛伦兹曲线获取第n分层点,并根据所述第n分层点获取第n分层数据,其中n为大于2的正整数,且n=分层数量-1。
8.根据权利要求7所述的一种用户数据处理***,其特征在于,所述曲线构建单元包括标准化分层单元、计算单元以及数据生成单元;
所述标准化分层单元用于,获取设定周期内的用户样本数据,根据分层数量和标准分层规则,将所述用户样本数据进行标准化分层,得到标准化层级;
所述计算单元用于,计算标准化分层后,各个层级对应的用户样本数据的累计分值总和以及累计人数总和;
所述数据生成单元用于,基于各个层级对应的所述累计分值总和以及累计人数总和,计算各个层级对应的累计分值占比以及累计人数占比,生成初始用户分层指标数据。
9.根据权利要求8所述的一种用户数据处理***,其特征在于,第一获取单元包括绝对平等线构建单元和第三获取单元;
所述绝对平等线构建单元用于,构建所述初始洛伦兹曲线的绝对平等线;
所述第三获取单元用于,获取所述绝对平等线与初始洛伦兹曲线距离最远的点作为第一分层点。
10.根据权利要求8所述的一种用户数据处理***,其特征在于,还包括第四获取单元和优化分层单元;
所述第四获取单元用于,获取每组分层点对应的累计分值占比和劣迹人数占比,以及各组累计分值占比对应的累计分值总和、累计人数总和,其中,所述分层点为第一分层点、第二分层点或第n分层点;
所述优化分层单元用于,基于各组累计分值占比对应的累计分值总和记忆累计人数总和,将每组所述分层点对应的关键分值指标值作为用户分层指标,并基于所述用户分层指标将所述用户样本数据进行优化分层。
CN202211219463.8A 2022-09-30 2022-09-30 一种用户数据处理方法和*** Active CN115587120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211219463.8A CN115587120B (zh) 2022-09-30 2022-09-30 一种用户数据处理方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211219463.8A CN115587120B (zh) 2022-09-30 2022-09-30 一种用户数据处理方法和***

Publications (2)

Publication Number Publication Date
CN115587120A true CN115587120A (zh) 2023-01-10
CN115587120B CN115587120B (zh) 2023-04-07

Family

ID=84773154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211219463.8A Active CN115587120B (zh) 2022-09-30 2022-09-30 一种用户数据处理方法和***

Country Status (1)

Country Link
CN (1) CN115587120B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013029905A1 (en) * 2011-08-26 2013-03-07 Telefonica, S.A. A computer implemented method to identify semantic meanings and use contexts of social tags
CN104142950A (zh) * 2013-05-10 2014-11-12 中国人民大学 基于关键词提取和基尼系数的微博用户分类方法
CN107977673A (zh) * 2017-11-15 2018-05-01 上海世脉信息科技有限公司 一种基于大数据的经济活动人口识别方法
US20180158075A1 (en) * 2016-12-07 2018-06-07 The Nielsen Company (Us), Llc Methods and apparatus for estimating a lorenz curve for a dataset based on a frequency value associated with the dataset
CN108388929A (zh) * 2018-03-27 2018-08-10 四川大学 基于代价敏感和半监督分类的客户分类方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013029905A1 (en) * 2011-08-26 2013-03-07 Telefonica, S.A. A computer implemented method to identify semantic meanings and use contexts of social tags
CN104142950A (zh) * 2013-05-10 2014-11-12 中国人民大学 基于关键词提取和基尼系数的微博用户分类方法
US20180158075A1 (en) * 2016-12-07 2018-06-07 The Nielsen Company (Us), Llc Methods and apparatus for estimating a lorenz curve for a dataset based on a frequency value associated with the dataset
CN107977673A (zh) * 2017-11-15 2018-05-01 上海世脉信息科技有限公司 一种基于大数据的经济活动人口识别方法
CN108388929A (zh) * 2018-03-27 2018-08-10 四川大学 基于代价敏感和半监督分类的客户分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
S PUNDIR ET AL: "Use of Artificial Neural Network for the Construction of Lorenz Curve" *
高大鹏 等: "基于洛伦兹曲线模型评价精细分层注水效果" *

Also Published As

Publication number Publication date
CN115587120B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111737916B (zh) 一种基于大数据的道路桥梁病害分析与养护决策方法
CN111768285A (zh) 信贷风控模型构建***、方法、风控***及存储介质
CN108898252A (zh) 一种全国对流层大气折射率剖面的预测方法
CN111008870A (zh) 一种基于pca-bp神经网络模型的区域物流需求预测方法
CN116091118A (zh) 电价预测方法、装置、设备、介质及产品
CN116992265B (zh) 碳排放量估算方法、装置、设备和存储介质
KR101924448B1 (ko) 부동산 시장 군집화 방법 및 장치, 이를 이용한 부동산 시세 추정 시스템 및 방법
CN115587120B (zh) 一种用户数据处理方法和***
Zhu et al. A dual spatial clustering method in the presence of heterogeneity and noise
CN112801344A (zh) 基于dpsir模型的海岸带生态***健康预测方法、电子设备及计算机可读介质
CN113919610A (zh) 低压台区线损预测用arima模型构建方法及评估方法
CN110399382A (zh) 基于云模型及粗糙集的民航主数据识别方法及***
CN112348220A (zh) 一种基于企业行为模式的信用风险评估预测方法及***
KR102480518B1 (ko) 신용평가 모델 업데이트 또는 교체 방법 및 장치
Dobronogov et al. Moving up the ladder: An analysis of IDA graduation policy
Gao et al. Integrated Deep Neural Networks‐Based Complex System for Urban Water Management
Zhu et al. A Novel Grey Model for Multi-regional Macro-data Forecasting by Considering Spatial Correlation and Actual-state Rolling.
Yao et al. Fine-grained regional economic forecasting for a megacity using vector-based cellular automata
Wang et al. A data quality improvement method based on the greedy algorithm
Zhang et al. Forecasting algorithm of regional economic development based on LPSVR
Dobronogov et al. Moving Up the Ladder
KR102499435B1 (ko) 인공 지능 기반 신용 평가 모델 생성 방법 및 장치
CN113238874B (zh) 资源匹配方法及***
Li et al. Application Research of Neural Network-based Data Assessment and Prediction Method in Statistical Analysis
Yang et al. Constructing prediction intervals to explore uncertainty based on deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A User Data Processing Method and System

Effective date of registration: 20230518

Granted publication date: 20230407

Pledgee: Bank of Jiangsu Limited by Share Ltd. Hangzhou branch

Pledgor: HANGZHOU YATUO INFORMATION TECHNOLOGY Co.,Ltd.

Registration number: Y2023330000923

PE01 Entry into force of the registration of the contract for pledge of patent right