CN112819527A - 一种用户分群处理方法及装置 - Google Patents
一种用户分群处理方法及装置 Download PDFInfo
- Publication number
- CN112819527A CN112819527A CN202110130812.8A CN202110130812A CN112819527A CN 112819527 A CN112819527 A CN 112819527A CN 202110130812 A CN202110130812 A CN 202110130812A CN 112819527 A CN112819527 A CN 112819527A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- grouping
- model
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 8
- 230000006399 behavior Effects 0.000 claims description 35
- 238000003066 decision tree Methods 0.000 claims description 27
- 238000007477 logistic regression Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 13
- 238000011084 recovery Methods 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 235000013619 trace mineral Nutrition 0.000 description 1
- 239000011573 trace mineral Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种用户分群处理方法及装置。该方法包括:基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;将样本数据输入预设的用户分群模型得到分群结果;若样本数据的分群结果在预设的边界阈值范围内,则获取样本数据对应的重新标注数据,将重新标注数据输入至用户分群模型以对其进行训练。通过上述技术手段,对于识别准确率不高的样本数据回捞再标注,保证样本的准确性和全面性,保证用户分群模型的稳定性和有效性。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种用户分群处理方法及装置。
背景技术
随着大数据技术的快速发展,大数据处理算法对于用户运营部分也愈发重要。当前直播短视频领域上基于大数据算法的用户分群是比较新颖的方向,在实际的用户运营过程中,运营部门希望能够对用户进行精准分群,定位不同用户的需求,根据不同用户的需求进行差异化运营,从而能达到整体效益最大化。
用户分群,即用户信息标签化,通过用户的历史行为路径、行为特征和偏好等属性,将具有相同属性的用户划分为一个群体,并进行后续分析。现有的用户分群方式大多是基于单特征或者部分重点特征进行阈值区分的人工分群规则。例如通过筛选出过去7天内、播放50次以上、有“消费”和“生产”行为的用户,视其为高黏性的成熟用户,对其进行分群定义后展开用户行为数据分析。人工分群规则具有快速简单的优点,但缺陷也很明显:阈值的设定容易带入人为主观性,特征简单准确率不高,用户分层越多区分度越低。
发明内容
本申请实施例提供一种用户分群处理方法及装置,能够基于多种类型的用户特征数据对用户进行分群,提高用户分群准确性。
在第一方面,本申请实施例提供了一种用户分群处理方法,包括:
基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;
获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;
将所述样本数据输入预设的用户分群模型得到分群结果;
若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。
在第二方面,本申请实施例提供了一种用户分群处理装置,包括:
待标注数据获取模块,被配置为基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;
样本数据获取模块,被配置为获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;
模型训练模块,被配置为将所述样本数据输入预设的用户分群模型得到分群结果;
边界数据回收模块,被配置为若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。
在第三方面,本申请实施例提供了一种电子设备,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的用户分群处理方法。
在第四方面,本申请实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的用户分群处理方法。
本申请实施例基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;将所述样本数据输入预设的用户分群模型得到分群结果;若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。采用上述技术手段,通过用户分群规则快速获取预设数量的每种类型的数据,并由标注人员对这些数据进行类型标注,得到样本数据,在提高样本数据获取效率的同时,还避免人工分群标注方法导致的标注准确率低的问题。基于多种类型的特征数据生成样本数据,保证样本数据的多样性,保证用户分群模型的稳定性和有效性。对于识别准确率不高的样本数据回捞再标注,保证样本的准确性和全面性,保证用户分群模型的稳定性和有效性。基于梯度提升决策树模型和逻辑回归模型组成的机器学习模型,梯度提升决策树可以对样本数据的特征进行组合得到高维稀疏特征,而逻辑回归模型擅长处理高维稀疏特征,且逻辑回归模型输出可以作为概率值灵活使用,方便进行边界样本回捞。在应用用户分群模型进行用户分群时,基于用户的基础特征数据、高级特征数据和用户画像对应的分群结果确定用户类型,提高用户分群的准确性。
附图说明
图1是本申请实施例一提供的一种用户分群处理方法的流程图;
图2是本申请实施例一中的用户行为数据预处理流程图;
图3是梯度提升决策树模型和逻辑回归模型组成的机器学习模型结构图;
图4是本申请实施例一中的用户分群流程图;
图5是本申请实施例一提供的另一种用户分群处理方法的流程图;
图6是本申请实施例二提供的一种用户分群处理装置的结构示意图;
图7是本申请实施例三提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请提供的用户分群处理方法及装置,旨在基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;将所述样本数据输入预设的用户分群模型得到分群结果;若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。相比于传统的用户分群方式,其大多是基于单特征或者部分重点特征进行阈值区分的人工分群规则,人工分群规则设定的阈值容易带入人为主观性,特征简单准确率不高,用户分层越多区分度越低。基于此,本申请实施例提供一种用户分群处理方法及装置,其基于多种类型的用户特征数据对用户进行分群,提高用户分群准确性。
实施例一:
图1给出了本申请实施例一提供的一种用户分群处理方法的流程图,本实施例中提供的用户分群处理方法可以由用户分群处理设备执行,该用户分群处理设备可以通过软件和/或硬件的方式实现。一般而言,该用户分群处理设备可以是服务器。
下述以用户分群处理设备为执行用户分群处理方法的主体为例,进行描述。参考图1,用户分群处理方法包括:
S110、基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像。
具体的,将用户分成流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户,基于这五种类型的样本数据训练用户分群模型,从而基于用户行为数据实现用户分群。示例性的,用户分群模型的构造需大量的样本数据去学***缓的部分叫“尾”,从用户类型的角度来讲,流失型用户、成长型用户和稳定型用户会集中在头部,这三种类型的用户行为数据占总数据的大部分,而成熟型用户和忠诚型用户集中在尾部,这两种类型的用户行为数据占总数据的小部分。如果只是采用传统的随机获取数据库中的数据进行类型标注,那么大部分标注的属于流失型用户、成长型用户和稳定型用户的样本数据,而另外两种类型的样本数据数量远远不够,则需要继续获取数据库中的数据进行类型标注,直到所有类型的样本数据达到一定数量后才开始训练用户分群模型。这非常影响用户分群模型的构造速率,也无意中使得人工标注做了许多无用功。
基于此,本申请实施例基于用户分群规则,从数据库中快速筛选出每种类型的数据,再对挑选出的数据进行人工标注。其中,用户分群规则包括基础特征数据、高级特征数据和用户画像的用户分群子规则,每个所述用户分群子规则包括流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户的分群子规则,每种类型对应一类型阈值范围。具体的,根据流失型用户的基础特征数据的类型阈值范围,从数据库中查询并筛选出位于该类型阈值范围内的数据,直到获取到预设数量的数据。可理解的,流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户的基础特征数据、高级特征数据和用户画像都可通过上述步骤获取。通过用户分群子规则,定向富集成熟型用户和忠诚型用户的数据,以实现待标注数据的快速获取,以提高模型构造速率。其中,富集是指从大量母体物质中搜集欲测定的痕量元素至一较小体积,从而提高其含量至测定下限以上的这一操作步骤。对于成熟型用户和忠诚型用户的数据在总数据中所占比例较少,则通过定向富集的方法,将随机分布在数据库中的成熟型用户和忠诚型用户的数据聚集起来,直接获取聚集后的数据,以实现快速获取规定数量的样本数据。
进一步的,通过人工标注对从数据库中筛选出的数据进行标注,以保证样本数据的准确性,相比于对随机获取的数据进行标注,减少了人工标注成本。若在人工标注时,发现某种类型的样本数据数量少于开始训练模型的样本数据数量时,再基于该类型的类型阈值范围去数据库中筛选合适的数据,定向获取该类型的数据,提高数据获取速率。
进一步的,在筛选数据库中的基础特征数据、高级特征数据和用户画像之前,需事先采集大量的用户行为数据,基于用户行为数据分析用户的行为特征,生成基础特征数据、高级特征数据和用户画像,并将处理后的数据存储至数据库中。具体的,参考图2,图2是本申请实施例一中的用户行为数据预处理流程图。如图2所示,用户行为数据预处理流程包括:
S210、获取客户端发送的用户行为数据,清理所述用户行为数据中的异常值和空值,得到所述基础特征数据,所述基础特征数据包括注册数据、播放数据、设备数据、反馈数据、评论数据和位置数据;
S220、基于所述基础特征数据,提取对应的高级特征数据;
S230、基于所述高级特征数据构造对应的用户画像;
S240、将所述基础特征数据、所述高级特征数据和所述用户画像存储至数据库中。
具体的,对用户行为的每一个事件对应的位置进行开发埋点,采集整个行为链路的数据信息以及用户个人属性,并通过客户端SDK上传的埋点数据,服务端将埋点数据记录并汇总后生成用户行为数据,供后续特征构造和分析。其中,SDK是为第三方开发者提供的软件开发工具包,其包括SDK接口,客户端调用SDK接口通过协议与服务端进行通信。
进一步的,对用户行为数据进行数据清洗,清理用户行为数据中的异常值和空值,得到基础特征数据。可理解的,基础特征数据是埋点直接采集到的事件数据,如观看、点赞、评论、反馈、设备、位置和注册等事件数据。这些数据直接反映用户行为和用户个人属性,为进一步挖掘用户的偏好等更具代表性的特征数据,对基础特征数据进行分析和聚合,获取高级特征数据,并基于高级特征数据构造用户画像。其中,由于评论、反馈和注册等事件数据是用户输入的文本数据,文本数据的内容隐含用户的特征数据,基于此,对文本数据进行主题内容进行提取,将获取到主题内容数据作为用户的高级特征数据。
S120、获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据。
由人工标注对筛选出的数据进行类型标注,得到样本数据。
S130、将所述样本数据输入预设的用户分群模型得到分群结果。
具体的,用户分群模型由梯度提升决策树模型(GBDT,Gradient Boost DecisionTree)和逻辑回归模型(LR,Logistic Regression)组成,梯度提升决策树模型用于提取样本数据的特征并作为逻辑回归模型的输入数据,所述逻辑回归模型用于接收样本数据的特征并输出样本数据的分群结果。示例性的,参考图3,图3是梯度提升决策树模型和逻辑回归模型组成的机器学习模型结构图。如图3所示,梯度提升决策树模型由多个决策树组成,每个决策树包括至少一个叶子节点,其中,根据样本数据的特征参数,事先配置用户分群模型中梯度提升决策树模型的决策树的个数和每个决策树的结构,一种特征参数对应一棵决策树。示例性的,样本数据从输入端输入,历遍两棵树后,样本数据分别落到两棵决策树的叶子节点上,每个叶子节点对应逻辑回归模型的一维特征。在历遍所有决策树后,得到了样本数据对应的逻辑回归模型的所有特征,构造的特征向量取值为0或1。如图3所示,图3中的梯度提升决策树模型包括两棵决策树,左树设置有三个叶子节点,右树设置有两个叶子节点,最终的特征为五维的特征向量。在历遍两棵决策树后,样本数据落在左树的第一个叶子节点和右树的第二个叶子节点,则梯度提升决策树模型生成的特征向量为[1,0,0,0,1]。进一步的,梯度提升决策树模型生成的编码形式的特征向量输入到逻辑回归模型中进行分类,即逻辑回归模型根据权重系数计算样本数据的分群结果。可理解的,逻辑回归模型的输出端即用户分群模型的输出端,将用户分群模型输出的样本数据的预测值和样本数据标注的真实值作差,将两者的差值代入损失函数,根据损失函数的输出结果调整梯度提升决策树模型的权重***和分割系数,以及逻辑回归模型的权重系数。当用户分群模型的迭代次数到达预设次数或损失函数的输出结果小于预设损失阈值,结束用户分群模型的训练过程。
本申请实施例基于梯度提升决策树模型和逻辑回归模型组成的机器学习模型,梯度提升决策树可以对样本数据的特征进行组合得到高维稀疏特征,而逻辑回归模型擅长处理高维稀疏特征,且逻辑回归模型输出可以作为概率值灵活使用,方便进行边界样本回捞。
S140、若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。
具体的,由于相连的用户类型的样本数据会存在一些相近特征,如流失型用户和成长型用户,成长型用户和稳定型用户,成熟型用户和忠诚型用户等的样本数据可能会存在相近特征,那么在配置分群阈值范围时,相连的用户类型所对应的分群阈值范围也是相连的。流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户的类型分别对应一分群阈值范围,相连的分群阈值范围之间设置有一个边界阈值范围。示例性的,流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户的分群结果分别为1到5,那么其对应的分群阈值范围为[0.7,1.3],[1.7,2.3],[2.7,3.3],[3.7,4.3],[4.7,5.3],而边界阈值范围为[1.4,1.6],[2.4,2.6],[3.4,3.6],[4.4,4.6]。可理解的,边界范围阈值其实是分群结果的模糊边界地带,即用户分群模型无法判定该样本数据属于相连的用户类型中的哪一个,分群阈值范围和边界阈值范围可以根据实际情况进行设定,在此不做限定。
进一步的,若样本数据的分群结果落入边界阈值范围,则可确定用户分群模型的识别结果不准确。其中用户分群模型识别错误的原因有两种,一是因为在人工标注样本数据时,样本标注错误导致用户分群模型识别错误,二是因为当前用户分群模型的对该类型的样本识别不是很准确,比较模糊。对识别不准确的样本数据进行回捞再重新标注,可以保证样本数据的准确性和全面性。
具体的,在用户分群模型的训练结束之后,可将用户分群模型应用到实际的用户分群处理中,以便基于用户行为数据确定用户所属类型。示例性的,参考图4,图4是本申请实施例一中的用户分群流程图。如图4所示,用户分群流程包括:
S310、获取用户行为数据,基于该用户行为数据对应生成用户的基础特征数据、高级特征数据和用户画像;
S320、调用用户分群模型,通过所述用户分群模型分别确定所述用户的基础特征数据、高级特征数据和用户画像的分群结果;
S330、根据所述基础特征数据、高级特征数据和用户画像的分群结果确定所述用户的类型。
具体的,汇总用户的用户行为数据,对用户行为数据进行预处理,得到用户的基础特征数据、高级特征数据和用户画像。将用户的基础特征数据、高级特征数据和用户画像输入用户分群模型中,分别得到基础特征数据、高级特征数据和用户画像的分群结果。示例性的,基础特征数据、高级特征数据和用户画像的分群结果分别为1.9,2.0和2.6,由用户的基础特征数据和高级特征数据的分群结果可确定用户为成长型用户,则确定用户为成长型用户。基于三种特征数据的分群结果确定用户类型,提高了用户分群的准确性。其中,判断用户类型的规则不限于上述的用户类型判断规则。
另一方面,图5是本申请实施例一提供的另一种用户分群处理方法的流程图。如图5所示,采集用户行为数据,对用户行为数据进行预处理,得到基础特征数据、高级特征数据和用户画像,并将基础特征数据、高级特征数据和用户画像存储至数据库中。基于用户分群规则定向富集数据库中的比例较少的类型数据,由人工标注从数据库中筛选出的数据,得到样本数据。当样本数据达到一定数量后,基于样本数据开始训练机器学习模型。对于落在模糊边界的样本数据,对其回捞并重新标注,基于重新生成的样本数据训练机器学习模型。在训练结束后,调用完成训练的机器学习模型对用户进行分群,确认用户属于流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户中的哪一种类型。针对不同类型的用户进行差异化运营,例如,对于流失型用户提高推送召回信息的频次,对于成长型用户提高推送其偏好信息的频次,对于稳定型用户定向投放其偏好信息,对于成熟型用户和忠诚型用户则降低推送干扰信息的频次。且成熟型用户和忠诚型用户已经养成了用户粘性,且属于高价值用户群体,可尝试诱导其进行分享活动和内容来达到扩大高价值用户的圈子,同时可分析高价值用户的用户属性,对应进行相似人群扩展的投放策略。其中,相似人群扩展是基于种子用户,通过一定的算法评估模型,找到更多拥有潜在关联性的相似人群的技术。
本申请实施例对用户进行精确分群,清晰勾勒出用户群体的行为全貌和需求,针对不同类型的用户群体进行差异化运营,并根据用户群体的行为全貌和需对特定目标人群进行精确信息推送,如召回流失用户或刺激用户消费等,以实现全方位追踪运营效果,提升用户粘性和运营效率。
综上,通过用户分群规则快速获取预设数量的每种类型的数据,并由标注人员对这些数据进行类型标注,得到样本数据,在提高样本数据获取效率的同时,还避免人工分群标注方法导致的标注准确率低的问题。基于多种类型的特征数据生成样本数据,保证样本数据的多样性,保证用户分群模型的稳定性和有效性。对于识别准确率不高的样本数据回捞再标注,保证样本的准确性和全面性,保证用户分群模型的稳定性和有效性。基于梯度提升决策树模型和逻辑回归模型组成的机器学习模型,梯度提升决策树可以对样本数据的特征进行组合得到高维稀疏特征,而逻辑回归模型擅长处理高维稀疏特征,且逻辑回归模型输出可以作为概率值灵活使用,方便进行边界样本回捞。在应用用户分群模型进行用户分群时,基于用户的基础特征数据、高级特征数据和用户画像对应的分群结果确定用户类型,提高用户分群的准确性。
实施例二:
在上述实施例的基础上,图6为本申请实施例二提供的一种用户分群处理装置的结构示意图。参考图6,本实施例提供的用户分群处理装置具体包括:待标注数据获取模块21、样本数据获取模块22、模型训练模块23和边界数据回收模块24。
其中,待标注数据获取模块21,被配置为基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;
样本数据获取模块22,被配置为获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;
模型训练模块23,被配置为将所述样本数据输入预设的用户分群模型得到分群结果;
边界数据回收模块24,被配置为若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。
上述,通过用户分群规则快速获取预设数量的每种类型的数据,并由标注人员对这些数据进行类型标注,得到样本数据,在提高样本数据获取效率的同时,还避免人工分群标注方法导致的标注准确率低的问题。基于多种类型的特征数据生成样本数据,保证样本数据的多样性,保证用户分群模型的稳定性和有效性。对于识别准确率不高的样本数据回捞再标注,保证样本的准确性和全面性,保证用户分群模型的稳定性和有效性。基于梯度提升决策树模型和逻辑回归模型组成的机器学习模型,梯度提升决策树可以对样本数据的特征进行组合得到高维稀疏特征,而逻辑回归模型擅长处理高维稀疏特征,且逻辑回归模型输出可以作为概率值灵活使用,方便进行边界样本回捞。在应用用户分群模型进行用户分群时,基于用户的基础特征数据、高级特征数据和用户画像对应的分群结果确定用户类型,提高用户分群的准确性。
本申请实施例二提供的用户分群处理装置可以用于执行上述实施例一提供的用户分群处理方法,具备相应的功能和有益效果。
实施例三:
本申请实施例三提供了一种电子设备,参照图7,该电子设备包括:输入装置33、输出装置34、存储器32以及一个或多个处理器31;所述存储器32,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器31执行,使得所述一个或多个处理器31实现如上述实施例一提供的用户分群处理方法。上述提供的电子设备可用于执行上述实施例一提供的客户端占用空间优化方法,具备相应的功能和有益效果。
实施例四:
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种用户分群处理方法,该用户分群处理方法。当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的用户分群处理方法,还可以执行本申请任意实施例所提供的用户分群处理方法中的相关操作。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。
Claims (11)
1.一种用户分群处理方法,其特征在于,包括:
基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;
获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;
将所述样本数据输入预设的用户分群模型得到分群结果;
若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。
2.根据权利要求1所述的方法,其特征在于,所述用户分群模型由梯度提升决策树模型和逻辑回归模型组成,所述梯度提升决策树模型用于提取所述样本数据的特征并作为所述逻辑回归模型的输入数据,所述逻辑回归模型用于接收所述样本数据的特征并输出所述样本数据的分群结果。
3.根据权利要求1所述的方法,其特征在于,所述用户分群规则包括基础特征数据、高级特征数据和用户画像的用户分群子规则,每个所述用户分群子规则包括流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户的分群子规则,每种类型对应一类型阈值范围;
对应的,所述基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像还包括:
基于所述类型阈值范围,从数据库中查询并筛选出位于所述类型阈值范围内的数据。
4.根据权利要求3所述的方法,其特征在于,所述流失型用户、成长型用户、稳定型用户、成熟型用户和忠诚型用户的类型分别对应一分群阈值范围,相连的分群阈值范围之间设置有一边界阈值范围。
5.根据权利要求1所述的方法,其特征在于,在所述基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像之前,还包括:
获取客户端发送的用户行为数据,清理所述用户行为数据中的异常值和空值,得到所述基础特征数据,所述基础特征数据包括注册数据、播放数据、设备数据、反馈数据、评论数据和位置数据中的至少一种。
6.根据权利要求5所述的方法,其特征在于,在所述得到所述基础特征数据之后,还包括:
基于所述基础特征数据,提取对应的高级特征数据;
基于所述高级特征数据构造对应的用户画像;
将所述基础特征数据、所述高级特征数据和所述用户画像存储至数据库中。
7.根据权利要求6所述的方法,其特征在于,若所述基础特征数据为文本数据,则对所述文本数据进行主题内容提取,将提取到的主题内容数据作为对应的高级特征数据。
8.根据权利要求1-7所述的方法,其特征在于,在所述用户分群模型的训练结束之后,还包括:
获取用户行为数据,基于该用户行为数据对应生成用户的基础特征数据、高级特征数据和用户画像;
调用用户分群模型,通过所述用户分群模型分别确定所述用户的基础特征数据、高级特征数据和用户画像的分群结果;
根据所述基础特征数据、高级特征数据和用户画像的分群结果确定所述用户的类型。
9.一种用户分群处理装置,其特征在于,包括:
待标注数据获取模块,被配置为基于预设的用户分群规则,从数据库中筛选出预设数量的基础特征数据、高级特征数据和用户画像;
样本数据获取模块,被配置为获取筛选出的基础特征数据、高级特征数据和用户画像对应的类型标注的样本数据;
模型训练模块,被配置为将所述样本数据输入预设的用户分群模型得到分群结果;
边界数据回收模块,被配置为若所述样本数据的分群结果在预设的边界阈值范围内,则获取所述样本数据对应的重新标注数据,将所述重新标注数据输入至所述用户分群模型以对其进行训练。
10.一种电子设备,其特征在于,包括:
存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的用户分群处理方法。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的用户分群处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110130812.8A CN112819527B (zh) | 2021-01-29 | 2021-01-29 | 一种用户分群处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110130812.8A CN112819527B (zh) | 2021-01-29 | 2021-01-29 | 一种用户分群处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112819527A true CN112819527A (zh) | 2021-05-18 |
CN112819527B CN112819527B (zh) | 2024-05-24 |
Family
ID=75860403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110130812.8A Active CN112819527B (zh) | 2021-01-29 | 2021-01-29 | 一种用户分群处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112819527B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331696A (zh) * | 2021-12-31 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 风险评估方法、装置及存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251004A (zh) * | 2016-07-22 | 2016-12-21 | 中国电子科技集团公司第五十四研究所 | 基于改进空间距离划分的目标分群方法 |
CN108256907A (zh) * | 2018-01-09 | 2018-07-06 | 北京腾云天下科技有限公司 | 一种客户分群模型的构建方法和计算设备 |
CN109299265A (zh) * | 2018-10-15 | 2019-02-01 | 广州虎牙信息科技有限公司 | 潜在回流用户筛选方法、装置以及电子设备 |
WO2019076173A1 (zh) * | 2017-10-20 | 2019-04-25 | 广州优视网络科技有限公司 | 内容推送方法、装置及计算机设备 |
CN110134722A (zh) * | 2019-05-22 | 2019-08-16 | 北京小度信息科技有限公司 | 目标用户确定方法、装置、设备及存储介质 |
CN110263255A (zh) * | 2019-06-21 | 2019-09-20 | 北京字节跳动网络技术有限公司 | 用户属性信息的获取方法、***、服务器及存储介质 |
CN110349007A (zh) * | 2019-07-02 | 2019-10-18 | 上海淇毓信息科技有限公司 | 基于变量区分度指标进行用户分群提额的方法、装置和电子设备 |
CN110659318A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 基于大数据的策略推送方法、***及计算机设备 |
CN110717787A (zh) * | 2019-10-08 | 2020-01-21 | 恩亿科(北京)数据科技有限公司 | 一种用户的分类方法及装置 |
US20200175320A1 (en) * | 2018-12-03 | 2020-06-04 | Bank Of America Corporation | Computer architecture for identifying data clusters using unsupervised machine learning in a correlithm object processing system |
CN111444944A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 基于决策树的信息筛选方法、装置、设备和存储介质 |
CN111666494A (zh) * | 2020-05-13 | 2020-09-15 | 平安科技(深圳)有限公司 | 分群决策模型生成、分群处理方法、装置、设备及介质 |
CN111696661A (zh) * | 2020-05-13 | 2020-09-22 | 平安科技(深圳)有限公司 | 患者分群模型构建方法、患者分群方法及相关设备 |
CN111739634A (zh) * | 2020-05-14 | 2020-10-02 | 平安科技(深圳)有限公司 | 相似患者智能分群方法、装置、设备及存储介质 |
CN112035519A (zh) * | 2020-08-28 | 2020-12-04 | 中国平安人寿保险股份有限公司 | 用户画像方法、装置、计算机可读存储介质及终端设备 |
WO2020257991A1 (zh) * | 2019-06-24 | 2020-12-30 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
TW202101477A (zh) * | 2019-06-26 | 2021-01-01 | 義守大學 | 一種抽樣後標記應用在類神經網絡訓練模型之方法 |
US20210012211A1 (en) * | 2019-07-08 | 2021-01-14 | Vian Systems, Inc. | Techniques for visualizing the operation of neural networks |
-
2021
- 2021-01-29 CN CN202110130812.8A patent/CN112819527B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106251004A (zh) * | 2016-07-22 | 2016-12-21 | 中国电子科技集团公司第五十四研究所 | 基于改进空间距离划分的目标分群方法 |
WO2019076173A1 (zh) * | 2017-10-20 | 2019-04-25 | 广州优视网络科技有限公司 | 内容推送方法、装置及计算机设备 |
CN108256907A (zh) * | 2018-01-09 | 2018-07-06 | 北京腾云天下科技有限公司 | 一种客户分群模型的构建方法和计算设备 |
CN109299265A (zh) * | 2018-10-15 | 2019-02-01 | 广州虎牙信息科技有限公司 | 潜在回流用户筛选方法、装置以及电子设备 |
US20200175320A1 (en) * | 2018-12-03 | 2020-06-04 | Bank Of America Corporation | Computer architecture for identifying data clusters using unsupervised machine learning in a correlithm object processing system |
CN110134722A (zh) * | 2019-05-22 | 2019-08-16 | 北京小度信息科技有限公司 | 目标用户确定方法、装置、设备及存储介质 |
CN110263255A (zh) * | 2019-06-21 | 2019-09-20 | 北京字节跳动网络技术有限公司 | 用户属性信息的获取方法、***、服务器及存储介质 |
WO2020257991A1 (zh) * | 2019-06-24 | 2020-12-30 | 深圳市欢太科技有限公司 | 用户识别方法及相关产品 |
TW202101477A (zh) * | 2019-06-26 | 2021-01-01 | 義守大學 | 一種抽樣後標記應用在類神經網絡訓練模型之方法 |
CN110349007A (zh) * | 2019-07-02 | 2019-10-18 | 上海淇毓信息科技有限公司 | 基于变量区分度指标进行用户分群提额的方法、装置和电子设备 |
US20210012211A1 (en) * | 2019-07-08 | 2021-01-14 | Vian Systems, Inc. | Techniques for visualizing the operation of neural networks |
CN110659318A (zh) * | 2019-08-15 | 2020-01-07 | 中国平安财产保险股份有限公司 | 基于大数据的策略推送方法、***及计算机设备 |
CN110717787A (zh) * | 2019-10-08 | 2020-01-21 | 恩亿科(北京)数据科技有限公司 | 一种用户的分类方法及装置 |
CN111444944A (zh) * | 2020-03-16 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 基于决策树的信息筛选方法、装置、设备和存储介质 |
CN111696661A (zh) * | 2020-05-13 | 2020-09-22 | 平安科技(深圳)有限公司 | 患者分群模型构建方法、患者分群方法及相关设备 |
CN111666494A (zh) * | 2020-05-13 | 2020-09-15 | 平安科技(深圳)有限公司 | 分群决策模型生成、分群处理方法、装置、设备及介质 |
CN111739634A (zh) * | 2020-05-14 | 2020-10-02 | 平安科技(深圳)有限公司 | 相似患者智能分群方法、装置、设备及存储介质 |
CN112035519A (zh) * | 2020-08-28 | 2020-12-04 | 中国平安人寿保险股份有限公司 | 用户画像方法、装置、计算机可读存储介质及终端设备 |
Non-Patent Citations (1)
Title |
---|
陈蕾夷;: "智能化用户分群模型的研究与实现", 电脑知识与技术, no. 19, 5 July 2018 (2018-07-05), pages 7 - 9 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114331696A (zh) * | 2021-12-31 | 2022-04-12 | 北京瑞莱智慧科技有限公司 | 风险评估方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112819527B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960409B (zh) | 标注数据生成方法、设备及计算机可读存储介质 | |
CN112494952B (zh) | 目标游戏用户的检测方法、装置及设备 | |
CN110717534B (zh) | 一种基于网络监督的目标分类和定位方法 | |
CN110263230B (zh) | 一种基于密度聚类的数据清洗方法及装置 | |
CN110610193A (zh) | 标注数据的处理方法及装置 | |
CN110737805B (zh) | 图模型数据的处理方法、装置和终端设备 | |
CN114494837A (zh) | 一种渔业资源的密度智能识别方法及*** | |
CN113761259A (zh) | 一种图像处理方法、装置以及计算机设备 | |
CN108846695A (zh) | 终端更换周期的预测方法及装置 | |
CN111641608A (zh) | 异常用户识别方法、装置、电子设备及存储介质 | |
CN112115996B (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN114238764A (zh) | 基于循环神经网络的课程推荐方法、装置及设备 | |
CN112819527A (zh) | 一种用户分群处理方法及装置 | |
CN112199376B (zh) | 一种基于聚类分析的标准知识库管理方法及*** | |
CN112257332B (zh) | 一种仿真模型的评估方法及装置 | |
CN110955774B (zh) | 基于词频分布的文字分类方法、装置、设备及介质 | |
CN115860434B (zh) | 一种基于土壤水分资源承载力的植被恢复规划方法和装置 | |
CN116188834B (zh) | 基于自适应训练模型的全切片图像分类方法及装置 | |
CN115599873A (zh) | 基于人工智能物联网的数据采集方法、***及云平台 | |
CN114637917A (zh) | 基于人工智能的资讯头条推荐方法及装置 | |
CN114048148A (zh) | 一种众包测试报告推荐方法、装置及电子设备 | |
CN113191569A (zh) | 一种基于大数据的企业管理方法及*** | |
CN112434648A (zh) | 一种墙体形状变化检测方法及*** | |
CN113722230A (zh) | 针对模糊测试工具漏洞挖掘能力的集成化评估方法及装置 | |
CN106446160A (zh) | 一种面向移动互联网自适应增量的内容聚合方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |