CN112925990A

CN112925990A - 目标群体分类方法及装置

Info

Publication number: CN112925990A
Application number: CN202110216926.4A
Authority: CN
Inventors: 阳文罡
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-08
Anticipated expiration: 2041-02-26
Also published as: CN112925990B

Abstract

本申请提供目标群体分类方法及装置，其中所述目标群体分类方法包括：获取目标群体的历史数据，并基于历史数据确定目标群体的多个待评估的特征组，特征组包含多个特征；针对多个待评估的特征组中的每个特征组，基于所述特征组对应的历史数据，对目标群体进行聚类，得到至少两个目标聚类簇，确定每个目标聚类簇对应的群体标签；根据群体标签和预设评估规则对特征组的目标聚类簇进行评估，确定特征组对应的评估参数；根据多个待评估的特征组对应的评估参数，从多个待评估的特征组中确定目标特征组。如此，可以确定出基于不同特征组对目标群体进行分类的效果，然后选择效果最好的特征组用于后续分类操作，从而提高分类准确率和效率。

Description

目标群体分类方法及装置

技术领域

本申请涉及数据处理技术领域，特别涉及一种目标群体分类方法。本申请同时涉及一种目标群体分类装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着计算机技术和网络技术的不断发展，直播平台渐渐走入了人们的生活，观众对于直播视频的喜爱程度与日俱增。每一个直播平台中都存在着大量的主播，不同的主播处于不同的生命周期阶段，各自的开播频率、营收能力、流量等都存在着一定差异。对处于不同生命周期的主播应该有针对性的手段进行运营或推荐，以期最大化的利用流量分发效率，促使各类主播都能不断成长，向更高的层级跃迁。

现有技术中，只能随机选取主播的某些维度特征对应的主播数据(如粉丝数、营收额等数据)，或者选取主播的全部维度特征对应的主播数据；然后基于选出的主播数据对主播进行分类，从而得到不同生命周期的主播。然而，由于主播的某些维度特征和其所属的生命周期关联并不大，或不明显，因而随机选取的维度特征并不一定是划分主播生命周期最好的特征，因而基于随机选取的维度特征对应的主播数据对主播进行分类，分类的准确率较差。另外，若选取主播的全部维度特征对应的主播数据进行主播分类，则会导致计算量极其庞大，分类效率大大降低。

发明内容

有鉴于此，本申请实施例提供了一种目标群体分类方法。本申请同时涉及一种目标群体分类装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的分类准确率和效率较低的问题。

根据本申请实施例的第一方面，提供了一种目标群体分类方法，包括：

获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，所述特征组包含多个特征；

针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签；

根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数；

根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。

根据本申请实施例的第二方面，提供了一种目标群体分类装置，包括：

获取模块，被配置为获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，所述特征组包含多个特征；

第一确定模块，被配置为针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签；

第二确定模块，被配置为根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数；

第三确定模块，被配置为根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。

根据本申请实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现下述方法：

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现任意所述目标群体分类方法的步骤。

本申请提供的目标群体分类方法，可以先获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，所述特征组包含多个特征；然后针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签；再根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数；最后根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。

这种情况下，可以从目标群体的所有历史数据中获取某特征组对应的历史数据，然后基于获取到的该特征组对应的历史数据，对目标群体进行分类，从而得到多个聚类簇，然后根据对该多个聚类簇的聚类结果的评估，确定基于该特征组对目标群体进行分类的效果；如此，可以预先确定多个特征组，然后针对每一特征组执行上述操作，确定出基于不同特征组对目标群体进行分类的效果，然后选择效果最好的特征组用于后续对目标群体的分类操作，从而提高对目标群体进行分类的准确率和效率。

附图说明

图1是本申请一实施例提供的一种目标群体分类方法的流程图；

图2是本申请一实施例提供的一种不同聚类数目的残差平方和示意图；

图3是本申请一实施例提供的一种跃迁情况示意图；

图4是本申请一实施例提供的一种应用于主播场景下的目标群体分类方法的处理流程图；

图5是本申请一实施例提供的一种目标群体分类装置的结构示意图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

k-means(k-means clustering algorithm，k均值聚类算法)：是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算，这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类，没有(或最小数目)聚类中心再发生变化，误差平方和局部最小等。

SSE(Sum ofSquares for Error，残差平方和)：反映每个样本各观测值的离散状况，又称为组内平方和或误差项平方和。

在本申请中，提供了一种目标群体分类方法，本申请同时涉及一种目标群体分类装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的一种目标群体分类方法的流程图，具体包括以下步骤：

步骤102：获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，所述特征组包含多个特征。

实际应用中，在对目标群体进行分类时，往往是随机选取目标群体的某些维度特征对应的数据，或者选取目标群体的全部维度特征对应的数据；然后基于选出的数据对目标群体进行分类，从而得到不同类别的目标群体。然而，由于目标群体的某些维度特征和其要划分的类别关联并不大，或不明显，因而随机选取的维度特征并不一定是对目标群体进行分类最好的特征，因而基于随机选取的维度特征对应的数据对目标群体进行分类，分类的准确率较差。另外，若选取全部维度特征对应的数据对目标群体进行分类，则会导致计算量极其庞大，分类效率大大降低。

因而，为了提高对目标群体进行分类的准确率和效率，本申请提供了一种目标群体分类方法，可以先获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，所述特征组包含多个特征；然后针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签；再根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数；最后根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。如此，可以预先确定多个特征组，并确定出基于不同特征组对目标群体进行分类的效果，然后选择效果最好的特征组用于后续对目标群体的分类操作，从而提高对目标群体进行分类的准确率和效率。

具体的，目标群体是指需要进行分类，从而划分不同类别的群体，如在主播场景下，目标群体可以为待分类的主播；购物场景下，目标群体可以为待分类的买家；视频应用程序场景下，目标群体可以为待分类的视频用户。历史数据是指目标群体在当前时间之前的相关数据，如在主播场景下，历史数据可以为主播在当前时间之前的直播数据；购物场景下，历史数据可以为买家在当前时间之前的购物数据；视频应用程序场景下，历史数据可以为待分类的视频用户在当前时间之前的视频播放数据。

需要说明的是，在获取到目标群体的历史数据后，可以进一步确定所获取到的历史数据对应的特征，从而确定目标群体的多个待评估的特征组，实际应用时，在确定出获取到的历史数据对应的各个特征后，可以对该特征进行任意组合，从而得到目标群体的多个待评估的特征组。其中，该特征可以是指目标群体的不同维度的特征，即数据所属的类型，如针对主播来说，特征可以为粉丝数、营收额、直播间访问人数、弹幕数、距离90天第一次开播间隔、90天内开播天数等；针对买家来说，特征可以为购买商品数量、花费金额、30天内登录购物平台次数、关注商家数等；针对视频应用程序用户来说，特征可以为购买视频会员的次数、花费金额、30天内登录视频应用程序的次数、收藏视频数、下载视频数等。

本实施例一个可选的实施方式中，所述目标群体为待分类主播；所述获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，具体实现过程可以如下：

获取所述待分类主播的历史数据，确定所述历史数据对应的至少一个主播维度特征；

根据所述至少一个主播维度特征，确定所述多个待评估的特征组。

具体实现时，可以先获取待分类主播的历史数据，然后确定出获取到的历史数据对应的各个主播维度特征，并对该主播维度特征进行任意组合，可以得到待分类主播对应的多个待评估的特征组。

示例的，在直播场景下，获取待分类主播的历史数据后，确定出获取到的历史数据对应的主播维度特征为粉丝数、观看人数、打赏人数、营收额、弹幕数、开播间隔、开播时长、平均观看时长、90天开播天数等，对上述主播维度特征进行任意组合，确定出四个特征组，分别为：粉丝数、观看人数、打赏人数、营收额、弹幕数；粉丝数、营收额、开播间隔、开播时长；观看人数、打赏人数、营收额、弹幕数、平均观看时长、90天开播天数；粉丝数、营收额、弹幕数、开播间隔。

本实施例一个可选的实施方式中，获取目标群体的历史数据，具体实现过程可以如下：

获取预设时长内所述目标群体的参考历史数据；

在所述目标群体中存在预设类型的目标群体的情况下，删除所述预设类型的目标群体的参考历史数据，得到所述目标群体的历史数据。

具体的，预设时长为预先设置的时间段，如一周、两周、一个月、两个月等。需要说明的是，随着时间的增加，历史数据会随之大幅度增长，而有些时间过于久远的数据对于聚类的参考性并不大，因而在获取目标群体的历史数据时，可以从目标群体的全部历史数据中筛选出预设时长内所述的历史数据(如一周内待分类主播的主播数据)，从而在保证数据准确性的基础上，降低计算量，节省处理资源和聚类时间。

另外，预设类型的目标群体是指无需进行聚类的群体，因而在获取到预设时长内全部群体的参考历史数据后，还可以删除该预设类型的目标群体的参考历史数据，从而避免对无需进行分类的目标群体进行无用处理，节省了数据处理资源。实际实现时，在所述目标群体为待分类主播的情况下，如果在待分类的各个主播中存在预设类型的主播的情况下，则可以删除所述预设类型的主播对应的参考历史数据。

示例的，在直播场景下，获取一周内各个待分类主播的主播数据，然后剔掉官方认证、企业认证等主播(这些是非个人主播，具有特殊性，不希望被推荐，也即无需进行聚类)。

步骤104：针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签。

具体的，在获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组的基础上，进一步的，将针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签。

需要说明的是，在确定出目标群体的多个待评估的特征组后，需要基于每个特征组对目标群体进行分类，从而确定出对目标群体进行分类效果最好的特征组，即针对多个待评估的特征组中的每个特征组，都需要执行一次分类及评估操作。实际应用中，针对所述多个待评估的特征组中的每个所述特征组，可以从获取到的全部历史数据中确定出所述特征组对应的历史数据，然后基于该历史数据对目标群体进行聚类及效果评估。

沿用上例，针对第一个特征组(粉丝数、观看人数、打赏人数、营收额、弹幕数)，从获取到的全部历史数据中，获取具体的粉丝数、观看人数、打赏人数、营收额、弹幕数等实际数据，进行后续聚类操作；针对第二个特征组、第三个特征组和第四个特征组，均执行上述操作，从获取到的全部历史数据中，获取具体的实际数据，进行聚类，从而分别得到上述四个特征组对应的聚类结果。

示例的，表1是某特征组对应的历史数据表，如表1所示，特征组包括粉丝数(fans)、主播营收(money_num)、直播间访问人数(watch_num)、弹幕数(danmu_num)、距90天第一次开播间隔(gap_days)、90天开播天数(broad_days)，针对主播0、主播1、主播2、主播3和主播4获取到的具体的历史数据如下述表1所示。

表1某特征组对应的历史数据表

本实施例一个可选的实施方式中，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，具体实现过程可以如下：

对所述特征组对应的历史数据进行取对数和归一化处理，得到预处理后的历史数据；

基于所述预处理后的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇。

需要说明的是，不同目标群体的历史数据可能会差距比较大，因而为了消弭不同目标群体的历史数据量级差异太大而造成的偏差，本申请中在基于特征组对应的历史数据，对所述目标群体进行聚类之前，还可以对历史数据进行取对数和归一化的处理，从而降低历史数据的维数，以降低差距。其中，归一化是以具体的历史数据为维度，不是以目标群体为维度。

具体实现时，可以对每个历史数据以10为底取对数，从而把一个比较大的历史数据变为一个比较小的历史数据，方便后续运算。历史数据取对数后，将最大的历史数据作为1，其他历史数据除以最大的历史数据，可以得到归一化后的历史数据。

示例的，表2是取对数后的历史数据表，下述表2中的历史数据是对上述表1中所示的历史数据取对数后得到的结果，如表2所示取对数后历史数据大大减小。以粉丝数(fans)为例，归一化是指将主播0的历史数据13.597741作为1，其他主播的历史数据均除以13.597741，可以得到归一化后的历史数据。

表2取对数后的历史数据表

本实施例一个可选的实施方式中，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，包括：

确定初始聚类数目；

根据所述特征组对应的历史数据，生成所述目标群体的聚类向量；

按照所述初始聚类数目对所述聚类向量进行聚类，得到所述初始聚类数目个聚类簇；

确定所述初始聚类数目个聚类簇的聚类误差；

令所述初始聚类数目自增预设值，返回执行按照所述初始聚类数目对所述聚类向量进行聚类，得到所述初始聚类数目个聚类簇的操作步骤，直至达到误差停止条件，得到所述至少两个目标聚类簇。

具体的，初始聚类数目是预先设置的第一次对目标群体进行聚类的类别数。聚类向量是根据历史数据生成的多维向量，对应的特征组为几个特征，此处生成的聚类向量就为几维向量，如主播的特征组为粉丝数、主播营收、直播间访问人数、弹幕数、距90天第一次开播间隔、90天开播天数等6个特征，此时主播对应的聚类向量是一个6维的特征向量。

另外，自增预设值是指预先设置的每次增加的聚类数目，如自增预设值可以为1，每次增加1类，或者自增预设值可以为2，每次增加2类。再者，聚类误差是表示聚类簇中每个聚类向量偏移聚类中心点的误差，当聚类误差较大时，则说明该聚类簇中的各个聚类向量较为分散，不够聚集，只有当聚类误差较小时，则说明该聚类簇中的各个聚类向量较为集中，此时得到的各个聚类簇较为合适。

需要说明的是，对目标群体进行聚类时，最开始并不知道将目标群体聚为几类较好，因而需要预先设置一个初始的聚类数目，然后一步步尝试，即确定将目标群体聚类为初始聚类数目的聚类效果(每个聚类簇中的聚类误差)，在聚类效果不达标的情况下，增加聚类数目，直至满足一定的条件，得到相应数目个合适的聚类簇。实际应用中，一般从2类开始尝试，然后逐次增加一类，即聚类数目2类、3类、4类依次递增；当然对于待聚类的目标群体数目庞大，且比较分散的情况下，可以直接从5类、7类、9类依次递增。

示例的，设置初始聚类数目为2，自增预设值为1。将全部的聚类向量进行聚类，得到2个聚类簇，确定该2个聚类簇的聚类误差；然后将初始聚类数目增加为3，将全部的聚类向量进行聚类，得到3个聚类簇，确定该3个聚类簇的聚类误差；再将初始聚类数目增加为4，将全部的聚类向量进行聚类，得到4个聚类簇，确定该4个聚类簇的聚类误差，依次类推，直至达到误差停止条件，得到最后需要划分的类别数，并得到对应的目标聚类簇

本实施例一个可选的实施方式中，按照所述初始聚类数目对所述聚类向量进行聚类，得到所述初始聚类数目个聚类簇，具体实现过程可以如下：

从所述聚类向量中选取所述初始聚类数目个参考向量，将所述初始聚类数目个参考向量作为聚类中心点；

根据其他向量与所述聚类中心点之间的距离，将所述其他向量分配至距离最近的聚类中心点，形成所述初始聚类数目个聚类簇，所述其他向量为所述聚类向量中除所述聚类中心点之外的向量；

计算所述初始聚类数目个聚类簇中每个所述聚类簇的质心，将所述质心作为聚类中心点，返回执行所述根据其他向量与每个所述聚类中心点之间的距离，将所述其他向量分配至距离最近的聚类中心点，形成所述初始聚类数目个聚类簇的操作步骤，直至满足聚类停止条件，得到所述初始聚类数目个聚类簇。

具体的，聚类停止条件可以是没有(或最小数目)对象被重新分配给不同的聚类簇，没有(或最小数目)聚类中心点再发生变化，误差平方和局部最小等。

需要说明的是，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇采用K-means聚类方法，具体而言，K-means是无监督的聚类算法，其主要思想是选择K(聚类数目)个点作为初始聚类中心，将每个聚类向量分配到最近的聚类中心形成K个聚类簇，然后重新计算每个聚类簇的中心，重复迭代以上步骤，直到聚类簇不再变化或达到指定迭代次数为止，完成聚类，从而让聚类簇内的聚类向量尽量紧密的连接在一起，而让不同聚类簇之间的距离尽量的大。

本实施例一个可选的实施方式中，确定所述初始聚类数目个聚类簇的聚类误差，包括：

针对所述初始聚类数目个聚类簇中的每个所述聚类簇，计算所述聚类簇中每个聚类向量与聚类中心点之间的误差距离，根据所述误差距离，确定所述聚类簇的聚类误差；

根据每个所述聚类簇的聚类误差，确定所述初始聚类数目个聚类簇的聚类误差。

实际应用中，可以计算聚类簇中每个聚类向量和聚类中心点之间的距离，得到对应的误差距离，然后将该聚类簇中每个误差距离的平均值(或方差、标准差等)作为该聚类簇的聚类误差；然后对每个聚类簇的聚类误差求平均(或方差、标准差等)，得到初始聚类数目个聚类簇的聚类误差，即将目标群体划分为该聚类数目个聚类簇，对应的总的聚类误差，后续可以根据该总的聚类误差，确定当前的聚类数目是否最优。

本实施例一个可选的实施方式中，达到误差停止条件，包括：

根据当前初始聚类数目个聚类簇的聚类误差，以及前一个初始聚类数目个聚类簇的聚类误差，确定误差递减率；

在所述误差递减率小于预设阈值的情况下，确定达到所述误差停止条件。

具体的，当前初始聚类数目是指当前的聚类数目，前一个初始聚类数目个是指自增预设值前的聚类数目，如当前初始聚类数目为4，则前一个初始聚类数目为3。

需要说明的是，在采用k-means聚类方法对聚类向量进行聚类，而k-means聚类方法是以最小化样本与聚类中心点的平方误差作为目标函数，将每个聚类簇的聚类中心点与聚类簇内聚类向量的平方距离误差和称为畸变程度(即聚类误差)，那么对于一个聚类簇来说，它的聚类误差越低，代表聚类簇内各个聚类向量越紧密，聚类误差越高，代表聚类簇内各个聚类向量越松散。

实际应用中，由于聚类误差会随着类别的增加而降低，但对于有一定区分度的历史数据，在达到某个临界点时聚类误差会得到极大改善，之后缓慢下降，这个临界点就是聚类性能较好的聚类数目，即最后要确定的目标聚类数目。因而，为了找到该目标聚类数目(即临界点)，就需要确定采用增加预设数值后的聚类数目与采用增加预设数值前的聚类数目进行聚类，聚类误差的下降幅度，即误差递减率，当误差递减率小于预设阈值的情况下，说明采用增加预设数值后的聚类数目进行聚类，聚类误差并没有大幅度降低，而是缓慢下降，此时可以确定达到所述误差停止条件，得到对应数目个目标聚类簇。

示例的，图2是本申请一实施例提供的一种不同聚类数目的残差平方和示意图，如图2所示，在聚类数目(K)增加至4时，SSE(残差平方和)得到了极大改善，而在聚类数目(K)增加至4之后，SSE(残差平方和)则缓慢下降，因而此时目标聚类数目(K)为4，此时可以得到4个聚类簇。

本实施例一个可选的实施方式中，确定每个所述目标聚类簇对应的群体标签，具体实现过程可以如下：

确定所述目标聚类簇包括的目标群体的平均特征值；

根据预设特征规则和所述平均特征值，确定所述目标聚类簇的群体标签。

具体的，目标群体的平均特征值是根据目标群体包括的各个特征的历史数据计算得到的；预设特征规则是预先设置的用于确定聚类簇中包括的各个目标群体的标签的规则。

示例的，表3是群体标签表，如下述表3所示，对主播进行聚类，得到了4类主播，通过计算4类主播各个特征的历史数据的平均值，可以发现labels＝0的主播各方面主播数据特征值均较低，但是距90天第一次开播时间较长，也就是开播时间较久，但水平较差，因而可以将labels＝0的主播的群体标签确定为尾部主播；labels＝1的主播各个特征的历史数据都处在中间水平，因而可以将labels＝1的主播的群体标签确定为成长主播；labels＝2的主播的观看人数、打赏人数、粉丝数等处于较高水平，因而可以将labels＝2的主播的群体标签确定为成熟主播；labels＝3的主播的观看打赏等数据都较低，距90天第一次开播天数是4类中最近的，也就代表刚开播不久，因而可以将labels＝3的主播的群体标签确定为新主播。

表3群体标签表

本申请中可以根据预设特征规则和聚类簇的历史数据的平均特征值，自动确定每个目标聚类簇的群体标签，无需人工一一分析每个聚类簇中历史数据的特征，进行人工打标签，大大节省了人力资源和时间成本，提高了标签确定效率。

步骤106：根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数。

具体的，在针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签的基础上，进一步的，将根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数。

需要说明的是，评估参数用于表示根据该特征组对目标群体进行聚类得到的目标聚类簇是否准确的参数。

本实施例一个可选的实施方式中，所述评估参数包括留存率或跃迁率；所述根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数，包括：

确定当前预设时长内所述至少两个目标聚类簇对应的初始评估数据，所述当前预设时长为获取所述历史数据的预设时长；

确定下一预设时长内所述至少两个目标聚类簇对应的更新评估数据；

根据所述初始评估数据、所述更新评估数据以及所述预设评估规则，确定所述特征组对应的评估参数。

具体的，留存率是指预设时长内留存下来的上一周期内的关注对象的情况，即预设时长后相较于当前预设时长内关注对象的数量增减情况。跃迁率是指下一预设时长内目标群体的群体标签相较于当前聚类得到的目标群体的群体标签的变化情况，即从当前时长至下一预设时长，有多少目标群体的标签发生了变化。

需要说明的是，当评估参数为留存率或跃迁率时，需要获取当前预设时长内和下一预设时长内的评估数据，从而确定当前特征组对应的评估参数。具体的，当评估参数为留存率时，初始评估数据为当前预设时长内目标群体的关注对象数，更新评估数据为下一预设时长内目标群体的关注对象数，基于该初始评估数据和更新评估数据，可以计算得到此时的留存率，由于不同目标群体的留存率应该不同，此时预设评估规则可以为不同群体标签对应的目标群体的留存率符合预设递增规则。当评估参数为跃迁率时，初始评估数据为当前预设时长内各个目标群体的群体标签，更新评估数据为下一预设时长内各个目标群体的群体标签，基于该初始评估数据和更新评估数据，可以计算得到此时的跃迁率，由于预设时长内目标群体中跃迁为其他标签的目标群体应该不会过大，即预设时长内目标群体中发生跃迁的目标群体所占的比例不多过大，此时预设评估规则可以为发生跃迁的目标群体所占比例是否符合预设比例阈值。

以主播场景为例，留存率可以是指预设时长内留存下来的粉丝数，此时预设评估规则可以为从新主播到成熟主播，留存率依次升高。主播跃迁率是指基于聚类的结果，下一预设时长内主播的跃迁情况，此时预设评估规则可以为预设时长内主播跃迁至其他等级的占比是否超过预设比例。

示例的，表4是留存率表，如下述表4所示，假设基于特征组A，聚类得到4类主播，分别为新主播、尾部主播、成长主播和成熟主播，如下述表4所示，从新主播到成熟主播，留存率依次升高，完全符合预设评估规则，说明基于特征组A对主播进行聚类的效果较好，此时可以确定评估参数为100。另外，假设基于特征组B，聚类得到4类主播，分别为新主播、尾部主播、成长主播和成熟主播，假设从新主播到尾部主播留存率降低，从尾部主播到成熟主播，留存率依次升高，也即有1类聚类簇不符合预设评估规则，说明基于特征组B对主播进行聚类的效果一般，此时可以确定评估参数为75。

表4留存率表

	第一周留存率	第二周留存率
			新主播	62％	37％
尾部主播	77％	63％
			成长主播	95％	87％
成熟主播	98％	96％
			合计	83％	70％

示例的，图3是本申请一实施例提供的一种跃迁情况示意图，如图3所示，假设基于特征组A，聚类得到4类主播，分别为新主播、尾部主播、成长主播和成熟主播，如图3所示，一周时间内，有10％的新主播跃迁到成熟主播，而有40％的新主播跃迁到尾部主播，若跃迁主播预设占比为60％，则此时完全符合预设评估规则，说明基于特征组A对主播进行聚类的效果较好，此时可以确定评估参数为100。另外，假设基于特征组B，聚类得到4类主播，分别为新主播、尾部主播、成长主播和成熟主播，假设一周时间内，有80％的新主播跃迁到成熟主播，则跃迁的主播占比超过预设占比，说明基于特征组B对主播进行聚类的效果一般，此时可以确定评估参数为20。

本实施例一个可选的实施方式中，所述评估参数包括准确率或召回率，所述目标群体携带样本标签；所述根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数，包括：

将所述目标聚类簇对应的群体标签，确定为所述目标聚类簇包括的目标群体的预测标签；

根据所述预测标签、所述样本标签以及所述预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数。

具体的，准确率是指预测为某群体标签的目标群体中有多少是真正的对应该群体标签的目标群体(预测为正的样本中有多少是真正的正样本)，即预测为某群体标签的目标群体中有多少目标群体的预测标签与样本标签相同；召回率是指目标聚类簇包括的全部目标群体中有多少目标群体被正确预测了(样本中有多少被预测正确了)，即目标聚类簇包括的全部目标群体中有多少目标群体的群体标签与样本标签相同。由于准确率或召回率大于预设阈值时，说明对目标群体预测的群体标签是准确的(即聚类效果好)，因而此时预设评估规则可以为准确率或召回率大于预设阈值。

需要说明的是，由于在计算准确率和召回率时，都需要将预测得到的标签(即聚类确定的群体标签)和样本自带的标签进行比较，因而在评估参数包括准确率或召回率，目标群体应该携带有样本标签，该样本标签是工作人员对各个目标群体设置的人工标签，然后可以将人工标签(样本标签)与聚类结果中各个目标群体的群体标签(预测标签)进行对比，从而确定群体标签的准确率和召回率。

实际应用中，准确率是指预测为正的样本中有多少是真正的正样本，预测为正存在两种可能，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，此时准确率为TP/(TP+FP)。召回率是指样本中有多少被预测正确了，也存在两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)，此时召回率是指TP/(TP+FN)。

步骤108：根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。

具体的，在根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数的基础上，进一步的，将根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。

本实施例一个可选的实施方式中，根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组，具体实现过程可以如下：

将所述多个待评估的特征组中评估参数最高的特征组，确定为所述目标特征组。

需要说明的是，确定出的目标特征组是最能够体现目标群体所属类别(即群体标签)的特征，即确定出的目标特征组是对目标群体进行分类，确定目标群体所属类别效果最好的特征组，也就是说，当存在需要分类的目标群体时，可以直接选取目标特征组对应的历史数据，对目标群体进行分类，从而可以快速高效得到目标群体准确的分类结果，确定其所属的主播类别。

本申请提供的目标群体分类方法，可以先获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，所述特征组包含多个特征；然后针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签；再根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数；最后根据所述多个待评估的特征组的目标聚类簇对应的评估参数，确定目标特征组。这种情况下，可以从目标群体的群体数据中获取某特征组对应的历史数据，然后基于获取到的该特征组对应的历史数据，对目标群体进行分类，从而得到多个聚类簇，然后根据对该多个聚类簇的聚类结果的评估，确定基于该特征组对目标群体进行分类的效果；如此，可以预先确定多个特征组，然后针对每一特征组执行上述操作，确定出基于不同特征组对目标群体进行分类的效果，然后选择效果最好的特征组用于后续对目标群体进行分类的操作，从而提高对目标群体进行分类的准确率和效率。

需要说明的是，本申请中提供的目标群体分类方法可以应用于主播场景下，对各个待分类的主播进行分类，此时目标群体为主播；目标群体分类方法也可以应用于购物场景下，对各个待分类的买家进行分类，此时目标群体为买家；目标群体分类方法还可以应用于视频应用程序场景下，对各个视频应用程序的用户进行分类，此时目标群体为视频用户。本申请中以目标群体分类方法应用于主播场景，即目标群体为主播，对各个待分类的主播进行分类为例进行说明。

下述结合附图4，以本申请提供的目标群体分类方法在主播场景下的应用为例，对所述目标群体分类方法进行进一步说明。其中，图4示出了本申请一实施例提供的一种应用于主播场景下的目标群体分类方法的处理流程图，具体包括以下步骤：

步骤402：获取待分类主播的历史数据，并基于所述历史数据确定所述待分类主播的多个待评估的特征组，所述特征组包含多个特征。

本实施例一个可选的实施方式中，获取待分类主播的历史数据，并基于所述历史数据确定所述待分类主播的多个待评估的特征组，具体实现过程可以如下：

本实施例一个可选的实施方式中，获取待分类主播的历史数据，具体实现过程可以如下：

获取预设时长内所述待分类主播的参考历史数据；

在所述待分类主播中存在预设类型的待分类主播的情况下，删除所述预设类型的待分类主播的参考历史数据，得到所述待分类主播的历史数据。

需要说明的是，随着时间的增加，历史数据会随之大幅度增长，而有些时间过于久远的数据对于聚类的参考性并不大，因而在获取待分类主播的历史数据时，可以从待分类主播的全部历史数据中筛选出预设时长内所述的历史数据(如一周内待分类主播的主播数据)，从而在保证数据准确性的基础上，降低计算量，节省处理资源和聚类时间。

本申请中在获取到预设时长内全部待分类主播的历史数据后，还可以删除预设类型的主播的历史数据，从而避免对无需进行分类的主播的历史数据进行无用处理，节省了数据处理资源。

步骤404：针对所述多个待评估的特征组中的每个所述特征组，对所述特征组的历史数据进行取对数和归一化处理，得到预处理后的历史数据。

需要说明的是，由于不同主播的历史数据可能会差距比较大，因而为了消弭不同主播的历史数据量级差异太大而造成的偏差，本申请中在基于历史数据，对所述待分类主播进行分类之前，还可以对历史数据进行取对数和归一化的处理，从而降低不同主播的历史数据的维数，以降低差距。

步骤406：基于所述预处理后的历史数据，对所述待分类主播进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的主播标签。

本实施例一个可选的实施方式中，基于所述预处理后的历史数据，对所述待分类主播进行聚类，得到至少两个目标聚类簇，具体实现过程可以如下：

确定初始聚类数目；

根据所述特征组对应的历史数据，生成所述待分类主播的聚类向量；

确定所述初始聚类数目个聚类簇的聚类误差；

需要说明的是，对待分类主播进行分类时，最开始并不知道将待分类主播分为几类较好，因而需要预先设置一个初始的聚类数目，然后一步步尝试，即确定将待分类主播划分为初始聚类数目的聚类效果(每个聚类簇中的聚类误差)，在聚类效果不达标的情况下，增加聚类数目，直至满足一定的条件，得到相应数目个合适的聚类簇。

本实施例一个可选的实施方式中，确定每个所述目标聚类簇对应的主播标签，具体实现过程可以如下：

确定所述目标聚类簇包括的主播的平均特征值；

根据预设特征规则和所述平均特征值，确定所述目标聚类簇的主播标签。

本申请中可以根据预设特征规则和聚类簇的历史数据的平均特征值，自动确定每个目标聚类簇的直播标签，无需人工一一分析每个聚类簇中历史数据的特征，进行人工打标签，大大节省了人力资源和时间成本，提高了标签确定效率。

步骤408：根据所述主播标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数。

步骤410：根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。

需要说明的是，确定出的目标特征组是最能够体现主播所属类别(即主播标签)的特征，即确定出的目标特征组是对主播进行分类，确定主播所属类别效果最好的特征组，也就是说，当存在需要分类的主播时，可以直接选取目标特征组对应的主播数据，对主播进行分类，从而可以快速高效得到主播准确的分类结果，确定其所属的主播类别。

本申请提供的目标群体分类方法，可以从待分类主播的主播数据中获取某特征组对应的历史数据，然后基于获取到的该特征组对应的历史数据，对待分类主播进行分类，从而得到多个聚类簇，然后根据对该多个聚类簇的聚类结果的评估，确定基于该特征组对待分类主播进行分类的效果；如此，可以预先确定多个特征组，然后针对每一特征组执行上述操作，确定出基于不同特征组对待分类主播进行分类的效果，然后选择效果最好的特征组用于后续对待分类主播进行分类的操作，从而提高对待分类主播进行分类的准确率和效率。

上述为本实施例的一种目标群体分类方法应用于主播场景下的示意性方案。需要说明的是，图4所示的目标群体分类方法的技术方案与上述图1所示的目标群体分类方法的技术方案属于同一构思，图4所示的目标群体分类方法的技术方案未详细描述的细节内容，均可以参见上述图1所示的目标群体分类方法的技术方案的描述。

与上述方法实施例相对应，本申请还提供了目标群体分类装置实施例，图5示出了本申请一实施例提供的一种目标群体分类装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，所述特征组包含多个特征；

第一确定模块504，被配置为针对所述多个待评估的特征组中的每个所述特征组，基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，确定每个所述目标聚类簇对应的群体标签；

第二确定模块506，被配置为根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数；

第三确定模块508，被配置为根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组。

可选地，第一确定模块504进一步被配置为：

确定初始聚类数目；

确定所述初始聚类数目个聚类簇的聚类误差；

可选地，第一确定模块504进一步被配置为：

确定所述目标聚类簇包括的目标群体的平均特征值；

可选地，所述评估参数包括留存率或跃迁率；第二确定模块906进一步被配置为：

可选地，所述评估参数包括准确率或召回率，所述目标群体携带样本标签；第二确定模块506进一步被配置为：

可选地，第二确定模块506进一步被配置为：

可选地，第一确定模块504进一步被配置为：

可选地，所述目标群体为待分类主播；获取模块502进一步被配置为：

可选地，获取模块502进一步被配置为：

获取预设时长内所述目标群体的参考历史数据；

本申请提供的目标群体分类装置，可以从目标群体的历史数据中获取某特征组对应的历史数据，然后基于获取到的该特征组对应的历史数据，对目标群体进行分类，从而得到多个聚类簇，然后根据对该多个聚类簇的聚类结果的评估，确定基于该特征组对目标群体进行聚类的效果；如此，可以预先确定多个特征组，然后针对每一特征组执行上述操作，确定出基于不同特征组对目标群体进行聚类的效果，然后选择效果最好的特征组用于后续聚类操作，从而提高聚类准确率和效率。

上述为本实施例的一种目标群体分类装置的示意性方案。需要说明的是，该目标群体分类装置的技术方案与上述的目标群体分类方法的技术方案属于同一构思，目标群体分类装置的技术方案未详细描述的细节内容，均可以参见上述目标群体分类方法的技术方案的描述。

图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，以实现下述方法：

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的目标群体分类方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述目标群体分类方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时以用于上述目标群体分类方法的操作步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的目标群体分类方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述目标群体分类方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种目标群体分类方法，其特征在于，包括：

2.根据权利要求1所述的目标群体分类方法，其特征在于，所述基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，包括：

确定初始聚类数目；

确定所述初始聚类数目个聚类簇的聚类误差；

3.根据权利要求2所述的目标群体分类方法，其特征在于，所述按照所述初始聚类数目对所述聚类向量进行聚类，得到所述初始聚类数目个聚类簇，包括：

计算所述初始聚类数目个聚类簇中每个所述聚类簇的质心，将所述质心作为聚类中心点，返回执行所述根据其他向量与所述聚类中心点之间的距离，将所述其他向量分配至距离最近的聚类中心点，形成所述初始聚类数目个聚类簇的操作步骤，直至满足聚类停止条件，得到所述初始聚类数目个聚类簇。

4.根据权利要求2所述的目标群体分类方法，其特征在于，所述确定所述初始聚类数目个聚类簇的聚类误差，包括：

5.根据权利要求2所述的目标群体分类方法，其特征在于，所述达到误差停止条件，包括：

6.根据权利要求1-5任一所述的目标群体分类方法，其特征在于，所述确定每个所述目标聚类簇对应的群体标签，包括：

确定所述目标聚类簇包括的目标群体的平均特征值；

7.根据权利要求1-5任一所述的目标群体分类方法，其特征在于，所述评估参数包括留存率或跃迁率；所述根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数，包括：

8.根据权利要求1-5任一所述的目标群体分类方法，其特征在于，所述评估参数包括准确率或召回率，所述目标群体携带样本标签；所述根据所述群体标签和预设评估规则对所述特征组的目标聚类簇进行评估，确定所述特征组对应的评估参数，包括：

9.根据权利要求1-5任一所述的目标群体分类方法，其特征在于，所述根据所述多个待评估的特征组对应的评估参数，从所述多个待评估的特征组中确定目标特征组，包括：

10.根据权利要求1-5任一所述的目标群体分类方法，其特征在于，所述基于所述特征组对应的历史数据，对所述目标群体进行聚类，得到至少两个目标聚类簇，包括：

11.根据权利要求1-5任一所述的目标群体分类方法，其特征在于，所述目标群体为待分类主播；所述获取目标群体的历史数据，并基于所述历史数据确定所述目标群体的多个待评估的特征组，包括：

12.根据权利要求1-5任一所述的目标群体分类方法，其特征在于，所述获取目标群体的历史数据，包括：

获取预设时长内所述目标群体的参考历史数据；

13.一种目标群体分类装置，其特征在于，包括：

14.一种计算设备，其特征在于，包括：

存储器和处理器；

15.一种计算机可读存储介质，其特征在于，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至12任意一项所述目标群体分类方法的步骤。