CN112396428B

CN112396428B - 一种基于用户画像数据的客群分类管理方法及装置

Info

Publication number: CN112396428B
Application number: CN202011225923.9A
Authority: CN
Inventors: 于扬
Original assignee: Beijing Analysys Think Tank Network Technology Co ltd
Current assignee: Beijing Analysys Digital Intelligence Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2023-04-07
Anticipated expiration: 2040-11-05
Also published as: CN112396428A

Abstract

本发明实施例提供的一种基于用户画像数据的客群划分方法和装置，获取存储在kudu、hdfs或hive存储器中的用户画像数据；将行为数据、属性数据和标签数据，按照逻辑运算条件和因子运算条件对用户画像数据进行计算，得到目标用户；并将目标用户ID按照预设时间周期与用户画像数据进行关联后，对用户画像数据进行补全和归一化操作，得到满足预设格式的特征数据；将特征数据与预建的特征库进行匹配运算后，将目标用户划分至相应的客群。本发明将用户相关的行为、属性、标签数据按照用户id进行整合，基于kudu、hdfs、hive的特性对行为、属性及标签进行存储，提供高效的数据查询性能。解决了当前场景下进行客群划分使用画像维度单一，难以提升划分准确性的问题。

Description

一种基于用户画像数据的客群分类管理方法及装置

技术领域

本发明实施例涉及数据分类技术领域，具体涉及一种基于用户画像数据的客群分类管理方法及装置。

背景技术

随着互联网的快速发展，用户规模显著增加及需求多样性愈发复杂，为了对不同特征的用户提供更为匹配的产品、服务、内容，需要对用户进行有效的分群和分析。当前市场对于用户群的划分，主要利用已经收集的客户数据进行规则配置，人工的选择不同的维度及指标对用户进行划分。此类方式受限与操作人的业务水平，且无法从更为细致或难以人工洞察的角度对用户进行准确的划分。针对用户群划分的场景，需要有更为智能化更为简洁的方式提供服务。

然而当前为解决此类场景问题，主要是依赖业务人员基于对于用户的理解，结合收集到的用户属性，人工进行规则配置进行划分，其中会有如下的问题造成难以对用户进行有效划分的缺陷。第一，过度依赖对于操作人的业务经验，需要进行反复的尝试去确定最终的划分规则。第二，人工划分的方式仅仅可以对用户进行粗粒度的划分，难以从更细粒度发现用户之间的差异进行客群划分。第三，受限于对于数据的理解，无法全面的利用用户全部的信息，存在隐藏且可对用户进行区分的因素未纳入规则范围。

发明内容

针对现有技术的客群划分***的不足，本发明实施例提供一种基于用户画像数据的客群划分方法及装置，提供针对于不同能力层次的使用人使用不同的方式对客户进行划分，且针对于已划分的客群，帮助使用者快速了解客群之间的差异及特点，在客户数据方面，***支持利用客户产生的行为记录、收集的客户信息、客户标签等；在客群划分方面，***支持自定义行为、属性规则的配置方式，支持利用有监督和无监督的算法自动对所选择的目标客群进行不同层次的划分，展示不同客群的差异共使用者进行参考。其具体技术方案如下：

根据本发明实施例提供的一种基于用户画像数据的客群划分方法，包括步骤：获取存储在kudu、hdfs或hive存储器中的用户画像数据；其中，所述用户画像数据包括行为数据、属性数据和标签数据；所述行为数据包括：用户 ID、行为发生时间、行为内容；

将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件和因子运算条件对所述用户画像数据进行计算，得到目标用户；并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后，对所述用户画像数据进行补全和归一化操作，得到满足预设格式的特征数据；所述因子运算条件包括数值类型因子、字符类型因子和时间类型因子；所述特征数据包括行为特征数据、属性特征数据和标签特征数据；

将所述所述特征数据与预建的特征库进行匹配运算后，将所述目标用户划分至相应的客群。

进一步的，还包括采用主成分分析算法对目标用户在不同的客群中的主成分得分，根据所述得分完成客群评价。

进一步的，对所述用户画像数据按照行为发生时间创建分区，并对当日分区行为数量大于预设次数时，进行动态分桶存储。

进一步的，所述将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件和数值运算条件对所述用户画像数据进行计算，得到目标用户；并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后，对所述用户画像数据进行补全和归一化操作，得到满足预设格式的特征数据；具体包括步骤：

将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件、采用最小化筛选原则对所述用户画像数据进行逻辑筛选；

对进行逻辑筛选后的目标用户的用户画像数据分别进行数值类型因子、字符类型因子和时间类型因子的运算，得到因子运算筛选后的用户画像数据；

按照时间周期将因子运算筛选后的用户画像数据与所述目标用户ID进行关联；

对关联后的数据字段进行补全、归一化操作，得到满足预设格式的特征数据。

进一步的，在缺省值处理部分，采用填充KNN算法进行数据补全；使用线性函数归一化算法进行字段归一，按照线性函数将用户画像数据线性化转化到[0,1]的范围，再进行距离度量、协方差计算；在数据不符合正态分布时，通过均值绝对偏差标准化、对数变换、小数定标、sigmoid函数的方式进行归一化处理。

进一步的，将所述所述特征数据与预建的特征库进行匹配运算，包括步骤：

将所述目标用户的行为特征数据与特征库内的行为特征进行匹配时，如果抽取的行为特征包含特征库特征则可以判断为匹配成功；否则判断为匹配不成功；抽取出的用户属性特征与特征库内的属性特征进行匹配时，如果抽取的属性特征包含特征库特征则可以判断为匹配成功；否则判断为匹配不成功；抽取出的用户标签特征与特征库内的标签特征进行匹配时，如果抽取的标签特征包含特征库特征则可以判断为匹配成功；否则判断为匹配不成功。

本申请的另一方面提供一种基于用户画像数据的客群划分装置，包括：

数据集成模块，用于获取存储在kudu、hdfs或hive存储器中的用户画像数据；其中，所述用户画像数据包括行为数据、属性数据和标签数据；所述行为数据包括：用户ID、行为发生时间、行为内容；

特征提取模块，用于将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件和因子运算条件对所述用户画像数据进行计算，得到目标用户；并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后，对所述用户画像数据进行补全和归一化操作，得到满足预设格式的特征数据；所述因子运算条件包括数值类型因子、字符类型因子和时间类型因子；所述特征数据包括行为特征数据、属性特征数据和标签特征数据；

客群划分模块，用于将所述所述特征数据与预建的特征库进行匹配运算后，将所述目标用户划分至相应的客群。

进一步的，客群评价模块，用于采用主成分分析算法对目标用户在不同的客群中的主成分得分，根据所述得分完成客群评价。

进一步的，所述特征提取模块还包括：

逻辑筛选模块，用于将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件、采用最小化筛选原则对所述用户画像数据进行逻辑筛选；

因子筛选模块，用于对进行逻辑筛选后的目标用户的用户画像数据分别进行数值类型因子、字符类型因子和时间类型因子的运算，得到因子运算筛选后的用户画像数据；

关联模块，用于按照时间周期将因子运算筛选后的用户画像数据与所述目标用户ID进行关联；

补全和归一化模块，用于对关联后的数据字段进行补全、归一化操作，得到满足预设格式的特征数据。

本发明实施例提供的一种基于用户画像数据的客群划分方法和装置，包括步骤：获取存储在kudu、hdfs或hive存储器中的用户画像数据；将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件和因子运算条件对所述用户画像数据进行计算，得到目标用户；并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后，对所述用户画像数据进行补全和归一化操作，得到满足预设格式的特征数据；将所述所述特征数据与预建的特征库进行匹配运算后，将所述目标用户划分至相应的客群。本发明将用户相关的行为、属性、标签数据按照用户id进行整合，基于kudu、hdfs、hive的特性分别进行行为、属性及标签的存储，利用合理的分区及分桶策略，提供高效的数据查询性能。解决了当前场景下进行客群划分使用画像维度单一，难以提升划分准确性的问题。

进一步的，本发明通过特征提取以及客群划分，将筛选的目标客群以及整合的行为、属性及标签等画像数据进行缺省值处理和归一化操作，利用分类模型算法结合预值的客群特征规则，程序化的进行客群划分，解决了当前客群划分主要依赖于个人经验，难以利用完整的客户画像数据进行深入划分的问题。

进一步的，本发明利用完成的客群划分结果，结合数据集成的用户画像数据，可进行不同客群之间的特征及差异识别。利用主成分分析的方法，快速进行显著差异的识别，并进行评分，量化对于客群的评价。解决当前人工进行客群划分后无法量化评价客群，难以准确描述客群特征及差异的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例提供的一种基于用户画像数据的客群划分方法的优选实施方式流程图；

图2为本发明实施例提供的一种基于用户画像数据的客群划分装置的结构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1为本申请实施例提供的一种基于用户画像数据的客群划分方法的优选实施方式流程图，包括步骤：获取存储在kudu、hdfs或hive存储器中的用户画像数据；其中，所述用户画像数据包括行为数据、属性数据和标签数据；所述行为数据包括：用户ID、行为发生时间、行为内容；

上述方法还包括采用主成分分析算法对目标用户在不同的客群中的主成分得分，根据所述得分完成客群评价。本发明的技术方案中，根据用户产生的行为数据、属性数据以及标签数据分别进行行为、属性、标签的特征抽取，可以更全面、更高效的利用用户数据进行客群划分，大大降低了客群划分的准确性，同时不再需要人工进行相应的规则配置降低了人工参与的成本，最后对于划分后的客群提供简要的洞察评价，帮助使用者更快速、直观的了解客群之间的特征与差异，降低后续营销、运营工作的难度，提升最终的效果。

在本发明的具体实施方式中，还包括对所述用户画像数据按照行为发生时间创建分区，并对当日分区行为数量大于预设次数时，进行动态分桶存储。通过kudu、hdfs及hive进行用户数据的存储，其中，用户行为数据通过列式存储，以用户的ID、行为发生时间、行为内容三种元素组成，由于不同行为的属性字段不同，因此***采用了更易进行字段拓展的kudu进行行为数据存储。为提升行为数据在关联查询及特征提取时的效率，按照行为发生时间每日创建分区，当日分区行为数量大于10亿次的场景下，需要进行动态的分桶设计，具体设计参考方法：根据同样的行为字段(如商品ID)分桶(bucketing)且分桶数量相同的两个表(如订单，订单金额)，在通过商品ID进行join的时候，由于两个表相同的商品ID都分到相同ID的桶里，所以是可以独立进行 join以及聚合计算的(参考MapReduer的partition过程)。这样，每当一个桶的数据计算完成后，可以立即把这个桶所占用的内存释放掉，因此，通过控制并行处理桶的数量可以限制内存的占用。计算理论占用的内存：优化后的内存占用＝原内存占用/表的桶数量*并行处理桶的数量。数据存储均以用户的ID作为唯一主键，最终进行建模应用时通过主键关联用户的行为、属性及标签数据。

在本发明具体实施方式中，对用户画像数据进行特征提取时，将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件、采用最小化筛选原则对所述用户画像数据进行逻辑筛选；对进行逻辑筛选后的目标用户的用户画像数据分别进行数值类型因子、字符类型因子和时间类型因子的运算，得到因子运算筛选后的用户画像数据；按照时间周期将因子运算筛选后的用户画像数据与所述目标用户ID进行关联；对关联后的数据字段进行补全、归一化操作，得到满足预设格式的特征数据。

具体来说，按照指定的规则进行目标用户的筛选，并根据用户ID关联数据集成模块中的用户行为、属性和标签数据作为特征，通过缺省值、归一化等处理后进行特征训练，并结合已有的客群规则库进行匹配，输出至客群划分模块完成客群划分模型。首先将用户行为、属性和标签作为输入条件，按照集合运算条件进行多重运算，选定需要进行客群划分的目标人群。其中在具体实施时，集合运算划分为逻辑条件和因子两项，逻辑条件支持且或非关系，支持进行无限的嵌套逻辑，可以通过任意组内组间的组合关系进行逻辑筛选。需注意在实施过程中应当采用最小化筛选的原则，即组内支持且关系，组间支持且或非关系的逻辑，保障在筛选过程中可以可以随着逻辑关系的增加，逐步缩小目标用户的范围，以此保障程序的可用性。在因子部分，针对于数据集成模块存储的数据类型，可进行因子自身与因子之间的运算及对比操作，在数值类型因子方面支持大于、小于、大于等于、小于等于、不等于、开区间、闭区间、半闭区间、有值、无值等计算逻辑；在字符类型因子方面支持等于、不等于、包含、不包含、长度、排重数等计算逻辑；时间类型因子支持绝对时间、相对时间等计算逻辑。如因子主要为非数值和时间类型，可以采用bitmap的方式进行数据存储，可以进一步提升计算、比对的效率。

完成上述目标人群筛选后，***需按照目标用户id实现用户信息的关联。全量特征提取及不加任何限制，通过上述目标人群筛选的结果中用户ID，按照指定的时间周期，关联数据集成模块中用户相关的所有行为记录、属性数据以及标签数据。并对关联后的数据字段进行补全、归一化操作。在缺省值处理部分，采用填充KNN算法进行数据补全，即填充近邻的数据，先利用knn计算临近的k个数据，然后填充他们的均值，对于缺省比例达到80％以上的维度***将默认进行整列删除。归一化部分默认使用线性函数归一化算法进行字段归一，及按照线性函数将原始数据线性化转化到[0,1]的范围，在涉及距离度量、协方差计算、数据不符合正态分布的时候，***还可通过均值绝对偏差标准化、对数变换、小数定标、sigmoid函数的方式进行归一化处理。

上述提取后的特征，将用户划分到相应的分类下。具体实施步骤为将用户以及提取后的行为、属性及标签特征，与已经创建的特征规则库中记录的特征进行匹配，结合输入的行为、属性及标签特征的权重系数，得到最终的匹配度，将用户划分至指定分类。特征规则库对于每一类用户群体都应有所记录，包含行为、属性及标签的特征规则。

如在本发明实施案例中，特征规则库包含了白领人群、高富帅人群、三口之家人群、二次元人群、学生人群等不同的用户群，此类用户群均为在实际业务过程中积累的用户并按照用户群的不同关联行为、属性及标签特征生成人群对应的规则。***默认按照1：1：1的权重分配方式使用行为、属性及标签进行加权计算，支持自定义输入权重调整匹配算法。抽取出的用户行为特征与特征库内的行为特征进行匹配时，如果抽取的行为特征包含特征库特征则可以判断为匹配成功；否则判断为匹配不成功；抽取出的用户属性特征与特征库内的属性特征进行匹配时，如果抽取的属性特征包含特征库特征则可以判断为匹配成功；否则判断为匹配不成功；抽取出的用户标签特征与特征库内的标签特征进行匹配时，如果抽取的标签特征包含特征库特征则可以判断为匹配成功；否则判断为匹配不成功。在特征匹配过程中，如遇到用户所匹配的行为、属性及标签特征与特征规则库已有特征不存在匹配关系的情况，***将按照无监督的手段，将此类用户群默认划分为三类人群，并将其所具备的特征作为规则加入到特征库中。

本发明还提供了一种更优的实现方式，在抽取行为、属性和标签特征时直接将三类特征进行融合汇总，获取用户最终的加权特征值。将得到的特征输入到预先训练得出的分类模型中直接进行用户分类。此方法将极大降低特征计算的复杂度，且计算逻辑更为清晰。结合如上步骤，将目标客群用户划分至相应的分类，并将分类结果存储至hive数据库中以进行下一步的应用及分析。

针对已经完成划分的客群通过差异显著的画像维度进行客群评价，以更直观的理解模型划分后不同客群之间的特征及差异。具体实现步骤为：

***接收请求后，由hive中按照输入的客群id获取指定单个或多个客群的用户id明细。如本发明实施案例中接收到三口之家客群和二次元客群的对比请求，***将获取到的客群id将用户id明细拉取至内存中，并按照用户 id在kudu及hive中匹配行为、属性以及标签数据。

通过主成分分析的方式，对匹配到的行为、属性以及标签数据进行首次过滤，排除缺省值占比超过90％，非主要影响的因子。对比两类客群的主成分分析结果，对相同因子差别在10％之内的因子进行二次过滤，保留最终的因子结果。

在主成分分析实施时，首先对已经匹配的行为、属性以及标签数据进行标准化处理，然后计算相关矩阵或协方差矩阵；计算相关矩阵的特征值及特征向量；计算累计贡献率(一般要求累计贡献率达到85％以上)，通过观察系数计算主成分得分，及对每一个样本数据标准化后在协方差矩阵中计算各主成分的得分。

完成上述得分计算之后，将结果输出至***前端界面，完成客群的评价。

参见图2为本发明实施例提供的一种基于用户画像数据的客群划分装置的结构示意图，包括：

进一步的，所述特征提取模块还包括：

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于用户画像数据的客群划分方法，其特征在于，包括步骤：获取存储在kudu、hdfs或hive存储器中的用户画像数据；其中，所述用户画像数据包括行为数据、属性数据和标签数据；所述行为数据包括：用户ID、行为发生时间、行为内容；

将所述特征数据与预建的特征库进行匹配运算后，将所述目标用户划分至相应的客群；

还包括采用主成分分析算法对目标用户在不同的客群中的主成分得分，根据所述得分完成客群评价；

对所述用户画像数据按照行为发生时间创建分区，并对当日分区行为数量大于预设次数时，进行动态分桶存储；

所述将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件和数值运算条件对所述用户画像数据进行计算，得到目标用户；并将所述目标用户ID按照预设时间周期与所述用户画像数据进行关联后，对所述用户画像数据进行补全和归一化操作，得到满足预设格式的特征数据；具体包括步骤：将所述行为数据、属性数据和标签数据作为输入条件，按照逻辑运算条件、采用最小化筛选原则对所述用户画像数据进行逻辑筛选；对进行逻辑筛选后的目标用户的用户画像数据分别进行数值类型因子、字符类型因子和时间类型因子的运算，得到因子运算筛选后的用户画像数据；按照时间周期将因子运算筛选后的用户画像数据与所述目标用户ID进行关联；对关联后的数据字段进行补全、归一化操作，得到满足预设格式的特征数据；

在缺省值处理部分，采用填充KNN算法进行数据补全；使用线性函数归一化算法进行字段归一，按照线性函数将用户画像数据线性化转化到[0,1]的范围，再进行距离度量、协方差计算；在数据不符合正态分布时，通过均值绝对偏差标准化、对数变换、小数定标、sigmoid函数的方式进行归一化处理。

2.根据权利要求1所述的基于用户画像数据的客群划分方法，其特征在于，将所述所述特征数据与预建的特征库进行匹配运算，包括步骤：

3.一种基于用户画像数据的客群划分装置，其特征在于，包括：

客群划分模块，用于将所述特征数据与预建的特征库进行匹配运算后，将所述目标用户划分至相应的客群；

客群评价模块，用于采用主成分分析算法对目标用户在不同的客群中的主成分得分，根据所述得分完成客群评价；

所述特征提取模块还包括：

补全和归一化模块，用于对关联后的数据字段进行补全、归一化操作，得到满足预设格式的特征数据；