CN109903082A

CN109903082A - 基于用户画像的聚类方法、电子装置及存储介质

Info

Publication number: CN109903082A
Application number: CN201910068877.7A
Authority: CN
Inventors: 金戈; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2019-06-18
Anticipated expiration: 2039-01-24
Also published as: WO2020151152A1; CN109903082B

Abstract

本发明涉及数据分析技术，提供一种基于用户画像的聚类方法，包括：获取多个用户的用户特征及其特征变量；将用户特征转为词向量；对词向量进行聚类，确定各用户特征所属类别；将所述特征变量划分为连续变量和离散变量；对离散变量和连续变量进行量化处理；筛选出有偏好的用户特征的类别，对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值；对所有经过量化处理的离散变量和连续变量进行聚类，得到有偏向的用户特征聚类。本发明还提出了一种电子装置及存储介质。本发明在保留全部特征信息的基础上，有针对性的聚类。

Description

基于用户画像的聚类方法、电子装置及存储介质

技术领域

本发明涉及数据分析技术领域，更为具体地，涉及一种基于用户画像的聚类方法、电子装置及存储介质。

背景技术

为精准营销服务，进而深入挖掘潜在的商业价值，于是，用户画像的概念应运而生。用户画像是用户信息的标签化，而一个标签通常是高度精炼的特征标识，如年龄、性别、用户偏好等，最后将用户的所有标签综合来看，就可以勾勒出该用户的立体“画像”了，用户画像可抽象出用户信息的全貌。现阶段对于用户画像进行聚类，通常数据源可以分为生活属性、行为属性等等，不能有针对性的准确聚类。

发明内容

鉴于上述问题，本发明的目的是提供一种在保留全部特征信息的基础上，有针对性的聚类的基于用户画像的聚类方法、电子装置及存储介质。

为了实现上述目的，本发明提供一种电子装置，所述电子装置包括存储器和处理器，所述存储器中包括基于用户画像的聚类程序，所述基于用户画像的聚类程序被所述处理器执行时实现如下步骤：

获取多个用户的用户特征及所述用户特征对应的特征变量；

将用户特征转化为词向量；

对词向量进行聚类，确定各用户特征所属类别；

将所述用户特征对应的特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量，所述离散变量是非数值型变量；

对离散变量和连续变量进行量化处理；

筛选出有偏好的用户特征的类别，对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值，所述偏好是指聚类过程的偏向性；

对所有经过量化处理的离散变量和连续变量进行聚类，得到有偏向的用户特征聚类。

此外，为了实现上述目的，本发明还提供一种基于用户画像的聚类方法，包括：

获取多个用户的用户特征及其对应的特征变量；

将用户特征转化为词向量；

对词向量进行聚类，确定各用户特征所属类别；

将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量，所述离散变量是非数值型变量；

对离散变量和连续变量进行量化处理；

优选地，所述对离散变量和连续变量进行量化处理的方法包括：

将具有次序性的离散变量转换为数值形式；

将不具有次序性且取值数量超过设定数量的离散变量转化为高阶形式；

将转换为高阶形式的离散变量进行编码；

筛选出编码后具有次序的所述离散变量与连续变量进行归一化处理。

优选地，所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括：

统计用户特征聚类后的类别数量n；

将有偏好的用户特征的类别的特征变量的权值在大于1不大于n-1的范围内进行变化；

根据赋权之后的聚类的轮廓系数或/和可解释性，确定最佳权值。

进一步，优选地，还包括：

将最佳权值对应的聚类结果作为最佳偏向的用户特征聚类，其中，包括：

根据下式计算每次聚类的轮廓系数

其中，s_i为第i次聚类的轮廓系数，a_i和b_i分别为第i次聚类结果中属于不同类别的距离最大的两个特征变量；

重复上述步骤，得到轮廓系数随权值的变化曲线，观察曲线是否有极值点，将轮廓系数最大值对应的权值作为最佳权值，与轮廓系数最大值对应的聚类结果作为最佳偏向的用户特征聚类。

此外，优选地，所述有偏好的用户特征的类别为一类或多类，当所述有偏好的用户特征的类别为一类时，所述有偏好的一类用户特征的特征变量的权值在大于1且不大于n-1范围内；当有偏好的类别为多类时，多类偏好的一类用户特征的特征变量的权值在大于1且权值之和不大于n-1范围内，n为用户特征聚类后的类别数量。

此外，优选地，所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括：

统计用户特征总数，属于每一个用户特征类别的用户特征数；

赋予有偏好的用户特征类别的权值在大于1到使得所述类别的用户特征数等于其他类别的用户特征数之和的范围内。

此外，为了实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于用户画像的聚类程序，所述基于用户画像的聚类程序被处理器执行时，实现上述的基于用户画像的聚类方法的步骤。

本发明所述基于用户画像的聚类方法、电子装置及计算机可读存储介质可以在保留全部特征信息的基础上，实现针对性的聚类，同时由于对离散特征的有序、无序处理，使得整体的精度得到提升。

附图说明

图1是本发明基于用户画像的聚类方法较佳实施例的应用环境示意图；

图2是图1中基于用户画像的聚类程序较佳实施例的模块示意图；

图3是本发明基于用户画像的聚类方法较佳实施例的流程图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下将结合附图对本发明的具体实施例进行详细描述。

本发明提供一种基于用户画像的聚类方法，应用于一种电子装置1。参照图1所示，为本发明基于用户画像的聚类方法较佳实施例的应用环境示意图。

在本实施例中，电子装置1可以是服务器、手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端客户端。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于用户画像的聚类程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于用户画像的聚类程序10等。

网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子客户端之间建立通信连接。

通信总线14用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-14的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的客户端、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。

在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

可选地，该电子装置1还可以包括逻辑门电路，传感器、音频电路等等，在此不再赘述。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作***以及基于用户画像的聚类程序10；处理器12执行存储器11中存储的基于用户画像的聚类程序10时实现如下步骤：

获取多个用户的用户特征及所述用户特征对应的特征变量；

将用户特征转化为词向量；

对词向量进行聚类，确定各用户特征所属类别；

对离散变量和连续变量进行量化处理；

在其他实施例中，所述基于用户画像的聚类程序10还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示，为图1中基于用户画像的聚类程序10较佳实施例的功能模块图。所述基于用户画像的聚类程序10可以被分割为：

用户特征获取模块110，获取多个用户的用户特征及其对应的特征变量；

转化模块120，将用户特征转化为词向量；

第一聚类模块130，对词向量进行聚类，确定各用户特征所属类别；

划分模块140，将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量，所述离散变量是非数值型变量；

量化模块150，对离散变量和连续变量进行量化处理；

偏好选择模块160，筛选出有偏好的用户特征的类别，对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值，所述偏好是指关注的用户特征，也是聚类过程的偏向性；

第二聚类模块170，对所有经过量化的离散变量和连续变量进行聚类，将有加权的用户特征类别的特征变量和无加权的用户特征类别的特征变量进行聚类，得到有偏向的用户特征聚类。

此外，本发明还提供一种基于用户画像的聚类方法。参照图3所示，为本发明基于用户画像的聚类方法较佳实施例的流程图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于用户画像的聚类方法，包括：

步骤S1，获取多个用户的用户特征及所述用户特征对应的特征变量，例如，可以利用网络爬虫技术从网络中获得用户特征及其特征变量，也可以通过专门的数据获得，又如，用户特征为性别，特征变量为女；

步骤S2，将用户特征转化为词向量，例如，从词向量词典中查找用户特征对应的词向量，具体地，词向量为预先准备的字典，其训练方法为Word2Vec；

步骤S3，对词向量进行聚类，确定各用户特征所属类别，这一步骤可通过Python中的SKLearn模块实现，例如，姓名、性别、年龄、籍贯等可以聚类为个人属性，学历、证书、工作经历等可以聚类为业务能力，家中排行、家庭结构，家庭幸福感、家庭教育等可以聚类为家庭责任感；

步骤S4，将所述特征变量划分为连续变量和离散变量,所述连续变量是具有次序属性的数值型变量，所述离散变量是非数值型变量(如地名、等级信息)，特征变量区分可通过编程自动实现；

步骤S5，对离散变量和连续变量进行量化处理；

步骤S6，筛选出有偏好的用户特征的类别，对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值，所述偏好是指聚类过程的偏向性，例如，对于偏向性格的聚类，则会上调性格相关用户特征的特征变量的比重，聚类结果在性格方面的差异会更显著；

步骤S7，对所有经过量化处理的离散变量和连续变量进行聚类，也就是说将有加权的用户特征类别的特征变量和无加权的用户特征类别的特征变量进行聚类(例如层次聚类，K-Means聚类等)，得到有偏向的用户特征聚类。这一步骤可以通过Python中K-Prototypes库实现。

上述聚类方法为非监督分类方法，根据用户画像特征，建立加权聚类算法，实现用户分类功可以根据具体应用场景做加权修改，可以根据业务需求有针对的加大聚类方法的偏好。

在步骤S5中，上述对离散变量和连续变量进行量化处理的方法包括：

将具有次序性的离散变量(例如等级)转换为数值形式；

将不具有次序性且取值数量超过设定数量(例如20个)的离散变量(地名等信息)转化为高阶形式(如身份、城市等级等信息)；

将转换为高阶形式的离散变量进行编码(例如，one-hot编码)；

在本发明的一个实施例中，在步骤S6中，所述有偏好的用户特征的类别为一类或多类，当所述有偏好的用户特征的类别为一类时，所述有偏好的一类用户特征的特征变量的权值在大于1且不大于n-1范围内；当有偏好的类别为多类时，多类偏好的一类用户特征的特征变量的权值在大于1且权值之和不大于n-1范围内，n为用户特征聚类后的类别数量。

在本发明的另一个实施例中，所述有偏好的用户特征的类别为一类或多类，当所述有偏好的用户特征的类别为一类时，所述有偏好的一类用户特征的特征变量的权值在大于1且使得所述类别的用户特征数等于其他类别的用户特征数之和的范围内；当有偏好的类别为多类时，多类偏好的一类用户特征的特征变量的权值在大于1且权值之和使得有偏好类别的用户特征总数等于无偏好的类别的用户特征数之和的范围内，例如，用户特征总数有800，具有4个用户特征类别，第一类别到第四类别的用户特征数分别为100、300、200、200，有偏好的分类为第一类别，则第一类别的权值在大于1不大于7的范围内进行变化。

可以采用上述两个实施例中对有偏好的用户特征类别赋予的权值在上述范围内进行变化，得到不同次赋值，从而得到不同次聚类，可以采用下述实施例中一种或多种的结合得到有偏好的用户特征类别的最佳权值。

在一个可选实施例中，所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括：

统计用户特征聚类后的类别数量n；

优选地，还包括：

根据下式计算每次聚类的轮廓系数

获得有偏好一类或多类的用户特征类别的经过量化处理的离散变量和连续变量构成的量化矩阵

B＝(b_ij)_m×n

其中，b_ij为第i个用户特征的第j个特征变量；

构建对有偏好的用户特征类别的特征变量不同次赋予不同权值的组合权值矩阵

F＝WΘ＝[F₁ F₂ … F_n]^T

F_n＝w_n,1θ₁+w_n,2θ₂+…+w_n,lθ_l

其中，矩阵W为有偏好一类或多类用户特征的特征变量不同次赋予的权值，Θ为各次赋予权值的线性系数向量，w_n,l为第l次对第n个特征变量赋予的权值，权值大于1且不大于n-1，n为特征变量的个数，l为赋权次数，w_l为第l次赋权的权值组成的权值向量，且每一个权值向量中权值之和不大于n-1，θ_l为第l次赋权的线性系数，θ_k≥0,k＝1,2,…,l，F_n为第n个特征的组合权值；

利用向量矩阵构建向量差矩阵C，

根据向量差矩阵和组合权值矩阵获得权值评价模型

M(F)＝CF＝CWΘ；

将权值评价模型一阶导数为零对应的组合权值矩阵的最优解分别作为各特征变量的最佳权值。

B＝(b_ij)_m×n

其中，b_ij为第i个用户特征的第j个特征变量；

F＝WΘ＝[F₁ F₂ … F_n]^T

F_n＝w_n,1θ₁+w_n,2θ₂+…+w_n,lθ_l

利用向量矩阵构建向量和矩阵H，

根据向量和矩阵和组合权值矩阵获得权值评价模型

M′(F)＝HF＝HWΘ；

利用向量差矩阵构建权值评价模型，体现了属于不同用户特征的特征变量之间的差异，使得特征变量聚类时的各类之间的差异清晰，具有较好的可解释性，利用向量和矩阵构建权值评价模型，体现了不同用户特征之间的联系使得特征变量聚类时具有良好的轮廓，因此，可以采用两者加权结合构建评价模型。

在本发明的一个实施例中，所述对离散变量和连续变量进行量化处理的方法包括：

判断离散变量的离散程度，所述离散程度可以根据词向量的极差、四分位距、方差、标准差、平均差和变异系数中的一种或多种方法获得，例如，采用平均方差评价离散度，

其中PC为一个用户特征的离散变量的离散程度，N为用户数，y_i和o_i分别为第i个用户的用户特征的离散变量及其期待值，所述期待值是使得离散程度降低的设定值；

对离散程度超过阈值(可以设定值，聚类精度越高，阈值越低)的离散变量进行概括统计，直到离散程度不超过阈值，例如，居住地的离散特征可以由小区概括统一为街道，概括统一为街道后的离散特征的离散程度依然超过阈值时，可以进一步概括统一为区/县。

在本发明的一个实施例中，所述对所有经过量化处理的离散变量和连续变量进行聚类，得到有偏向的用户特征聚类的方法包括：

赋予不同权值进行多次初始聚类；

根据多次初始聚类的结果构建树结构，其中，根节点从顶到低依次是第一次初始聚类结果到最后一次初始聚类结果的每一个聚类，边长为聚类结果中具有相同的特征变量占所有特征变量的比例；

以节点之间的边长差值相对于最大边长与最短边长的比值作为节点之间的相似度；

根据相似度对节点进行聚类(例如采用k-means方法聚类)，将聚类结果中初始聚类的交集作为最佳聚类结果。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质中包括基于用户画像的聚类程序，所述基于用户画像的聚类程序被处理器执行时实现如下步骤：

获取多个用户的用户特征及其对应的特征变量；

将用户特征转化为词向量；

对词向量进行聚类，确定各用户特征所属类别；

对离散变量和连续变量进行量化处理；

本发明之计算机可读存储介质的具体实施方式与上述基于用户画像的聚类方法、电子装置的具体实施方式大致相同，在此不再赘述。

上述基于用户画像的聚类方法、电子装置及存储介质可以选择较为关注的若干个字段(针对性分类，比如对这群用户我希望可以偏重于个人属性分类，那么就加大这部分属性的权重)进行权重调整(大于1)，实现有针对性的聚类。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端客户端(可以是手机，计算机，服务器，或者网络客户端等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于用户画像的聚类方法，其特征在于，包括：

获取多个用户的用户特征及所述用户特征对应的特征变量；

将用户特征转化为词向量；

对词向量进行聚类，确定各用户特征所属类别；

对离散变量和连续变量进行量化处理；

筛选出有偏好的用户特征的类别，对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值，所述偏好是指聚类过程的偏向性；

2.根据权利要求1所述的基于用户画像的聚类方法，其特征在于，所述对离散变量和连续变量进行量化处理的方法包括：

将具有次序性的离散变量转换为数值形式；

将转换为高阶形式的离散变量进行编码；

3.根据权利要求1所述的基于用户画像的聚类方法，其特征在于，所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括：

统计用户特征聚类后的类别数量n；

4.根据权利要求3所述的基于用户画像的聚类方法，其特征在于，所述根据赋权之后的聚类的轮廓系数或/和可解释性，确定最佳权值的步骤之后，还包括：

根据下式计算每次聚类的轮廓系数

5.根据权利要求1所述的基于用户画像的聚类方法，其特征在于，所述有偏好的用户特征的类别为一类或多类，当所述有偏好的用户特征的类别为一类时，所述有偏好的一类用户特征的特征变量的权值在大于1且不大于n-1范围内；当有偏好的类别为多类时，多类偏好的一类用户特征的特征变量的权值在大于1且权值之和不大于n-1范围内，n为用户特征聚类后的类别数量。

6.根据权利要求5所述的基于用户画像的聚类方法，其特征在于，所述对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法还包括：

获得有偏好一类或多类的用户特征类别的经过量化处理的离散变量和连续变量构成的量化矩阵；

B＝(b_ij)_m×n

其中，b_ij为第i个用户特征的第j个特征变量；

构建对有偏好的用户特征类别的特征变量不同次赋予不同权值的组合权值矩阵；

F＝WΘ＝[F₁ F₂ … F_n]^T

F_n＝w_n,1θ₁+w_n,2θ₂+…+w_n,lθ_l

利用向量矩阵构建向量差矩阵C，

根据向量差矩阵和组合权值矩阵获得权值评价模型；

M(F)＝CF＝CWΘ；

7.根据权利要求5所述的基于用户画像的聚类方法，其特征在于，所述对所述有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法还包括：

B＝(b_ij)_m×n

其中，b_ij为第i个用户特征的第j个特征变量；

F＝WΘ＝[F₁ F₂ … F_n]^T

F_n＝w_n,1θ₁+w_n,2θ₂+…+w_n,lθ_l

利用向量矩阵构建向量和矩阵H，

根据向量和矩阵和组合权值矩阵获得权值评价模型；

M′(F)＝HF＝HWΘ；

8.根据权利要求1所述的基于用户画像的聚类方法，其特征在于，所述对有偏好的用户特征类别的经过量化处理的离散变量和连续变量赋予大于1的权值的方法包括：

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器中存储有基于用户画像的聚类程序，所述基于用户画像的聚类程序被所述处理器执行时实现如下步骤：

获取多个用户的用户特征及其对应的特征变量；

将用户特征转化为词向量；

对词向量进行聚类，确定各用户特征所属类别；

对离散变量和连续变量进行量化处理；

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括有基于用户画像的聚类程序，所述基于用户画像的聚类程序被处理器执行时，实现如权利要求1至8中任一项权利要求所述基于用户画像的聚类方法的步骤。