CN116611889A

CN116611889A - 基于用户画像标签的产品个性化推荐方法及***

Info

Publication number: CN116611889A
Application number: CN202310547913.4A
Authority: CN
Inventors: 罗清彩; 袁俊; 孙善宝; 李锐; 魏子重
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-08-18

Abstract

本发明公开了基于用户画像标签的产品个性化推荐方法及***，属于信息推荐技术领域，本发明要解决的技术问题为如何能够处理大规模数据量的用户标签，并区分不同标签的重要性程度，实现产品个性化推荐，采用的技术方案为：该方法具体如下：采集目标用户与已标注样本用户的相关特征，根据用户特征对所有用户进行分组；采集所有用户的画像标签，计算用户之间的相似度；获取每位用户的top k相似用户构造有向加权图，输入到图神经网络进行训练；获取样本用户节点的隐藏状态，与用户特征共同输入到机器学习模型中进行训练；获取目标用户节点的隐藏状态，与用户特征共同输入到训练好的机器学习模型中，输出目标用户可能感兴趣的产品类别及概率。

Description

基于用户画像标签的产品个性化推荐方法及***

技术领域

本发明涉及信息推荐技术领域，具体地说是一种基于用户画像标签的产品个性化推荐方法及***。

背景技术

个性化推荐指在用户消费意图不明确的情况下，利用机器学习或深度学习技术，结合用户特征构建用户兴趣模型，为不同的用户个性化推荐不同的产品，提升用户购买效率和产品体验。产品个性化推荐可以视为一个多分类问题，即预测用户购买每一类产品的可能性。

通常用户画像是根据用户人口学特征、网络浏览内容、网络社交活动和消费行为等信息而抽象出的一个标签化的用户模型，可以在一定程度上代表用户的性格、偏好等，其标签是能表示用户某一维度特征的标识。利用好这些用户标签，可以对用户的性格、偏好等进行解析，从而实现个性化的产品推荐。

但一个用户可能具备成百上千种标签，传统的机器学习技术难以处理这些数据。有相关技术通过构建“用户-标签”的异质图来充分挖掘用户标签信息，但随着标签数量的增长，会严重影响图计算效率。另外，各类标签的重要性程度是不同的，有的标签相对重要，有的标签相对不重要。

故如何能够处理大规模数据量的用户标签，并区分不同标签的重要性程度，实现产品个性化推荐是目前亟待解决的技术问题。

发明内容

本发明的技术任务是提供一种基于用户画像标签的产品个性化推荐方法及***，来解决如何能够处理大规模数据量的用户标签，并区分不同标签的重要性程度，实现产品个性化推荐的问题。

本发明的技术任务是按以下方式实现的，一种基于用户画像标签的产品个性化推荐方法，该方法具体如下：

采集目标用户与已标注样本用户的相关特征，根据用户特征对所有用户进行分组；

采集所有用户的画像标签，计算用户之间的相似度；

获取每位用户的top k相似用户构造有向加权图，输入到图神经网络进行训练；

获取样本用户节点的隐藏状态，与用户特征共同输入到机器学习模型中进行训练；其中，用户节点的隐藏状态是指每个节点对应的隐含用户特征的向量表示，用户节点的隐藏状态获取过程为：输入邻接矩阵与节点特征，再通过图卷积网络若干隐藏层的学习后，获得每个节点的隐藏状态；

获取目标用户节点的隐藏状态，与用户特征共同输入到训练好的机器学习模型中，输出目标用户可能感兴趣的产品类别及概率。

作为优选，分组采用无监督的聚类算法；

图神经网络采用有向图卷积网络(Directed Graph Convolutional Network，DGCN)；

机器学习模型采用极致梯度提升(eXtreme Gradient Boosting)算法。

更优地，采集所有用户的画像标签，计算用户之间的相似度具体如下：

采集用户的画像标签，将每个标签看作一个词语，根据逆文档频率计算每个标签的重要程度；

计算每一用户与组内其他用户的相似度；

计算每一用户与采样得到的组外用户集中每一用户的相似度；具体如下：

同一分组内的用户之间极为相似的概率一般高于不同分组的用户之间极为相似的概率，故对组外用户以概率p进行采样，减少计算量；采样完成后，计算每一用户与采样得到的组外用户集中每一用户的相似度；其中，0＜p≤1。

更优地，标签逆文档频率计算公式为：

其中，IDF(t)为标签t的IDF值；P为标签库的标签总个数；Q表示带有标签t的用户数目；IDF值越大，表示标签t的区分能力越强，其重要程度就越高；相反，IDF值越小，表示标签t的区分能力越弱，其重要程度就越低。

更优地，计算每一用户与组内其他用户的相似度具体如下：

设任一分组内有N个用户(U₁,U₂,...,U_N,)，依次计算每一用户与组内其他N-1个用户的相似度；对于用户U₁，其与组内任一其他用户U_n的相似度计算公式为：

其中，T₁表示用户U₁的画像，即用户U_i的所有标签；T_n表示用户U_n的画像；M表示用户U_i的标签总数；t_i表示用户U₁的画像中第i个标签；L表示T₁与T_n交集的标签总数；(T₁∩T_n)_j表示T₁与T_n交集中第j个标签；计算得到的用户U₁与组内任一其他用户U_n的相似度在[0,1]区间内。

需要说明的是，f(T₁,T_n)与f(T_n,T₁)可能不相等，有效避免了用户网络中出现大量双向边的情况。

作为优选，有向加权图是由节点、节点间的边以及边上的权重组成；

其中，节点表示用户；节点间的边表示尾节点用户是头节点用户的top k相似用户；边上的权值为头节点用户与尾节点用户的相似度。

更优地，获取每位用户的top k相似用户构造有向加权图具体如下：

对于选定用户，获取其相似度排名前k个组内用户，对应地在用户关系图中为选定用户的节点增加k条分别指向相似度排名top k个组内用户节点的加权边，边的权值为边所连接的头节点用户与尾节点的相似度。

一种基于用户画像标签的产品个性化推荐***，该***包括，

采集模块一，用于采集目标用户与已标注样本用户的相关特征，根据用户特征对所有用户进行分组；

采集模块二，用于采集所有用户的画像标签，计算用户之间的相似度；

获取模块一，用于获取每位用户的top k相似用户构造有向加权图，输入到图神经网络进行训练；

获取模块二，用于获取样本用户节点的隐藏状态，与用户特征共同输入到机器学习模型中进行训练；

获取模块三，用于获取目标用户节点的隐藏状态，与用户特征共同输入到训练好的机器学习模型中，输出目标用户可能感兴趣的产品类别及概率。

一种电子设备，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如上述的基于用户画像标签的产品个性化推荐方法。

一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如上述的基于用户画像标签的产品个性化推荐方法。

本发明的基于用户画像标签的产品个性化推荐方法及***具有以下优点：

(一)与现有技术方案相比，本发明实施例能够处理大规模数据量的用户标签，并计算用户之间的相似度，并且还可以区分不同标签的重要性程度；

(二)本发明解决了难以应对大数量的用户标签、标签之间重要性程度不同的问题，实现产品个性化推荐；

(三)本发明在计算用户相似度前，预先分组，对组外用户进行部分采样，减少用户相似度的计算量；

(四)本发明为画像相似的用户建立边的连接，通过图神经网络充分学习用户之间的相似关联；

(五)本发明将用户节点的隐藏状态与用户特征共同输入到机器学习模型中，提升模型的训练效果。

附图说明

下面结合附图对本发明进一步说明。

附图1为基于用户画像标签的产品个性化推荐方法的流程框图；

附图2为计算用户之间相似度的流程框图。

具体实施方式

参照说明书附图和具体实施例对本发明的基于用户画像标签的产品个性化推荐方法及***作以下详细地说明。

实施例1：

本实施例提供了一种基于用户画像标签的产品个性化推荐方法，该方法具体如下：

S1、采集目标用户与已标注样本用户的相关特征，根据用户特征对所有用户进行分组；

S2、采集所有用户的画像标签，计算用户之间的相似度；

S3、获取每位用户的top k相似用户构造有向加权图，输入到图神经网络进行训练；

S4、获取样本用户节点的隐藏状态，与用户特征共同输入到机器学习模型中进行训练；其中，用户节点的隐藏状态是指每个节点对应的隐含用户特征的向量表示，用户节点的隐藏状态获取过程为：输入邻接矩阵与节点特征，再通过图卷积网络若干隐藏层的学习后，获得每个节点的隐藏状态；

S5、获取目标用户节点的隐藏状态，与用户特征共同输入到训练好的机器学习模型中，输出目标用户可能感兴趣的产品类别及概率。

本实施例中的分组采用无监督的聚类算法。

本实施例中的图神经网络采用有向图卷积网络(Directed Graph ConvolutionalNetwork，DGCN)。

本实施例中的机器学习模型采用极致梯度提升(eXtreme Gradient Boosting)算法。

本实施例步骤S2中的采集所有用户的画像标签，计算用户之间的相似度具体如下：

S201、采集用户的画像标签，将每个标签看作一个词语，根据逆文档频率计算每个标签的重要程度；

S202、计算每一用户与组内其他用户的相似度；

S203、计算每一用户与采样得到的组外用户集中每一用户的相似度；具体如下：

本实施例步骤S201中的标签逆文档频率计算公式为：

本实施例步骤S202中的计算每一用户与组内其他用户的相似度具体如下：

本实施例步骤S3中的有向加权图是由节点、节点间的边以及边上的权重组成；

本实施例步骤S3中的获取每位用户的top k相似用户构造有向加权图具体如下：

实施例2：

本实施例提供了一种基于用户画像标签的产品个性化推荐***，该***包括，

获取模块一，用于获取每位用户的top k相似用户构造有向加权图，输入到图神经网络进行训练；其中，有向加权图是由节点、节点间的边以及边上的权重组成；节点表示用户；节点间的边表示尾节点用户是头节点用户的top k相似用户；边上的权值为头节点用户与尾节点用户的相似度。

本实施例中的采集模块二的工作过程具体如下：

(1)、采集用户的画像标签，将每个标签看作一个词语，根据逆文档频率计算每个标签的重要程度；

标签逆文档频率计算公式为：

其中，IDF(t)为标签t的IDF值，P为标签库的标签总个数，Q表示带有该标签的用户数目。IDF值越大，表示该标签的区分能力越强，其重要程度就越高。相反，IDF值越小，表示该标签的区分能力越弱，其重要程度就越低。

(2)、计算每一用户与组内其他用户的相似度；具体如下：

假设某一分组内有N个用户(U₁,U₂,...,U_N,)，依次计算每一用户与组内其他N-1个用户的相似度。对于用户U₁，其与组内任一其他用户U_n的相似度计算公式为：

其中，T₁表示用户U₁的画像(即用户U_i的所有标签)，T_n表示用户U_n的画像。M表示用户U_i的标签总数，t_i表示用户U₁的画像中第i个标签。L表示T₁与T_n交集的标签总数。(T₁∩T_n)_j表示T₁与T_n交集中第j个标签。最后，计算得到的用户U₁与组内任一其他用户U_n的相似度在[0,1]区间内。

(3)、计算每一用户与采样得到的组外用户集中每一用户的相似度；具体如下：

同一分组内的用户之间极为相似的概率一般高于不同分组的用户之间极为相似的概率，因此对组外用户以概率p进行采样(0＜p≤1)，减少计算量。采样完成后，计算每一用户与采样得到的组外用户集中每一用户的相似度。

本实施例中的获取模块一的工作过程具体如下：

实施例3：

本实施例还提供了一种电子设备，包括：存储器和处理器；

其中，存储器存储计算机执行指令；

处理器执行所述存储器存储的计算机执行指令，使得处理器执行本发明任一实施例中的基于用户画像标签的产品个性化推荐方法。

处理器可以是中央处理单元(CPU)，还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通过处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可用于储存计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现电子设备的各种功能。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器还可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，只能存储卡(SMC)，安全数字(SD)卡，闪存卡、至少一个磁盘存储期间、闪存器件、或其他易失性固态存储器件。

实施例4：

本实施例还提供了一种计算机可读存储介质，其中存储有多条指令，指令由处理器加载，使处理器执行本发明任一实施例中的基于用户画像标签的产品个性化推荐方法。具体地，可以提供配有存储介质的***或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该***或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RYM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作***等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到***计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于用户画像标签的产品个性化推荐方法，其特征在于，该方法具体如下：

采集所有用户的画像标签，计算用户之间的相似度；

2.根据权利要求1所述的基于用户画像标签的产品个性化推荐方法，其特征在于，分组采用无监督的聚类算法；

图神经网络采用有向图卷积网络；

机器学习模型采用极致梯度提升算法。

3.根据权利要求1或2所述的基于用户画像标签的产品个性化推荐方法，其特征在于，采集所有用户的画像标签，计算用户之间的相似度具体如下：

计算每一用户与组内其他用户的相似度；

对组外用户以概率p进行采样，减少计算量；采样完成后，计算每一用户与采样得到的组外用户集中每一用户的相似度；其中，0＜p≤1。

4.根据权利要求3所述的基于用户画像标签的产品个性化推荐方法，其特征在于，标签逆文档频率计算公式为：

5.根据权利要求3所述的基于用户画像标签的产品个性化推荐方法，其特征在于，计算每一用户与组内其他用户的相似度具体如下：

6.根据权利要求1所述的基于用户画像标签的产品个性化推荐方法，其特征在于，有向加权图是由节点、节点间的边以及边上的权重组成；

7.根据权利要求1或6所述的基于用户画像标签的产品个性化推荐方法，其特征在于，获取每位用户的top k相似用户构造有向加权图具体如下：

8.一种基于用户画像标签的产品个性化推荐***，其特征在于，该***包括，

9.一种电子设备，其特征在于，包括：存储器和至少一个处理器；

其中，所述存储器上存储有计算机程序；

所述至少一个处理器执行所述存储器存储的计算机程序，使得所述至少一个处理器执行如权利要求1至7任一项所述的基于用户画像标签的产品个性化推荐方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序可被处理器执行以实现如权利要求1至7中任一项所述的基于用户画像标签的产品个性化推荐方法。