CN114119151A

CN114119151A - 下一个购物篮个性化推荐方法、***及介质

Info

Publication number: CN114119151A
Application number: CN202111394783.2A
Authority: CN
Inventors: 欧宝源; 沈艳艳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-01
Anticipated expiration: 2041-11-23
Also published as: CN114119151B

Abstract

本发明提供了一种下一个购物篮个性化推荐方法、***及介质，包括：数据预处理步骤：获取用户物品间多行为交互序列数据，对获取的交互序列数据进行预处理，获得预处理后数据；模型训练步骤：根据获得的预处理后数据，建立用户物品间多行为交互的下一个购物篮个性化推荐模型并进行训练，获得训练后的模型；下一个购物篮推荐步骤：根据获得的训练后的模型，输入历史多行为交互序列数据，训练后的模型输出下一个购物篮内进行目标行为交互的物品。本发明利用元知识学习、循环神经网络以及序列重复复制机制，根据用户物品间的多行为交互序列，融合提取用户不同行为的共性与个性特征以及长短期个性化兴趣，有效提高下一个购物篮个性化推荐预测精度。

Description

下一个购物篮个性化推荐方法、***及介质

技术领域

本发明涉及个性化推荐技术领域，具体地，涉及一种下一个购物篮个性化推荐方法、***及介质，尤其地，涉及基于密集神经网络连接、循环神经块和分层多尺度更新机制，更好地学习文本中的长期依赖和分层结构，从而提高文本分类的准确率。

背景技术

在真实电商平台购物场景中，下一个购物篮推荐(如图1所示)，即为用户推荐一份购物列表用于下个时间点购买。一个购物篮可以看作是用户在一个时间点到下一个时间点这个时间段内交互过的物品集合。实际上用户与物品之间有多种交互行为，包括但不限于点击、添加到购物车、收藏、购买等等，通过这些不同的交互行为可以得到不同行为对应的购物篮序列。当一个用户对物品有点击、收藏等行为时，他会更倾向于购买这件物品。在本发明应用的场景中，购买行为就是目标行为，本发明旨在学习用户物品交互的多行为序列，推荐目标行为序列的下一个购物篮。在过去的研究中有各种各样的方法被提出来解决这一问题。

其中有一系列的研究在解决下一个购物篮推荐问题。一类是基于马尔科夫链的方法，假设下一个购物篮的物品与当前购物篮的物品是相互独立的。FPMC就是经典的马尔科夫链方法，把用户物品交互购物篮序列转化成转移矩阵，然后进行矩阵分解得到每个用户个性化特征表示。另一类是基于循环神经网络(RNN)的方法，DREAM考虑了历史购买行为序列来建模用户长期兴趣和短期爱好。

另外有一系列的研究是利用用户多行为交互序列进行个性化推荐建模。一类是利用单个循环神经网络处理多行为交互序列，通过给不同行为序列加上标记以区分，如RLBL，BINN等。HUP采用金字塔循环神经网络(Pyramid RNN)建模用户的层次兴趣。MKM-SR利用物品属性构建物品属性图，利用用户物品交互序列构建交互图，从而采用图神经网络的方法建模用户特征。这些方法不能建模不同行为序列的物品之间的关系，无法学习多行为之间的联系，不同行为对目标行为的贡献程度。

本发明技术解决的问题:现有下一个购物篮个性化推荐***，往往都只考虑单个目标行为对最后推荐结果的影响，很少有研究用户多行为序列对最终推荐结果的贡献。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种下一个购物篮个性化推荐方法、***及介质。

根据本发明提供的一种下一个购物篮个性化推荐方法，包括：

数据预处理步骤：获取用户物品间多行为交互序列数据，对获取的交互序列数据进行预处理，获得预处理后数据；

模型训练步骤：根据获得的预处理后数据，建立用户物品间多行为交互的下一个购物篮个性化推荐模型并进行训练，获得训练后的模型；

下一个购物篮推荐步骤：根据获得的训练后的模型，输入历史多行为交互序列数据，训练后的模型输出下一个购物篮内进行目标行为交互的物品。

优选的，所述对获取的用户物品间多行为交互序列数据进行预处理包括：

对用户物品间多行为交互序列数据进行预处理：对每个用户包含不同行为的交互序列，将不同行为交互序列拆分为多个同一行为交互序列，每个行为交互序列按交互时间顺序排序，在同一时间段内的进行交互的物品作为一个购物篮，最后获得每个用户的多行为交互购物篮序列；

所述用户物品间多行为交互序列数据包括：

用户对物品进行点击、添加到购物车、收藏、购买四种行为的用户物品交互序列，交互时间点。

优选的，所述的多行为交互的下一个购物篮个性化推荐模型包括编码器和解码器；

所述编码器包括三个神经网络模块：购物篮编码模块、多行为循环神经网络模块以及元知识循环神经网络模块；

优选的，所述的多行为交互的下一个购物篮推荐模型为：

其中，

表示训练的目标函数；

φ^*表示目标行为；

为用户u通过行为φ交互的购物篮；

为用户u在时间窗口T+1通过目标行为φ^*交互的购物篮；

表示训练集，x_i表示多行为交互购物篮序列，y_i表示x_i对应的真实下一个购物篮；

Pr(v|x_i)表示推荐下一个购物篮内物品v的概率。

优选的，所述的历史多行为交互序列数据为：过去T个时间窗口不同行为的购物篮序列数据，有|Φ|组交互购物篮序列数据，|Φ|表示不同的交互行为种类数。

根据本发明提供的一种下一个购物篮个性化推荐***，包括：

数据预处理模块：获取用户物品间多行为交互序列数据，对获取的交互序列数据进行预处理，获得预处理后数据；

模型训练模块：根据获得的预处理后数据，建立用户物品间多行为交互的下一个购物篮个性化推荐模型并进行训练，获得训练后的模型；

下一个购物篮推荐模块：根据获得的训练后的模型，输入历史多行为交互序列数据，训练后的模型输出下一个购物篮内进行目标行为交互的物品。

所述用户物品间多行为交互序列数据包括：

优选的，所述的多行为交互的下一个购物篮推荐模型为：

其中，

表示训练的目标函数；

φ^*表示目标行为；

Pr(v|x_i)表示推荐下一个购物篮内物品v的概率。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被执行时实现上述的下一个购物篮个性化推荐方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于循环神经网络、元知识学习及重复复制机制，能够有效地显式提取用户物品间多种行为交互隐藏的个性化用户特征，融合时间序列长期用户兴趣趋势特征，能够有效地提高预测下一个购物篮内目标行为交互物品准确率。

2、本发明利用用户物品间的多行为交互序列，学习多元行为知识表示，对用户购买行为进行下一个购物篮个性化推荐。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的用户物品间交互购物篮序列示意图。

图2为本发明的优选例提供的学习用户物品间多行为交互的下一个购物篮个性化推荐模型结构示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

进一步的，所述对获取的用户物品间多行为交互序列数据进行预处理包括：

所述用户物品间多行为交互序列数据包括：

进一步的，所述的多行为交互的下一个购物篮个性化推荐模型包括编码器和解码器；

所述的购物篮编码模块包括物品嵌入层与购物篮池化层；输入用户u通过行为φ交互的购物篮序列

其中

为用户u在时间点t通过行为φ交互的购物篮。购物篮中一件物品的编号v，物品嵌入层将每一个物品v通过映射矩阵P表示为一个物品向量e_v。由于每个购物篮由一系列物品组成，购物篮池化层对一系列物品向量进行最大池化操作，取物品向量每个维度上的最大值组成购物篮向量

具体流程如下：

其中，

Φ表示交互行为集合；

V表示物品编号集合；

v表示购物篮序列

中物品的编号；

表示用户u在时间点t通过行为φ交互的购物篮；

表示用户u通过行为φ交互的购物篮序列；

e_v表示编号为v的物品的特征向量；

P^T表示物品嵌入层映射矩阵转置；

d_e表示物品嵌入层向量空间的维度；

表示对应购物篮

的特征向量在第i维的值；

e_v[i]表示编号为v的物品的特征向量在第i维的值。

所述的多行为循环神经网络模块：

输入用户u通过行为φ交互的购物篮序列特征向量

本模块利用|Φ|个行为循环神经网络处理多种行为购物篮序列，每个行为循环神经网络对应处理一种行为购物篮序列，为了捕捉不同交互行为的序列信息，每个行为循环神经网络的参数都是独立不共享的。同时为了在行为循环神经网络中利用到元知识信息，元知识循环神经网络的隐藏状态向量也需要被用来更新，在时间点t处理行为φ的行为循环神经网络的隐藏状态向量

更新方式如下：

其中，

表示上一步的处理行为φ的行为循环神经网络的隐藏状态；

表示当前步的元知识循环神经网络的隐藏状态；

表示行为φ的购物篮特征向量

对应的参数矩阵；

表示行为φ的隐藏状态向量

对应的参数矩阵；

表示元知识循环神经网络的隐藏状态

对应的参数矩阵；

b^φ表示行为φ对应的误差项；

f是一个非线性的激活函数。

所述的元知识循环神经网络模块：

输入行为循环神经网络的隐藏状态向量

本模块的设计是为了捕捉不同交互行为之间的共同特征，聚合|Φ|个行为循环神经网络的隐藏状态向量，在时间点t的元知识循环神经网络的隐藏状态向量

更新方式如下：

其中，

|Φ|表示不同的交互行为种类数；

表示上一步的第1种行为对应的行为循环神经网络的隐藏状态，

表示上一步的第|Φ|种行为对应的行为循环神经网络的隐藏状态；

表示元知识循环神经网络学习到的参数矩阵；

b^M表示元知识循环神经网络的误差项；

f是一个非线性的激活函数。

所述的解码器：

考虑到用户对交互过的物品再次进行交互的概率很高，解码器采用重复复制模式与个性生成模式来计算给定多行为交互购物篮序列

推荐下一个购物篮内物品v的概率

如下：

其中，

Gen表示物品v在截止到时间窗口T之前的购物篮中都没出现过的场景；

Rep_φ表示物品v在截止到时间窗口T之前的购物篮中出现过交互行为φ的场景；

考虑到用户物品间不同交互行为会导致不同的重复出现频率，根据Rep_φ场景下的得分函数ηRep_φ(v)，预测在时间窗口T之前出现过的物品v在下一个购物篮中重复出现的概率

定义如下：

其中，

ηRep_φ(v)表示得分函数；

表示行为φ对应的参数向量的转置；

表示时间窗口T的φ行为对应的行为循环神经网络的隐藏状态；

Φ表示交互行为集合；

V表示物品编号集合；

v表示购物篮序列

中物品的编号；

表示用户u在时间点t通过行为φ交互的购物篮；

表示用户u通过行为φ交互的购物篮序列；

V′表示未出现在用户交互序列中的物品编号集合；

Z是确保最后生成概率符合规则的正则化项；

根据Gen场景下的得分函数ηGen(v)，预测在时间窗口T之前未出现过的物品v在下一个购物篮中出现的概率

定义如下：

其中，

ηGen(v)表示得分函数；

表示Gen场景的参数向量的转置；

表示时间步T的元知识循环神经网络的隐藏状态；

Φ表示交互行为集合；

V表示物品编号集合；

v表示购物篮序列

中物品的编号；

表示用户u在时间点t通过行为φ交互的购物篮；

表示用户u通过行为φ交互的购物篮序列；

V′表示未出现在用户交互序列中的物品编号集合；

Z是确保最后生成概率符合规则的正则化项。

进一步的，所述对多行为交互的下一个购物篮推荐模型进行训练，获得训练后的模型：

利用多分类损失函数交叉熵作为多行为交互的下一个购物篮推荐模型的目标函数，目标函数如下：

其中，

表示训练的目标函数；

φ^*表示目标行为；

Pr(v|x_i)表示推荐下一个购物篮内物品v的概率。

进一步的，所述的历史多行为交互序列数据为：过去T个时间窗口不同行为的购物篮序列数据，有|Φ|组交互购物篮序列数据，|Φ|表示不同的交互行为种类数。

本发明介绍了一种下一个购物篮个性化推荐***，可以通过本发明给的下一个购物篮个性化推荐方法的步骤流程实现。本领域技术人员可以将所述下一个购物篮个性化推荐方法，理解为所述下一个购物篮个性化推荐***的一个优选例。包括：

所述用户物品间多行为交互序列数据包括：

进一步的，所述的多行为交互的下一个购物篮推荐模型为：

其中，

表示训练的目标函数；

φ^*表示目标行为；

Pr(v|x_i)表示推荐下一个购物篮内物品v的概率。

下面通过优选例，对本发明进行更为具体的说明。

我们以阿里云天池数据集为例作为实施的距离。该数据集包括9137个用户，17611个物品，250452条点击行为交互数据，28766条添加到购物车行为交互数据，14249条收藏行为交互数据，39513条购买行为交互数据。其中购买行为是目标行为。我们将依次进行以下步骤。

(1)数据预处理

(1a)建立购物篮。根据每个用户与物品交互时间记录，将一个时间段内的交互物品归到一个购物篮中，不同行为的交互记录分别处理。

(1b)映射：将物品名称映射到物品ID。

(1c)物品向量初始化：给每个物品ID赋予一个随机初始化向量。

(1d)购物篮向量计算：根据购物篮里的物品向量利用最大池化方法计算购物篮向量。

(2)训练模型

(2a)初始化模型参数：随机初始化模型中的参数。

(2b)使用训练集训练模型：通常从训练集中随机抽取64或者128个样本组成一个批次输入神经网络进行训练。学习率测试了{0.01,0.001,0.0001}，并根据其在验证集上的表现选出最好的超参数。每个模型训练200个epoch，并且设置了及时停止策略，也即如果连续几个epoch在验证集上的表现没有提升就结束训练。实际情况显示，模型基本上在200个epoch以内都收敛了。

(2c)选择超参数：通过设置不同的超参数，如模型中时间窗口长度，隐藏层的神经单元个数等，来训练模型。最终我们通过验证集来比较不同模型的表现，选出预测误差(交叉熵)最小即预测精度最高的模型作为最终模型。

(3)预测

(3a)使用(2)中训练并选择的最优模型来对测试集进行预测。

本发明基于循环神经网络、元知识学习及重复复制机制，能够有效地显式提取用户物品间多种行为交互隐藏的个性化用户特征，融合时间序列长期用户兴趣趋势特征，能够有效地提高预测下一个购物篮内目标行为交互物品准确率。

优选例2：

1、本发明中的模型的特征，主要包含了3个部分：

(1)多行为循环神经网络

循环神经网络在不同的时间步之间建立连接，我们希望能够学习到用户长期个性化兴趣。同时为了处理多行为序列，设计多个行为循环神经网络，每个行为循环神经网络对应处理一种行为购物篮序列，为了捕捉不同交互行为的序列信息，每个行为循环神经网络的参数都是独立不共享的。同时为了在行为循环神经网络中利用到元知识信息，元知识循环神经网络的隐藏状态向量也需要被用来更新。

(2)元知识循环神经网络

受到元知识学习的启发，我们将元知识学习应用到循环神经网络。我们认为从用户的多行为交互序列中能提取出一些本质个性化特征，元知识学习与循环神经网络的结合能有效建模用户特征。元知识循环神经网络能够从各个行为循环神经网络中捕捉不同交互行为之间的共同特征，从本质上聚合提取用户个性化兴趣信息。

(3)重复复制机制

从用户物品间的交互历史记录来看，用户有倾向于重复交互以前交互过的物品。因此受到自然语言处理中对未出现在词典中的词进行拷贝机制的启发，我们设计了重复复制机制，计算用户与交互过的物品再次进行交互的概率。

优选例3：

本发明主要利用用户物品间多行为交互序列数据，提出了一个学习用户物品间多行为交互的下一个购物篮个性化推荐模型。本发明的下一个购物篮个性化推荐模型(如图2所示)主要包含两大部分：编码器和解码器。其中编码器包含3个不同的神经网络模块：购物篮编码模块、多行为循环神经网络模块以及元知识循环神经网络模块；解码器包含2个不同的神经网络模块：重复复制模块与个性生成模块。下面，对这两大部分和5个不同的神经网络模块做详细介绍。

编码器：

编码器主要通过用户物品间多行为交互序列数据提取用户行为个性以及共性特征、用户长期偏好与短期偏好，包含三个神经网络模块：购物篮编码模块、多行为循环神经网络模块以及元知识循环神经网络模块。

购物篮编码模块：包括物品嵌入层与购物篮池化层。输入用户u通过行为φ交互的购物篮序列

其中

具体流程如下：

其中，

Φ表示交互行为集合；

V表示物品编号集合；

v表示购物篮序列

中物品的编号；

表示用户u在时间点t通过行为φ交互的购物篮；

表示用户u通过行为φ交互的购物篮序列；

e_v表示编号为v的物品的特征向量；

P^T表示物品嵌入层映射矩阵转置；

d_e表示物品嵌入层向量空间的维度；

表示对应购物篮

的特征向量在第i维的值；

e_v[i]表示编号为v的物品的特征向量在第i维的值。

多行为循环神经网络模块：输入用户u通过行为φ交互的购物篮序列特征向量

更新方式如下：

其中，

表示上一步的处理行为φ的行为循环神经网络的隐藏状态；

表示当前步的元知识循环神经网络的隐藏状态；

表示行为φ的购物篮特征向量

对应的参数矩阵；

表示行为φ的隐藏状态向量

对应的参数矩阵；

表示元知识循环神经网络的隐藏状态

对应的参数矩阵；

b^φ表示行为φ对应的误差项；

f是一个非线性的激活函数。

元知识循环神经网络模块：输入行为循环神经网络的隐藏状态向量

更新方式如下：

其中，

|Φ|表示不同的交互行为种类数；

表示元知识循环神经网络学习到的参数矩阵；

b^M表示元知识循环神经网络的误差项；

f是一个非线性的激活函数。

解码器：

解码器主要通过编码器提取的用户个性及共性特征、用户长期偏好与短期偏好，预测下一个购物篮内进行目标行为交互的物品，主要包含2个不同的神经网络模块：重复复制模块与个性生成模块。

推荐下一个购物篮内物品v的概率

如下：

其中，

Rep_φ表示物品v在截止到时间窗口T之前的购物篮中出现过交互行为φ的场景。

重复复制模块：考虑到用户物品间不同交互行为会导致不同的重复出现频率，根据Rep_φ场景下的得分函数ηRep_φ(v)，预测在时间窗口T之前出现过的物品v在下一个购物篮中重复出现的概率

定义如下：

其中，

ηRep_φ(v)表示得分函数；

表示行为φ对应的参数向量的转置；

表示时间步T的φ行为对应的行为循环神经网络的隐藏状态；

Φ表示交互行为集合；

V表示物品编号集合；

v表示购物篮序列

中物品的编号；

表示用户u在时间点t通过行为φ交互的购物篮；

表示用户u通过行为φ交互的购物篮序列；

V′表示未出现在用户交互序列中的物品编号集合；

Z是确保最后生成概率符合规则的正则化项；

个性生成模块：根据Gen场景下的得分函数ηGen(v)，预测在时间T之前未出现过的物品v在下一个购物篮中出现的概率

定义如下：

其中，

ηGen(v)表示得分函数；

表示Gen场景的参数向量的转置；

表示时间步T的元知识循环神经网络的隐藏状态；

Φ表示交互行为集合；

V表示物品编号集合；

v表示购物篮序列

中物品的编号；

表示用户u在时间点t通过行为φ交互的购物篮；

表示用户u通过行为φ交互的购物篮序列；

V′表示未出现在用户交互序列中的物品编号集合；

Z是确保最后生成概率符合规则的正则化项。

具体地，所述模型训练模块：

所述对多行为交互的下一个购物篮推荐模型进行训练，获得训练后的模型：

其中，

表示训练的目标函数；

φ^*表示目标行为；

Pr(v|x_i)表示推荐下一个购物篮内物品v的概率。

下一个购物篮预测结果生成：

在模型使用梯度下降的方式训练完成后，对每个用户利用用户个性及共性特征、用户长期偏好与短期偏好，来计算下一个购物篮内会进行目标行为交互的物品的概率，概率最高的k个物品作为下一个购物篮内的物品预测结果。

本发明介绍了一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时下一个购物篮个性化推荐方法的步骤，计算机可读存储介质可以是U盘、CD以及硬盘等。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个装置、模块、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置、模块、单元可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。