CN113139850A

CN113139850A - 一种缓解数据稀疏性和商品冷启动的商品推荐模型

Info

Publication number: CN113139850A
Application number: CN202110454998.2A
Authority: CN
Inventors: 王琨; 丁漩
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-07-20

Abstract

本发明公开了一种缓解数据稀疏性和商品冷启动的商品推荐模型，涉及兴趣挖掘技术领域，提出了CTR预估模型GEARec用于商品的个性化推荐。通过引入图嵌入技术，除了解决稀疏性和冷启动的问题，将预先训练好的Embedding输入到上层的深度神经网络，还可以加快网络的收敛速，进一步提升模型性能。GEARec模型由预训练的Embedding层、多头自注意力网络层、AUGRU和MLP构建而成。输入的用户行为序列的Embedding向量表示经过多头自注意力网络层和AUGRU后，将计算结果和其他Embedding进行拼接，输入到MLP中自动学习特征之间的非线性关系，最后输出用户购买候选商品的概率。

Description

一种缓解数据稀疏性和商品冷启动的商品推荐模型

技术领域

本发明涉及兴趣挖掘技术领域，特别涉及一种缓解数据稀疏性和商品冷启动的商品推荐模型。

背景技术

在实际的电商购物场景中，通常来说用户的兴趣迁移非常快，通过多头自注意力网络能够有效提取商品间的依赖关系，但现有技术整体上还是基于用户所有购买历史的综合推荐，而不是预测下一次购买的推荐。因此我们还需要针对不同的候选商品来筛选影响力更大的用户历史行为序列。

在现有的商品推荐***中经常会面临两种情况，用户只与很少的商品有过交互行为以及新上线的商品没有过用户行为，这种情况分别称之为稀疏性和冷启动问题。针对这两类问题，使用常规的推荐模型进行预测时表现并不是很好。因此针对此问题，本申请提出基于EGES技术、多头自注意力网络以及AUGRU结构，创建了一种新的推荐模型GEARec，从而解决数据稀疏性和用户商品冷启动问题。

发明内容

本发明的目的在于提供一种缓解数据稀疏性和商品冷启动的商品推荐模型，基于EGES技术、多头自注意力网络以及AUGRU结构，创建了一种新的推荐模型GEARec，从而解决数据稀疏性和用户商品冷启动问题。

本发明提供了一种缓解数据稀疏性和商品冷启动的商品推荐模型，包括：

Embedding预训练层：用于引入商品的各类属性，利用随机游走算法对商品的各类属性进行建模并获取到对应的Embedding向量，利用神经网络对各类Embedding向量的权重进行训练并融合，得到最终商品的Embedding；

多头自注意力网络层：将用户历史交互商品序列对应的特征向量和位置特征编码进行组合，作为多头自注意力网络层的输入，经过多头自注意力网络层线性变换后，输出经过编码的用户行为序列，并对用户行为序列内部隐含的商品间的依赖关系进行提取；

注意力权重AUGRU：根据提取出的依赖关系，引入注意力权重AUGRU结构，结合注意力得分对兴趣演化路径进行筛选；

多层神经网络MLP：将得到的兴趣演化结果和商品的Embedding进行拼接，输入到多层神经网络MLP中自动学习特征之间的非线性组合关系，最后输出用户购买目标商品的概率，根据概率判别是否向用户推荐该商品。

进一步地，商品的各类属性包括商品主分类、商品子分类以及商品品牌，通过加权平均的方法获取商品聚合后的Embedding向量公式，如下所示：

其中，

表示商品v的第j类属性对应的Embedding，

为相应的权重，

用于保证每类辅助信息的权重都大于0。

进一步地，使用Skip-Gram神经网络模型对各类Embedding的权重进行训练，EGES的损失函数表示为：

其中，H_v,Z_u分别表示商品v和商品u的Embedding，σ为sigmoid激活函数。

进一步地，位置特征编码的维度和用户历史交互商品序列对应的特征向量保持一致，均为d_model，位置编码的特征向量E称为用户历史交互商品向量，且表示如下：

将用户历史交互商品向量E输入到多头自注意力网络中，通过线性转换得到对应的Q，K和V，并且多个Linear层有不同的权重系数，再经过H次Scaled Dot-ProductAttention操作得到Z＝{Z₁,Z₂,…,Z}，具体公式如下所示：

其中，d_k为Q和K的维度；

将输出的H个Z_i拼接得到

经过一次线性转化即可得到最终输出H＝{H₁,H₂,…,H}，为保证输出的H结构和输入E保持一致，设置权重矩阵

d_model为输入向量E的维度。

进一步地，将商品序列的表达向量H输入到前馈神经网络FFN中，所述前馈神经网络FFN由两个线性变换和一个ReLU激活函数构成，具体公式如下：

FNN(h_t)＝max(0,h_tW₁+b₁)W₂+b₂ (5)

经过前馈神经网络后，完成了对用户历史交互商品向量中商品依赖关系的提取。

进一步地，使用Layer Normalization对模型的每部分的输出进行归一化处理，通过损失掉部分信息降低过拟合的风险，加速模型收敛；再通过构建残差网络解决网络层数加深时优化训练难的问题，具体公式如下：

f(x)＝LayerNorm(x+Sublayer(x)) (9)

其中，μ^l和σ^l分别为输入样本的的均值和方差，正则化计算过程中加入了缩放因子α和偏置项β调整归一化结果值，其中LayerNorm针对每一层神经网络分别计算均值和方差，之后再进行归一化操作，Sublayer包括多头注意力模块和前馈神经网络模块。

进一步地，兴趣演化路径进行筛选的方法如下：

对于上一层网络输出的隐藏层状态H＝{h₁,h₂,…,h_t}，本层网络通过计算h_i和候选商品的Embedding向量e_a之间的相关性对兴趣演化路径进行筛选，AUGRU中相关性是通过注意力函数来完成的，注意力函数如下所示：

其中，W是作为兴趣表示h_t到候选商品e_a的一个线性转换，用于两个不同维度的向量做内积运算；AUGRU通过注意力分数a_t影响GRU内部的更新门，加入注意力得分的GRU更新门具体形式如公式所示：

其中，u′_t为更新门的状态值，通过乘以注意力系数得到新的更新门状态，进一步影响隐藏层的输出值h′_t，此时AUGRU最后一个隐藏层输出状态v_t，v_t为用户行为序列中隐含的兴趣特征向量。

进一步地，对于任一用户行为序列来说，向量

t为用户行为序列长度，而e_a,

首先需要对E进行降维求和得到e_sum：

拼接得到稠密的向量表示记为I，输入到MLP中进行学习，使用PReLU作为激活函数：

其中a_i作为参数与神经网络一起进行训练，MLP内部计算过程见如下公式：

L₁＝PReLU(W₁·I+b₁) (15)

L₂＝PReLU(W₂·L₁+b₂) (16)

y_i＝Softmax(L₂) (17)

其中，y_i为用户购买候选商品的概率。

与现有技术相比，本发明具有如下显著优点：

(1)本发明对Embedding层进行了预训练，通过EGES技术可以充分利用商品相关的各类数据，很大程度上增强了Embedding本身的表达能力；一定程度上缓解了数据稀疏性和商品冷启动问题；将预训练的Embedding特征向量输入到神经网络中，可以加快整个网络的收敛速度从而提升模型性能；能够提升模型训练的灵活性。

(2)本发明通过位置编码结合多头自注意力机制的方式建模用户兴趣演化路径，能够充分挖掘用户行为序列中的隐含信息。并且，对于长序列也可以建立有效的依赖关系，这是相较于传统RNN及其变体的一大优势所在。另外多头自注意力机制可以通过并行计算极大的提升模型训练和预测效率，非常适用于工业界进行算法的落地。

(3)本发明考虑到在CTR预估场景中用户兴趣的多样性，通过AUGRU单元可以针对不同的目标商品对用户兴趣演化序列进行筛选，提取出与目标商品关联性更强的演化序列，进一步提升模型预测的准确性。

附图说明

图1为本发明实施例提供的GEARec模型结构图；

图2为本发明实施例提供的EGES模型结构图；

图3为本发明实施例提供的多头自注意力网络展开图；

图4为本发明实施例提供的多头自注意力网络输出结构图；

图5为本发明实施例提供的多头自注意力网络结构图。

具体实施方式

下面结合本发明中的附图，对本发明实施例的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本发明利用当下比较热门的Graph Embedding(图嵌入)技术来解决数据稀疏性和用户商品冷启动问题。在常规的Graph Embedding算法基础上，通过引入商品的辅助信息，利用随机游走算法对商品的各类属性进行建模并获取对应的Embedding(嵌入式)向量，之后再进一步的融合。将高维稀疏的特征向量转化为低维稠密的特征向量可以解决数据稀疏性的问题，而引入的辅助信息可以较好的解决冷启动问题。

本发明提出了基于EGES技术，多头自注意力网络以及AUGRU结构的推荐模型，并将其命名为GEARec(Graph Embedding supported Attentional Recommendation machine)。本发明在构建GEARec推荐模型基础上，通过与近几年比较主流的推荐模型进行对比实验来验证模型的有效性。实验结果表明，GEARec推荐模型在Books和Electronics数据集上，相对于当前比较先进的DIEN模型，RelaImpr指标分别提升了2.27％和2.42％。同时也针对GEARec模型的各个模块进行了更加细致实验，以此来探究影响模型性能的核心因素以及如何进一步提升模型性能。

本发明的设计实现了基于Spring Boot框架的商品推荐***，将GEARec模型与推荐***进行融合，以RPC接口的形式提供商品CTR预估和Top-N推荐服务。另外，以表格和图表的形式统计并展示训练模型使用的实验数据，提供数据的上传下载、模型训练、模型权重文件下载等功能。

本申请的核心主要是围绕商品推荐场景，提出了CTR预估模型——GEARec模型。GEARec通过图嵌入技术对Embedding进行预训练，之后和其他特征融合后一起输入到上层的深度神经网络中。深度神经网络由多头自注意力网络，AUGRU以及MLP共同构建，多头自注意力网络可以有效提取用户行为序列中商品间的依赖关系，再通过AUGRU对用户兴趣演化路径进行筛选并得到用户兴趣表示向量，之后通过MLP自动学习各类向量之间的非线性组合关系，输出当前用户对于候选商品的购买概率。GEARec模型结构图如图1所示。

参照图1-5，本发明提供了一种缓解数据稀疏性和商品冷启动的商品推荐模型，包括：

实施例1

在商品推荐***中经常会面临两种情况，用户只与很少的商品有过交互行为以及新上线的商品没有过用户行为，分别称之为稀疏性和冷启动问题。针对这两类问题，使用常规的推荐模型进行预测时表现并不是很好，因此本申请通过用户行为序列对商品相似性进行建模过程中，使用EGES来对商品的各类辅助信息进行嵌入融合，很大程度上的缓解了稀疏性和冷启动问题。

由于用户的兴趣在长时间内会发生变化，而短时间内兴趣通常是保持一致的，因此对于商品交互时间间隔超过一个小时的序列进行切割。抽取用户的历史行为序列，通过得到的序列构建出有向带权图G＝{V,E}，其中顶点V为商品id集合，若存在商品v_i到商品v_j的转移，则赋予边e_ij∈E对应的权重；

生成有向带权图后，基于随机游走产生大量的商品序列，商品转移概率基于边的权重M_ij，得到商品转移序列模型，具体公式如下：

在得到商品转移序列的同时，由于引入了Side Information(辅助信息)，同样可以得到对应的转移序列。辅助信息Side Information又称为商品的各类属性，商品的各类属性包括商品主分类、商品子分类以及商品品牌，从实际场景出发，每种Side Information对于最终商品的Embedding影响是不同的，因此需要赋予其不同的权重，通过加权平均的方法获取商品聚合后的Embedding向量公式，如下所示：

其中，

表示商品v的第j类side information对应的Embedding，

为相应的权重，

用于保证每类辅助信息的权重都大于0。

使用Skip-Gram神经网络模型对各类Embedding的权重进行训练，EGES的损失函数表示为：

其中，H_v,Z_u分别表示商品v和商品u的Embedding，σ为sigmoid激活函数。整体EGES模型结构如图2所示。Embedding的训练独立于上层的神经网络，可以一定程度的解决Embedding层训练开销大的问题。另一方面，经过预训练得到的Item Embedding本身就包含了很多有价值的信息，之后将其和其他特征进行拼接一起输入到上层神经网络中，可以加快神经网络的收敛速度。

实施例2

现有技术中，谷歌的Transformer模型首次提出了多头注意力机制(Multi-headAttention)并成功应用于机器翻译，取得了显著的效果。多头注意力机制本质是把自注意力机制中的缩放点积(Scaled Dot-Product Attention)操作做H次，之后再通过线性变换得到输出结果。自注意力机制带来的好处是可以更有效的捕获序列中长距离的互相依赖的特征，而通过多头(Multi-head)机制有助于网络捕捉到更加丰富的特征信息。因此，本申请将该机制引入到商品推荐场景中，对于较长的用户行为序列可以更好的提取到商品之间的依赖关系。

首先，由于自注意力模块没有包含任何循环或卷积结构，是无法捕捉到序列的顺序信息的，而对于用户交互序列来说，序列的位置信息是很重要的，因此首先要将用户历史交互商品序列对应的特征向量(Item Embedding)和位置特征编码(Position Encoding)进行组合，作为多头自注意力网络的输入。本发明采用了正弦位置编码的方法，根据输入序列长度生成固定的位置编码，不增加额外的参数量。位置特征编码(Position Encoding)的维度和用户历史交互商品序列对应的特征向量(Item Embedding)保持一致，均为d_model，位置编码的特征向量E称为用户历史交互商品向量，pos表示商品的实际交互次序，2i和2i+1分别表示嵌入矩阵维度的下标。最终商品的Embedding具体表示如下：

在推荐模型中引入位置编码可以有效的挖掘用户交互序列中商品的依赖关系，对用户兴趣迁移进行建模，而建模的过程是通过构建多头自注意力网络来完成的。

如图3所示，将用户历史交互商品向量E输入到多头自注意力网络中，此处多头和单头的区别在于复制了多个单头，通过线性转换得到对应的Q，K和V，并且多个Linear层有不同的权重系数，再经过H次Scaled Dot-Product Attention操作得到Z＝{Z₁,Z₂,…,Z}，具体公式如下所示：

其中，d_k为Q和K的维度；

将输出的H个Z_i拼接得到

d_model为输入向量E的维度。

目前多头自注意力模块涉及的操作均为线性变换，为了赋予整个网络非线性表达能力，将商品序列的表达向量H输入到前馈神经网络(Feed-forward Network)FFN中，所述前馈神经网络FFN由两个线性变换和一个ReLU激活函数构成，具体公式如下：

FNN(h_t)＝max(0,h_tW₁+b₁)W₂+b₂ (5)

经过前馈神经网络后，完成对用户历史交互商品向量中商品依赖关系的提取。

考虑到商品推荐场景中商品多样性和用户交互的复杂性，我们通过构建多层自注意力网络来更加充分地提取用户行为序列中的隐含信息。与此同时，为了防止随着网络层数加深出现过拟合问题，使用Layer Normalization对模型的每部分的输出进行归一化处理，通过损失掉部分信息降低过拟合的风险，加速模型收敛；再通过构建残差网络解决网络层数加深时优化训练难的问题，具体公式如下：

f(x)＝LayerNorm(x+Sublayer(x)) (9)

其中，μ^l和σ^l分别为输入样本的的均值和方差，正则化计算过程中加入了缩放因子α和偏置项β调整归一化结果值，其中Layer Norm针对每一层神经网络分别计算均值和方差，之后再进行归一化操作，Sublayer包括多头注意力模块和前馈神经网络模块。对于多头自注意力网络来说，每个Sublayer的输出都会输入到下一个Sublayer中，结构如图5所示。多头自注意力网络不仅可以提取到用户行为序列中任意两个商品之间的依赖关系，同时也能根据注意力得分将重点放在可以真正表达用户兴趣的商品上，使得最终的推荐效果得到提升。

实施例3

在实际的电商购物场景中，通常来说用户的兴趣迁移非常快，我们通过多头自注意力网络能够有效提取商品间的依赖关系，整体还是基于用户所有购买历史的综合推荐，而不是下一次购买推荐。因此我们还需要针对不同的候选商品来筛选影响力更大的用户历史行为序列。

用户行为序列是时间相关的序列，其中存在着或浅或深的前后依赖关系，而循环神经网络RNN及其变体对于时间序列建模有着出色的表现，因此本发明通过结合现有技术中提出的一种基于注意力更新门的GRU(GRU with Attentional Update gate,AUGRU)结构，更有针对性地模拟与候选商品相关的兴趣演化路径，同时也结合了注意力机制来对兴趣演化路径进行筛选。

兴趣演化路径进行筛选的方法如下：

整体是通过softmax函数进行相关性分类，其中，W是作为兴趣表示h_t到候选商品e_a的一个线性转换，用于两个不同维度的向量做内积运算；AUGRU通过注意力分数a_t影响GRU内部的更新门，也就是说用户当前兴趣和候选商品关联程度越强，对GRU隐藏层状态影响越大，反之则越小，这样可以有效筛选出重要用户兴趣演化路径，加入注意力得分的GRU更新门具体形式如公式所示：

将候选商品的Embedding向量e_a，用户历史交互商品向量E以及AUGRU最后输出的状态值v_t进行拼接，输入到多层感知机(MLP)中自动学习特征之间的非线性关系组合，之后再通过softmax输出最终的CTR预估值。对于任一用户行为序列来说，向量