CN112258262B

CN112258262B - 一种基于卷积自注意力网络的会话推荐方法

Info

Publication number: CN112258262B
Application number: CN202010969069.0A
Authority: CN
Inventors: 张寅�; 汪千缘
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2023-09-26
Anticipated expiration: 2040-09-15
Also published as: CN112258262A

Abstract

本发明公开了一种基于卷积自注意力网络的会话推荐方法。本发明包括如下步骤：1)先将会话内每个物品表示成低维向量，该低维向量由物品嵌入和位置嵌入相加而成；2)对低维向量进行序列建模和意图建模，序列建模捕捉会话的序列信息，意图建模捕捉会话的关键意图信息；3)基于得到的拼接序列信息和关键意图信息，有选择地预测用户下一步点击重复物品或不重复物品。和现有技术相比，首先，本发明可以捕捉会话内不同片段之间的相互依赖，得到会话片段敏感的物品表示。然后，本发明使用双向线性解码器，降低了模型的参数量并提升模型的性能和鲁棒性。最后，本发明使用高斯偏移改进注意力层，计算高斯权重因子，以此来提升重复推荐解码器的性能。

Description

一种基于卷积自注意力网络的会话推荐方法

技术领域

本发明涉及神经网络方法在会话推荐技术上的应用，尤其涉及采用卷积操作捕捉会话局部片段特征和采用高斯偏移丰富权重因子信息量的技术方法。

背景技术

大数据时代背景下，“信息过载”是一个常见的问题。如何从纷繁复杂的数据中获取有价值的信息，是大数据技术发展的关键难题。推荐***(Recommender Systems，简称RS)是解决信息过载的有效方法。推荐***指的是，通过利用消费者与网站的历史交互信息，对消费者及其交互信息进行建模，挖掘消费者兴趣爱好，进而对海量选择进行过滤、评估，最终为消费者进行个性化推荐的技术***。

传统的个性化推荐***往往需要掌握用户信息来进行特色化推荐。但是许多电子商务推荐***(尤其是小型零售商的***)和大多数新闻和媒体网站通常不会跟踪长时间访问其网站的用户身份。虽然浏览器缓存可以提供一定信息，辅助网站对用户的识别和画像，但这些技术往往不够可靠，而且有可能涉及隐私问题。会话根据一段时间内的匿名行为序列(如点击、购买、收藏、加购物车等)，预测用户的下一步行为。这样的匿名行为序列，本发明称为“会话”。会话内的行为，本发明称为“物品”。

近些年，循环神经网络、自注意力网络等深度学习技术被成功应用于会话推荐算法中。相较于循环神经网络(RNN)，自注意力网络(SAN)在建模长期依赖、避免信息遗忘方面有明显优势，但现有模型仍然存在三个问题：

1)忽略了局部相关性。局部相关性指的是会话内不同序列片段之间的相互依赖。序列片段是比单个物品更加抽象的特征单位。在建模物品时捕捉局部相关性，能得到更好的物品表示，提升预测的准确度。

2)常规的全连接解码器参数量巨大，训练时间长，模型鲁棒性差。

3)忽略了会话内物品被点击的先后顺序对重复推荐结果的影响。在重复消费现象中，用户下一时刻点击的物品更有可能是最近点击过的物品。

发明内容

本发明的目的是解决现有技术中存在的问题，并提供一种基于卷积自注意力网络的会话推荐方法。本发明使用基于卷积自注意力网络的编码器捕捉会话中的局部相关性，得到会话片段敏感的物品表示，提升建模会话的性能。本发明利用双向线性解码器降低模型的参数量，提升模型的性能和鲁棒性。本发明利用高斯权重建模会话内各物品与最后一个物品之间的距离远近关系，提升了重复推荐解码器的性能。

本发明具体采用的技术方案如下：

一种基于卷积自注意力网络的会话推荐方法，其步骤如下：

S1：给定一个会话作为输入，获取会话内每个物品的低维向量，该低维向量由物品嵌入和物品在会话中的位置嵌入相加而成；

S2：在S1获得的低维向量基础上，使用基于卷积自注意力网络的序列编码器建模会话的序列信息，使用基于卷积自注意力网络和高斯注意力机制的意图编码器建模会话的关键意图信息并计算高斯权重；

S3：拼接S2中得到的序列信息和关键意图信息得到会话隐层表示，输入到重复-探索选择器中预测用户下一步选择重复或不重复物品的概率；然后在重复推荐解码器中计算各重复物品的条件概率，在探索推荐解码器中计算各不重复物品的条件概率，两种解码器输出的边缘概率相加，得到模型对所有可能物品的预测概率。

作为优选，所述基于卷积自注意力网络的序列编码器建模会话的序列信息的方法为：

S211：使用卷积操作捕捉会话内每个物品周围的会话片段特征，建模物品表示时以该特征进行交互，得到会话片段敏感的物品表示；

S212：基于S211中得到的物品表示，利用自注意力网络捕捉会话中不同物品之间的相互依赖，建模会话的序列信息。

进一步的，所述S212中的自注意力网络为掩码多头自注意力网络。

进一步的，所述基于卷积自注意力网络和高斯注意力机制的意图编码器建模会话的关键意图信息并计算高斯权重的具体方法为：

S221：基于S211中得到的物品表示，利用卷积自注意力网络捕捉不同物品之间的相互依赖；

S222：基于S221中得到的物品表示，利用注意力机制计算各物品在会话之中所占的权重，不同物品表示的加权之和为会话的关键意图信息；然后以会话中最后一个物品为高斯分布的期望中心，计算经过高斯偏移的各物品的高斯权重。

进一步的，所述重复-探索选择器中预测用户下一步选择重复或不重复物品的概率的具体方法为：

拼接所述的序列信息和关键意图信息，输入到线性网络层中进行映射变换，再经过softmax层进行归一化，得到重复推荐概率和探索推荐概率，用于判断向用户推荐点击过的物品还是未点击过的物品。

进一步的，所述重复推荐解码器中计算各重复物品的条件概率的具体方法为：

以S222中得到的高斯权重为输入，整合计算用户下一步点击各重复物品的条件概率。

进一步的，所述探索推荐解码器中计算各不重复物品的条件概率的具体方法为：

拼接所述序列信息和关键意图信息得到会话隐层表示，并通过双向线性变换矩阵和物品嵌入矩阵将其映射到未点击物品的分类上，最后经过softmax层进行归一化，得到用户下一步点击不重复物品的条件概率。

和现有技术相比，首先，本发明可以捕捉会话内不同片段之间的相互依赖，得到会话片段敏感的物品表示。然后，本发明使用双向线性解码器，降低了模型的参数量并提升模型的性能和鲁棒性。最后，本发明使用高斯偏移改进注意力层，计算高斯权重因子，使其包含会话内各物品与最后一个物品在位置顺序上的远近关系，以此来提升重复推荐解码器的性能。

附图说明

图1是基于卷积自注意力网络的会话推荐方法流程图；

图2是本发明的整体框架。

图3是多头卷积自注意力网络的框架图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，在本发明中提供了一种基于卷积自注意力网络的会话推荐方法，其步骤如下：

S1：给定一个会话作为输入，获取会话内每个物品的低维向量，该低维向量由物品嵌入和物品在会话中的位置嵌入相加而成。

S2：在S1获得的低维向量基础上，使用基于卷积自注意力网络的序列编码器建模会话的序列信息，使用基于卷积自注意力网络和高斯注意力机制的意图编码器建模会话的关键意图信息并计算高斯权重。

其中，基于卷积自注意力网络的序列编码器建模会话的序列信息的方法为：

S211：使用卷积操作捕捉会话内每个物品周围的会话片段特征，建模物品表示时以该特征进行交互，得到会话片段敏感的物品表示。

S212：基于S211中得到的物品表示，利用自注意力网络捕捉会话中不同物品之间的相互依赖，建模会话的序列信息。其中，自注意力网络为掩码优选多头自注意力网络。

其中，基于卷积自注意力网络和高斯注意力机制的意图编码器建模会话的关键意图信息并计算高斯权重的具体方法为：

其中，重复-探索选择器中预测用户下一步选择重复或不重复物品的概率的具体方法为：

其中，重复推荐解码器中计算各重复物品的条件概率的具体方法为：

其中，探索推荐解码器中计算各不重复物品的条件概率的具体方法为：

下面为了进一步展示本发明的具体实现过程，将上述方法应用于具体实施例中。

实施例

本实施例中该方法的整体框架如图2所示。为了方便后文理解方便与书写上的统一，本节对后文涉及到的一些术语给出公式化描述。相关数学符号及其含义如表1所示。

表1会话推荐相关数学符号与含义

本发明基于卷积自注意力网络的会话推荐方法具体包括如下步骤：

步骤1.获取每个物品的向量表示

1.1)针对给定的输入会话，使用物品嵌入矩阵emb将输入的物品序列[x₀,x₁,…,x_t-1,x_t]索引映射为低维空间的实值向量序列，得到物品嵌入表示。

1.2)为了补充会话内物品的位置先后信息，额外增加位置编码。使用基于三角函数的位置编码，计算公式如下：

其中pos是物品在会话中的位置。两个公式中的i指的是物品嵌入的维度d_model是位置编码的维度，公式中的2i和2i+1是为了区分维度的奇偶。

1.3)物品嵌入表示与位置编码相加，就是最终的物品向量表示[x₀,x₁,…,x_t-1,x_t]。

步骤2.建模序列信息、关键意图信息以及计算高斯权重

2.1)以步骤1的结果[x₀,x₁,…,x_t-1,x_t]为输入，使用基于卷积自注意力网络(Convolutional Self-Attention Networks，简称ConvSAN)的序列编码器建模序列信息。捕捉每个物品的局部特征，得到会话片段敏感的物品表示，输出隐层表示最后一个隐层表示包含了会话的序列信息，记为/>整个网络中进行的计算过程可记为以下表达式：

ConvSAN包含两个子层：多头卷积自注意力网络层和前馈神经网络层。每个子层的输入输出都会经过残差连接和层正则。残差连接有助于回传梯度，层正则可以加速模型收敛。计算公式如下：

SubLayerOutput＝LayerNorm(x+SubLayer(x))

先介绍多头卷积自注意力网络，该网络的整体框架如图3所示。Q、K，V向量分别是网络中的查询(Query，简称Q)向量，键(Key，简称K)向量以及值(Value，简称V)向量。为了捕捉每个物品周围片段的特征，Q和K均使用尺寸为k的卷积核进行卷积计算。这样建模物品i时，通过卷积抽取该物品周围长度为k的序列片段特征(“周围”指物品i以左，防止未来信息泄露)，任意两物品通过该特征进行交互。记卷积得到的物品i的Q、K，V向量为V_i。具体计算过程下：

V_i＝x_i

其中W^Q，B^Q表示对Q进行卷积操作的权重矩阵和偏置。同理，W^K，B^K是对K进行卷积操作的权重矩阵和偏置(下面表达式中出现的W和B均为可训练的参数矩阵，不再详细说明)。接下来进行自注意力运算：

其中是缩放因子，避免Q^conv(K^conv)^T乘积过大进入softmax函数的饱和域。d_k是K^conv的维度。

利用多头机制将Q^conv、K^conv，V映射到多个相同维度的子空间中，再将不同子空间的注意力计算结果相拼接。这样有助于网络捕捉到更丰富的信息。

MultiHead(Q^conv,K^conv,V)＝concat(h₀,h₁,ch_t)

其中第i个子空间中进行的注意力计算如下：

h_i＝Attention(Q^convW_i ^Q,K^convW_i ^K,VW_i ^V)

再来介绍前馈神经网络层。卷积自注意力网络层的输出，经过层正则和残差连接后，是前馈神经网络层的输入。该层实现两次线性变换和一次Relu激活：

FFN(x)＝(Relu(xW₁+b₁))W₂+b₂

需要指出的是，针对会话推荐场景而言，在建模x_t的时候，仅仅知道x₀,x₁,…,x_t而不知道x_t+1。因此，为了防止未来信息泄露，本发明在自注意力机制上额外增加了掩码(mask)，遮蔽x_t之后的信息，变成掩码多头自注意力(Masked Multi-head Attention)。

2.2)以步骤1的结果[x₀,x₁,…,x_t-1,x_t]为输入，使用意图编码器建模会话的关键意图信息和计算高斯权重。

意图编码器中包含两个部分：单层ConvSAN层以及高斯注意力层(GaussianAttention，简称GaussAtten)。在意图编码器中进行计算：

会话嵌入输入到ConvSAN层中，输出隐层表示输入到GaussAtten层中，输出用户关键意图的隐层表示/>和高斯权重因子weight_Gauss。网络中进行的计算过程如下：

本发明首先介绍α_tj,α_tj是权重因子，权重因子越大，表明在会话中/>所占的比重越大。/>为高斯权重因子。它们的计算方式如下：

q是计算和/>之间的相似度的函数。该相似度函数计算过程如下：

σ是激活函数，可以是sigmoid函数也可以是softmax函数，本实施例的模型中选择使用sigmoid函数。A₁是一个线性变换矩阵，将映射到隐层空间中。同理A₂和ν的作用也是这样。

然后介绍比α_tj多了一项G_tj。本发明首先介绍矩阵G。/>是基于高斯分布的位置对齐矩阵，I为会话长度。G_tj是矩阵中的一项，衡量的是物品j与中心位置的物品t之间的紧密度，计算过程如下：

其中σ_t是标准差，一般设置为高斯窗口D_t的一半；j为物品j在会话中的位置，P_t为物品t的预测中心位置，相当于期望；G_tj<0。预测中心位置P_t和高斯窗口D_t均是学习得到的：

显然，P_t和D_t的范围被限定在(0,I)内。p_t和z_t为标量，计算过程如下：

其中H为/>的维度。/>和/>为线性映射矩阵，将输出映射为标量。他们共享相同的W_p，这是因为应用到会话中，以最后一个物品为中心位置对其他物品的权重进行高斯偏移时，高斯分布的期望和方差之间可能存在一定的关联。

序列编码器的输出与意图编码器的输出/>进行拼接，得到最终的会话隐层表示：/>c_t送入后续解码器中，weight_Gauss送入重复推荐解码器中。

步骤3.使用重复-探索解码器预测用户下一步点击各个物品的概率，做出推荐

3.1)利用重复-探索选择器(Repeat-Explore Selector，简称RES)计算用户下一步点击重复物品或者不重复物品的概率。RES相当于一个二分类器，用于判断向用户推荐点击过的物品(重复机制)还是未点击过的物品(探索机制)。它包含两个部分：第一部分是线性变换层，将会话的隐层表示映射为两个机制的得分；第二部分是softmax层，计算归一化概率。具体计算过程如下：

[P(r|[x₀,x₁,…,x_t]),P(e|[x₀,x₁,…,x_t])]＝softmax(c_tW_re)

其中P(r|[x₀,x₁,…,x_t])为重复机制概率，P(e|[x₀,x₁,…,x_t])为探索机制概率。W_re ^H×2是权重矩阵，H为c_t的维度。

3.2)利用重复推荐解码器(Repeat Recommendation Decoder，简称D_R)计算重复机制下，用户点击重复物品的概率。它的输入是权重weight_Gauss，输出是用户点击过的物品的条件概率分布。具体计算过程如下：

其中表示[x₀，x₁，…，x_t]中所有x_i的高斯权重因子之和，因为在会话[x₀，x₁，…，x_t]中，同一个物品x_i可能会多次出现。

3.3)利用探索推荐解码器(Explore Recommendation Decoder，简称D_E)计算用户未点击过的物品得分。它包含两个部分，第一部分是双向线性变换层，将编码器的表示映射到未点击物品的分类上去；第二部分是softmax函数，对分类结果进行概率归一化。具体计算过程如下：

P(x_i|，[x₀，x₁，…，x_t])＝softmax(f_xi)

其中emb是物品的嵌入矩阵。B为双向线性变换矩阵，大小为|H|×|D|。其中H为c_t的隐层维度，D为物品嵌入维度。

两类推荐得分相加，就是所有物品的推荐得分。以预测单个物品x_i的推荐得分为例，计算过程如下：

P(x_i)＝P(x_i|r，[x₀，x₁，…，x_t])P(r|[x₀，x₁，…，x_t])+P(x_i|e，[x₀，x₁，…，x_t])P(e|[x₀，x_1，…，x_t])

步骤4.使用优化器优化模型参数，进行多次迭代实验使模型收敛

本实施例采用交叉熵损失函数，Adam优化器。损失函数如下：

其中m为样本数量，y_i，k指的是样本i的第k个分类，正类为1负类为0。p_i，k指的是样本i第k个分类的预测概率。正类在本实施例指的是用户点击的下一个物品，负类指的是所有其他物品。

为了测试上述基于卷积自注意力网络的会话推荐模型的实际效果，以下基于相应数据集进行测试。

1.下载LASTFM和YOOCHOOSE数据集，选用LASTFM的听歌记录和YOOCHOOSE的购买记录作为数据集，然后进行预处理。对于YOOCHOOSE数据集，本发明首先删除长度小于3的序列。统计经过处理后的数据中，仅有4％的会话长度大于10。因此，本发明删除掉长度大于10的会话，保留剩余的数据。这个数据集表示长度较短的会话数据集，后续实验中简称YOO。对于LASTFM数据集，本发明利用它生成两个长度较长的数据集。具体做法是：对于第一个数据集，首先随机选择2000首被播放的音乐，筛选出所有包含这些音乐的记录；然后设置最大会话长度L＝20，利用大小为L步长也为L的滑动窗口，生成最大会话长度不超过20的会话；最后，那些两个物品之间间隔超过2小时的会话，因时间间隔过长，本实施例中选择丢弃。该数据集简称MUSIC_M20。这个数据集代表长度中等的会话。对于第三个数据集，本实施例中随机选择20000首音乐，设置L＝50，与MUSIC_M20一样的做法，生成第三个数据集MUSIC_L50，这个数据集代表长会话。对于这三个数据集，首先，本实施例中分别随机地将其划分成训练集和测试集，两者在整个数据集中的百分比分别为55％和45％。然后，从训练集中随机挑选5％作为验证集。进一步地，本实施例中对训练集进行数据增强。具体而言：对长度大于2的会话[x₀,x₁,…,x_t-1,x_t]，本发明利用填充0的方式，生成多个子会话[0,0,…,x₀,x₁]，[0,…x₀,x₁,x₂]，……，[x₀,x₁,…,x_t-1,x_t]。本实施例把这些在训练集中额外生成的子集称为子数据集-训练集(SUBSESSIONS-T，下文使用英文简称)。本实施例仅在训练集上进行数据增强。

2.设置评测指标。为了全面评估本发明的实际效果好坏，本实施例中设置了6个评测指标：MRR@5，HR@5，NDCG@5以及MRR@20，HR@20，NDCG@20。

3.模型进行固定次数的迭代。每次迭代过程如下：首先，随机从训练集中随机获取一批会话数据，同时送入编码器、解码器中预测输出，根据预测输出和会话的真实标签计算损失值，并进行反向传播更新模型的参数。在验证集上利用6个评测指标观测训练所得的模型性能，选择验证集上表现最优的模型参数，作为最优参数。该参数下得到的模型测试集结果，作为模型的最终性能。

本实施例对比了编码器中有无卷积操作对模型性能的影响，其中NoConv表示模型中无卷积操作，WithConv表示模型中有卷积操作。为了仅证明卷积操作对编码器的影响，模型中无高斯权重，使用双向线性变换解码器。具体如表2所示：

表2有无卷积操作的对比实验结果

由表2的实验结果可以得出结论：在YOO数据集上，WithConv与NoConv性能几乎相同，体现在评价指标上，差距在0.05％左右。在MUSIC_M20数据集上，WithConv的精度比NoConv提升了1％左右。在MUSIC_L50数据集上，WithConv的精度提升了1.5％左右。说明使用卷积自注意力，利用局部相关性建模物品，在物品表示中包含其周围序列片段的特征，能有效提升模型的精度。

本实施例也对比了不同解码器的性能，记使用全连接解码器的模型为Full，使用双向线性变换解码器的模型为BiLinear。为了仅证明双向线性变换解码器对推荐***精度的改进，编码器中仅使用卷积操作而无高斯权重，本发明对比了两种解码器在评测指标和训练时长的结果，如表3和表4所示。

表3不同解码器的对比实验

表4不同解码器的训练时间

经过对比分析，可以得出以下结论：

1.BiLinear在三个数据集上表现最优。在YOO数据集上，BiLinear比Full在6个评测指标上高0.3％-0.6％。在MUSIC_M20和MUSIC_M50上，BiLinear比Full在评测指标上分别高了约0.2％，0.15％。

2.BiLinear的训练时间明显短于Full。全连接层的解码器中的参数矩阵大小取决于物品空间的大小，鲁棒性差。而BiLinear解码器的双向变换矩阵大小保持不变。显然，使用双向线性变换解码器，模型精度更高，模型参数更少，鲁棒性更好。

本实施例还对比了高斯偏移对模型性能带来的影响，具体如表5所示。对比实验模型使用卷积操作与重复-探索解码器。记不使用高斯偏移的模型为NoGauss，仅在重复推荐解码器中应用高斯偏移权重因子的模型为OnlyDec。

表5高斯偏移权重因子对模型性能的影响实验

根据表5的实验结果，可得以下结论：在重复推荐解码器中使用高斯偏移权重因子能有效提升模型的性能。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于卷积自注意力网络的会话推荐方法，其特征在于，步骤如下：

所述基于卷积自注意力网络的序列编码器建模会话的序列信息的方法为：

S212：基于S211中得到的物品表示，利用自注意力网络捕捉会话中不同物品之间的相互依赖，建模会话的序列信息；所述S212中的自注意力网络为掩码多头自注意力网络；

所述基于卷积自注意力网络和高斯注意力机制的意图编码器建模会话的关键意图信息并计算高斯权重的具体方法为：

S222：基于S221中得到的物品表示，利用注意力机制计算各物品在会话之中所占的权重，不同物品表示的加权之和为会话的关键意图信息；然后以会话中最后一个物品为高斯分布的期望中心，计算经过高斯偏移的各物品的高斯权重；

2.如权利要求1所述的基于卷积自注意力网络的会话推荐方法，其特征在于，所述重复-探索选择器中预测用户下一步选择重复或不重复物品的概率的具体方法为：

3.如权利要求1所述的基于卷积自注意力网络的会话推荐方法，其特征在于，所述重复推荐解码器中计算各重复物品的条件概率的具体方法为：

4.如权利要求1所述的基于卷积自注意力网络的会话推荐方法，其特征在于，所述探索推荐解码器中计算各不重复物品的条件概率的具体方法为：