CN113139850A - 一种缓解数据稀疏性和商品冷启动的商品推荐模型 - Google Patents
一种缓解数据稀疏性和商品冷启动的商品推荐模型 Download PDFInfo
- Publication number
- CN113139850A CN113139850A CN202110454998.2A CN202110454998A CN113139850A CN 113139850 A CN113139850 A CN 113139850A CN 202110454998 A CN202110454998 A CN 202110454998A CN 113139850 A CN113139850 A CN 113139850A
- Authority
- CN
- China
- Prior art keywords
- commodity
- attention
- embedding
- user
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000013528 artificial neural network Methods 0.000 claims abstract description 33
- 230000006399 behavior Effects 0.000 claims abstract description 28
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 230000003993 interaction Effects 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000000116 mitigating effect Effects 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000005295 random walk Methods 0.000 claims description 5
- 239000013604 expression vector Substances 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 description 9
- 239000000047 product Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- RPNUMPOLZDHAAY-UHFFFAOYSA-N Diethylenetriamine Chemical compound NCCNCCN RPNUMPOLZDHAAY-UHFFFAOYSA-N 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0631—Item recommendations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种缓解数据稀疏性和商品冷启动的商品推荐模型,涉及兴趣挖掘技术领域,提出了CTR预估模型GEARec用于商品的个性化推荐。通过引入图嵌入技术,除了解决稀疏性和冷启动的问题,将预先训练好的Embedding输入到上层的深度神经网络,还可以加快网络的收敛速,进一步提升模型性能。GEARec模型由预训练的Embedding层、多头自注意力网络层、AUGRU和MLP构建而成。输入的用户行为序列的Embedding向量表示经过多头自注意力网络层和AUGRU后,将计算结果和其他Embedding进行拼接,输入到MLP中自动学习特征之间的非线性关系,最后输出用户购买候选商品的概率。
Description
技术领域
本发明涉及兴趣挖掘技术领域,特别涉及一种缓解数据稀疏性和商品冷启动的商品推荐模型。
背景技术
在实际的电商购物场景中,通常来说用户的兴趣迁移非常快,通过多头自注意力网络能够有效提取商品间的依赖关系,但现有技术整体上还是基于用户所有购买历史的综合推荐,而不是预测下一次购买的推荐。因此我们还需要针对不同的候选商品来筛选影响力更大的用户历史行为序列。
在现有的商品推荐***中经常会面临两种情况,用户只与很少的商品有过交互行为以及新上线的商品没有过用户行为,这种情况分别称之为稀疏性和冷启动问题。针对这两类问题,使用常规的推荐模型进行预测时表现并不是很好。因此针对此问题,本申请提出基于EGES技术、多头自注意力网络以及AUGRU结构,创建了一种新的推荐模型GEARec,从而解决数据稀疏性和用户商品冷启动问题。
发明内容
本发明的目的在于提供一种缓解数据稀疏性和商品冷启动的商品推荐模型,基于EGES技术、多头自注意力网络以及AUGRU结构,创建了一种新的推荐模型GEARec,从而解决数据稀疏性和用户商品冷启动问题。
本发明提供了一种缓解数据稀疏性和商品冷启动的商品推荐模型,包括:
Embedding预训练层:用于引入商品的各类属性,利用随机游走算法对商品的各类属性进行建模并获取到对应的Embedding向量,利用神经网络对各类Embedding向量的权重进行训练并融合,得到最终商品的Embedding;
多头自注意力网络层:将用户历史交互商品序列对应的特征向量和位置特征编码进行组合,作为多头自注意力网络层的输入,经过多头自注意力网络层线性变换后,输出经过编码的用户行为序列,并对用户行为序列内部隐含的商品间的依赖关系进行提取;
注意力权重AUGRU:根据提取出的依赖关系,引入注意力权重AUGRU结构,结合注意力得分对兴趣演化路径进行筛选;
多层神经网络MLP:将得到的兴趣演化结果和商品的Embedding进行拼接,输入到多层神经网络MLP中自动学习特征之间的非线性组合关系,最后输出用户购买目标商品的概率,根据概率判别是否向用户推荐该商品。
进一步地,商品的各类属性包括商品主分类、商品子分类以及商品品牌,通过加权平均的方法获取商品聚合后的Embedding向量公式,如下所示:
进一步地,使用Skip-Gram神经网络模型对各类Embedding的权重进行训练,EGES的损失函数表示为:
其中,Hv,Zu分别表示商品v和商品u的Embedding,σ为sigmoid激活函数。
进一步地,位置特征编码的维度和用户历史交互商品序列对应的特征向量保持一致,均为dmodel,位置编码的特征向量E称为用户历史交互商品向量,且表示如下:
将用户历史交互商品向量E输入到多头自注意力网络中,通过线性转换得到对应的Q,K和V,并且多个Linear层有不同的权重系数,再经过H次Scaled Dot-ProductAttention操作得到Z={Z1,Z2,…,Z},具体公式如下所示:
其中,dk为Q和K的维度;
进一步地,将商品序列的表达向量H输入到前馈神经网络FFN中,所述前馈神经网络FFN由两个线性变换和一个ReLU激活函数构成,具体公式如下:
FNN(ht)=max(0,htW1+b1)W2+b2 (5)
经过前馈神经网络后,完成了对用户历史交互商品向量中商品依赖关系的提取。
进一步地,使用Layer Normalization对模型的每部分的输出进行归一化处理,通过损失掉部分信息降低过拟合的风险,加速模型收敛;再通过构建残差网络解决网络层数加深时优化训练难的问题,具体公式如下:
f(x)=LayerNorm(x+Sublayer(x)) (9)
其中,μl和σl分别为输入样本的的均值和方差,正则化计算过程中加入了缩放因子α和偏置项β调整归一化结果值,其中LayerNorm针对每一层神经网络分别计算均值和方差,之后再进行归一化操作,Sublayer包括多头注意力模块和前馈神经网络模块。
进一步地,兴趣演化路径进行筛选的方法如下:
对于上一层网络输出的隐藏层状态H={h1,h2,…,ht},本层网络通过计算hi和候选商品的Embedding向量ea之间的相关性对兴趣演化路径进行筛选,AUGRU中相关性是通过注意力函数来完成的,注意力函数如下所示:
其中,W是作为兴趣表示ht到候选商品ea的一个线性转换,用于两个不同维度的向量做内积运算;AUGRU通过注意力分数at影响GRU内部的更新门,加入注意力得分的GRU更新门具体形式如公式所示:
其中,u′t为更新门的状态值,通过乘以注意力系数得到新的更新门状态,进一步影响隐藏层的输出值h′t,此时AUGRU最后一个隐藏层输出状态vt,vt为用户行为序列中隐含的兴趣特征向量。
拼接得到稠密的向量表示记为I,输入到MLP中进行学习,使用PReLU作为激活函数:
其中ai作为参数与神经网络一起进行训练,MLP内部计算过程见如下公式:
L1=PReLU(W1·I+b1) (15)
L2=PReLU(W2·L1+b2) (16)
yi=Softmax(L2) (17)
其中,yi为用户购买候选商品的概率。
与现有技术相比,本发明具有如下显著优点:
(1)本发明对Embedding层进行了预训练,通过EGES技术可以充分利用商品相关的各类数据,很大程度上增强了Embedding本身的表达能力;一定程度上缓解了数据稀疏性和商品冷启动问题;将预训练的Embedding特征向量输入到神经网络中,可以加快整个网络的收敛速度从而提升模型性能;能够提升模型训练的灵活性。
(2)本发明通过位置编码结合多头自注意力机制的方式建模用户兴趣演化路径,能够充分挖掘用户行为序列中的隐含信息。并且,对于长序列也可以建立有效的依赖关系,这是相较于传统RNN及其变体的一大优势所在。另外多头自注意力机制可以通过并行计算极大的提升模型训练和预测效率,非常适用于工业界进行算法的落地。
(3)本发明考虑到在CTR预估场景中用户兴趣的多样性,通过AUGRU单元可以针对不同的目标商品对用户兴趣演化序列进行筛选,提取出与目标商品关联性更强的演化序列,进一步提升模型预测的准确性。
附图说明
图1为本发明实施例提供的GEARec模型结构图;
图2为本发明实施例提供的EGES模型结构图;
图3为本发明实施例提供的多头自注意力网络展开图;
图4为本发明实施例提供的多头自注意力网络输出结构图;
图5为本发明实施例提供的多头自注意力网络结构图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
本发明利用当下比较热门的Graph Embedding(图嵌入)技术来解决数据稀疏性和用户商品冷启动问题。在常规的Graph Embedding算法基础上,通过引入商品的辅助信息,利用随机游走算法对商品的各类属性进行建模并获取对应的Embedding(嵌入式)向量,之后再进一步的融合。将高维稀疏的特征向量转化为低维稠密的特征向量可以解决数据稀疏性的问题,而引入的辅助信息可以较好的解决冷启动问题。
本发明提出了基于EGES技术,多头自注意力网络以及AUGRU结构的推荐模型,并将其命名为GEARec(Graph Embedding supported Attentional Recommendation machine)。本发明在构建GEARec推荐模型基础上,通过与近几年比较主流的推荐模型进行对比实验来验证模型的有效性。实验结果表明,GEARec推荐模型在Books和Electronics数据集上,相对于当前比较先进的DIEN模型,RelaImpr指标分别提升了2.27%和2.42%。同时也针对GEARec模型的各个模块进行了更加细致实验,以此来探究影响模型性能的核心因素以及如何进一步提升模型性能。
本发明的设计实现了基于Spring Boot框架的商品推荐***,将GEARec模型与推荐***进行融合,以RPC接口的形式提供商品CTR预估和Top-N推荐服务。另外,以表格和图表的形式统计并展示训练模型使用的实验数据,提供数据的上传下载、模型训练、模型权重文件下载等功能。
本申请的核心主要是围绕商品推荐场景,提出了CTR预估模型——GEARec模型。GEARec通过图嵌入技术对Embedding进行预训练,之后和其他特征融合后一起输入到上层的深度神经网络中。深度神经网络由多头自注意力网络,AUGRU以及MLP共同构建,多头自注意力网络可以有效提取用户行为序列中商品间的依赖关系,再通过AUGRU对用户兴趣演化路径进行筛选并得到用户兴趣表示向量,之后通过MLP自动学习各类向量之间的非线性组合关系,输出当前用户对于候选商品的购买概率。GEARec模型结构图如图1所示。
参照图1-5,本发明提供了一种缓解数据稀疏性和商品冷启动的商品推荐模型,包括:
Embedding预训练层:用于引入商品的各类属性,利用随机游走算法对商品的各类属性进行建模并获取到对应的Embedding向量,利用神经网络对各类Embedding向量的权重进行训练并融合,得到最终商品的Embedding;
多头自注意力网络层:将用户历史交互商品序列对应的特征向量和位置特征编码进行组合,作为多头自注意力网络层的输入,经过多头自注意力网络层线性变换后,输出经过编码的用户行为序列,并对用户行为序列内部隐含的商品间的依赖关系进行提取;
注意力权重AUGRU:根据提取出的依赖关系,引入注意力权重AUGRU结构,结合注意力得分对兴趣演化路径进行筛选;
多层神经网络MLP:将得到的兴趣演化结果和商品的Embedding进行拼接,输入到多层神经网络MLP中自动学习特征之间的非线性组合关系,最后输出用户购买目标商品的概率,根据概率判别是否向用户推荐该商品。
实施例1
在商品推荐***中经常会面临两种情况,用户只与很少的商品有过交互行为以及新上线的商品没有过用户行为,分别称之为稀疏性和冷启动问题。针对这两类问题,使用常规的推荐模型进行预测时表现并不是很好,因此本申请通过用户行为序列对商品相似性进行建模过程中,使用EGES来对商品的各类辅助信息进行嵌入融合,很大程度上的缓解了稀疏性和冷启动问题。
由于用户的兴趣在长时间内会发生变化,而短时间内兴趣通常是保持一致的,因此对于商品交互时间间隔超过一个小时的序列进行切割。抽取用户的历史行为序列,通过得到的序列构建出有向带权图G={V,E},其中顶点V为商品id集合,若存在商品vi到商品vj的转移,则赋予边eij∈E对应的权重;
生成有向带权图后,基于随机游走产生大量的商品序列,商品转移概率基于边的权重Mij,得到商品转移序列模型,具体公式如下:
在得到商品转移序列的同时,由于引入了Side Information(辅助信息),同样可以得到对应的转移序列。辅助信息Side Information又称为商品的各类属性,商品的各类属性包括商品主分类、商品子分类以及商品品牌,从实际场景出发,每种Side Information对于最终商品的Embedding影响是不同的,因此需要赋予其不同的权重,通过加权平均的方法获取商品聚合后的Embedding向量公式,如下所示:
使用Skip-Gram神经网络模型对各类Embedding的权重进行训练,EGES的损失函数表示为:
其中,Hv,Zu分别表示商品v和商品u的Embedding,σ为sigmoid激活函数。整体EGES模型结构如图2所示。Embedding的训练独立于上层的神经网络,可以一定程度的解决Embedding层训练开销大的问题。另一方面,经过预训练得到的Item Embedding本身就包含了很多有价值的信息,之后将其和其他特征进行拼接一起输入到上层神经网络中,可以加快神经网络的收敛速度。
实施例2
现有技术中,谷歌的Transformer模型首次提出了多头注意力机制(Multi-headAttention)并成功应用于机器翻译,取得了显著的效果。多头注意力机制本质是把自注意力机制中的缩放点积(Scaled Dot-Product Attention)操作做H次,之后再通过线性变换得到输出结果。自注意力机制带来的好处是可以更有效的捕获序列中长距离的互相依赖的特征,而通过多头(Multi-head)机制有助于网络捕捉到更加丰富的特征信息。因此,本申请将该机制引入到商品推荐场景中,对于较长的用户行为序列可以更好的提取到商品之间的依赖关系。
首先,由于自注意力模块没有包含任何循环或卷积结构,是无法捕捉到序列的顺序信息的,而对于用户交互序列来说,序列的位置信息是很重要的,因此首先要将用户历史交互商品序列对应的特征向量(Item Embedding)和位置特征编码(Position Encoding)进行组合,作为多头自注意力网络的输入。本发明采用了正弦位置编码的方法,根据输入序列长度生成固定的位置编码,不增加额外的参数量。位置特征编码(Position Encoding)的维度和用户历史交互商品序列对应的特征向量(Item Embedding)保持一致,均为dmodel,位置编码的特征向量E称为用户历史交互商品向量,pos表示商品的实际交互次序,2i和2i+1分别表示嵌入矩阵维度的下标。最终商品的Embedding具体表示如下:
在推荐模型中引入位置编码可以有效的挖掘用户交互序列中商品的依赖关系,对用户兴趣迁移进行建模,而建模的过程是通过构建多头自注意力网络来完成的。
如图3所示,将用户历史交互商品向量E输入到多头自注意力网络中,此处多头和单头的区别在于复制了多个单头,通过线性转换得到对应的Q,K和V,并且多个Linear层有不同的权重系数,再经过H次Scaled Dot-Product Attention操作得到Z={Z1,Z2,…,Z},具体公式如下所示:
其中,dk为Q和K的维度;
目前多头自注意力模块涉及的操作均为线性变换,为了赋予整个网络非线性表达能力,将商品序列的表达向量H输入到前馈神经网络(Feed-forward Network)FFN中,所述前馈神经网络FFN由两个线性变换和一个ReLU激活函数构成,具体公式如下:
FNN(ht)=max(0,htW1+b1)W2+b2 (5)
经过前馈神经网络后,完成对用户历史交互商品向量中商品依赖关系的提取。
考虑到商品推荐场景中商品多样性和用户交互的复杂性,我们通过构建多层自注意力网络来更加充分地提取用户行为序列中的隐含信息。与此同时,为了防止随着网络层数加深出现过拟合问题,使用Layer Normalization对模型的每部分的输出进行归一化处理,通过损失掉部分信息降低过拟合的风险,加速模型收敛;再通过构建残差网络解决网络层数加深时优化训练难的问题,具体公式如下:
f(x)=LayerNorm(x+Sublayer(x)) (9)
其中,μl和σl分别为输入样本的的均值和方差,正则化计算过程中加入了缩放因子α和偏置项β调整归一化结果值,其中Layer Norm针对每一层神经网络分别计算均值和方差,之后再进行归一化操作,Sublayer包括多头注意力模块和前馈神经网络模块。对于多头自注意力网络来说,每个Sublayer的输出都会输入到下一个Sublayer中,结构如图5所示。多头自注意力网络不仅可以提取到用户行为序列中任意两个商品之间的依赖关系,同时也能根据注意力得分将重点放在可以真正表达用户兴趣的商品上,使得最终的推荐效果得到提升。
实施例3
在实际的电商购物场景中,通常来说用户的兴趣迁移非常快,我们通过多头自注意力网络能够有效提取商品间的依赖关系,整体还是基于用户所有购买历史的综合推荐,而不是下一次购买推荐。因此我们还需要针对不同的候选商品来筛选影响力更大的用户历史行为序列。
用户行为序列是时间相关的序列,其中存在着或浅或深的前后依赖关系,而循环神经网络RNN及其变体对于时间序列建模有着出色的表现,因此本发明通过结合现有技术中提出的一种基于注意力更新门的GRU(GRU with Attentional Update gate,AUGRU)结构,更有针对性地模拟与候选商品相关的兴趣演化路径,同时也结合了注意力机制来对兴趣演化路径进行筛选。
兴趣演化路径进行筛选的方法如下:
对于上一层网络输出的隐藏层状态H={h1,h2,…,ht},本层网络通过计算hi和候选商品的Embedding向量ea之间的相关性对兴趣演化路径进行筛选,AUGRU中相关性是通过注意力函数来完成的,注意力函数如下所示:
整体是通过softmax函数进行相关性分类,其中,W是作为兴趣表示ht到候选商品ea的一个线性转换,用于两个不同维度的向量做内积运算;AUGRU通过注意力分数at影响GRU内部的更新门,也就是说用户当前兴趣和候选商品关联程度越强,对GRU隐藏层状态影响越大,反之则越小,这样可以有效筛选出重要用户兴趣演化路径,加入注意力得分的GRU更新门具体形式如公式所示:
其中,u′t为更新门的状态值,通过乘以注意力系数得到新的更新门状态,进一步影响隐藏层的输出值h′t,此时AUGRU最后一个隐藏层输出状态vt,vt为用户行为序列中隐含的兴趣特征向量。
将候选商品的Embedding向量ea,用户历史交互商品向量E以及AUGRU最后输出的状态值vt进行拼接,输入到多层感知机(MLP)中自动学习特征之间的非线性关系组合,之后再通过softmax输出最终的CTR预估值。对于任一用户行为序列来说,向量t为用户行为序列长度,而ea,首先需要对E进行降维求和得到esum:
拼接得到稠密的向量表示记为I,输入到MLP中进行学习,使用PReLU作为激活函数,可以有效解决ReLU函数坏死问题,具体见下所示:
其中ai作为参数与神经网络一起进行训练,MLP内部计算过程见如下公式:
L1=PReLU(W1·I+b1) (15)
L2=PReLU(W2·L1+b2) (16)
yi=Softmax(L2) (17)
其中,yi为用户购买候选商品的概率。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (8)
1.一种缓解数据稀疏性和商品冷启动的商品推荐模型,其特征在于,包括:
Embedding预训练层:用于引入商品的各类属性,利用随机游走算法对商品的各类属性进行建模并获取到对应的Embedding向量,利用神经网络对各类Embedding向量的权重进行训练并融合,得到最终商品的Embedding;
多头自注意力网络层:将用户历史交互商品序列对应的特征向量和位置特征编码进行组合,作为多头自注意力网络层的输入,经过多头自注意力网络层线性变换后,输出经过编码的用户行为序列,并对用户行为序列内部隐含的商品间的依赖关系进行提取;
注意力权重AUGRU:根据提取出的依赖关系,引入注意力权重AUGRU结构,结合注意力得分对兴趣演化路径进行筛选;
多层神经网络MLP:将得到的兴趣演化结果和商品的Embedding进行拼接,输入到多层神经网络MLP中自动学习特征之间的非线性组合关系,最后输出用户购买目标商品的概率,根据概率判别是否向用户推荐该商品。
4.如权利要求1所述的一种缓解数据稀疏性和商品冷启动的商品推荐模型,其特征在于,位置特征编码的维度和用户历史交互商品序列对应的特征向量保持一致,均为dmodel,位置编码的特征向量E称为用户历史交互商品向量,且表示如下:
将用户历史交互商品向量E输入到多头自注意力网络中,通过线性转换得到对应的Q,K和V,并且多个Linear层有不同的权重系数,再经过H次Scaled Dot-Product Attention操作得到Z={Z1,Z2,…,Z},具体公式如下所示:
其中,dk为Q和K的维度;
5.如权利要求4所述的一种缓解数据稀疏性和商品冷启动的商品推荐模型,其特征在于,将商品序列的表达向量H输入到前馈神经网络FFN中,所述前馈神经网络FFN由两个线性变换和一个ReLU激活函数构成,具体公式如下:
FNN(ht)=max(0,htW1+b1)W2+b2 (5)
经过前馈神经网络后,完成对用户历史交互商品向量中商品依赖关系的提取。
7.如权利要求1所述的一种缓解数据稀疏性和商品冷启动的商品推荐模型,其特征在于,兴趣演化路径进行筛选的方法如下:
对于上一层网络输出的隐藏层状态H={h1,h2,…,ht},本层网络通过计算hi和候选商品的Embedding向量ea之间的相关性对兴趣演化路径进行筛选,AUGRU中相关性是通过注意力函数来完成的,注意力函数如下所示:
其中,W是作为兴趣表示ht到候选商品ea的一个线性转换,用于两个不同维度的向量做内积运算;AUGRU通过注意力分数at影响GRU内部的更新门,加入注意力得分的GRU更新门具体形式如公式所示:
其中,u′t为更新门的状态值,通过乘以注意力系数得到新的更新门状态,进一步影响隐藏层的输出值h′t,此时AUGRU最后一个隐藏层输出状态vt,vt为用户行为序列中隐含的兴趣特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110454998.2A CN113139850A (zh) | 2021-04-26 | 2021-04-26 | 一种缓解数据稀疏性和商品冷启动的商品推荐模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110454998.2A CN113139850A (zh) | 2021-04-26 | 2021-04-26 | 一种缓解数据稀疏性和商品冷启动的商品推荐模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113139850A true CN113139850A (zh) | 2021-07-20 |
Family
ID=76812219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110454998.2A Pending CN113139850A (zh) | 2021-04-26 | 2021-04-26 | 一种缓解数据稀疏性和商品冷启动的商品推荐模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139850A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113674063A (zh) * | 2021-08-27 | 2021-11-19 | 卓尔智联(武汉)研究院有限公司 | 购物推荐方法、购物推荐装置、及电子设备 |
CN113688315A (zh) * | 2021-08-19 | 2021-11-23 | 电子科技大学 | 一种基于无信息损失图编码的序列推荐方法 |
CN113761378A (zh) * | 2021-09-14 | 2021-12-07 | 上海任意门科技有限公司 | 内容排序方法、计算设备和计算机可读存储介质 |
CN113962753A (zh) * | 2021-12-22 | 2022-01-21 | 浙江口碑网络技术有限公司 | 候选商品排序方法、展示方法、装置以及电子设备 |
CN114282687A (zh) * | 2021-12-31 | 2022-04-05 | 复旦大学 | 一种基于因子分解机的多任务时序推荐方法 |
CN114693397A (zh) * | 2022-03-16 | 2022-07-01 | 电子科技大学 | 一种基于注意力神经网络的多视角多模态商品推荐方法 |
CN117726411A (zh) * | 2023-12-22 | 2024-03-19 | 安徽大学 | 差分隐私保护下基于联邦学习和多臂***的商品推荐方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062775A (zh) * | 2019-12-03 | 2020-04-24 | 中山大学 | 一种基于注意力机制的推荐***召回方法 |
CN111127165A (zh) * | 2019-12-26 | 2020-05-08 | 纪信智达(广州)信息技术有限公司 | 基于自注意力自编码器的序列推荐方法 |
-
2021
- 2021-04-26 CN CN202110454998.2A patent/CN113139850A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062775A (zh) * | 2019-12-03 | 2020-04-24 | 中山大学 | 一种基于注意力机制的推荐***召回方法 |
CN111127165A (zh) * | 2019-12-26 | 2020-05-08 | 纪信智达(广州)信息技术有限公司 | 基于自注意力自编码器的序列推荐方法 |
Non-Patent Citations (3)
Title |
---|
GUORUI ZHOU等: "Deep Interest Evolution Network for Click-Through Rate Prediction", ARXIV:1809.03672V1, pages 1 - 9 * |
JIZHE WANG等: "Billion-scale Commo dity Emb e dding for E-commerce Re commendation in Alibaba", ARXIV:1803.02349V2, pages 1 - 10 * |
邱锡鹏,飞桨教材编写组: "神经网络与深度学习", 30 April 2020, 机械工业出版社, pages: 181 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113688315A (zh) * | 2021-08-19 | 2021-11-23 | 电子科技大学 | 一种基于无信息损失图编码的序列推荐方法 |
CN113688315B (zh) * | 2021-08-19 | 2023-04-18 | 电子科技大学 | 一种基于无信息损失图编码的序列推荐方法 |
CN113674063A (zh) * | 2021-08-27 | 2021-11-19 | 卓尔智联(武汉)研究院有限公司 | 购物推荐方法、购物推荐装置、及电子设备 |
CN113674063B (zh) * | 2021-08-27 | 2024-01-12 | 卓尔智联(武汉)研究院有限公司 | 购物推荐方法、购物推荐装置、及电子设备 |
CN113761378A (zh) * | 2021-09-14 | 2021-12-07 | 上海任意门科技有限公司 | 内容排序方法、计算设备和计算机可读存储介质 |
CN113962753A (zh) * | 2021-12-22 | 2022-01-21 | 浙江口碑网络技术有限公司 | 候选商品排序方法、展示方法、装置以及电子设备 |
CN113962753B (zh) * | 2021-12-22 | 2022-05-13 | 浙江口碑网络技术有限公司 | 候选商品排序方法、展示方法、装置以及电子设备 |
CN114282687A (zh) * | 2021-12-31 | 2022-04-05 | 复旦大学 | 一种基于因子分解机的多任务时序推荐方法 |
CN114282687B (zh) * | 2021-12-31 | 2023-03-07 | 复旦大学 | 一种基于因子分解机的多任务时序推荐方法 |
CN114693397A (zh) * | 2022-03-16 | 2022-07-01 | 电子科技大学 | 一种基于注意力神经网络的多视角多模态商品推荐方法 |
CN114693397B (zh) * | 2022-03-16 | 2023-04-28 | 电子科技大学 | 一种基于注意力神经网络的多视角多模态商品推荐方法 |
CN117726411A (zh) * | 2023-12-22 | 2024-03-19 | 安徽大学 | 差分隐私保护下基于联邦学习和多臂***的商品推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299396B (zh) | 融合注意力模型的卷积神经网络协同过滤推荐方法及*** | |
CN113139850A (zh) | 一种缓解数据稀疏性和商品冷启动的商品推荐模型 | |
CN110674305B (zh) | 一种基于深层特征融合模型的商品信息分类方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN111222332B (zh) | 一种结合注意力网络和用户情感的商品推荐方法 | |
Zhang et al. | Sentiment classification using comprehensive attention recurrent models | |
CN111859166B (zh) | 一种基于改进的图卷积神经网络的物品评分预测方法 | |
CN111737578B (zh) | 一种推荐方法及*** | |
CN108363695B (zh) | 一种基于双向依赖语法树表征的用户评论属性抽取方法 | |
CN112884551B (zh) | 一种基于近邻用户和评论信息的商品推荐方法 | |
CN112381581A (zh) | 一种基于改进Transformer的广告点击率预估方法 | |
CN111127146A (zh) | 基于卷积神经网络与降噪自编码器的信息推荐方法及*** | |
CN110287323A (zh) | 一种面向目标的情感分类方法 | |
CN111626764A (zh) | 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置 | |
CN111753209A (zh) | 一种基于改进时序卷积网络的序列推荐列表生成方法 | |
CN114780831A (zh) | 基于Transformer的序列推荐方法及*** | |
CN112700274A (zh) | 一种基于用户偏好的广告点击率预估方法 | |
CN110781401A (zh) | 一种基于协同自回归流实现的Top-n项目推荐方法 | |
CN113420129A (zh) | 一种基于大型通用预训练模型控制对话生成的方法 | |
CN113591971A (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
CN114036298A (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
CN113761910A (zh) | 一种融合情感特征的评论文本细粒度情感分析方法 | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
US20240104352A1 (en) | Contrastive Learning and Masked Modeling for End-To-End Self-Supervised Pre-Training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |