CN116542720B - 一种基于图卷积网络的时间增强信息序列推荐方法及*** - Google Patents
一种基于图卷积网络的时间增强信息序列推荐方法及*** Download PDFInfo
- Publication number
- CN116542720B CN116542720B CN202310817593.XA CN202310817593A CN116542720B CN 116542720 B CN116542720 B CN 116542720B CN 202310817593 A CN202310817593 A CN 202310817593A CN 116542720 B CN116542720 B CN 116542720B
- Authority
- CN
- China
- Prior art keywords
- sequence
- user
- time
- item
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000003993 interaction Effects 0.000 claims abstract description 79
- 239000011159 matrix material Substances 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims abstract description 48
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 230000003044 adaptive effect Effects 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 5
- 230000007246 mechanism Effects 0.000 claims description 21
- 238000005096 rolling process Methods 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims 1
- 239000003054 catalyst Substances 0.000 claims 1
- 238000009826 distribution Methods 0.000 claims 1
- 239000012633 leachable Substances 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 13
- 230000006399 behavior Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 10
- 238000013461 design Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000512668 Eunectes Species 0.000 description 1
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008846 dynamic interplay Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于序列推荐技术领域,公开了一种基于图卷积网络的时间增强信息序列推荐方法及***,将物品嵌入矩阵和位置嵌入矩阵进行组合,构造为序列的隐藏层表示;基于时间增强的图卷积网络利用自适应窗口函数构建时间增强用户‑物品图,使用双重窗口函数为每一个用户‑物品交互项分配一个时间权重;构建了基于过滤增强的自注意力层,在自注意力模块之前使用过滤增强层,利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号;聚合经过处理后用户嵌入和物品嵌入,然后为每个用户‑物品对输出得分。本发明能根据用户交互的时间戳信息来动态的捕捉用户的偏好,能有效的提取交互序列中的相对时间特征,大大降低了噪声物品的负面影响。
Description
技术领域
本发明属于推荐***领域的序列推荐技术研究,尤其涉及一种基于图卷积网络的时间增强信息序列推荐方法及***。
背景技术
序列推荐的目的是根据用户的历史交互序列捕获用户的动态交互模式,与传统的推荐***相比,能够更加精准的为用户推荐需要的物品,是目前推荐***领域重要的研究方向之一。近些年来,随着深度学习技术的迅猛发展,卷积神经网络(ConvolutionalNeural Networks,简称CNNs),循环神经网络(Recurrent Neural Networks,简称RNNs)等神经网络模型被用来对序列数据进行建模,但是,这些模型的缺点在于需要密集的用户行为数据。受到Transformer模型在机器翻译,情感分析等任务取得的成功所启发,人们提出了一些基于自注意力机制的序列推荐模型。作为经典的序列推荐模型之一,SASRec模型通过给每一个物品分配一个权重,并聚合所有的物品来推断各个位置上的相对嵌入;在此基础上,Bert4Rec模型进一步对从左到右,以及从右到左两个方向的物品的相关性进行了建模。然而,这些模型虽然能取得不错的结果,但只能捕捉连续交互物品之间的序列模式,而忽略了高阶物品交互之间的复杂关系。
近年来,图神经网络已被广泛用于序列推荐中物品之间的高阶转换关系的模型建立,例如,SRGNN模型将序列数据转换为图结构数据,并使用门控图神经网络在图结构上执行消息传播;GCE-GNN模型在会话图上使用图神经网络(Graph Neural Networks,简称GNNs)模型来学习当前会话中的物品嵌入,并使用全局图的会话感知注意机制来学习所有会话的全局级物品嵌入。然而,这些方法往往只考虑物品位置和标识来建模顺序转换模式,忽略了时间间隔等上下文特征的影响,导致模型无法学习到恰当的序列表示。其次,常用的序列推荐模型所处理的隐式反馈中往往存在噪声信息(例如,用户意外的点击行为等),基于自注意力机制的已有序列推荐模型很容易受到这些噪声影响,导致该部分的点击行为和对应用户的偏好不一致,而无法得到最优的嵌入表示。
通过上述分析,现有技术存在的问题及缺陷为:
第一,现有的推荐方法只能在相对简单的场景和数据集中有效,局限于只能捕捉连续交互物品之间的序列模式,而忽略了高阶交互之间的复杂关系;第二,大多数序列模型往往只考虑物品位置和标识来构建顺序转换模式,忽略了时间间隔等上下文特征的影响,导致模型无法学习到恰当的序列表示。第三,基于自注意力机制的已有序列推荐模型很容易受到序列噪声的影响,导致该部分点击行为和对应的用户偏好不一致,而无法得到最优的嵌入表示。
发明内容
针对现有技术存在的问题,本发明提供了一种基于图卷积网络的时间增强信息序列推荐方法及***。
本发明是这样实现的,一种基于图卷积网络的时间增强信息序列推荐方法包括:
步骤一,通过截断或填充物品等操作,将每个用户的交互序列长度设置为固定长度的序列,然后分别构建物品嵌入矩阵和位置嵌入矩阵并进行组合,得到序列的隐藏层表示;
步骤二,通过基于时间增强的图卷积网络,本发明利用一种自适应的窗口函数构建具有时间增强功能的用户-物品二部图。首先,使用一个双重窗口函数为每一个用户-物品交互项分配相应的时间权重,获取基于相对时间间隔的的权重矩阵;然后,将该权重矩阵输入高速的图卷积网络,以便学习物品的高阶连通性;
步骤三,构建了基于过滤增强的自注意力模块。在自注意力模块之前使用一个过滤增强层,通过快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号;然后,将过滤后的物品嵌入输入到自注意力层中学习物品的相对位置信息。
步骤四,聚合经过处理后的用户嵌入矩阵和物品嵌入矩阵,然后为每个用户-物品对输出得分。
进一步,所述步骤一将物品嵌入矩阵和位置嵌入矩阵进行组合中,基于
Transformer的推荐模型先创建一个嵌入查找表,其中d是嵌入的维度大小,是用户u交互序列长度,将每个用户对应的交互序列转换为固定长度的
序列,其中L是最大长度,通过截断或填充物品等操作来保持;中每个物品的嵌入表示可以从表T中检索出来,所述步骤一将物品嵌入矩阵和位置嵌入矩阵进行组合,
构造为序列的隐藏层表示,如下式所示:
(1)
其中,是包含序列位置信息的物品嵌入矩阵,可以作为输入矩阵直接送入到任何基于Transformer的模型中。
进一步,所述步骤二中基于时间增强的图卷积网络(Graph ConvolutionalNetworks, GCNs)建立在GCNs体系结构的基础上,在用户-物品二分图结构中对序列和时间影响进行建模,并且能够捕获高阶的用户-物品的交互信息,很好的优化了用户和物品的动态嵌入;最后,通过图卷积操作学习时间增强图上的物品表示,具体包括:
首先,将用户-物品邻接矩阵中的每个物品v映射成d维的嵌入向量,输入到时间
增强图卷积网络(Time-enhanced Graph Convolutional Network,简称TE-GCN)模型。通过
迭代的进行图卷积操作,聚合每个节点邻居的特征来更新每个节点的表示,其定义如下式
所示:
(2)
其中,是上一层的节点表示,A是邻接矩阵,是用于提取传播有用信息
的可训练权重矩阵,( )是非线性激活函数;
接着,经过L层消息传播和邻居聚合后的物品表示,将和其初始嵌入序列进
行合并,其定义为:
(3)
(4)
其中,Sigmoid()代表Sigmoid激活函数,代表GCN最后一层的输出嵌入序列,
表示初始嵌入序列,是一个可训练的参数。
进一步,所述步骤二使用一个双重窗口函数为每一个用户-物品交互项分配一个时间权重中。
首先,将每一个用户u的历史交互序列对应的时间戳序列分别转换为全局和相邻时间的间隔序列,其定义如下式所示:
(5)
其中,L是该用户交互序列长度,表示相对时间的间隔序列,序列中元素
表示第k个物品与该用户交互的第一个物品之间的时间间隔,保存了用户的全局兴趣转
移信息;
另外,窗口函数是一个高斯衰减函数,输入i是用户交互序列中第i个物品,输
出是一个0-1的值,表示时间因素对用户兴趣的影响,具体定义为:
(6)
其中,表示基于窗口函数的权重, ,分别表示用户u 交互序列中的第一
个和第i个物品对应的时间戳,表示窗口函数的带宽参数。当时,
的值为0,表示用户u对当前物品i的兴趣不受时间间隔的影响;当时,表示用
户u对当前物品i的兴趣受时间间隔的影响,且时间间隔越小,影响程度越大。
最后,根据每个交互序列最大时间戳和最小时间戳的跨度来动态确定的大小,
具体为:
(7)
其中,和分别表示用户u交互序列中时间戳的最大值和最小值,k是超参
数,将时间戳的跨度分隔为k份,然后将设置为每份跨度的一半。当时间戳跨度较小时,
变小,从而窗口函数的宽度变窄,实际考虑的时间间隔就会相应变短,相反,时间跨度较大
时,实际考虑的时间间隔变长。
进一步,所述步骤三是基于过滤增强的自注意力层,在自注意力模块之前使用一个过滤增强层,利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号;利用快速傅里叶变换(Fast Fourier Transform,简称FFT)和一个可学习的滤波器来抑制序列嵌入中的含噪信号,具体包括:
首先, 使用快速傅里叶变换FFT将交互矩阵沿物品维度从时域转换为频域,如
下式所示:
(8)
其中,F表示一维的FFT, 表示输入矩阵的频谱,将从时域转换为频
域,然后将其送入一个可学习的滤波器Q,如下式所示:
(9)
其中,滤波器是一个可学习的滤波器,它通过随机梯度下降(Stochasticgradient descent,简称SGD)优化算法,自适应的表示为频域内的任何滤波器,/> 表示元素积;
接着,通过一个一维的离散傅里叶逆变换,将/>转换为时域的序列表示O,如下式所示:
(10)
最后,在过滤增强层后加入层归一化LayerNorm和残差连接Dropout,如下式所示:
(11)
随后,将经过过滤后的物品嵌入矩阵输入到自注意力层,捕捉用户交互序列中的长期语义信息,自注意力机制的具体方法如下式:
(12)
多头注意力机制从不同的h中提取出不同子空间的信息,给定最大序列长度T,隐
藏维数d,第L层隐藏表示为:, 计算过程为公式:
(13)
(14)
其中:是输出注意力分数值; ,,分别是
queries,keys,values,是要学习的权重参数,是头的数量,比例参数能使模型在反向传播更新梯度时更加稳定;
在每一轮训练中,首先使用RELU激活函数,其次再执行线性连接操作;然后使用两层残差连接网络,并且在每一次线性变换后加入一个Dropout层以防止过拟合,具体定义为:
(15)
(16)
其中,/> 是偏置项。
进一步,所述步骤四聚合经过处理后的用户嵌入矩阵和物品嵌入矩阵,然后为每个用户-物品对输出得分,具体包括:
首先,将用户的原始嵌入和经过时间增强图卷积层、过滤增强注意力层的嵌入结合起来,得到用户偏好向量矩阵Hs,表示为:
(17)
其次,为了保持最终用户嵌入维数与物品向量维数相同,需要对用户偏好向量进行一次线性变换,如下式所示:
(18)
其中,是线性变换的权重系数矩阵;
接着,将用户最终嵌入和其初始嵌入进行内积操作来计算每个候选物品的推
荐得分,定义为:
(19)
最后,使用一个softmax函数将所有候选物品得分转换成候选物品的概率分
布,如下式所示:
(20)
其中,是候选物品的预测得分,表示候选物品的点击概率。
本发明的另一目的在于提供一种基于图卷积网络的时间增强信息序列推荐***,所述基于图卷积网络的时间增强信息序列推荐***包括:
嵌入层,将物品嵌入矩阵和位置嵌入矩阵进行组合,构造为序列的隐藏层表示;
基于时间增强的图卷积层,一种自适应窗口函数来构建时间增强用户-物品图,使用一个双重窗口函数来为每一个用户-物品交互项分配一个时间权重;
基于过滤增强的自注意力层,在自注意力模块之前使用一个过滤增强层,利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号;
预测层,聚合经过模型处理后用户嵌入和物品嵌入,然后为每个用户-物品对输出得分。
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
(1)本发明提出了一种新颖的基于时间增强的图卷积网络序列推荐模型,它能根据用户交互的时间戳信息来动态的捕捉用户的偏好。
(2)本发明提出了一种窗口嵌入函数模块来建模连续交互序列中的时间戳信息,该模块能有效的提取交互序列中的相对时间特征。
(3)本发明设计了一种快速傅里叶变换和可学习的滤波器模块来更好的训练自注意力编码器,其大大降低了噪声物品的负面影响。
为了解决序列噪声问题以及进一步捕获相对时间信息对用户行为兴趣的影响,本发明提出了一个基于时间增强和过滤增强的序列推荐模型,为了捕获更高阶的序列转换表示,本发明提出了一种基于窗口函数的时间戳嵌入模块来建模用户交互序列的时间特征,然后将该部分信息显式的建模到用户-物品二部图中,然后设计了一个新颖的时间增强图卷积网络TE-GCN模型来学习个体的物品嵌入,并在图上进行多层图卷积操作来学习每个节点的协作信号和高阶连通性。随后,将包含时间增强信息的嵌入送入基于过滤增强的序列编码器中,通过一个可学习的滤波器来消除原始交互序列中的噪声信号。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
基于时间增强的图卷积网络能够有效学习用户-物品交互序列数据中的用户和物品的高阶连通性,能够有效捕获用户对不同时间间隔内所交互物品的高阶依赖关系,而基于过滤增强的自注意力模块能有效的削弱原始交互序列中的噪声信息,降低了用户的无效交互对最终推荐结果的影响。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1) 本发明的技术方案转化后的预期收益和商业价值为:
提高用户满意度和忠诚度:本发明提供的推荐***能够更准确地推荐用户感兴趣的物品,从而提高用户满意度和忠诚度。
提高销售额和利润:通过提高用户满意度和忠诚度,本发明提供的推荐***有望提高销售额和利润。此外,该***还可以帮助企业更好地了解用户需求和行为,从而优化产品和服务,提高销售额和利润。
扩大市场份额:本发明提供的推荐***具有创新性和实用性,有望吸引更多的用户和客户,从而扩大企业的市场份额。
(2) 本发明的技术方案填补了国内外业内技术空白:
现有技术中的推荐***通常采用基于矩阵分解的方法来进行推荐。然而,这种方法无法有效地处理序列数据中的噪声和利用时间信息来提高推荐性能。此外,现有技术中的推荐***通常无法有效处理具有长期依赖性的序列数据,这限制了它们的应用范围。相比之下,本发明提供的推荐***采用一种基于过滤增强的方法来处理序列数据中的噪声信息,并利用时间信号来提高推荐性能,该***还采用一种双重窗口函数来处理具有长期依赖性的序列数据,从而扩展了其应用范围。
附图说明
图1是本发明实施例提供的基于图卷积网络的时间增强信息序列推荐方法的流程图;
图2是本发明实施例提供的TFGCN模型的结构原理图;
图3是本发明实施例提供的用户-物品交互关系及其时间增强的邻接矩阵示意图;
图4是本发明实施例提供的过滤器模块流程图;
图5(a)和图5(b)是本发明实施例提供的不同GNN层数下模型的表现示意图;
图6(a)和图6(b)是本发明实施例提供的不同嵌入维度下模型的表现示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的基于图卷积网络的时间增强信息序列推荐方法包括:
S101,将物品嵌入矩阵和位置嵌入矩阵进行组合,构造为序列的隐藏层表示;
S102,基于时间增强的图卷积网络利用一种自适应窗口函数构建时间增强用户-物品图,使用一个双重窗口函数为每一个用户-物品交互项分配一个时间权重;
S103,基于过滤增强的自注意力层,在自注意力模块之前使用一个过滤增强层,利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号;
S104,聚合经过处理后用户嵌入和物品嵌入,然后为每个用户-物品对输出得分。
为了解决序列噪声问题以及进一步捕获相对时间信息对用户行为兴趣的影响,本发明提出了一个基于时间增强和过滤增强的序列推荐模型;为了捕获更高阶的序列转换表示,本发明提出了一种基于窗口函数的时间戳嵌入模块来建模用户交互序列的时间特征,将该部分信息显式的建模到用户-物品二部图中;然后,本发明设计了一个新颖的时间增强图卷积网络TE-GCN模型来学习个体的物品嵌入,并在图上进行多层图卷积操作来学习每个节点的协作信号和高阶连通性。随后,将包含时间增强信息的嵌入送入基于过滤增强的序列编码器中,通过一个可学习的滤波器来消除原始交互序列中的噪声信号。
本发明提出的模型架构如图2所示,以下将根据模型架构中的各个部分进行详细阐述。
嵌入层:
通常基于Transformer的推荐模型会先创建一个嵌入查找表,其中d
是嵌入的维度大小,是用户u交互序列长度。首先,将每个用户对应的交互序列转换为固定长度的序列,其中L是最大长
度,通过截断或填充物品等操作来保持。中每个物品的的嵌入表示可以从表T中检索
出来,表示为。为了学习序列中不同位置对嵌入向量的影
响,可以在输入嵌入矩阵中添加一个可学习的位置嵌入,然
后将物品嵌入矩阵和位置嵌入矩阵进行组合,构造为序列的隐藏层表示Hi,如公式(1)所
示:
(1)
其中是一个包含序列位置信息的嵌入矩阵,可以作为输入直接送入到任何基于Transformer的模型中。
基于时间增强的图卷积层:
用户的交互偏好很大程度上受到其交互物品的相对时间间隔影响,用户交互的物品之间的相对时间间隔越大,其兴趣转移越大,反之亦然。因此,本模块研发了一种自适应窗口函数来构建基于时间增强的用户-物品图,能够揭示用户交互的历史序列在转移关系上的顺序模式,与传统的用户-物品二部图不同的是,本发明设计的基于时间增强的图卷积模型TE-GCN使用一个双重窗口函数来为每一个用户-物品交互项分配一个时间权重。
首先,将每一个用户u的历史交互序列对应的时间戳序列转换为相邻时间间隔序
列,其定义如公式(2)所示:
(2)
其中,L是该用户交互序列长度,表示相对时间间隔序列,序列中每个元素表示第k个物品与该用户交互的第一个物品之间的时间间隔。保存了用户的全局
兴趣转移信息。
为了从交互的连续时间特性中学习恰当的时间表示,以便分析个体的交互行为,可以将这些物品的属性信息作为模型的输入表示,最直接的方法是直接使用原始特征值而不进行特征转换,但是本发明不建议直接将这些时间间隔直接输入到邻接矩阵中,因为这样做的缺点在于:
首先,如果有一些用户的交互时间与其他用户的交互时间相差非常大,将它们直接加入邻接矩阵中可能会使得矩阵的某些元素特别大,从而导致次优的推荐结果。
其次,不同用户的交互时间产生影响的范围可能在不同的时间间隔,例如,某些用户的交互行为可能更加集中在短时间内,而另一些用户的交互行为可能更加分散在长时间内。
如果直接将相对时间的间隔加入邻接矩阵中,可能会使得某些用户的时间特征被过度强调,从而导致模型的泛化能力下降。
综上所述,本发明设计了一个窗口函数来解决上述问题。窗口函数的本质上
是一个高斯衰减函数,输入i是用户交互序列中第i个物品,输出是一个0-1的值,表示时间
因素对用户兴趣的影响,具体定义如公式(3)所示:
(3)
其中,表示基于窗口函数的权重,,分别表示用户u 交互序列中的第一
个和第i个物品对应的时间戳,表示窗口函数的带宽参数。其中,当时,的值为0,表示用户u对当前物品i的兴趣不受时间间隔的影响;当
时,表示用户u对当前物品i的兴趣受时间间隔的影响,且时间间隔越小,影响程度越大。
在窗口函数中,带宽参数表示时间间隔的波动程度,越大则权重随
时间间隔变化的趋势越平缓,越小则权重随时间间隔变化的趋势越陡峭。为了更好
地适应不同序列的时间间隔,可以根据原始时间戳序列来动态地调整窗口函数的带宽参数。因此,本发明根据每个交互序列最大时间戳和最小时间戳的跨度来动态确定的大小,具体做法如公式(4)所示:
(4)
其中,和分别表示用户u交互序列中时间戳的最大值和最小值,k是超参
数。本发明将时间戳的跨度分隔为k份,然后将设置为每份跨度的一半。当时间戳跨度较
小时,变小,从而窗口函数的宽度变窄,实际考虑的时间间隔就会相应变短,相反,时间跨
度较大时,考虑的时间间隔就会变长。
基于时间增强的用户-物品邻接矩阵:
图3展示了基于时间增强的用户-物品邻接矩阵的构造过程,假设用户集U = (
,,,,),物品集V = (,,,,),表示了所有用户和物品的交互关系,
基于这个用户-物品交互二部图,可以构造一个用户-物品邻接矩阵。在该邻接矩阵中,
每个元素的权重大小是根据窗口函数来进行计算得到。
与此同时,本发明设计了基于时间增强的图卷积层TE-GCN模型,在二分图结构中
对序列和时间影响进行建模,并捕获高阶协同信息。此外,该层细化了用户和物品的动态嵌
入,并通过图卷积操作学习时间增强图上的物品表示,具体来讲,先将用户-物品邻接矩阵
中的每个物品v映射到成d维的嵌入向量,然后通过TE-GCN模型进行迭代的图卷积操作,聚
合其邻居的特征来更新每个节点的表示,其定义如公式(5)所示。
(5)
其中,是上一层的节点表示,A是邻接矩阵,是用于提取传播有用信息
的可训练权重矩阵,()是非线性激活函数。
另外,本发明放弃了常规GCN中的特征变换和非线性激活两个机制,设计了一个简化后的GCN,其消息传播过程定义如公式(6)所示:
(6)
为了缓解TE-GCN模型中层数过多带来的过平滑问题,本发明还设计了一个High-
way Network。具体而言,将经过L层消息传播和邻居聚合后的物品表示和其初始嵌入序
列进行合并,其定义如公式(7)(8)所示:
(7)
(8)
其中,Sigmoid()代表Sigmoid激活函数,代表GCN最后一层的输出嵌入序列,
表示初始嵌入序列。是一个可训练的参数。
基于过滤增强的自注意力层:
原始基于Transformer的自注意力机制能很好的捕获用户交互中的序列特征,但是无法有效的抑制序列中的噪声问题。因此,本发明提出了基于过滤增强的自注意力层。在运用自注意力机制之前,将过滤增强层堆叠到嵌入层之后,利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号。
具体而言,在输入序列时,虽然可以直接使用物品嵌入和位置嵌入将输入序列嵌
入到低维向量空间,但现实世界的交互序列通常包含诸多噪声信息,这会导致模型训练不
佳。所以,本发明设计了一个过滤增强模块来削减序列中多余的噪声信息。具体方法为,首
先使用快速傅里叶变换FFT将交互矩阵沿物品维度从时域转换为频域,如公式(9)所示。
(9)
其中,F表示一维的FFT, 表示输入矩阵的频谱,将从时域转换为频
域, 然后将其送入一个可学习的滤波器,如公式(10)所示
(10)
其中,滤波器 是一个可学习的滤波器 ,它通过SGD优化算法自适应的表示为频域内的任何滤波器,/> 表示元素级乘法。最后通过一个一维的离散傅里叶逆变换将/>转换为时域的序列表示O,如式(11)所示
(11)
指离散傅里叶逆变换,可以将复数形式的张量转换为实数形式的张量,经过一个增强过滤器后,数据中的含噪信息得到了有效的降低,模型能够更充分的学习原始序列中用户真实兴趣特征。
为了缓解梯度消失和训练不稳定问题,在过滤增强自注意力模块后加入层归一化LayerNorm和残差连接Dropout,如公式(12)所示:
(12)
自注意力机制作为注意力机制的一种变体,由于其能够有效的捕捉序列特征的内部相关性,以及减少对于外部信息的依赖,已经有越来越多的自然语言处理任务使用自注意力机制来学习序列中的长距离依赖关系。通过上述的过滤增强处理,模型得到了包含位置信息和经过去噪后的序列表示,然后再使用自注意力机制来学习用户交互序列中的长期偏好,具体方法如公式(13)下:
(13)
多头注意力机制能够能够从不同的h中提取出不同子空间的信息,给定最大最大
序列长度T,隐藏维数d,第 层隐藏表示为: , 计算过程为公式(14)(15)所示:
(14)
(15)
其中:是输出注意力分数值; ,,分别是
queries,keys,values;是要学习的权重参数,是头的数量;比例参数能使模型在反向传播更新梯度时更加稳定。
为了使模型的训练更加稳定,本发明使用了一种新颖的残差连接方法。具体而言,对于每一轮训练,首先使用RELU激活函数,然后再执行线性连接操作。为了更多的保留前一层的关键信息并降低训练损失,本发明使用了两层残差连接网络,并且在每一次线性变换后加入一个Dropout层以防止过拟合,通过这种方法,可以使得自注意力层的学习更加稳定,具体定义如公式(16)(17)所示:
(16)
(17)
其中, /> 是偏置项。
预测层:
在这一层,将用户的原始嵌入和经过时间增强图卷积层、过滤增强自注意力层
的嵌入结合起来,得到最终的用户偏好向量,表示如公式(18)所示:
(18)
为了保持用户最终嵌入维数与物品向量维数相同,再对其进行一次线性变换,如公式(19)所示:
(19)
其中,是线性变换的权重系数矩阵。
接着,将用户最终嵌入和其初始嵌入进行内积操作来计算每个候选项的推荐
得分,定义如公式(20)所示:
(20)
最后,使用一个softmax函数将所有物品的得分转换成候选物品的概率分布,
如公式(21)所示:
(21)
其中是候选物品的预测得分,表示候选物品的点击概率。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
一种信息数据处理终端,用于实现所述的基于图卷积网络的时间增强信息序列推荐方法的步骤。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行***,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
1. 实验环境设置
本发明的相关实验基于Python 3。6及以上版本和torch 1。10。0或更高版本,运行环境版本需Anaconda 3-2020。02及以上。
主要的数据包包括cuda 10。2、cudnn10。2、torch==1。10。0+cu102、networkx==2。5。1、numpy==1。19。2、pandas==1。1。5、six==1。16。0、scikit-learn==0。24。2、spacy==3。4。0等。
1.1 数据描述
本发明在三个公开的亚马逊电商数据集上进行了广泛的实验,这些数据集包含了用户对不同领域产品的评论和交互记录,如表1所示。并且所有交互都被视为隐式反馈,按照时间的先后顺序对每个用户的交互序列进行排序,并且省略了交互物品数少于5个的用户和被用户交互次数少于5次的物品。
在数据集的划分上,本发明采用了Leave-one-out评价策略,序列中最后一个交互的物品作为测试集,倒数第二个交互的物品作为验证集,其他作为训练集,每个训练样本的最大长度设置为50,每个数据集的用户按8:1:1的比例分成训练集、验证集和测试集。
表1. 三个基准数据集的统计信息
1.2 评价指标
在没有负采样的情况下,本发明在整个数据集的基础上进行模型评估,本发明采用了两个常用的Top-K指标:HR@K和NDCG@K(其中K={5,20})。
HR是目前TOP-K推荐方法中十分流行的评价指标,其公式(23)如下:
(22)
其中:
N是用户总数
是测试集中的item出现在Top-N推荐列表中的用户数量
本发明也使用了NDCG来衡量和评价搜索结果,如公式(24)所示:
(24)
其中:
S为样本的数目,即用户需求项的数量
为第项需求项在模型推荐的物品列表中的位置
1.3 参数设置
本发明具体的超参数设置如表2所示。
表2. 超参数设置
2. 与其他模型比较的实验结果
为了证明本发明提出方法的有效性,本发明与基于深度神经网络和基于图神经网络两类模型所包含的主流方法进行了对比,实验结果如表3所示。
基于深度神经网络的比较模型有:
(1) GRU4Rec模型:基于门控循环单元设计而成,其首次将循环神经网络用于序列推荐任务。
(2) Caser模型:在用户行为序列中使用了卷积操作,同时考虑了用户行为序列中顺序信息和物品的关系。
(3) SASRec模型:基于自注意力机制的序列推荐模型,可以在一个正向传播中直接对整个序列进行建模。
(4) Bert4Rec模型: 基于自注意力机制的序列推荐模型,可以在一个正向传播中直接对整个序列进行建模。
(5) TiSASRec模型: 基于时间增强和Transformer的序列推荐模型,将交互序列中的两个物品之间的时间间隔进行建模,从而进一步挖掘物品之间的时序联系。
基于图神经网络的比较模型有:
(1) SRGNN模型:基于图神经网路的会话推荐模型,将用户会话序列转换成图的形式,更好的捕捉了用户的兴趣转移和行为模式
(2) GC-SAN模型:采用 self-attention 机制来生成会话表示,用来捕获许物品序列中的交互信息
3. 实验结果分析
本发明在三个数据集上和其他基线模型进行了对比实验,具体实验结果如表3所示,其中最好的结果用粗体显示,次优结果用下划线显示,并展示了本发明的TFGCN模型在每个指标下相对于次优基线模型的提升。综合分析,有以下相关发现:
本发明提出的TFGCN模型在三个数据集上的评价指标上都达到了最佳性能,特别的,TFGCN模型在三个数据集的HR@5上分别相比最强基线提升了36.94%,30.65%,14.98%,这证明了本发明模型的优越性。其中,Sports数据集是最稀疏最短的数据集,用户和物品的平均交互长度很小,本发明提出的TFGCN中,时间增强图的高阶连通性很好的解决了这个问题,因此,TFGCN模型相比其他基线模型在Sports数据集上取得了显著的提升。
其次,无论是稀疏还是密集的场景下,基于Transformer的序列推荐模型Bert4Rec,SASRec,TiSASRec等,其表现要显著优于等基于卷积或者RNN的序列编码器GRU4Rec,Caser,这是由于自注意力机制能自适应的为不同的物品分配不同的权重,并能精确的建模长期和短期的序列依赖关系。
另外,TiSASRec模型结合了时间信息来辅助对序列的学***平,一个可能的原因是参与测试的数据集中的数据缺乏重复性。
表3. 模型的实验结果比较
4. 消融实验
为了验证本发明提出的时间增强图卷积模块和过滤嵌入模块对于建模用户长期和短期兴趣的有效性,本发明进行了充分的消融实验,实验结果如表4所示。
表4. TFGCN的消融实验(HR@5)
在表4中,模型(A)指本发明提出的模型TFGCN。模型(B)中仅利用了TE-GCN来建模用户交互序列的时间和位置依赖关系,去掉了过滤增强模块Filter,没有考虑序列噪声对模型的影响。模型(C)使用了过滤增强嵌入模块Filter来减小历史交互序列的噪声信息,但没有TE-GCN模块来考虑时间信息对建模用户偏好的作用。模型(D)使用了过滤增强模块,但没有使用自适应的窗口函数来建模用户的时序偏好。模型(E)指原始的序列推荐模型SASRec,没有添加本发明的任何创新模块。
比较(A)-(B)可以看出,基于过滤增强的嵌入层能够有效削减原始交互序列中的噪声部分,避免了因为交互行为与用户实际偏好不一致的现象。比较(A)-(C)可以看出,通过结合时间信息辅助推荐能够更精确的捕获用户的偏好。比较(B)-(D)可知,直接将原始时间特征值送入GCN而使用时间窗口函数会导致推荐性能的下降,这是因为直接使用原始时间特征会使得特征表示容量太低,而无法准确的根据时间信息推断用户的动态兴趣转移。比较(A)-(E)可知,相比于原始基于Transformer的序列推荐模型,使用本发明提出的TFGCN模型性能有明显的提升,这进一步验证了本发明提出时间增强的图卷积神经网络和过滤增强嵌入等模块的有效性和实用性。
5. GCNs影响实验
为了分析不同类型GCNs模型对时态图卷积网络(TE-GCN)的影响,本发明将与两种不同的GCNs模型进行了对比试验,包括TE-GNN-GAT和TE-GNN-GGNN,其中,TE-GNN-GAT使用了图注意力网络(Graph Attention Layer,简称GAT)替换了TE-GNN中的GCN模块,TE-GNN-GGNN使用了门控图神经网络(Gated Graph Sequence Neural Networks,简称GGNN)替换了TE-GNN中的GCN模块。这些模型的对比实验结果如表5所示。
表5. 不同GCN的性能比较
如表5所示,与本发明的TE-GCN模型相比,不同类型GCN模型的推荐性能都有不同程度的下降,其中TE-GNN-GAT的性能比TE-GNN-GGNN的性能要好,这是因为TE-GNN-GAT所采用的图注意力机制和非线性特征转换能更多的考虑用户感兴趣的物品节点信息。本发明提出的TE-GCN方法性能明显优于这三种变种模型,这表明了本发明的模型中结合时态图卷积网络的有效性。
6. 超参数实验
(1) GNN层数的影响
为了检验本发明模型GNN层数对网络性能的影响,本发明分别设置了层数L为1,2, 3, 4, 5的TE-GCN实验,在图5(a)、图5(b)上展示了两个数据集上的比较结果,横轴表示模型采用的GNN层数大小,纵轴为评价指标,左侧是命中率(HR),图中用折线表示;右侧是归一化折损累计增益(NDCG),图中用折线表示。
其中,TE-GCN-0表示不使用时态图卷积神经网络(TE-GCN)的状态,直接将原始物品ID作为嵌入输入到序列编码器中。可以观察到,在Beauty数据集上,当使用TE-GCN时,相比于原始的Transformer序列编码器效果有明显的提升,当layer设置为4时,效果达到最佳。对于Sports数据集而言,当TE-GCN层数达到3时,效果为最佳,当层数继续提升,性能相比于之前会更差,这可能是由于模型的过拟合问题导致。可以看出,本发明提出的TE-GCN模块利用了时间偏移信息对用户行为进行建模,对网络的性能有显著的提升。
(2) 嵌入维度大小的影响
本发明进一步在Beauty数据集和Sports数据集上分析了超参数嵌入向量大小对
模型性能的影响,实验结果如图6(a)、图6(b)所示,横轴表示嵌入维度大小,纵轴为评价
指标,左侧是命中率(HR),图中用折线表示;右侧是归一化折损累计增益(NDCG),图中用折
线表示。
可以发现,随着嵌入维度的增加,模型的性能不仅会相应的提升,而且会逐渐趋于稳定。当将嵌入维度设置为64时,性能提升为最佳。这验证了本发明的TFGCN模型在不同嵌入维度上具有良好的稳定性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种基于图卷积网络的时间增强信息序列推荐方法,其特征在于,所述基于图卷积网络的时间增强信息序列推荐方法包括:
步骤一,将物品嵌入矩阵和位置嵌入矩阵进行组合,构造为序列的隐藏层表示;
步骤二,基于时间增强的图卷积网络利用一种自适应窗口函数构建时间增强用户-物品图,使用一个双重窗口函数为每一个用户-物品交互项分配一个时间权重;
步骤三,构建了基于过滤增强的自注意力层,在自注意力模块之前使用一个过滤增强层,利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号;
步骤四,聚合经过处理后用户嵌入和物品嵌入,然后为每个用户-物品对输出得分;
所述步骤二中的基于时间增强的图卷积网络建立在GCN体系结构的基础上,在用户-物品二分图结构中对序列和时间影响进行建模,并捕获高阶协同信息,细化了用户和物品的动态嵌入,并通过图卷积操作学习时间增强图上的物品表示,具体包括:
先将用户-物品邻接矩阵A中的每个物品v映射到成d维的嵌入向量,然后通过TE-GCN进行迭代的图卷积操作,聚合其邻居的特征来更新每个节点的表示,其定义如下式所示:
;
其中,上一层的节点表示,A是邻接矩阵,/>是用于提取传播有用信息的可训练权重矩阵,/>()是非线性激活函数;
将经过L层消息传播和邻居聚合后的物品表示和其初始嵌入序列/>进行合并,其定义为:
;
;
其中,Sigmoid()代表Sigmoid激活函数,代表GCN最后一层的输出嵌入序列,/>表示初始嵌入序列,/>是一个可训练的参数;
所述步骤二使用一个双重窗口函数为每一个用户-物品交互项分配一个时间权重中,首先将每一个用户u的历史交互序列对应的时间戳序列分别转换为全局和相邻时间的间隔序列,其定义如下式所示:
;
其中,L是该用户交互序列长度,表示相对时间的间隔序列,序列中每个元素表示当前物品与该用户交互的第一个物品之间的时间间隔,/>保存了用户的全局兴趣转移信息;
另外,窗口函数是一个高斯衰减函数,输入i是用户交互序列中第i个物品,输出是一个0-1的值,表示时间因素对用户兴趣的影响,具体定义为:
;
其中,表示基于窗口函数的权重, />分别表示用户u 交互序列中的第一个和第i个物品对应的时间戳,/>表示窗口函数的带宽参数,当/>时,/>的值为0,表示用户u对当前物品i的兴趣不受时间间隔的影响,当/>时,表示用户u对当前物品i的兴趣受时间间隔的影响,且时间间隔越小,影响程度越大;
根据每个交互序列最大时间戳和最小时间戳的跨度来动态确定的大小,具体为:
;
其中,和/>分别表示用户u交互序列中时间戳的最大值和最小值,k是超参数,将时间戳的跨度分隔为k份,然后将/>设置为每份跨度的一半,当时间戳跨度较小时,/>变小,从而窗口函数的宽度变窄,考虑的时间间隔就会相应变短,相反,时间跨度较大时,考虑的时间间隔变长;
所述步骤三利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号,具体包括:
首先, 使用快速傅里叶变换将交互矩阵沿物品维度从时域转换为频域,如下式所示:
;
其中表示一维的FFT,/> 表示输入矩阵/>的频谱,将/>从时域转换为频域,然后将其送入一个可学习的滤波器/>,如下式所示:
;
其中,滤波器 是一个可学习的滤波器,它通过SGD优化算法自适应的表示为频域内的任何滤波器,/> 表示element-wise product;
最后通过一个一维的离散傅里叶逆变换将/>转换为时域的序列表示O,如下式所示:
;
所述步骤三中,在过滤增强层Filter-enhanced layer后加入层归一化LayerNorm和残差连接Dropout,如下式所示:
;
随后将经过过滤后的物品嵌入矩阵输入到自注意力层来捕捉用户交互序列中的长期语义信息, 自注意力机制的具体方法如下式:
;
多头注意力机制从不同的h中提取出不同子空间的信息,给定最大最大序列长度T,隐藏维数d,第l层隐藏表示为:, 计算过程为公式:
;
;
其中:
是输出注意力分数值;
,/>,/>分别是queries,keys,values,
是要学习的权重参数,
是头的数量,
比例参数能使模型在反向传播更新梯度时更加稳定;
对于每一轮训练,首先使用RELU激活函数,然后再执行线性连接操作;使用了两层残差连接网络,并且在每一次线性变换后加入一个Dropout层以防止过拟合,具体定义为:
;
;
其中, /> 是偏置项。
2.如权利要求1所述的基于图卷积网络的时间增强信息序列推荐方法,其特征在于,基于Transformer的推荐模型先创建一个嵌入查找表,其中d是嵌入的维度大小,是用户u交互序列长度,将每个用户对应的交互序列/>转换为固定长度的序列/>,其中L是最大长度,通过截断或填充物品操作来保持,中每个物品的嵌入表示可以从表T中检索出来,所述步骤一将物品嵌入矩阵和位置嵌入矩阵/>进行组合,构造为序列的隐藏层表示/>,如下式所示:
;
其中是一个包含序列位置信息的嵌入矩阵,可作为输入直接送入到任何基于Transformer的模型中。
3.如权利要求1所述的基于图卷积网络的时间增强信息序列推荐方法,其特征在于,所述步骤四聚合经过处理后用户嵌入和物品嵌入,然后为每个用户-物品对输出得分,具体包括:
首先,将用户的原始嵌入和经过基于时间增强的图卷积层、基于过滤增强的自注意力层的嵌入/>结合起来,得到用户偏好向量矩阵/>,表示为:
;
其次,为了保持最终用户嵌入维数与物品向量维数相同,需要对用户偏好向量进行一次线性变换,如下式所示:
;
其中,是线性变换的权重系数矩阵;
接着,将用户最终嵌入和其初始嵌入/>进行内积操作来计算每个候选物品的推荐得分/>,定义为:
;
最后,使用一个softmax函数将所有候选物品得分转换成候选物品/>的概率分布,如下式所示:
;其中,/>是候选物品的预测得分,/>表示候选物品的点击概率。
4.一种用于实施权利要求1~3任意一项所述的基于图卷积网络的时间增强信息序列推荐方法的基于图卷积网络的时间增强信息序列推荐***,其特征在于,所述基于图卷积网络的时间增强信息序列推荐***包括:
嵌入层,将物品嵌入矩阵和位置嵌入矩阵进行组合,构造为序列的隐藏层表示;
基于时间增强的图卷积层,一种自适应窗口函数来构建时间增强用户-物品图,使用一个双重窗口函数来为每一个用户-物品交互项分配一个时间权重;
基于过滤增强的自注意力层,在自注意力模块之前使用一个过滤增强层,利用快速傅里叶变换和一个可学习的滤波器来抑制序列嵌入中的含噪信号;
预测层,聚合经过模型处理后用户嵌入和物品嵌入,然后为每个用户-物品对输出得分。
5.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求1~3任意一项所述的基于图卷积网络的时间增强信息序列推荐方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817593.XA CN116542720B (zh) | 2023-07-05 | 2023-07-05 | 一种基于图卷积网络的时间增强信息序列推荐方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310817593.XA CN116542720B (zh) | 2023-07-05 | 2023-07-05 | 一种基于图卷积网络的时间增强信息序列推荐方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116542720A CN116542720A (zh) | 2023-08-04 |
CN116542720B true CN116542720B (zh) | 2023-09-19 |
Family
ID=87456360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310817593.XA Active CN116542720B (zh) | 2023-07-05 | 2023-07-05 | 一种基于图卷积网络的时间增强信息序列推荐方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116542720B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992099B (zh) * | 2023-09-27 | 2024-01-12 | 湖北工业大学 | 一种基于交互选择的图神经网络推荐方法、***及终端 |
CN117150150B (zh) * | 2023-10-31 | 2024-02-09 | 中国科学技术大学 | 一种基于图信号处理的群体推荐方法 |
CN117763300A (zh) * | 2023-12-04 | 2024-03-26 | 淮阴工学院 | 基于时态图转换器和偏好波动的智能程序推荐方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020228514A1 (zh) * | 2019-05-13 | 2020-11-19 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及存储介质 |
CN112905900A (zh) * | 2021-04-02 | 2021-06-04 | 辽宁工程技术大学 | 基于图卷积注意力机制的协同过滤推荐算法 |
CN113821724A (zh) * | 2021-09-23 | 2021-12-21 | 湖南大学 | 一种基于时间间隔增强的图神经网络推荐方法 |
CN114579852A (zh) * | 2022-02-28 | 2022-06-03 | 北京工业大学 | 一种基于图卷积网络与注意力机制的推荐方法 |
CN114676315A (zh) * | 2022-01-28 | 2022-06-28 | 齐鲁工业大学 | 基于增强图卷积的属性融合交互推荐模型构建方法及*** |
CN114896515A (zh) * | 2022-04-02 | 2022-08-12 | 哈尔滨工程大学 | 基于时间间隔的自监督学习协同序列推荐方法、设备和介质 |
CN115510335A (zh) * | 2022-09-30 | 2022-12-23 | 电子科技大学 | 一种融合相关性信息的图神经网络会话推荐方法 |
CN115618128A (zh) * | 2022-10-20 | 2023-01-17 | 河北大学 | 一种基于图注意力神经网络的协同过滤推荐***及方法 |
CN116561424A (zh) * | 2023-05-12 | 2023-08-08 | 云南大学 | 一种应用于智能推荐***的图神经网络结合Transformer的推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10970350B2 (en) * | 2019-08-15 | 2021-04-06 | Advanced New Technologies Co., Ltd. | Method and apparatus for processing user interaction sequence data |
-
2023
- 2023-07-05 CN CN202310817593.XA patent/CN116542720B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020228514A1 (zh) * | 2019-05-13 | 2020-11-19 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及存储介质 |
CN112905900A (zh) * | 2021-04-02 | 2021-06-04 | 辽宁工程技术大学 | 基于图卷积注意力机制的协同过滤推荐算法 |
CN113821724A (zh) * | 2021-09-23 | 2021-12-21 | 湖南大学 | 一种基于时间间隔增强的图神经网络推荐方法 |
CN114676315A (zh) * | 2022-01-28 | 2022-06-28 | 齐鲁工业大学 | 基于增强图卷积的属性融合交互推荐模型构建方法及*** |
CN114579852A (zh) * | 2022-02-28 | 2022-06-03 | 北京工业大学 | 一种基于图卷积网络与注意力机制的推荐方法 |
CN114896515A (zh) * | 2022-04-02 | 2022-08-12 | 哈尔滨工程大学 | 基于时间间隔的自监督学习协同序列推荐方法、设备和介质 |
CN115510335A (zh) * | 2022-09-30 | 2022-12-23 | 电子科技大学 | 一种融合相关性信息的图神经网络会话推荐方法 |
CN115618128A (zh) * | 2022-10-20 | 2023-01-17 | 河北大学 | 一种基于图注意力神经网络的协同过滤推荐***及方法 |
CN116561424A (zh) * | 2023-05-12 | 2023-08-08 | 云南大学 | 一种应用于智能推荐***的图神经网络结合Transformer的推荐方法 |
Non-Patent Citations (2)
Title |
---|
Kun Zhou et.al..Filter-enhanced MLP is All You Need for Sequential Recommendation.WWW '22: Proceedings of the ACM Web Conference 2022.2022,2388–2399. * |
Sequence Recommendation Based on Interactive Graph Attention Network;Liu, Q. et.al.;Neural Information Processing: 29th International Conference, ICONIP 2022, Virtual Event, Proceedings;293-304 * |
Also Published As
Publication number | Publication date |
---|---|
CN116542720A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116542720B (zh) | 一种基于图卷积网络的时间增强信息序列推荐方法及*** | |
CN111104595B (zh) | 一种基于文本信息的深度强化学习交互式推荐方法及*** | |
CN111127142B (zh) | 一种基于广义神经注意力的物品推荐方法 | |
CN112364976B (zh) | 基于会话推荐***的用户偏好预测方法 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN114519145A (zh) | 一种基于图神经网络挖掘用户长短期兴趣的序列推荐方法 | |
CN116431914A (zh) | 一种基于个性化偏好转移模型的跨域推荐方法及*** | |
CN113918832A (zh) | 基于社交关系的图卷积协同过滤推荐*** | |
CN113590976A (zh) | 一种空间自适应图卷积网络的推荐方法 | |
CN113918833A (zh) | 通过社交网络关系的图卷积协同过滤实现的产品推荐方法 | |
Wu et al. | Estimating fund-raising performance for start-up projects from a market graph perspective | |
CN112364242A (zh) | 针对上下文感知型的图卷积推荐*** | |
CN113918834A (zh) | 融合社交关系的图卷积协同过滤推荐方法 | |
Shabani et al. | A comprehensive survey on graph summarization with graph neural networks | |
Mu et al. | Auxiliary stacked denoising autoencoder based collaborative filtering recommendation | |
Tai et al. | Improving session-based recommendation with contrastive learning | |
Jovanovic et al. | Trends and challenges of real-time learning in large language models: A critical review | |
Sang et al. | Position-aware graph neural network for session-based recommendation | |
Wu et al. | KPRLN: deep knowledge preference-aware reinforcement learning network for recommendation | |
Zhang et al. | Hybrid structural graph attention network for POI recommendation | |
Cotter et al. | Interpretable set functions | |
CN115730143A (zh) | 基于任务对齐元学习和增广图的推荐***、方法、终端及介质 | |
CN111737591A (zh) | 一种基于异质重边信息网络翻译模型的产品推荐方法 | |
CN113961816B (zh) | 一种基于结构增强的图卷积神经网络会话推荐方法 | |
Huang | Research on graph network recommendation algorithm based on random walk and convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |