CN115599990A

CN115599990A - 一种知识感知结合深度强化学习的跨域推荐方法及***

Info

Publication number: CN115599990A
Application number: CN202211132191.8A
Authority: CN
Inventors: 李涓子; 李亚坤; 侯磊; 褚晓泉; 孟斌杰; 张鹏; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2023-01-13

Abstract

本发明提供一种知识感知结合深度强化学习的跨域推荐方法及***，包括：获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果；通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集；将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略。本发明解决了现有信息推送准确性低的缺陷，实现通过跨域推荐提升信息推送的准确度。

Description

一种知识感知结合深度强化学习的跨域推荐方法及***

技术领域

本发明涉及信息推送技术领域，尤其涉及一种知识感知结合深度强化学习的跨域推荐方法及***。

背景技术

推荐技术旨在为用户提供满意的信息推送服务，被广泛应用于众多线上场景中，例如社交软件上的好友推荐、购物平台上的商品推荐和短视频平台上的视频推荐。然而，一些瓶颈问题(例如：数据稀疏、噪声样本等)仍然严重制约着现有推荐方法的发展。最近，跨域推荐引起了很多关注，并成为一种有前景的推荐方法。直观地，大多数现有的跨域推荐通过利用来自辅助领域的丰富知识来提高稀疏目标领域的用户推荐准确性。然而，由域漂移和采样效率问题引起的低效知识迁移导致模型的推荐效果并不理想。

知识图谱(KG)是一个结构化的语义信息网络，其中节点代表实体，边代表节点之间的关系。由于它可以提供源自外部数据库中丰富的先验知识(Wikidata、ConceptNet和Microsoft Satori)，因此许多相关研究工作已成功应用于真实推荐场景。此外，协同知识图谱可以将推荐***中的用户和项目实体集成到已构建的知识图谱中，从而提高了用户推荐的精度。但是，目前基于KG的推荐方法基本上只能应用于单域推荐***。强化学习(RL)可以通过利用与环境进行持续交互的智能代理来学习推荐策略，实现了令人瞩目的研究进展。特别地，深度强化学习(DRL)可以训练一个与用户交互和反馈的推荐代理来优化推荐策略，并在基于KG的推荐***中展现了强大的表示学习和函数约束能力。因此，基于DRL的推荐已经成为近年来新兴的研究课题，其大致可分为两类：基于模型的方法和模型无关的方法。前者旨在评估奖励和转换函数，而后者旨在从交互体验中评估价值函数或推荐策略；两者之间的主要区别在于推荐代理是否可以学习一个环境模型。

然而，将DRL应用到实际的推荐***中仍然存在一些挑战。例如，在线上场景中，有限的用户交互数据会显著地影响推荐性能和用户体验；推荐***中规模巨大的项目和状态空间致使DRL策略在每个下一步中都存在采样效率问题；之前推荐代理难以应对KG中众多类型的关系和实体集。此外，尽管大多数现有模型都可以应用于单域推荐***，例如序列、交互、对话和可解释的推荐场景，但研究人员还未探索过它们在跨域推荐中的表现。难以将跨域实体之间关联起来形成有效的推荐方案。

发明内容

本发明提供一种知识感知结合深度强化学习的跨域推荐方法及***，用以解决现有信息推送准确性低的缺陷，实现通过跨域推荐提升信息推送的准确度。

本发明提供一种知识感知结合深度强化学习的跨域推荐方法，包括：

获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；

基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果；

通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集；

将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略。

根据本发明提供的一种知识感知结合深度强化学习的跨域推荐方法，所述获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架，具体包括：

基于马尔可夫决策过程框架将跨域推荐代理与知识感知的环境进行交互，生成交互结果；

基于交互结果通过最大化用户累积奖励推荐合适的项目。

根据本发明提供的一种知识感知结合深度强化学习的跨域推荐方法，基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果，具体包括：

基于注意力机制获取目标实体的域内状态表示结果；

基于图卷积网络获取目标实体的跨域状态表示结果；

将所述域内状态表示结果和所述跨域状态表示结果进行融合，获取融合状态表示结果。

根据本发明提供的一种知识感知结合深度强化学习的跨域推荐方法，所述通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集，具体包括：

在剪枝过程中，比较目标节点与所有邻居节点之间的相似性来专注于采样最相关的实体样本；

通过欧式距离法衡量节点之间表示的相似度；

将与目标节点相似度大于设定阈值的邻居节点构建为剪枝邻居集。

根据本发明提供的一种知识感知结合深度强化学习的跨域推荐方法，将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略，具体包括：

获取剪枝邻居集后通过自监督模型生成第一输出层；

所述第一输出层作为域内自监督头，通过所述自监督头为代理生成推荐策略。

根据本发明提供的一种知识感知结合深度强化学习的跨域推荐方法，将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略，还包括：

获取剪枝邻居集后通过自监督模型生成第二输出层；

所述第二输出层作为跨域的Q-learning头对推荐策略进行评价和优化，借助来自辅助域和目标域的累积奖励信号；

通过第一输出层和第二输出层进行互补学习生成最终推荐策略。

本发明还提供一种知识感知结合深度强化学习的跨域推荐***，所述***包括：

转化模块，用于获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；

知识感知双状态表示模块，基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果；

剪枝模块，用于通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集；

结果生成模块，用于将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略。本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述知识感知结合深度强化学习的跨域推荐方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述知识感知结合深度强化学习的跨域推荐方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述知识感知结合深度强化学习的跨域推荐方法。

本发明提供的一种知识感知结合深度强化学习的跨域推荐方法及***，通过将知识图谱信息融入到基于强化学习的跨域推荐框架中，将跨域推荐任务形式化为新的马尔可夫决策过程，并分析在RL框架下要解决的问题；并设计了一种知识感知的双状态表示方案来获得目标实体最终融合的状态表示，通过利用注意力机制和图卷积网络将一些偏好协同信号注入到模型中；为了进一步优化跨域推荐策略，通过约束的自监督Actor-Critic网络模型，以提高采样效率和推荐准确性，并在大规模数据场景中表现出较高的采样效率。另外，本发明提出的跨域推荐方法不仅在不同数据稀疏度、模型训练迭代的次数、可视化方面实现了较好的性能，而且在消融实验中也验证了提出方法的有效性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种知识感知结合深度强化学习的跨域推荐方法的流程示意图之一；

图2是本发明提供的一种知识感知结合深度强化学习的跨域推荐方法的流程示意图之二；

图3是本发明提供的一种知识感知结合深度强化学习的跨域推荐方法的流程示意图之三；

图4是本发明提供的一种知识感知结合深度强化学习的跨域推荐方法的流程示意图之四；

图5是本发明提供的一种知识感知结合深度强化学习的跨域推荐***的模块连接示意图；

图6是本发明提供的电子设备的结构示意图。

附图标记：

110：转化模块；120：知识感知双状态表示模块；130：剪枝模块；140：结果生成模块；

610：处理器；620：通信接口；630：存储器；640：通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述本发明的一种知识感知结合深度强化学习的跨域推荐方法，包括：

S100、获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；

S200、基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果；

S300、通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集；

S400、将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略。

本发明中给定一个协同知识图谱、一个源域矩阵和一个目标域矩阵，在协同知识图谱上构建一种新颖的知识感知和深度强化学习的跨域推荐方法，并预测目标用户可能喜欢的潜在项目，有助于拓宽推荐数据源，优化推荐方案，使推荐结果更贴合用户喜好。

获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架，具体包括：

S101、基于马尔可夫决策过程框架将跨域推荐代理与知识感知的环境进行交互，生成交互结果；

S102、基于交互结果通过最大化用户累积奖励推荐合适的项目。

受之前先进模型的启发，本发明将跨域推荐任务形式化为协同知识图谱CKG上的马尔可夫决策过程，其中跨域推荐代理与知识感知的环境进行交互，然后通过最大化用户累积奖励来推荐合适的项目。因此，本发明定义一个新的MDP马尔可夫决策过程元组(S，A，P，R，γ)，其中S是状态集，A是动作空间，P表示状态转移函数，R是环境的奖励函数，γ是折扣因子。

状态集，状态s_t∈S表示代理在当前步骤t时CKG上的搜索状态。为了平衡模型准确性和采样效率，本发明将历史的N-step定义为CKG上过去N步实体和关系的有序序列，即s_t＝{u,e_t-N,…,r_t-1,e_t-1,r_t,e_t}。此外，本发明将目标用户u₀初始化为状态s₀。

动作空间，动作空间A_t是指当前实体在CKG中所有可能的出边(除了其历史路径之外)。基于给定的策略，推荐代理可以输出一个动作a_t＝(r_t+1,e_t+1)∈A_t，其中r_t+1是实体e_t和e_t+1之间的连接关系,e_t+1表示探索期间的下一个实体。由于在CKG中枚举实体的所有可能的出边非常费力且效率低下，尤其是在跨域推荐场景中，因此本发明提出了一种约束的邻居剪枝策略，以在探索过程中高效地保留有前景的动作。

状态转移函数，直观地说，一个状态可以揭露当前实体的位置和下一个实体在CKG上的可能位置。给定一个状态s_t和一个动作a_t，下一个状态的转换便被确定了。

P＝[s_t+1＝(u,e_t+1)|s_t＝(u,e_t),a_t＝(r_t+1,e_t+1)]＝1 (1)

在跨域推荐场景中，如果目标用户点击了一些候选项目，则状态转移概率更新为s_t+1；如果它忽略所有候选项目，推荐代理给出负面反馈并且探索终止。

环境的奖励函数，奖励

衡量了推荐代理在步骤t探索期间目标项目的反馈信号。然而，推荐器仅通过二元奖励来判断代理是否已获取所需项目并不容易。因此，本发明根据推荐器的反馈引入一个软奖励函数。为此，一种基于终止状态s_T的终止奖励被定义如下所示。

其中，f()是评分函数，可以采用不同的评价策略；e_j表示项目j的嵌入。

折扣因子，折扣因子γ是用于调整未来和中间奖励的平衡参数。特别地，γ＝1意味着代理只关注未来的奖励，γ＝0意味着代理只关注中间奖励。

在基于强化学习的推荐中，状态表示在捕获实体之间的交互偏好方面发挥着不可或缺的作用。然而，现有的大多数方法只关注模型学习，而忽略了实体之间的语义表示和偏好知识的利用。最近，知识图谱KG已经显示出有前景的语义表征能力。因此，为了有效地学习推荐策略，本发明设计了一种包含域内和域间知识感知的双状态表示方案，以促进知识图谱环境下的推荐代理的训练。直观地，该方案的基本原理是，当前状态表示不仅与域内邻居的知识表示相关，还与协同知识图谱CKG上跨域邻居的知识表示相关。

马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果，具体包括：

S201、基于注意力机制获取目标实体的域内状态表示结果；

S202、基于图卷积网络获取目标实体的跨域状态表示结果；

S203、将所述域内状态表示结果和所述跨域状态表示结果进行融合，获取融合状态表示结果。

基于注意力机制获取目标实体的域内状态表示结果，域内的邻居节点可以为跨域推荐***中的目标用户提供关键的偏好知识。因此，域内状态表示的获取是探索过程中双状态表示方案的重要组成部分。此外，由于推荐***中的每个项目都与CKG上的一个实体相关联，因此采用注意力机制来聚合目标用户的邻居偏好知识。为此，实体或项目在域内的嵌入

被计算如下：

其中，W_k是输入权重矩阵，

是实体或项目的低维向量值。此外，根据不同场景的实际需求，本发明可以动态选择不同的邻居聚合策略，例如随机游走或多跳推理方法。因此，本发明不再此详述邻居聚合过程。

在获得域内所有邻居的嵌入后，域内注意力状态表示

被计算如下。

其中，N(u)是目标用户u在域内的邻居集，W′_k是可训练参数，σ为激活函数。因此，考虑基于注意力机制的域内状态表示，可以让模型更多地关注CKG上的关键实体，并减少来自不相关实体的噪声。

基于图卷积网络获取目标实体的跨域状态表示结果，图神经网络技术在跨域推荐场景中已经引起了越来越多的关注。由于它能够生成强大的数据表示，图卷积网络(GCN)被用来表征CKG中用户、项目和其他实体。直观地，跨域实体节点可以接收从其邻居传播来的相关信息，以更新其最新的表示。换句话说，该方案背后的关键思想是可以聚合来自跨域关联邻居的特征信息。为此，当前步骤的跨域状态表示

被定义如下。

其中，W_ac是在层间传播信息的权重矩阵，||是针对不同嵌入的连接操作，ρ是非线性激活函数，

是目标用户的跨域邻居的表示信息，被定义如下。

其中，N'(u)是目标用户的跨域邻居，

是上述邻居节点的嵌入，AGGREGATE()是聚合函数。此外，平均聚合、LSTM聚合和池化聚合，这三种聚合策略都可应用于本发明，在实际中，可以根据具体情况使用任一聚合器。

将域内状态表示结果和所述跨域状态表示结果进行融合，获取融合状态表示结果，来自不同域的邻居节点的表示对跨域推荐场景中的环境构建有不同的贡献。因此，对于一个状态s_t，最终状态表示可以通过融合来自域内和域间的表示来获得。

其中，

是向量连接运算。与单域状态表示相比，本发明可以将知识图谱信息注入到MDP框架的状态表示中，从而实现知识感知的探索和利用。

通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集，具体包括：

S301、在剪枝过程中，比较目标节点与所有邻居节点之间的相似性来专注于采样最相关的实体样本；

S302、通过欧式距离法衡量节点之间表示的相似度；

S303、将与目标节点相似度大于设定阈值的邻居节点构建为剪枝邻居集。

通常情况下直接将RL(强化学习)算法应用于跨域推荐框架是不可行的，而且大规模的项目和动作空间给推荐策略的效率带来了很大挑战。因此，本发明提出了一个约束的自监督Actor-Critic网络，其中，该方法首先设计了一种约束的邻居剪枝策略来缩小探索空间，然后提出了一种自监督的Actor-Critic模型来为具有高累积奖励和强梯度信号的动作分配更高的权重。

虽然基于KG的推荐探索减少了实体的动作空间，但推荐***中的大规模项目和某些节点的邻居范围仍然极大地约束了探索的高效性。此外，由于用户不太可能对所有项目感兴趣，本发明则专注于根据CKG中节点的语义信息选择潜在的候选项目。因此，提出了一种邻居剪枝策略(NPS)来有效地找到候选节点。

鉴于路径上目标节点的邻居构成了一个非常大的动作和状态空间，为此，本发明在每个训练中，通过比较目标节点与所有邻居节点之间的相似性来专注于采样最相关的实体样本。因此，常用的Euclidean distance法(欧式距离法)被采用来衡量节点之间表示的相似度。

其中，v是目标节点u的邻居，d是节点表示的维度，

是节点在当前步骤中的特征嵌入。假设N_u是目标节点的邻居集，为了提高探索效率，本发明定义了一个相似度阈值θ，保留与目标节点的嵌入相似度大于该阈值的那些邻居节点，从而构建一个新的邻居集

因此，本发明提出的邻居剪枝策略约束了无限采样，实现了探索和利用之间的权衡。

将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略，具体包括：

获取剪枝邻居集后通过自监督模型生成第一输出层；

此外，获取剪枝邻居集后通过自监督模型生成第二输出层；

在获得剪枝的邻居集后，本发明对用户状态表示进行建模，采用Q-network来改进跨域推荐场景的推荐策略。因为前述已将知识感知信息编码到状态表示中，本发明可以直接使用融合后的状态表示作为RL网络的输入状态。为此，本发明设计了一个输出模块来计算Q值。

Q(s′_t,a_t)＝σ(h_ts′_t+b) (9)

其中，σ是激活函数，h_t和b是Q-learning输出模块的可训参数。在提出的RL训练过程中，跨域的Q学习可以用作正则化器，来基于域内的奖励策略微调推荐代理。为了确保无偏的Q学习，本发明的采样过程不仅包括那些积极的反馈信号(点击、转推等)，还包括那些负面奖励(未观察到的标签、低分等)。因此，本发明基于单步的TD误差(基于时序差分的误差)来定义RL的Q损失。

此外，为了进一步避免Q学习中缺乏负奖励样本，本发明协同训练了一个基于自监督头的RL输出层。为此，给定一些用户-项目交互输入序列和一个现有的跨域推荐器，基于分类分布上交叉熵的自监督训练损失被定义如下。

其中，Y_i表示指标函数，如果用户在下一步中与项目存在交互，则它取值为1，否则为0。交叉熵损失为训练提供了某些负面反馈信号。因此，这对本发明提出的跨域推荐模型的训练非常有帮助。

直观地，在大量用户-项目交互对的训练过程中，学习到的Q值是无偏的，具有高Q值的动作可以增加自监督损失的权重。因此，本发明考虑域内的自监督头作为初始推荐策略的Actor，跨域的Q-learning头作为最终推荐策略的Critic。基于上述解决方案，本发明可以使用Q值作为权重来优化自监督损失。

L_A＝L_s·Q(s′_t,a_t) (12)

这样的训练类似于现有的AC模型。为了保持稳定性，模型在初始阶段，可以固定Q值。然后，本发明联合训练Actor和Critic网络，其训练损失公式如下所示。

L_KRCDR＝L_A+L_q (13)

在本发明的推荐场景中，Q值的学***衡的情况下。为了缓解这些问题，可以通过划分一些分支来预训练提出的模型。当Q值整体稳定时，可以使用它们来重新加权网络并执行更新。

基于上述所设计的跨域推荐模型，本发明可以将其与现有的跨域推荐器集成，并且通过迭代训练来更新模型参数。具体地，本发明首先固定所有模型参数，然后从目标域***中采样负交互，以配对来自两个域的正交互。然后，将它们输入到跨域推荐器中，并通过随机梯度下降策略更新梯度。如前所述，本发明方法可以使用交叉熵作为自监督损失来训练模型，同时这样的训练方式也可以用于其他参数的更新。

本发明在多种真实世界的公开数据集上进行了广泛的实验，证明了提出的方法可以始终优于先进的基线模型，大幅提升了跨域推荐的准确性，并在大规模数据场景中表现出较高的采样效率。另外，本发明提出的跨域推荐方法不仅在不同数据稀疏度、模型训练迭代的次数、可视化等方面实现了较好的性能，而且在消融实验中也验证了提出方法的有效性。

参考图5，本发明还公开了一种知识感知结合深度强化学习的跨域推荐***，所述***包括：

转化模块110，用于获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；

知识感知双状态表示模块120，基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果；

剪枝模块130，用于通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集；

结果生成模块140，用于将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略。

转化模块110，基于马尔可夫决策过程框架将跨域推荐代理与知识感知的环境进行交互，生成交互结果；

基于交互结果通过最大化用户累积奖励推荐合适的项目。

知识感知双状态表示模块120，基于注意力机制获取目标实体的域内状态表示结果；

基于图卷积网络获取目标实体的跨域状态表示结果；

剪枝模块130，在剪枝过程中，比较目标节点与所有邻居节点之间的相似性来专注于采样最相关的实体样本；

通过欧式距离法衡量节点之间表示的相似度；

结果生成模块140，获取剪枝邻居集后通过自监督模型生成第一输出层；

还获取剪枝邻居集后通过自监督模型生成第二输出层；

本发明提出了一种知识感知结合深度强化学习的跨域推荐***，将知识图谱信息融入到基于强化学习的跨域推荐框架中。首先将跨域推荐任务形式化为新的马尔可夫决策过程，并分析在RL框架下要解决的问题；然后，设计了一种知识感知的双状态表示方案来获得目标实体最终融合的状态表示，通过利用注意力机制和图卷积网络将一些偏好协同信号注入到模型中；其次，为了进一步优化跨域推荐策略，本发明提出了一个约束的自监督Actor-Critic网络模型，以提高采样效率和推荐准确性。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行一种知识感知结合深度强化学习的跨域推荐方法，该方法包括：获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种知识感知结合深度强化学习的跨域推荐方法，该方法包括：获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的一种知识感知结合深度强化学习的跨域推荐方法，该方法包括：获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种知识感知结合深度强化学习的跨域推荐方法，其特征在于，包括：

2.根据权利要求1所述的知识感知结合深度强化学习的跨域推荐方法，其特征在于，所述获取跨域推荐任务，将所述跨域推荐任务转换为协同知识图谱上的马尔可夫决策过程框架，具体包括：

基于交互结果通过最大化用户累积奖励推荐合适的项目。

3.根据权利要求1所述的知识感知结合深度强化学习的跨域推荐方法，其特征在于，基于所述马尔可夫决策过程框架采用注意力机制和图卷积网络，获取并融合域内和跨域的邻居状态表示结果，具体包括：

基于注意力机制获取目标实体的域内状态表示结果；

基于图卷积网络获取目标实体的跨域状态表示结果；

4.根据权利要求1所述的知识感知结合深度强化学习的跨域推荐方法，其特征在于，所述通过训练好的受约束的邻居剪枝策略对融合的域内和跨域邻居状态表示结果进行剪枝，生成剪枝邻居集，具体包括：

通过欧式距离法衡量节点之间表示的相似度；

5.根据权利要求1所述的知识感知结合深度强化学习的跨域推荐方法，其特征在于，将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略，具体包括：

获取剪枝邻居集后通过自监督模型生成第一输出层；

6.根据权利要求5所述的知识感知结合深度强化学习的跨域推荐方法，其特征在于，将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略，还包括：

获取剪枝邻居集后通过自监督模型生成第二输出层；

7.一种知识感知结合深度强化学习的跨域推荐***，其特征在于，所述***包括：

结果生成模块，用于将所述剪枝邻居集输入至预设的自监督模型，通过所述自监督模型生成并优化推荐策略。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述知识感知结合深度强化学习的跨域推荐方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述知识感知结合深度强化学习的跨域推荐方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述知识感知结合深度强化学习的跨域推荐方法。