CN114662015A - 一种基于深度强化学习的兴趣点推荐方法及*** - Google Patents

一种基于深度强化学习的兴趣点推荐方法及*** Download PDF

Info

Publication number
CN114662015A
CN114662015A CN202210175716.XA CN202210175716A CN114662015A CN 114662015 A CN114662015 A CN 114662015A CN 202210175716 A CN202210175716 A CN 202210175716A CN 114662015 A CN114662015 A CN 114662015A
Authority
CN
China
Prior art keywords
user
poi
interest
reinforcement learning
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210175716.XA
Other languages
English (en)
Inventor
黄靖
张彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210175716.XA priority Critical patent/CN114662015A/zh
Publication of CN114662015A publication Critical patent/CN114662015A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于深度强化学习的兴趣点推荐方法,融合用户连续签到行为序列上下文特征属性实现兴趣点推荐,实现过程包括获取用户历史签到数据,进行预处理,得到用户集合和兴趣点POI集合;排序得到用户连续签到行为序列数据,构建POI‑POI图GVV、POI‑功能区图GVZ和POI‑时间段图GVT;将用户连续签到行为序列通过嵌入层转换为用户特征向量;将GVV、GVZ和GVT通过联合图嵌入学习嵌入到同一潜在空间中,得到特征向量,串联后输入基于注意力机制的门控循环单元,生成用户近期的兴趣偏好特征向量;输入至基于深度强化学习Actor‑Critic框架的推荐模型中,得到Top‑k有序兴趣点推荐列表。本发明有效融合了用户签到序列信息、兴趣点的时空信息和类别信息,提高了推荐模型的准确率。

Description

一种基于深度强化学习的兴趣点推荐方法及***
技术领域
本发明涉及用户兴趣点自动推荐的电子信息技术领域,尤其涉及一种基于深度强化学习的兴趣点推荐方法。
背景技术
随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:信息消费者,从大量信息中找到自己感兴趣的信息是一件非常困难的事情;对于信息生产者,让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。而用户在日常出行中,也会遇到“信息过载”问题——选择哪家餐厅、哪个商场等。这些问题与网上购物时遇到的商品选择信息过载问题类似。在电子商务领域,为解决用户的信息过载问题,推荐***应运而生,它通过用户的兴趣偏好等信息,将用户可能感兴趣的内容推荐给用户。而面对出行时遇到的信息过载问题,亦有越来越多的兴趣点推荐***的研究。兴趣点推荐***可被描述为:利用人们的历史出行记录,为人们的未来出行提供建议的个性化信息推荐***。
POI推荐可以帮助用户探索特定场景下的生活服务,也可以为商家吸引顾客带来可观的经济效益。不同于传统的显示反馈推荐***(如推荐新闻、电影、商品等线上物品),可以利用用户对物品的评分直接表达用户的兴趣偏好,隐式反馈通过用户的历史POI访问轨迹记录挖掘其潜在偏好,这增加了推荐的复杂性。
POI推荐主要存在以下问题:1)相比于海量的线上点击和评分数据,POI推荐面临着更为严峻的数据稀疏性问题;2)推荐***任务中会普遍遇到的冷启动问题,在室内POI推荐任务中主要为两类:从未被访问过的位置称为冷启动POI,从未访问过任何位置的用户被称为冷启动用户。3)用户动态偏好问题,即用户偏好会随着时间推移和所处环境的改变发生变化,另外由于时空异质性,POI推荐算法要适应不同的场景以及不同文化、教育、社会经济背景的用户。因此,有必要考虑包括时空约束、时空近邻等在内的多种影响因素,以提高该任务的推荐性能。
发明内容
为了解决上述现有技术中存在的不足,本发明提出了一种基于深度强化学习的兴趣点推荐方法。
为了实现上述目的,本发明技术方案提供一种基于深度强化学习的兴趣点推荐方法,融合用户连续签到行为序列上下文特征属性实现兴趣点推荐,实现过程包括以下步骤,
S1,获取用户历史签到数据,每条签到记录包含用户ID、用户评分和评论、兴趣点ID、签到时间、兴趣点种类和兴趣点地理位置;对数据集进行预处理,得到用户集合和兴趣点POI集合;
S2,将S1预处理后的每个用户的历史签到记录按照访问时间的先后顺序分别排序,得到用户连续签到行为序列数据;
S3,根据处理后的用户历史签到数据构建3个二部图,分别是POI-POI图GVV、POI-功能区图GVZ和POI-时间段图GVT
S4,将S2得到的用户连续签到行为序列通过嵌入层转换为用户特征向量;将GVV、GVZ和GVT通过联合图嵌入学习嵌入到同一潜在空间中,得到POI、功能区和时间段在共享低维空间中的特征向量;串联用户特征向量及POI、功能区、时间段特征向量;
S5,将串联后的特征向量输入基于注意力机制的门控循环单元,生成用户近期的兴趣偏好特征向量;
S6,将用户兴趣特征向量输入至基于深度强化学习Actor-Critic框架的推荐模型中,得到Top-k有序兴趣点推荐列表。
而且,步骤S1中进行数据清洗,包括删除其中签到次数少于a次的用户和被签到次数少于b次的兴趣点,得到新的数据集,参数a和b预先设置。
而且,步骤S3的实现过程如下,
S31、构建POI-POI图GVV=(V∪V,εvv),其中V为POI的集合,εvv是POI间边的集合;
S32、构建POI-功能区图GVZ=(V∪Z,εvz),其中V为POI的集合,Z为功能区的集合,εvz为POI与功能区之间边的集合;POI-功能区图用于处理POI与地区之间的地理及语义关系,按照各地区所具有的、代表该地区的核心功能对城市进行划分,得到功能区集合;根据POI v的地理位置找到与之对应的功能区z,将v和z间连上边εvz,并设置该边权重为1;
S33、构建POI-时间段图GVT=(V∪T,εvt),其中V为POI的集合,T为时间段的集合,εvt为POI与时间段之间边的集合;根据用户历史签到数据,若一个POI v在一个时间段t内被访问,则将v和t间连上边,并设置该边权重为访问频率。
而且,步骤S4的联合图嵌入学习实现如下,
给定一个二部图GVV=(VA∪VB),VA和VB是两个互不相交的顶点集,使用负采样的方式计算图中每个顶点在潜空间的嵌入向量O,
Figure BDA0003520152070000031
Figure BDA0003520152070000032
其中,ε为边的合集,wij为边eij的权重,log p(vj|vi)是与vi关联的vj出现的概率,n为负采样从VB得到的顶点标记,Pn(v)为负采样的概率;vi和vj是边eij的两个端点,vi属于VA,vj属于VB,vn是通过负采样从VB得到的顶点,
Figure BDA0003520152070000033
Figure BDA0003520152070000034
分别是其对应顶点的嵌入向量;σ()是Sigmoid函数,
Figure BDA0003520152070000035
是期望函数,K是每次采样时选取负采样的边的数目,且
Figure BDA0003520152070000036
dv是顶点v的出度;通过联合训练的方式得到POI、地区和时间段在共享低维空间的表述向量
Figure BDA0003520152070000037
Figure BDA0003520152070000038
而且,步骤S5包括以下子步骤,
S51、将连续签到序列特征及<评论特征、时空特征、POI特征>作为用户的整体历史行为特征信息输入门控循环单元模型进行融合;
S52、采用注意力机制对融合信息特征进行选取,得到用户近期的兴趣偏好特征向量。
而且,所述S51中一个用户u连续签到行为序列定义为
Figure BDA0003520152070000039
Figure BDA00035201520700000310
其中v表示签到兴趣点,lv表示兴趣点的经纬度坐标,t表示签到时间,Mv是一组描述兴趣点v的词组,在t时刻,GRU的状态更新由以下公式计算得到,
Figure BDA00035201520700000311
Figure BDA00035201520700000312
Figure BDA00035201520700000313
Figure BDA00035201520700000314
其中,⊙表示点乘,{U1,U2,U3,W1,W2,W3}∈Rd×d和{b1,b2,b3}∈Rd是门控循环单元需要训练的参数矩阵,ht-1表示前一时刻t-1的隐层状态,rt和zt分别是t时刻的重置门和更新门,
Figure BDA00035201520700000315
为候选状态,ht表示隐藏层输出向量,
Figure BDA0003520152070000041
表示在t时刻用户u签到的输入向量,R为特征向量空间,d为特征向量维度。
而且,步骤S6包括以下子步骤,
S61、行动者Actor框架输出当前状态State及状态动作Action:一个指定数目的候选兴趣点列表;
S62、评论家Critic框架利用深度Q值网络DQN计算动作状态价值函数估计策略的价值期望,根据期望实时选择或集成其中的优势策略进行输出或更新,提升训练速度的同时在训练中生成有效的局部策略。
S63、向用户推荐Top-k兴趣点集合;计算推荐精确率Precision@M和召回率Recall@M。
本发明提出以下改进:
1.基于图嵌入模型可以很好的融合时空、语义等多种影响因素,并提升POI推荐***的性能;
2.基于注意力机制的门控循环单元可以对用户的复杂动态偏好建模,并学习兴趣点之间的多种相关性;
3.强化学习模型能通过与用户的自然交互,了解用户真实的需求和偏好从而进行推荐,同时一定程度的解决冷启动问题。
本发明有效融合了用户签到序列信息、兴趣点的时空信息和类别信息,解决了数据稀疏性和用户动态偏好的局限性问题,有效提高了推荐模型的准确率。
本发明方案实施简单方便,实用性强,解决了相关技术存在的实用性低及实际应用不便的问题,能够提高用户体验,具有重要的市场价值。
附图说明
图1为本发明实施例的基于深度强化学习的兴趣点推荐方法的结构示意图。
图2为本发明实施例的基于深度强化学习的兴趣点推荐方法的流程示意图。
图3为本发明实施例的二部图示例,其中(a)为POI-POI二部图、(b)为POI-功能区二部图、(c)为POI-时间段二部图。
图4为本发明实施例的基于注意力机制的门控循环单元模型结构图。
具体实施方式
以下结合附图和实施例具体说明本发明的技术方案。
本发明实施例提供一种融合用户连续签到行为序列上下文特征的兴趣点推荐方法,如图2所示,包括以下步骤:
S1:获取用户历史签到数据,每条签到记录包含用户ID、用户评分和评论、兴趣点ID、签到时间、兴趣点种类和兴趣点地理位置;对数据集进行预处理,得到用户集合和兴趣点(Point of Interest,POI)集合。
实施例中所述S1的具体步骤实现进一步包括如下处理:
数据清洗;删除其中签到次数少于a次的用户和被签到次数少于b次的兴趣点,得到新的数据集。具体实施时,参数a和b可以根据需要预先设置。
S2:将S1预处理后的每个用户的历史签到记录按照访问时间的先后顺序分别排序,得到用户连续签到行为序列数据;
S3:根据处理后的用户历史签到数据构建3个二部图,如图3所示,分别是:兴趣点-兴趣点图GVV、兴趣点-功能区图GVZ、兴趣点-时间段图GVT,根据习惯,也可称为POI-POI图GVV、POI-功能区图GVZ、POI-时间段图GVT。其中,POI表示兴趣点。例如图3(a)中,兴趣点_1、兴趣点_2、…兴趣点_6之间形成的二部图,图3(b)中,兴趣点_1、兴趣点_2、…与功能区_1、功能区_2、…之间形成的二部图,图3(c)中,兴趣点_1、兴趣点_2、…与时间段_1、时间段_2、…之间形成的二部图。
构建POI二部图的具体过程包括:
S31、构建POI-POI图GVV=(V∪V,εvv),其中V为POI的集合,εvv是POI间边的集合。
S311、统计全部POI的评论信息,建立语料库Creview,;将每个用户的评论以及一个POI的所有评论各看成一篇文档,根据潜在狄利克雷分配(LDA)主题模型计算每篇文档主题特征分布向量,即每个用户的主题特征向量
Figure BDA0003520152070000051
和每个POI的主题特征向量
Figure BDA0003520152070000052
S312、利用余弦公式计算两个POI的主题特征向量的空间距离,余弦距离表示POI之间的相似程度,若POI-POI图一条边的两个端点(即不同兴趣点)vi和vj的主题特征向量的余弦相似度sij大于相应的阈值α,则将vi和vj间连上边,并设置该边权重为相似度sij
S32、构建POI-功能区图GVZ=(V∪Z,εvz),其中V为POI的集合,Z为功能区的集合,εvz为POI与功能区之间边的集合。POI-功能区图用于处理POI与地区之间的地理及语义关系,具体实施时可预先按照各地区所具有的、代表该地区的核心功能对城市进行划分,得到功能区集合。例如,根据某POI v的地理位置(经纬度坐标)找到与之对应的功能区z,将v和z间连上边,并设置该边权重为1。
S33、构建POI-时间段图GVT=(V∪T,εvt),其中V为POI的集合,T为时间段的集合,εvt为POI与时间段之间边的集合。根据用户历史签到数据,若一个POI v在一个时间段t内被访问,则将v和t间连上边,并设置该边权重为访问频率(v在时间段t内的被访问次数与v被访问总次数的比值)。
S4:将S2得到的用户连续签到行为序列通过嵌入层转换为用户特征向量;将S3所得GVV、GVZ和GVT通过联合图嵌入学习方法嵌入到同一潜在空间中,得到POI、功能区和时间段在共享低维空间中的特征向量;串联用户特征向量及POI、功能区、时间段特征向量;
进一步地,所述S4中联合图嵌入学习方法实现如下:
给定一个二部图GVV=(VA∪VB),VA和VB是两个互不相交的顶点集。使用负采样的方式计算图中每个顶点在潜空间的嵌入向量O:
Figure BDA0003520152070000061
Figure BDA0003520152070000062
其中,ε为边的合集,wij为边eij的权重,logp(vj|vi)是与vi关联的vj出现的概率,n为负采样从VB得到的顶点标记,Pn(v)为负采样的概率。
目标函数如公式(1)所示,其训练的目标是为了让二部图中一个端点被选择时,另一边与之关联端点出现的概率即条件概率达到最大。vi和vj是边eij的两个端点,其中vi属于VA,vj属于VB,vn是通过负采样从VB得到的顶点,
Figure BDA0003520152070000063
Figure BDA0003520152070000064
分别是其对应顶点的嵌入向量。σ()是Sigmoid函数,
Figure BDA0003520152070000065
是期望函数,K是每次采样时选取负采样的边的数目,实施例K优选取5,且
Figure BDA0003520152070000066
dv是顶点v的出度。通过联合训练的方式得到POI、地区和时间段在共享低维空间的表述向量:
Figure BDA0003520152070000067
Figure BDA0003520152070000068
S5:将串联后的特征向量输入基于注意力机制的门控循环单元,生成用户近期的兴趣偏好特征向量。
生成用户近期的兴趣偏好特征向量的具体步骤如图4所示为:
S51、将用户连续签到序列特征及<评论特征、时空特征、POI特征>作为用户的整体历史行为特征信息输入门控循环单元进行融合。一个用户u连续签到行为序列可定义为
Figure BDA0003520152070000069
Figure BDA00035201520700000610
其中v表示签到兴趣点,lv表示兴趣点的经纬度坐标,t表示签到时间,Mv是一组描述兴趣点v的词组,例如:评论、评分及POI种类,下标1,2,…n分别用于标识用户连续打卡的n个兴趣点。在t时刻,门控循环单元的状态更新由以下公式计算得到:
Figure BDA0003520152070000071
Figure BDA0003520152070000072
Figure BDA0003520152070000073
Figure BDA0003520152070000074
其中,⊙表示点乘,{U1,U2,U3,W1,W2,W3}∈Rd×d和{b1,b2,b3}∈Rd是门控循环单元需要训练的参数矩阵,ht-1表示前一时刻t-1的隐层状态,rt和zt分别是t时刻的重置门和更新门,
Figure BDA0003520152070000075
为候选状态,ht表示隐藏层输出向量,
Figure BDA0003520152070000076
表示在t时刻用户u签到的输入向量,R为特征向量空间,d为特征向量维度。
S52、采用注意力机制对融合信息特征进行选取,得到用户近期的兴趣偏好特征向量,计算公式如下:
Figure BDA0003520152070000077
其中,e(ht)表示当前注意力机制层的权重,Wa表示注意力机制层的参数,a表示注意力机制层的权重占比,h为门控循环单元,
Figure BDA0003520152070000078
表示时间t隐藏层输出单元。输入层、嵌入层、门控单元网络和注意力机制层组成编码器。如图4中,输入层的POI、地区和时间段特征向量的第i维度vi,ti,zi,经嵌入层、门控单元网络中各时刻隐藏层单元的输出向量h1,…,hT和注意力机制层中归一化后的各时刻注意力机制权重系数a1,…,aT,最终输出状态s,其中T是一个签到序列的总时长。
S6:将用户兴趣特征向量输入至基于深度强化学习行动者-评论家(Actor-Critic)框架的推荐模型中,得到Top-k有序兴趣点推荐列表。
数据源的获取可以直接从现有的基于社交网络的研究型推荐***的网站中下载或者利用成熟的社交平台的公共API获取。
从原始数据中提取用户集合和兴趣点集合的具体步骤为:
数据清洗;删除其中签到次数少于a次的用户和被签到次数少b次的兴趣点,得到新的数据集,具体实施过程中结合实际情况a,b可取5~10。
基于强化学习框架的兴趣点推荐具体步骤包括:
S61、行动者(Actor)框架通过解码器对当前状态(State),即用户动态兴趣偏好特征进行解码并输出状态动作(Action):一个指定数目的候选兴趣点列表,如图1所示,通过状态s解码输出动作a;
S62、评论家(Critic)框架利用深度Q值网络(Deep Q-Network,DQN)计算动作状态价值函数估计策略的价值期望,根据期望实时选择或集成其中的优势策略进行输出或更新,提升训练速度的同时在训练中生成有效的局部策略。实施例中,将状态s和动作a经过全连接层后输入深度Q值网络,输出Q(s,a)。Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的期望值。根据Q函数的计算结果,模型分析下一步采取的动作。
在智能体(Agent)采取动作(Action),即向用户推荐了一个POI列表后,用户可浏览这些POI并选择访问或跳过(不访问)以提供他的反馈,本文认为用户在POI的停留时间是一个隐式反馈,智能体根据用户的反馈立即获得奖励(Reward)。
S63、向用户推荐Top-k兴趣点集合;计算推荐精确率Precision@M和召回率Recall@M,计算公式如下:
Figure BDA0003520152070000081
Figure BDA0003520152070000082
其中,|Dtest|表示测试集,|Top_M|表示用户生成的大小为M的推荐,|Dtest∩Top_M|表示推荐的M个兴趣点落在测试集中的个数,即推荐准确的个数。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的***装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种基于深度强化学习的兴趣点推荐***,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如上所述的一种基于深度强化学习的兴趣点推荐方法。
在一些可能的实施例中,提供一种基于深度强化学习的兴趣点推荐***,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于深度强化学习的兴趣点推荐方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (10)

1.一种基于深度强化学习的兴趣点推荐方法,其特征在于:融合用户连续签到行为序列上下文特征属性实现兴趣点推荐,实现过程包括以下步骤,
S1,获取用户历史签到数据,每条签到记录包含用户ID、用户评分和评论、兴趣点ID、签到时间、兴趣点种类和兴趣点地理位置;对数据集进行预处理,得到用户集合和兴趣点POI集合;
S2,将S1预处理后的每个用户的历史签到记录按照访问时间的先后顺序分别排序,得到用户连续签到行为序列数据;
S3,根据处理后的用户历史签到数据构建3个二部图,分别是POI-POI图GVV、POI-功能区图GVZ和POI-时间段图GVT
S4,将S2得到的用户连续签到行为序列通过嵌入层转换为用户特征向量;将GVV、GVZ和GVT通过联合图嵌入学习嵌入到同一潜在空间中,得到POI、功能区和时间段在共享低维空间中的特征向量;串联用户特征向量及POI、功能区、时间段特征向量;
S5,将串联后的特征向量输入基于注意力机制的门控循环单元,生成用户近期的兴趣偏好特征向量;
S6,将用户兴趣特征向量输入至基于深度强化学习Actor-Critic框架的推荐模型中,得到Top-k有序兴趣点推荐列表。
2.根据权利要求1所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S1中进行数据清洗,包括删除其中签到次数少于a次的用户和被签到次数少于b次的兴趣点,得到新的数据集,参数a和b预先设置。
3.根据权利要求1所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S3的实现过程如下,
S31、构建POI-POI图GVV=(V∪V,εvv),其中V为POI的集合,εvv是POI间边的集合;
S32、构建POI-功能区图GVZ=(V∪Z,εvz),其中V为POI的集合,Z为功能区的集合,εvz为POI与功能区之间边的集合;POI-功能区图用于处理POI与地区之间的地理及语义关系,按照各地区所具有的、代表该地区的核心功能对城市进行划分,得到功能区集合;根据POI v的地理位置找到与之对应的功能区z,将v和z间连上边εvz,并设置该边权重为1;
S33、构建POI-时间段图GVT=(V∪T,εvt),其中V为POI的集合,T为时间段的集合,εvt为POI与时间段之间边的集合;根据用户历史签到数据,若一个POIv在一个时间段t内被访问,则将v和t间连上边,并设置该边权重为访问频率。
4.根据权利要求1所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S4的联合图嵌入学习实现如下,
给定一个二部图GVV=(VA∪VB),VA和VB是两个互不相交的顶点集,使用负采样的方式计算图中每个顶点在潜空间的嵌入向量O,
Figure FDA0003520152060000021
Figure FDA0003520152060000022
其中,ε为边的合集,wij为边eij的权重,logp(vj|vi)是与vi关联的vj出现的概率,n为负采样从VB得到的顶点标记,Pn(v)为负采样的概率;vi和vj是边eij的两个端点,vi属于VA,vj属于VB,vn是通过负采样从VB得到的顶点,
Figure FDA0003520152060000023
Figure FDA0003520152060000024
分别是其对应顶点的嵌入向量;σ()是Sigmoid函数,
Figure FDA0003520152060000025
是期望函数,K是每次采样时选取负采样的边的数目,且
Figure FDA0003520152060000026
dv是顶点v的出度;通过联合训练的方式得到POI、地区和时间段在共享低维空间的表述向量
Figure FDA0003520152060000027
Figure FDA0003520152060000028
5.根据权利要求1所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S5包括以下子步骤,
S51、将连续签到序列特征及<评论特征、时空特征、POI特征>作为用户的整体历史行为特征信息输入门控循环单元模型进行融合;
S52、采用注意力机制对融合信息特征进行选取,得到用户近期的兴趣偏好特征向量。
6.根据权利要求5所述的基于深度强化学习的兴趣点推荐方法,其特征在于:所述S51中一个用户u连续签到行为序列定义为
Figure FDA0003520152060000029
Figure FDA00035201520600000210
其中v表示签到兴趣点,lv表示兴趣点的经纬度坐标,t表示签到时间,Mv是一组描述兴趣点v的词组,在t时刻,GRU的状态更新由以下公式计算得到,
Figure FDA0003520152060000031
Figure FDA0003520152060000032
Figure FDA0003520152060000033
Figure FDA0003520152060000034
其中,⊙表示点乘,{U1,U2,U3,W1,W2,W3}∈Rd×d和{b1,b2,b3}∈Rd是门控循环单元需要训练的参数矩阵,ht-1表示前一时刻t-1的隐层状态,rt和zt分别是t时刻的重置门和更新门,
Figure FDA0003520152060000035
为候选状态,ht表示隐藏层输出向量,
Figure FDA0003520152060000036
表示在t时刻用户u签到的输入向量,R为特征向量空间,d为特征向量维度。
7.根据权利要求1或2或3或4或5或6所述的基于深度强化学习的兴趣点推荐方法,其特征在于:步骤S6包括以下子步骤,
S61、行动者Actor框架输出当前状态State及状态动作Action:一个指定数目的候选兴趣点列表;
S62、评论家Critic框架利用深度Q值网络DQN计算动作状态价值函数估计策略的价值期望,根据期望实时选择或集成其中的优势策略进行输出或更新,提升训练速度的同时在训练中生成有效的局部策略。
S63、向用户推荐Top-k兴趣点集合;计算推荐精确率Precision@M和召回率Recall@M。
8.一种基于深度强化学习的兴趣点推荐***,其特征在于:用于实现如权利要求1-7任一项所述的一种基于深度强化学习的兴趣点推荐方法。
9.根据权利要求8所述基于深度强化学习的兴趣点推荐***,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用存储器中的存储指令执行如权利要求1-7任一项所述的一种基于深度强化学习的兴趣点推荐方法。
10.根据权利要求8所述基于深度强化学习的兴趣点推荐***,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-7任一项所述的一种基于深度强化学习的兴趣点推荐方法。
CN202210175716.XA 2022-02-25 2022-02-25 一种基于深度强化学习的兴趣点推荐方法及*** Pending CN114662015A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210175716.XA CN114662015A (zh) 2022-02-25 2022-02-25 一种基于深度强化学习的兴趣点推荐方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210175716.XA CN114662015A (zh) 2022-02-25 2022-02-25 一种基于深度强化学习的兴趣点推荐方法及***

Publications (1)

Publication Number Publication Date
CN114662015A true CN114662015A (zh) 2022-06-24

Family

ID=82027854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210175716.XA Pending CN114662015A (zh) 2022-02-25 2022-02-25 一种基于深度强化学习的兴趣点推荐方法及***

Country Status (1)

Country Link
CN (1) CN114662015A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408621A (zh) * 2022-08-12 2022-11-29 中国测绘科学研究院 顾及辅助信息特征线性及非线***互的兴趣点推荐方法
CN116091174A (zh) * 2023-04-07 2023-05-09 湖南工商大学 推荐策略优化***、方法、装置及相关设备
CN116244513A (zh) * 2023-02-14 2023-06-09 烟台大学 随机群组poi推荐方法、***、设备及存储介质
CN116955833A (zh) * 2023-09-20 2023-10-27 四川集鲜数智供应链科技有限公司 一种用户行为分析***及方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115408621A (zh) * 2022-08-12 2022-11-29 中国测绘科学研究院 顾及辅助信息特征线性及非线***互的兴趣点推荐方法
CN116244513A (zh) * 2023-02-14 2023-06-09 烟台大学 随机群组poi推荐方法、***、设备及存储介质
CN116244513B (zh) * 2023-02-14 2023-09-12 烟台大学 随机群组poi推荐方法、***、设备及存储介质
CN116091174A (zh) * 2023-04-07 2023-05-09 湖南工商大学 推荐策略优化***、方法、装置及相关设备
CN116955833A (zh) * 2023-09-20 2023-10-27 四川集鲜数智供应链科技有限公司 一种用户行为分析***及方法
CN116955833B (zh) * 2023-09-20 2023-11-28 四川集鲜数智供应链科技有限公司 一种用户行为分析***及方法

Similar Documents

Publication Publication Date Title
CN114662015A (zh) 一种基于深度强化学习的兴趣点推荐方法及***
CN111061946B (zh) 场景化内容推荐方法、装置、电子设备及存储介质
Wang et al. Urban2vec: Incorporating street view imagery and pois for multi-modal urban neighborhood embedding
Liu et al. Predicting the next location: A recurrent model with spatial and temporal contexts
Zhao et al. Personalized location recommendation by fusing sentimental and spatial context
CN111061961A (zh) 一种融合多特征的矩阵分解兴趣点推荐方法及其实现***
CN109062962B (zh) 一种融合天气信息的门控循环神经网络兴趣点推荐方法
KR102340463B1 (ko) 샘플 가중치 설정방법 및 장치, 전자 기기
CN112749339A (zh) 一种基于旅游知识图谱的旅游路线推荐方法及***
CN113569129A (zh) 点击率预测模型处理方法、内容推荐方法、装置及设备
CN115244547A (zh) 自动并智能地探索设计空间
CN111695046A (zh) 基于时空移动数据表征学习的用户画像推断方法及装置
CN115422441A (zh) 一种基于社交时空信息与用户偏好的连续兴趣点推荐方法
Ma et al. Exploring multiple spatio-temporal information for point-of-interest recommendation
CN115408618A (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
CN112597389A (zh) 一种基于用户行为实现物品推荐的控制方法及装置
CN109684561B (zh) 基于用户签到行为变化的深层语义分析的兴趣点推荐方法
Noorian A BERT-based sequential POI recommender system in social media
Zhao et al. Point-of-Interest Recommendation in Location-Based Social Networks
KR101624071B1 (ko) 소셜 태깅 및 메타데이터 어플리케이션들에 기초하여 문화적 아이템의 관람을 제시하는 시스템 및 방법
CN112784177A (zh) 一种空间距离自适应的下一个兴趣点推荐方法
CN115470362A (zh) 基于城市时空知识图谱的兴趣点实时推荐方法
Chen et al. A restaurant recommendation approach with the contextual information
Sun et al. A multi-latent semantics representation model for mining tourist trajectory
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination