CN108804646B - 一种融合深度学习和因子分解机的兴趣点签到预测方法 - Google Patents
一种融合深度学习和因子分解机的兴趣点签到预测方法 Download PDFInfo
- Publication number
- CN108804646B CN108804646B CN201810573999.7A CN201810573999A CN108804646B CN 108804646 B CN108804646 B CN 108804646B CN 201810573999 A CN201810573999 A CN 201810573999A CN 108804646 B CN108804646 B CN 108804646B
- Authority
- CN
- China
- Prior art keywords
- hidden layer
- features
- data
- learning
- discrete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种融合深度学习和因子分解机的兴趣点签到预测方法,属于位置签到预测领域包括:S1:获取用户签到数据;S2:对输入的离散数据进行嵌入处理;S3:离散数据去稀疏处理,并学习数据之间的隐含二阶关系;S4:对于连续特征加入全连接隐藏层进行学习,选取合适的激励函数;S5:输入由离散特征经过处理的结果和连续特征经过处理的结果相加作为隐藏层h1的输入;S6:隐藏层h1的输出l1经过一阶线性和特征交互结构并相加作为隐藏层h2的输入;S7:隐藏层h3接收的输入来自隐藏层h1和h2的输出l1和l2,同时加入shortcut结构保证参数学习时梯度的稳定性,确定最佳的模型结构,最后输出预测结果。本发明通过分析用户签到信息,充分挖掘学习签到规律,预测兴趣点签到问题。
Description
技术领域
本发明属于位置签到预测领域,涉及一种融合深度学习和因子分解机的兴趣点签到预测方法。
背景技术
基于位置的社交网络是通过智能终端设备建立的以社会交互为目的的网络。LBSN和用户的生活密切相关,可以真实反映用户的社会关系和现实生活中的活动,是沟通真实物理世界和虚拟互联空间的桥梁。随着移动终端、无线通信、移动互联网等技术的发展,用户可以随时随地记录自己的移动轨迹,并且可以上传到例如Foursquare、Gowalla等基于位置的社交网络,分享自己的爱好,兴趣,游玩攻略等信息。这些签到数据真实的记录了用户在什么时间访问了什么地点。通过对这些签到信息的学习,可以挖掘出用户的潜行为模式、规律和偏好。其中,预测***作为目前解决信息过滤和个性化服务问题的重要技术手段之一,在位置服务中发挥着越来越重要的作用。目前,社交网络中的用户规模和用户发布的信息增量迅猛,而包含着地理位置信息的内容也在被越来越多的人所关注,有关兴趣点预测的模型层出不穷。
除了一些经典的兴趣点签到预测的方法,还有一些方法取得了较好的效果,在中国专利CN107515949A中公开了兴趣点预测和推荐中的用户时空相似性度量方法;另一篇中国专利CN105488213A中则公开了一种面向LBS的基于马尔可夫预测算法的个性化推荐方法,这些方法都对位置签到预测做出了很好的阐述,但是,在实现精准的个性化兴趣点签到预测方面还存在一些不足。
发明内容
有鉴于此,本发明的目的在于提供一种融合深度学习和因子分解机的兴趣点签到预测方法,旨在针对特定的兴趣点进行签到预测,该方法以特定兴趣点为中心,通过分析用户签到的天气、时间和空间信息,充分地挖掘和学习用户的签到规律和模式,从而能够准确地预测特定兴趣点的签到问题。
为达到上述目的,本发明提供如下技术方案:
一种融合深度学习和因子分解机的兴趣点签到预测方法,包括以下步骤:
S1:获取用户签到数据,签到数据分为连续特征数据和离散特征数据;
S2:对输入的离散数据进行嵌入处理,通过一个类似局部连接的结构,将离散特征映射到低维向量;
S3:利用类似FM的网络结构进行离散数据的去稀疏处理,并学习数据之间的隐含二阶关系;
S4:对于连续特征加入全连接隐藏层进行学习,选取合适的激励函数;
S5:输入由离散特征经过处理的结果和连续特征经过处理的结果相加作为隐藏层h1的输入;
S6:隐藏层h1的输出l1经过一阶线性和特征交互结构并相加作为隐藏层h2的输入;
S7:隐藏层h3接收的输入来自隐藏层h1和h2的输出l1和l2,同时加入shortcut结构保证参数学习时梯度的稳定性,确定最佳的模型结构,包括离散特征映射到低维向量的长度、因子分解机中学习特征之间二阶关系的系数矩阵的列数、初始学习率、隐藏层层数以及隐藏层神经元数目,最后输出预测结果。
进一步,在步骤S1中,所获取的用户签到数据,分为连续特征数据和离散特征数据,连续特征数据包括经纬度、温度、风速、降雨量,离散特征数据包括签到月、日、时、星期。
进一步,在步骤S3中,对于稀疏向量,通过利用类似FM的网络结构进行去稀疏处理,其中f为特征间一阶线性关系,s是特征间的二阶关系,经过该结构的处理后去除了数据的稀疏性,并学习到数据之间的隐含二阶关系,R为大小为N*K的矩阵,公式f=f[1..i..N]和类似因子分解机结构,在这里每一个特征是一个向量vi,特征之间的乘积就是向量的点乘运算,公式为:S={si,j}(i,j=1...N),si,j=<RiRj><ViVj>,另外,为了进一步缓解数据稀疏的问题,利用信息量公式δ=-log pi以正负样本1:n的比例构造负样本,负样本的构造可以扩充数据集,增加可训练的样本。
进一步,在步骤S4中,把连续特征包括天气、空间等信息加入到全连接隐藏层进行学习,定义relu(x)=max(0,x)为隐藏层输出的激励函数,公式为:lc1=relu(Wc1x+bc1),lc2=relu(Wc2lc1+bc2)。
进一步,在步骤S5中,l1是隐藏层h1的输出,其输入由离散特征经过处理的结果和连续特征经过处理的结果相加组成,公式为:lf=Wf'f,ls=Ws's,l1=relu(lc2+lf+ls+b0),其中f为特征间一阶线性关系,s是特征间的二阶关系。
进一步,在步骤S6中,此时离散特征数据已经经过FM层去稀疏处理,在隐藏层h1的数据可以通过∑wixi+∑∑wijxixj和进行参数学习,表示隐藏层h1的输出l1经过一阶线性和特征交互结构到达h2层并相加,其中表示两个相同大小的矩阵或者向量元素各自相乘,这样特征之间的隐含内在联系能够更好地被挖掘出来,从而提高预测精度。
进一步,在步骤S7中,隐藏层h3的输出表示为l3,由于加入的shortcut结构,接受的输入来自隐藏层h1和h2的输出l1和l2,保证参数学习时梯度的稳定性,最后输出预测结果:输出层y∈(0,1),即用户在兴趣点签到的概率,公式为:l3=relu(W2l2+l1+b2),最佳的网络结构包含离散特征映射到低维向量的长度M为20,因子分解机中学习特征之间二阶关系的系数矩阵的列数K为20,初始学习率为0.05,隐藏层个数为3层,隐藏层h1的神经元个数为32,隐藏层h2的神经元个数为64,隐藏层h3的神经元个数为32。
本发明的收益效果是:
采用本发明可以准确的预测出对于特定的兴趣点在某一时刻的签到数量,即用户的访问量,大大减少了用户访问某一兴趣点的盲目性,预测的结果还可以应用于旅游规划、智能交通、安全预防等领域。
本发明对于特定的兴趣点签到预测有别于目前大量以用户为中心的基于位置的社交网络的签到研究。特定兴趣点签到预测,是以兴趣点为中心的签到预测研究,是指给定兴趣点历史签到数据,预测在将来有多少用户会在某一个兴趣点进行签到。在实际生活中,时间、空间、天气等特征对兴趣点的签到转移有着重要的影响,因此在使用深度学习预测兴趣点签到的过程中,也充分结合时间、空间、天气对兴趣点签到的影响,从而大幅度提高了预测的质量,由此可见本发明相对于传统的以用户为中心的预测算法有着很大的优势。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例所述方法的宏观流程图;
图2为本发明实施例所述的兴趣点预测模型网络结构;
图3为本发明实施例所述步骤S7中所述的残差结构,即shortcut结构;
图4为本发明实施例所述应用于Gowalla数据集与经典的模型预测准确度的对比示意图;
图5为本发明实施例所述应用于Brightkite数据集与经典的模型预测准确度的对比示意图;
图6为本发明实施例所述加入构造的负样本应用于Gowalla数据集预测准确度的示意图;
图7为本发明实施例所述加入构造的负样本应用于Brightkite数据集预测准确度的示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
如图1-7所示,本发明为一种融合深度学习和因子分解机的兴趣点签到预测方法,包括如下步骤:
步骤S1:获取用户签到数据,签到数据分为连续特征数据和离散特征数据;
步骤S2:对输入的离散数据数据进行嵌入处理,通过一个类似局部连接的结构,将离散特征映射到低维向量;
步骤S3:利用类似FM的网络结构进行离散数据的去稀疏处理,并学习数据之间的隐含二阶关系;
步骤S4:对于连续特征(天气,空间信息)加入全连接隐藏层进行学习,选取合适的激励函数;
步骤S5:输入由离散特征经过处理的结果和连续特征经过处理的结果相加作为隐藏层h1的输入;
步骤S6:隐藏层h1的输出l1经过一阶线性和特征交互结构并相加作为隐藏层h2的输入;
步骤S7:隐藏层h3接收的输入来自隐藏层h1和h2的输出l1和l2,同时加入shortcut结构保证参数学习时梯度的稳定性,确定最佳的模型结构,包括离散特征映射到低维向量的长度、因子分解机中学习特征之间二阶关系的系数矩阵的列数、初始学习率、隐藏层层数以及隐藏层神经元数目,最后输出预测结果。
其中,步骤S1中,所获取得用户签到数据,分为连续特征数据和离散特征数据,连续特征数据包括经纬度、温度、风速、降雨量,离散特征数据包括签到月、日、时、星期。
其中,步骤S3中,对于稀疏向量,通过利用类似FM的网络结构进行去稀疏处理,其中f为特征间一阶线性关系,s是特征间的二阶关系,经过该结构的处理后去除了数据的稀疏性,并学习到数据之间的隐含二阶关系,R为大小为N*K的矩阵,公式f=f[1..i..N]和类似因子分解机结构,在这里每一个特征是一个向量vi,特征之间的乘积就是向量的点乘运算,公式为:S={si,j}(i,j=1...N),si,j=<RiRj><ViVj>,另外,为了进一步缓解数据稀疏的问题,利用信息量公式δ=-log pi以正负样本1:n的比例构造负样本,负样本的构造可以扩充数据集,增加可训练的样本。
其中,步骤S4中,把连续特征包括天气、空间等信息加入到全连接隐藏层进行学习,定义relu(x)=max(0,x)为隐藏层输出的激励函数,公式为:lc1=relu(Wc1x+bc1),lc2=relu(Wc2lc1+bc2)。
其中,步骤S5中,l1是隐藏层h1的输出,其输入由离散特征经过处理的结果和连续特征经过处理的结果相加组成,公式为:lf=Wf'f,ls=Ws's,l1=relu(lc2+lf+ls+b0)。其中f为特征间一阶线性关系,s是特征间的二阶关系。
其中,在步骤S6中,此时离散特征数据已经经过FM层去稀疏处理,在隐藏层h1的数据可以通过∑wixi+∑∑wijxixj和进行参数学习,表示隐藏层h1的输出l1经过一阶线性和特征交互结构到达h2层并相加,其中表示两个相同大小的矩阵或者向量元素各自相乘,这样特征之间的隐含内在联系能够更好地被挖掘出来,从而提高预测精度。
其中,步骤S7中,隐藏层h3的输出表示为l3,由于加入的shortcut结构,接受的输入来自隐藏层h1和h2的输出l1和l2,保证参数学习时梯度的稳定性,最后输出预测结果:输出层y∈(0,1),即用户在兴趣点签到的概率,公式为:l3=relu(W2l2+l1+b2),最佳的网络结构包含离散特征映射到低维向量的长度M为20,因子分解机中学习特征之间二阶关系的系数矩阵的列数K为20,初始学习率为0.05,隐藏层个数为3层,隐藏层h1的神经元个数为32,隐藏层h2的神经元个数为64,隐藏层h3的神经元个数为32。
本实施例的一个具体应用为:
表1:用户签到数据
选取数据集中签到最高的兴趣点(纽约,洛杉矶,芝加哥)作为被预测点,其中选取签到记录在10条以上的用户。
表2:数据集中签到最高的兴趣点的情况
如图4-7所示,表明TSWNN模型与其他经典模型进行比较,表现出优越的性能,尤其加入天气信息的预测结果(TSWNN)还要略优于不加入天气信息的结果(TSNN),其中准确率提升3.5%-5.4%预测准确度较高,还可以看出数据负样本比例增加缓解了数据稀疏的问题,提高了预测的准确度,总体来说,本发明稳定性较好,推广能力强,可以满足实际要求。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (5)
1.一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:包括以下步骤:
S1:获取用户签到数据,包括连续特征数据和离散特征数据;连续特征数据包括经纬度、温度、风速和降雨量,离散特征数据包括签到月、日、时、星期;
S3:利用类似FM的网络结构进行离散数据的去稀疏处理,并学习数据之间的隐含二阶关系;对于稀疏向量,通过利用类似FM的网络结构进行去稀疏处理,公式f=f[1..i..N]和类似因子分解机结构,其中f为特征间一阶线性关系,在这里每一个特征是一个向量vi,特征之间的乘积就是向量的点乘运算,公式为:S={si,j}(i,j=1...N),si,j=<RiRj><ViVj>,s是特征间的二阶关系,经过该结构的处理后去除了数据的稀疏性,并学习到数据之间的隐含二阶关系,R为大小为N*K的矩阵,利用信息量公式δ=-log pi以正负样本1:n的比例构造负样本,以扩充数据集,增加可训练的样本;
S4:对于连续特征加入全连接隐藏层进行学习,选取合适的激励函数;
S5:输入由离散特征经过处理的结果和连续特征经过处理的结果,将两项结果进行相加作为隐藏层h1的输入;
S6:隐藏层h1的输出l1经过一阶线性和特征交互结构并相加,作为隐藏层h2的输入;
S7:隐藏层h3接收的输入来自隐藏层h1和h2的输出l1和l2,同时加入shortcut结构保证参数学习时梯度的稳定性,确定最佳的模型结构,包括离散特征映射到低维向量的长度、因子分解机中学习特征之间二阶关系的系数矩阵的列数、初始学习率、隐藏层层数以及隐藏层神经元数目,最后输出预测结果。
2.根据权利要求1所述的一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:在步骤S4中,把连续特征包括天气、空间信息加入到全连接隐藏层进行学习,定义relu(x)=max(0,x)为隐藏层输出的激励函数,公式为:lc1=relu(Wc1x+bc1),lc2=relu(Wc2lc1+bc2)。
3.根据权利要求1所述的一种融合深度学习和因子分解机的兴趣点签到预测方法,其特征在于:在步骤S5中,隐藏层h1的输出表示为l1,其输入由离散特征经过处理的结果和连续特征经过处理的结果相加组成,公式为:lf=Wf'f,ls=Ws's,l1=relu(lc2+lf+ls+b0),其中f为特征间一阶线性关系,s是特征间的二阶关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810573999.7A CN108804646B (zh) | 2018-06-06 | 2018-06-06 | 一种融合深度学习和因子分解机的兴趣点签到预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810573999.7A CN108804646B (zh) | 2018-06-06 | 2018-06-06 | 一种融合深度学习和因子分解机的兴趣点签到预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108804646A CN108804646A (zh) | 2018-11-13 |
CN108804646B true CN108804646B (zh) | 2021-05-11 |
Family
ID=64087348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810573999.7A Active CN108804646B (zh) | 2018-06-06 | 2018-06-06 | 一种融合深度学习和因子分解机的兴趣点签到预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108804646B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408729B (zh) * | 2018-12-05 | 2022-02-08 | 广州市百果园信息技术有限公司 | 推荐物料确定方法、装置、存储介质和计算机设备 |
CN109902883B (zh) * | 2019-03-25 | 2022-10-11 | 重庆邮电大学 | 一种基于个性化层次核密度估计的签到位置预测方法 |
CN111125530B (zh) * | 2019-12-24 | 2023-04-28 | 中山大学 | 一种基于多类型特征深度学习的信息流推荐方法 |
CN113077276A (zh) * | 2020-01-06 | 2021-07-06 | 阿里巴巴集团控股有限公司 | 行为数据的处理方法和***、存储介质及处理器 |
CN111429175B (zh) * | 2020-03-18 | 2022-05-27 | 电子科技大学 | 稀疏特征场景下进行点击转化预测的方法 |
CN111427932B (zh) | 2020-04-02 | 2022-10-04 | 南方科技大学 | 出行预测方法、装置、设备和存储介质 |
CN111988744B (zh) * | 2020-08-31 | 2022-04-01 | 重庆邮电大学 | 一种基于用户移动模式的位置预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545491A (zh) * | 2017-08-28 | 2018-01-05 | 北京三快在线科技有限公司 | 一种推荐信息的数据处理方法和装置 |
CN108038720A (zh) * | 2017-12-06 | 2018-05-15 | 电子科技大学 | 一种基于因子分解机的广告点击率预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878029B2 (en) * | 2015-09-10 | 2020-12-29 | Adobe Inc. | Incorporating social-network connections information into estimated user-ratings of videos for video recommendations |
US11170005B2 (en) * | 2016-10-04 | 2021-11-09 | Verizon Media Inc. | Online ranking of queries for sponsored search |
-
2018
- 2018-06-06 CN CN201810573999.7A patent/CN108804646B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107545491A (zh) * | 2017-08-28 | 2018-01-05 | 北京三快在线科技有限公司 | 一种推荐信息的数据处理方法和装置 |
CN108038720A (zh) * | 2017-12-06 | 2018-05-15 | 电子科技大学 | 一种基于因子分解机的广告点击率预测方法 |
Non-Patent Citations (3)
Title |
---|
"DeepFM: A Factorization-Machine based Neural Network for CTR Prediction";Huifeng Guo 等;《arXiv》;20170331;第1-8页 * |
"Effective fine-grained location prediction based on user check-in pattern in LBSNs";Jiuxin Cao 等;《Journal of Network and Computer Applications》;20180415;第108卷;第64-75页 * |
"基于位置的社会网络中多因素感知POI推荐策略";姜珊;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180315(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108804646A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804646B (zh) | 一种融合深度学习和因子分解机的兴趣点签到预测方法 | |
CN111400620B (zh) | 基于时空嵌入Self-Attention的用户轨迹位置预测方法 | |
CN110322064B (zh) | 城市出行需求预测方法 | |
CN110334293B (zh) | 面向位置社交网络的基于模糊聚类的具有时间感知的位置推荐方法 | |
CN106776928B (zh) | 基于内存计算框架、融合社交及时空数据的位置推荐方法 | |
CN106767835B (zh) | 定位方法和装置 | |
Sudo et al. | Particle filter for real-time human mobility prediction following unprecedented disaster | |
Duddu et al. | Principle of demographic gravitation to estimate annual average daily traffic: Comparison of statistical and neural network models | |
CN111695046B (zh) | 基于时空移动数据表征学习的用户画像推断方法及装置 | |
CN114943456B (zh) | 资源的调度方法、装置、电子设备及存储介质 | |
Zhou et al. | Improving human mobility identification with trajectory augmentation | |
CN113643532B (zh) | 一种区域交通的预测方法以及设备 | |
Li et al. | A regionalization method for clustering and partitioning based on trajectories from NLP perspective | |
CN115545758A (zh) | 城市服务设施自适应增量选址的方法和*** | |
CN115827974A (zh) | 基于时空信息表示的下一兴趣点推荐*** | |
CN114357319A (zh) | 网络请求处理方法、装置、设备、存储介质及程序产品 | |
Liu et al. | POI Recommendation Method Using Deep Learning in Location‐Based Social Networks | |
CN115774819A (zh) | 一种基于层次循环神经网络的兴趣点推荐方法及*** | |
CN109271555A (zh) | 信息聚类方法、***、服务器及计算机可读存储介质 | |
Lin | Implementation of personalized scenic spot recommendation algorithm based on generalized regression neural network for 5G smart tourism system | |
CN113032688B (zh) | 针对社交网络用户在未来给定时间的访问位置预测方法 | |
Wan et al. | Learning time-aware distributed representations of locations from spatio-temporal trajectories | |
Jenson et al. | Mining location information from users' spatio-temporal data | |
CN112765493B (zh) | 一种用于兴趣点推荐的获取时间偏好融合序列偏好的方法 | |
Yue et al. | POI recommendations using self-attention based on side information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |