CN109726747B - 基于社交网络推荐平台的数据融合排序方法 - Google Patents

基于社交网络推荐平台的数据融合排序方法 Download PDF

Info

Publication number
CN109726747B
CN109726747B CN201811567099.8A CN201811567099A CN109726747B CN 109726747 B CN109726747 B CN 109726747B CN 201811567099 A CN201811567099 A CN 201811567099A CN 109726747 B CN109726747 B CN 109726747B
Authority
CN
China
Prior art keywords
project
document
user
sample set
project document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811567099.8A
Other languages
English (en)
Other versions
CN109726747A (zh
Inventor
张琳杰
朱晓妍
马建峰
牛俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201811567099.8A priority Critical patent/CN109726747B/zh
Publication of CN109726747A publication Critical patent/CN109726747A/zh
Application granted granted Critical
Publication of CN109726747B publication Critical patent/CN109726747B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于社交网络推荐平台的数据融合排序方法,主要解决数据融合排序的推荐准确率和推荐召回率等问题。其方案包括:1)采集数据;2)将数据清洗、数据规范处理后的数据归类建立项目文档集;3)获取训练样本集中项目文档的特征向量;4)获取测试样本集中项目文档的特征向量;5)构建神经网络特征融合评分模型;6)构建排序模型。本发明考虑了项目各方面的特征信息,构建神经网络特征融合评分模型,可用于社交网络推荐平台的项目推荐,提高了数据融合速度、推荐准确率和推荐召回率。

Description

基于社交网络推荐平台的数据融合排序方法
技术领域
本发明属于计算机技术领域,更进一步涉及网络应用技术领域中的一种基于社交网络推荐平台的数据融合排序方法。本发明可根据目标用户对数据融合排序推荐准确率、召回率、速度需求等,使用不同的特征计算方法分别处理数据的各个特征,得到每个数据的特征向量,将每个数据的特征向量输入神经网络构建的特征融合评分模型,得到每个数据的评分,对每个数据的评分进行排序,得到排序结果给目标用户推荐。
背景技术
数据融合排序技术是指利用计算机对文档观测数据进行特征提取,在一定准则下根据各特征的重要程度依据某种优化准则或算法组合来进行自动协调融合,产生对观测对象的一致性解释和描述,然后根据每个文档观测数据特征的综合表现进行排序,以完成所需的决策任务而进行的信息处理技术。实现数据的高效利用是推荐服务的重要问题,可以应用在社交网络推荐平台上。
广东欧珀移动通信有限公司在其申请的专利文献“融合数据处理方法及装置”(专利申请号201711468874.X,申请公开号108090208A)中公开了一种融合数据处理方法。该方法的实施步骤是:第一步,所述线上***获取多种异构数据源;第二步,所述线上***使用所述价值模型集合处理所述多种异构数据源,得到每种异构数据源的统一评价指标;第三步,所述线上***获取所述融合策略模型的损失量化评价指标;第四步,所述线上***将所述每种异构数据源的统一评价指标和所述损失量化评价指标输入所述融合策略模型,得到所述多种异构数据源的融合排序推荐结果。该方法存在的不足之处是,统一评价指标无法全面评价数据的所有特征的重要程度,从而造成数据评价指标的普适性差,故将数据融合排序之后进行推荐的准确率和召回率低,不适用于社交网络推荐平台。
南京邮电大学在其拥有的专利技术“一种融合社会化信息的个性化推荐方法”(专利申请号201610067099.6,授权公告号105740430B)中公开了一种融合社会化信息的个性化推荐方法。该专利技术的实施步骤是:第一步,构建用户-用户信任矩阵;第二步,构建项目-项目标签相似度矩阵;第三步,构建及训练模型;第四步,预测用户对于未知项目的偏好。该方法存在的不足之处是,采用的融合排序模型泛化能力低,不能迅速从训练集导出高效的特征集。当数据量达到一个饱和状态后,更多的数据并不能提高其性能,不适用于数据量巨大的社交网络推荐平台。
发明内容
本发明的目的在于针对上述现有技术中数据评价指标的普适性差,采用的融合排序模型泛化能力低等局限,提出一种基于社交网络推荐平台的数据融合排序方法,以实现推荐准确率高与推荐召回率高情况下基于社交网络推荐平台的数据推荐。
实现本发明目的的思路是:对数据进行数据预处理后,将数据信息归类为该数据文档,利用多相似度方法,量化分析数据文档各方面的特征,输入神经网络的特征融合评分模型算法求解数据文档的评分,将所有数据文档的评分进行排序,得到推荐的数据文档列表。
本发明的步骤如下:
(1)采集数据:
采集社交网络平台的数据,将数据中的用户信息和项目信息分别存储到用户数据库和项目数据库中;
(2)建立数据文档集:
(2a)将采集的用户信息和每个项目信息依次进行数据清洗、数据规范处理;
(2b)利用用户文档整理方法,将数据规范处理后的用户信息归类为用户文档;
(2c)利用项目文档整理方法,将数据规范处理后的每个项目信息按列归类为该项目文档,将所有项目文档组成项目文档集;
(3)获取训练样本的特征向量:
(3a)从项目文档集的项目文档的项目时间中,随机选取早于用户请求时间的2000个项目文档,组成训练样本集;
(3b)利用多相似度方法,得到训练样本集中每个项目文档的特征向量;
(4)获取测试样本的特征向量:
(4a)从项目文档集的项目文档的项目时间中,随机选取晚于用户请求时间的1000个项目文档,组成测试样本集;
(4b)利用多相似度方法,得到测试样本集中每个项目文档的特征向量;
(5)构建神经网络的特征融合评分模型:
(5)构建神经网络的特征融合评分模型:
(5a)搭建一个3层神经网络,其结构依次为:输入层→隐藏层→输出层;
(5b)将神经网络中每个输入层权重均设置为满足标准差为0.1、均置为0的正态分布的随机数,将所有输入层权重组成第一个输入层权重向量a1,将神经网络中每个输出层权重均设置为满足标准差为0.1、均置为0的正态分布的随机数,将所有输出层权重组成第一个输出层权重向量b1
(5c)将第一个输入层权重向量a1、第一个输出层权重向量b1、训练样本集中每个项目文档的特征向量c依次输入到神经网络,得到第一个训练样本集中每个项目文档的预测标签值d1
(5d)将第一个训练样本集中每个项目文档的预测标签值d1和训练样本集中每个项目文档的真实标签值e输入到训练误差模型中,得到第一个训练样本集的训练误差f1
(5e)将第一个输入层权重向量a1和第一个训练样本集的训练误差f1,带入输入层权重向量公式,得到第二个输入层权重向量a2
(5f)将第一个输出层权重向量b1和第一个训练样本集的训练误差f1,带入输出层权重向量公式,得到第二个输入层权重向量b2
(5g)将第i个输入层权重向量ai、第i个输出层权重向量bi、训练样本集中每个项目文档的特征向量c依次输入到神经网络,得到第i个训练样本集中每个项目文档的预测标签值di
(5h)将第i个训练样本集中每个项目文档的预测标签值di和训练样本集中每个项目文档的真实标签值e,输入到训练误差模型中,得到第i个训练样本集的训练误差fi
(5i)将第i个输入层权重向量ai和第i个训练样本集的训练误差fi,带入输入层权重向量公式,得到第i+1个输入层权重向量ai+1
(5j)将第i个输出层权重向量bi和第i个训练样本集的训练误差fi,带入输出层权重向量公式,得到第i+1个输出层权重向量bi+1
(5k)判断迭代次数i是否等于500,若是,得到训练好的神经网络;否则,将迭代次数i的值加1后执行步骤(5g);
(5l)将测试样本集中所有项目文档的特征向量、最后一个的输入层权重向量、最后一个的输出层权重向量输入评分模型,输出测试样本集中所有项目文档的评分;
(6)构建排序模型:
将测试样本集中所有项目文档的评分进行排序,选取评分前k高的k个项目文档,组成项目文档结果列表,k的值为{5,8,10,15};
本发明与现有技术相比,具有以下优点:
第一,由于本发明构建训练样本的特征向量或构建测试样本的特征向量时,利用多相似度方法计算训练样本或测试样本各方面的特征信息,克服了现有技术因利用单一相似度方法计算训练样本或测试样本各方面的特征信息导致训练样本或测试样本特征表征不准确的问题,使得本发明得到更加精确的数据融合评分。
第二,由于本发明建立神经网络的数据融合评分模型,解决了现有数据融合评分技术中数据稀疏的问题,减小了数据融合的时间复杂度,使得本发明提高了数据融合的速度,实现了推荐准确率高与推荐召回率高情况下基于社交网络推荐平台的数据融合排序。
附图说明
图1为本发明的流程图;
图2为本发明的构建神经网络的特征融合评分模型流程图;
图3为本发明的仿真图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照附图1,对本发明的具体实施步骤做进一步的描述。
步骤1,采集数据。
利用社交网络编程接口和爬虫工具采集社交网络平台的数据,将数据中的用户信息和项目信息分别存储到用户数据库和项目数据库中。
步骤2,建立数据文档集。
将采集的用户信息和每个项目信息依次进行数据清洗、数据规范处理。
所述的数据清洗是指,对采集的每个用户信息和项目信息中的无效值和缺失值的码字设置为0,所述的数据规范是指,将每个用户信息和项目信息中所有格式的时间信息转换为协调世界时Unix时间戳格式的时间信息。
利用用户文档整理方法,将数据规范处理后的用户信息归类为用户文档。
所述的项目文档整理方法是指,将数据规范处理后项目ID、项目文本、项目时间、项目时间偏好向量、项目地点经度、项目地点纬度、项目文档的真实标签值依次录入项目文档的每一列;项目文档的真实标签值初始均置为0。
利用项目文档整理方法,将数据规范处理后的每个项目信息按列归类为该项目文档,将所有项目文档组成项目文档集。
所述的用户文档整理方法是指,提取数据规范处理后用户主题偏好向量、用户请求时间、用户时间偏好向量、用户地点经度、用户地点纬度依次录入用户文档的每一列。
步骤3,获取训练样本的特征向量。
从项目文档集的项目文档的项目时间中,随机选取早于用户请求时间的2000个项目文档,组成训练样本集。
利用多相似度方法,得到训练样本集中每个项目文档的特征向量。
所述的多相似度方法的具体步骤如下。
第1步,从训练样本集或者测试样本集中选取一个项目文档的项目文本,利用贝叶斯推断的方法,从所选项目文本中得到每一个词对应每一个主题的条件概率分布;利用吉布斯抽样方法,根据每一个词对应每一个主题的条件概率分布,得到所选的项目文档主题分布概率前三高的主题,将项目文档主题分布概率前三高的主题组成所选的项目文档的主题偏好向量。
所述的贝叶斯推断方法是指,根据贝叶斯定理,在有更多证据及信息时,更新特定假设的概率的方法。所述的吉布斯抽样方法是指,根据马尔可夫链蒙特卡尔理论,获取一系列近似等于指定多维概率分布来观察样本的方法。
第2步,利用下述的动态内容偏好相似度公式,计算所选项目文档与用户文档的动态内容相似度。
Figure BDA0001913482650000061
其中,C表示所选项目文档与和用户文档的动态内容相似度,n表示所选项目文档与和用户文档主题偏好向量的维数,∑表示求和操作,Ui表示用户主题偏好向量的第i维主题偏好,Ei表示所选项目文档的主题偏好向量的第i维主题偏好,
Figure BDA0001913482650000062
表示求平方根操作,Tu表示用户请求时间,Te表示所选项目文档的项目时间。
第3步,利用下述的时间偏好相似度公式,计算所选项目文档与用户文档的时间相似度。
Figure BDA0001913482650000063
其中,Q表示所选项目文档和用户文档的时间相似度,m表示时间偏好向量的维数,Si表示用户时间偏好向量的第i维时间偏好,Ri表示所选项目文档的时间偏好向量的第i维时间偏好。
第4步,利用下述的空间相似度公式,计算所选项目文档与用户文档的空间相似度。
Figure BDA0001913482650000071
其中,L表示所选项目文档和用户文档的空间相似值,log表示求以10为底对数函数值操作,exp表示求以e为底的指数函数值操作,Xlat表示用户地点纬度,Ylat表示所选项目文档的项目地点纬度,Xlon表示用户地点经度,Ylon表示所选项目文档的项目地点经度。
第5步,将所选项目文档与用户文档的动态内容相似度,所选项目文档与用户文档的时间相似度,所选项目文档与用户文档的空间相似度组成所选项目文档的特征向量。
第6步,判断是否选完所有项目文档的项目文本,若是,则得到训练样本集或测试样本集中每个项目文档的特征向量,否则,执行第1步。
步骤4,获取测试样本的特征向量。
从项目文档集的项目文档的项目时间中,随机选取晚于用户请求时间的1000个项目文档,组成测试样本集。
利用多相似度方法,得到测试样本集中每个项目文档的特征向量。
步骤5,构建神经网络的特征融合评分模型。
(5.1)搭建一个3层神经网络,其结构依次为:输入层→隐藏层→输出层。
(5.2)将神经网络中每个输入层权重均设置为满足标准差为0.1、均置为0的正态分布的随机数,将所有输入层权重组成第一个输入层权重向量a1,将神经网络中每个输出层权重均设置为满足标准差为0.1、均置为0的正态分布的随机数,将所有输出层权重组成第一个输出层权重向量b1
(5.3)将第一个输入层权重向量a1、第一个输出层权重向量b1、训练样本集中每个项目文档的特征向量c依次输入到神经网络,得到第一个训练样本集中每个项目文档的预测标签值d1
(5.4)将第一个训练样本集中每个项目文档的预测标签值d1和训练样本集中每个项目文档的真实标签值e输入到训练误差模型中,得到第一个训练样本集的训练误差f1
所述的训练误差模型是指。
第一步,在训练样本集中随机选取两个项目文档项组成项目文档对。
第二步,当两个项目文档中的第一个项目文档的当前迭代时预测标签值大于另一个项目文档的当前迭代时预测标签值时,将项目文档对的当前迭代时预测排序值设置为1,当小于时,将项目文档对的预测标签排序值设置为0。
第三步,当两个项目文档中的第一个项目文档的真实标签值大于另一个项目文档的真实标签值时,将项目文档对的真实排序值设置为1,当小于时,将项目文档对的真实标签排序值设置为0。
第四步,判断是否选完训练样本集中所有的项目文档,若是,则执行第五步,否则,执行第一步。
第五步,按照下式,计算所有项目文档对的当前迭代时预测标签概率
Figure BDA0001913482650000081
其中,
Figure BDA0001913482650000082
表示第i个所有项目文档对的预测标签概率,e表示以自然常数e为底的指数操作,ri表示第i个项目文档对的预测排序值为1的所有项目文档对的个数。
第六步,按照下式,计算所有项目文档对的真实标签概率:
Figure BDA0001913482650000083
其中,P表示所有项目文档对的真实标签概率,q表示项目文档对的真实排序值为1的所有项目文档对的个数。
第七步,按照下式,计算第i次时神经网络的训练误差:
Figure BDA0001913482650000084
其中,fi表示第i个神经网络的训练误差,P表示项目文档对的真实标签概率,
Figure BDA0001913482650000094
表示第i个项目文档对的预测标签概率。
(5.5)将第一个输入层权重向量a1和第一个训练样本集的训练误差f1,带入输入层权重向量公式,得到第二个输入层权重向量a2
所述的输入层权重向量公式如下:
Figure BDA0001913482650000091
其中,ai+1表示第i+1个输入层权重向量,1≤i≤500,且i为整数,ai表示第i个输入层权重向量,η为学习率,取值为0.001,fi表示第i个神经网络训练误差,
Figure BDA0001913482650000093
表示求导操作。
(5.6)将第一个输出层权重向量b1和第一个训练样本集的训练误差f1,带入输出层权重向量公式,得到第二个输入层权重向量b2
根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(5f)、步骤(5j)中所述的输出层权重向量公式如下:
Figure BDA0001913482650000092
其中,bi+1表示第i+1个输入层权重向量,bi表示第i个输入层权重向量。
(5.7)将第i个输入层权重向量ai、第i个输出层权重向量bi、训练样本集中每个项目文档的特征向量c依次输入到神经网络,得到第i个训练样本集中每个项目文档的预测标签值di
(5.8)将第i个训练样本集中每个项目文档的预测标签值di和训练样本集中每个项目文档的真实标签值e,输入到训练误差模型中,得到第i个训练样本集的训练误差fi
(5.9)将第i个输入层权重向量ai和第i个训练样本集的训练误差fi,带入输入层权重向量公式,得到第i+1个输入层权重向量ai+1
(5.10)将第i个输出层权重向量bi和第i个训练样本集的训练误差fi,带入输出层权重向量公式,得到第i+1个输出层权重向量bi+1
(5.11)判断迭代次数i是否等于500,若是,得到训练好的神经网络;否则,将迭代次数i的值加1后执行步骤5.7。
(5.12)将测试样本集中所有项目文档的特征向量、最后一个的输入层权重向量、最后一个的输出层权重向量输入评分模型,输出测试样本集中所有项目文档的评分。
所述的评分模型公式如下。
Figure BDA0001913482650000101
其中,f表示测试样本集的项目文档的评分,g表示sigmod函数,m表示最后一个输出层权重向量的维数,wj表示最后一个输出层权重向量中第j维的输出层权重值,xi表示测试样本集的项目文档的第i维特征向量,n表示最后一个输入层权重向量维数,wi表示最后一个输入层权重向量中第i维的输入层权重值,bi表示输入层的偏置项,取值为1,bj表示输出层的偏置项,取值为1;构建该神经网络的特征融合评分模型的具体步骤如图2所示。
步骤6,构建排序模型。
将测试样本集中所有项目文档的评分进行排序,选取评分前k高的k个项目文档,组成项目文档结果列表,k的值为{5,8,10,15}。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的运行环境是:处理器为Intel(CR)Celeron(R)[email protected],内存为2.00GB,硬盘为465G,操作***为Windows 7,编程环境为Python 3.6,编程软件为Spyder 3。
本发明的仿真实验在验证本发明在数据融合排序后进行推荐的推荐效果时所使用的数据集为kaggle.com收集的Meetup数据集。Meetup是一个社交网站,旨在将人们聚集在一起,并允许用户被推荐可能感兴趣的项目,在获取项目相关信息之后选择是否要在现实世界参加项目。Meetup数据集包含455个用户的用户主题偏好向量、用户请求时间、用户时间偏好向量、用户地点经度、用户地点纬度和2279个项目的项目ID、项目文本、项目时间、项目时间偏好向量、项目地点经度、项目地点纬度。
2.仿真内容及其结果分析:
仿真实验1:
本发明的仿真实验1是采用本发明的方法与5种现有技术(基于热门项目的数据融合排序方法、基于项目协同过滤的数据融合排序方法、基于用户协同过滤的数据融合排序方法、基于线性组合评分的数据融合排序方法和基于上下文信息的数据融合排序方法),分别根据Meetup数据集中各用户的信息,给出各用户一个项目评分。对各用户的项目评分进行排序,得到推荐的项目文档列表,并根据得到项目文档结果列表中目标用户需要的项目数量Q、项目文档结果列表的项目数量M和目标用户需要的项目数量N,分别利用推荐率计算公式
Figure BDA0001913482650000111
和推荐召回率计算公式
Figure BDA0001913482650000112
计算推荐准确率P和推荐召回率R,即将10次重复运行的推荐准确率平均值和召回率平均值,作为最终的推荐准确率和推荐召回率,最后比较各方法的推荐准确率和推荐召回率,如图3所示,其中图3(a)表示各方法推荐准确率的对比图,推荐列表长度取5、8、10、15这四个取值,准确率取值分别为0.05,0,1,0.15,0.2,0.25,0.3,0.35,0.4这8个取值。图3(a)中以三角形标示的曲线表示基于热门项目的数据融合排序方法的准确率曲线。图3(a)中以菱形标示的曲线表示基于项目协同过滤的数据融合排序方法的准确率曲线。图3(a)中以四角星标示的曲线表示基于用户协同过滤的数据融合排序方法的准确率曲线,图3(a)中以正五边形标示的曲线表示基于线性组合评分的数据融合排序方法的准确率曲线。图3(a)中以正方形标示的曲线表示基于上下文信息的数据融合排序方法的准确率曲线。图3(a)中以圆形标示的曲线表示本发明的方法获得准确率曲线。
图3(b)表示各方法召回率的对比图,图3(b)中推荐列表长度取值分别为5、8、10、15,召回率取值分别为0.05,0,1,0.15,0.2,0.25,0.3,0.35,0.4。图3(b)中以三角形标示的曲线表示基于热门项目的数据融合排序方法的召回率曲线。图3(b)中以菱形标示的曲线表示基于项目协同过滤的数据融合排序方法的召回率曲线。图3(b)中以四角星标示的曲线表示基于用户协同过滤的数据融合排序方法的召回率曲线,图3(b)中以正五边形标示的曲线表示基于线性组合评分的数据融合排序方法的召回率曲线。图3(b)中以正方形标示的曲线表示基于上下文信息的数据融合排序方法的召回率曲线。图3(b)中以圆形标示的曲线表示本发明的方法获得召回率曲线。
仿真实验2:
本发明的仿真实验2是采用本发明的方法与5种现有技术(基于热门项目的数据融合排序方法、基于项目协同过滤的数据融合排序方法、基于用户协同过滤的数据融合排序方法、基于线性组合评分的数据融合排序方法和基于上下文信息的数据融合排序方法),分别计算各方法的数据融合排序的时间,并对各方法得到的数据融合排序时间进行对比,对比结果如表1所示。
表1六种数据融合排序方法的时间
方法 基于热门项目 基于项目协同过滤 基于用户协同过滤
时间 372s 563s 514s
方法 基于线性组合评分 基于上下文信息 本发明
时间 424s 1272s 306s
由表1可以看出,基于热门项目的数据融合排序方法、基于项目协同过滤的数据融合排序方法、基于用户协同过滤的数据融合排序方法、基于线性组合评分的数据融合排序方法和基于上下文信息的数据融合排序方法数据融合排序的时间均较长,本发明方法数据融合排序的时间较短,说明了本发明能够更快速地进行基于社交网络推荐平台的数据融合排序。
由图3(a)可以看出,本发明的准确率曲线位于基于热门项目的数据融合排序方法的准确率曲线、基于项目协同过滤的数据融合排序方法的准确率曲线、基于用户协同过滤的数据融合排序方法的准确率曲线、基于线性组合评分的数据融合排序方法的准确率曲线和基于上下文信息的数据融合排序方法的准确率曲线的上方,因此说明本发明的准确率是6种方法中最高的。
由图3(b)可以看出,本发明的召回率曲线位于基于热门项目的数据融合排序方法的召回率曲线、基于项目协同过滤的数据融合排序方法召回率的曲线、基于用户协同过滤的数据融合排序方法的召回率曲线、基于线性组合评分的数据融合排序方法的召回率曲线和基于上下文信息的数据融合排序方法的召回率曲线的上方,因此说明本发明的召回率是6种方法中最高的。
仿真结果表明,本发明进行基于社交网络推荐平台的数据融合排序后推荐准确率和召回率高,进行基于社交网络推荐平台的数据融合排序速度提高。

Claims (8)

1.一种基于社交网络推荐平台的数据融合排序方法,其特征在于,获取训练样本的特征向量,构建基于神经网络的融合排序模型,该方法的步骤包括如下:
(1)采集数据:
采集社交网络平台的数据,将数据中的用户信息和项目信息分别存储到用户数据库和项目数据库中;
(2)建立数据文档集:
(2a)将采集的用户信息和每个项目信息依次进行数据清洗、数据规范处理;
(2b)利用用户文档整理方法,将数据规范处理后的用户信息归类为用户文档;
(2c)利用项目文档整理方法,将数据规范处理后的每个项目信息按列归类为该项目文档,将所有的项目文档组成项目文档集;
(3)获取训练样本的特征向量:
(3a)从项目文档集的项目文档的项目时间中,随机选取早于用户请求时间的2000个项目文档,组成训练样本集;
(3b)利用下述多相似度方法,得到训练样本集中每个项目文档的特征向量:
第一步,从训练样本集或者测试样本集中选取一个项目文档的项目文本,利用贝叶斯推断的方法,从所选项目文本中得到每一个词对应每一个主题的条件概率分布;利用吉布斯抽样方法,根据每一个词对应每一个主题的条件概率分布,得到所选的项目文档主题分布概率前三高的主题,将项目文档主题分布概率前三高的主题组成所选的项目文档的主题偏好向量;
第二步,利用下述的动态内容偏好相似度公式,计算所选项目文档与用户文档的动态内容相似度:
Figure FDA0003212589060000021
其中,C表示所选项目文档与和用户文档的动态内容相似度,n表示所选项目文档与和用户文档主题偏好向量的维数,∑表示求和操作,Ui表示用户主题偏好向量的第i维主题偏好,Ei表示所选项目文档的主题偏好向量的第i维主题偏好,
Figure FDA0003212589060000022
表示求平方根操作,Tu表示用户请求时间,Te表示所选项目文档的项目时间;
第三步,利用下述的时间偏好相似度公式,计算所选项目文档与用户文档的时间相似度:
Figure FDA0003212589060000023
其中,Q表示所选项目文档和用户文档的时间相似度,m表示时间偏好向量的维数,Si表示用户时间偏好向量的第i维时间偏好,Ri表示所选项目文档的时间偏好向量的第i维时间偏好;
第四步,利用下述的空间相似度公式,计算所选项目文档与用户文档的空间相似度:
Figure FDA0003212589060000024
其中,L表示所选项目文档和用户文档的空间相似值,log表示求以10为底对数函数值操作,exp表示求以e为底的指数函数值操作,Xlat表示用户地点纬度,Ylat表示所选项目文档的项目地点纬度,Xlon表示用户地点经度,Ylon表示所选项目文档的项目地点经度;
第五步,将所选项目文档与用户文档的动态内容相似度,所选项目文档与用户文档的时间相似度,所选项目文档与用户文档的空间相似度组成所选项目文档的特征向量;
第六步,判断是否选完所有项目文档的项目文本,若是,则得到训练样本集或测试样本集中每个项目文档的特征向量,否则,执行第一步;
(4)获取测试样本的特征向量:
(4a)从项目文档集的项目文档的项目时间中,随机选取晚于用户请求时间的1000个项目文档,组成测试样本集;
(4b)利用与步骤(3b)相同的多相似度方法,得到测试样本集中每个项目文档的特征向量;
(5)构建神经网络的特征融合评分模型:
(5a)搭建一个3层神经网络,其结构依次为:输入层→隐藏层→输出层;
(5b)将神经网络中每个输入层权重均设置为满足标准差为0.1、均值为0的正态分布的随机数,将所有输入层权重组成第一个输入层权重向量a1,将神经网络中每个输出层权重均设置为满足标准差为0.1、均值为0的正态分布的随机数,将所有输出层权重组成第一个输出层权重向量b1
(5c)将第一个输入层权重向量a1、第一个输出层权重向量b1、训练样本集中每个项目文档的特征向量c依次输入到神经网络,得到第一个训练样本集中每个项目文档的预测标签值d1
(5d)将第一个训练样本集中每个项目文档的预测标签值d1和训练样本集中每个项目文档的真实标签值e输入到训练误差模型中,得到第一个训练样本集的训练误差f1
(5e)将第一个输入层权重向量a1和第一个训练样本集的训练误差f1,带入输入层权重向量公式,得到第二个输入层权重向量a2
(5f)将第一个输出层权重向量b1和第一个训练样本集的训练误差f1,带入输出层权重向量公式,得到第二个输出层权重向量b2
(5g)将第i个输入层权重向量ai、第i个输出层权重向量bi、训练样本集中每个项目文档的特征向量c依次输入到神经网络,得到第i个训练样本集中每个项目文档的预测标签值di
(5h)将第i个训练样本集中每个项目文档的预测标签值di和训练样本集中每个项目文档的真实标签值e,输入到训练误差模型中,得到第i个训练样本集的训练误差fi
(5i)将第i个输入层权重向量ai和第i个训练样本集的训练误差fi,带入输入层权重向量公式,得到第i+1个输入层权重向量ai+1
(5j)将第i个出层权重向量bi和第i个训练样本集的训练误差fi,带入输出层权重向量公式,得到第i+1个输出层权重向量bi+1
(5k)判断迭代次数i是否等于500,若是,得到训练好的神经网络;否则,将迭代次数i的值加1后执行步骤(5g);
(5l)将测试样本集中所有项目文档的特征向量、最后一个的输入层权重向量、最后一个的输出层权重向量输入评分模型,输出测试样本集中所有项目文档的评分;
(6)构建排序模型:
将测试样本集中所有项目文档的评分进行排序,选取评分前k高的k个项目文档,组成项目文档结果列表,k的值为{5,8,10,15}。
2.根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(2a)中所述的数据清洗是指,对采集的每个用户信息和项目信息中的无效值和缺失值的码字设置为0,所述的数据规范是指,将每个用户信息和项目信息中所有格式的时间信息转换为协调世界时Unix时间戳格式的时间信息。
3.根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(2d)中所述的项目文档整理方法是指,将数据规范处理后项目ID、项目文本、项目时间、项目时间偏好向量、项目地点经度、项目地点纬度、项目文档的真实标签值依次录入项目文档的每一列;项目文档的真实标签值初始均置为0。
4.根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(2b)中所述的用户文档整理方法是指,提取数据规范处理后用户主题偏好向量、用户请求时间、用户时间偏好向量、用户地点经度、用户地点纬度依次录入用户文档的每一列。
5.根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(5d)、步骤(5h)中所述的训练误差模型的步骤如下:
第一步,在训练样本集中随机选取两个项目文档项组成项目文档对;
第二步,当两个项目文档中的第一个项目文档的当前迭代时预测标签值大于另一个项目文档的当前迭代时预测标签值时,将项目文档对的当前迭代时预测排序值设置为1,当小于时,将项目文档对的预测标签排序值设置为0;
第三步,当两个项目文档中的第一个项目文档的真实标签值大于另一个项目文档的真实标签值时,将项目文档对的真实排序值设置为1,当小于时,将项目文档对的真实标签排序值设置为0;
第四步,判断是否选完训练样本集中所有的项目文档,若是,则执行第五步,否则,执行第一步;
第五步,按照下式,计算所有项目文档对的当前迭代时预测标签概率:
Figure FDA0003212589060000051
其中,
Figure FDA0003212589060000052
表示第i个所有项目文档对的预测标签概率,e表示以自然常数e为底的指数操作,ri表示第i个项目文档对的预测排序值为1的所有项目文档对的个数;
第六步,按照下式,计算所有项目文档对的真实标签概率:
Figure FDA0003212589060000061
其中,P表示所有项目文档对的真实标签概率,q表示项目文档对的真实排序值为1的所有项目文档对的个数;
第七步,按照下式,计算第i次时神经网络的训练误差:
Figure FDA0003212589060000062
其中,fi表示第i个神经网络的训练误差,P表示项目文档对的真实标签概率,
Figure FDA0003212589060000063
表示第i个项目文档对的预测标签概率。
6.根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(5e)、步骤(5i)中所述的输入层权重向量公式如下:
Figure FDA0003212589060000064
其中,ai+1表示第i+1个输入层权重向量,1≤i≤500,且i为整数,ai表示第i个输入层权重向量,η为学习率,取值为0.001,fi表示第i个神经网络训练误差,
Figure FDA0003212589060000065
表示求导操作。
7.根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(5f)、步骤(5j)中所述的输出层权重向量公式如下:
Figure FDA0003212589060000066
其中,bi+1表示第i+1个输入层权重向量,bi表示第i个输入层权重向量。
8.根据权利要求1所述的基于社交网络推荐平台的数据融合排序方法,其特征在于,步骤(6)中所述的评分模型公式如下:
Figure FDA0003212589060000067
其中,f表示测试样本集的项目文档的评分,g表示sigmod函数,m表示最后一个输出层权重向量的维数,wj表示最后一个输出层权重向量中第j维的输出层权重值,xi表示测试样本集的项目文档的第i维特征向量,n表示最后一个输入层权重向量维数,wi表示最后一个输入层权重向量中第i维的输入层权重值,bi表示输入层的偏置项,取值为1,bj表示输出层的偏置项,取值为1。
CN201811567099.8A 2018-12-20 2018-12-20 基于社交网络推荐平台的数据融合排序方法 Active CN109726747B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811567099.8A CN109726747B (zh) 2018-12-20 2018-12-20 基于社交网络推荐平台的数据融合排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811567099.8A CN109726747B (zh) 2018-12-20 2018-12-20 基于社交网络推荐平台的数据融合排序方法

Publications (2)

Publication Number Publication Date
CN109726747A CN109726747A (zh) 2019-05-07
CN109726747B true CN109726747B (zh) 2021-09-28

Family

ID=66297093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811567099.8A Active CN109726747B (zh) 2018-12-20 2018-12-20 基于社交网络推荐平台的数据融合排序方法

Country Status (1)

Country Link
CN (1) CN109726747B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457574A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 基于数据比较的信息推荐方法、装置及存储介质
CN110795134B (zh) * 2019-10-30 2021-10-15 中南大学 基于开源软件包依赖特征的标签推荐方法、装置及***
CN111680165B (zh) * 2020-04-28 2024-03-01 中国外汇交易中心(全国银行间同业拆借中心) 信息匹配方法、装置、可读存储介质和电子设备
CN112650920B (zh) * 2020-12-10 2022-11-11 中山大学 一种基于贝叶斯排序的融合社交网络的推荐方法
CN113157898B (zh) * 2021-05-26 2022-10-14 中国平安人寿保险股份有限公司 候选问题的推荐方法、装置、计算机设备及存储介质
CN113626716A (zh) * 2021-08-26 2021-11-09 腾讯科技(深圳)有限公司 数据处理方法、电子设备及存储介质
CN117312281B (zh) * 2023-06-30 2024-05-24 江苏中科西北星信息科技有限公司 一种多源异构数据自动融合方法、***、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287082A (zh) * 2008-05-16 2008-10-15 华东师范大学 一种引入节目热门度权重的协作过滤推荐方法
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法
CN104966125A (zh) * 2015-05-06 2015-10-07 同济大学 一种社交网络的物品评分及推荐方法
CN105740430A (zh) * 2016-01-29 2016-07-06 大连理工大学 一种融合社会化信息的个性化推荐方法
CN106202519A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 一种结合用户评论内容和评分的项目推荐方法
CN106484876A (zh) * 2016-10-13 2017-03-08 中山大学 一种基于典型度和信任网络的协同过滤推荐方法
CN106897419A (zh) * 2017-02-23 2017-06-27 同济大学 融合社交信息的对级排序学习推荐方法
CN107862022A (zh) * 2017-10-31 2018-03-30 中国科学院自动化研究所 文化资源推荐***
CN108090208A (zh) * 2017-12-29 2018-05-29 广东欧珀移动通信有限公司 融合数据处理方法及装置
CN108763362A (zh) * 2018-05-17 2018-11-06 浙江工业大学 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN108920527A (zh) * 2018-06-07 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化推荐方法
CN108959603A (zh) * 2018-07-13 2018-12-07 北京印刷学院 基于深度神经网络的个性化推荐***及方法
CN108959429A (zh) * 2018-06-11 2018-12-07 苏州大学 一种融合视觉特征端对端训练的电影推荐的方法及***

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101287082A (zh) * 2008-05-16 2008-10-15 华东师范大学 一种引入节目热门度权重的协作过滤推荐方法
CN101694652A (zh) * 2009-09-30 2010-04-14 西安交通大学 一种基于极速神经网络的网络资源个性化推荐方法
CN104966125A (zh) * 2015-05-06 2015-10-07 同济大学 一种社交网络的物品评分及推荐方法
CN105740430A (zh) * 2016-01-29 2016-07-06 大连理工大学 一种融合社会化信息的个性化推荐方法
CN106202519A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 一种结合用户评论内容和评分的项目推荐方法
CN106484876A (zh) * 2016-10-13 2017-03-08 中山大学 一种基于典型度和信任网络的协同过滤推荐方法
CN106897419A (zh) * 2017-02-23 2017-06-27 同济大学 融合社交信息的对级排序学习推荐方法
CN107862022A (zh) * 2017-10-31 2018-03-30 中国科学院自动化研究所 文化资源推荐***
CN108090208A (zh) * 2017-12-29 2018-05-29 广东欧珀移动通信有限公司 融合数据处理方法及装置
CN108763362A (zh) * 2018-05-17 2018-11-06 浙江工业大学 基于随机锚点对选择的局部模型加权融合Top-N电影推荐方法
CN108920527A (zh) * 2018-06-07 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化推荐方法
CN108959429A (zh) * 2018-06-11 2018-12-07 苏州大学 一种融合视觉特征端对端训练的电影推荐的方法及***
CN108959603A (zh) * 2018-07-13 2018-12-07 北京印刷学院 基于深度神经网络的个性化推荐***及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Multirelational Social Recommendations via Multigraph Ranking》;Mingsong Mao等;《IEEE Transactions on Cybernetics》;20171231;第47卷(第12期);第4049-4061页 *
《Personalized recommendation via rank aggregation in social tagging systems》;Hao Wu等;《2013 10th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD)》;20131231;第888-892页 *
《基于排序学习的推荐算法研究综述》;黄震华等;《软件学报》;20160331;第27卷(第3期);第691-713页 *

Also Published As

Publication number Publication date
CN109726747A (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
CN109726747B (zh) 基于社交网络推荐平台的数据融合排序方法
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN106815252B (zh) 一种搜索方法和设备
CN111797321B (zh) 一种面向不同场景的个性化知识推荐方法及***
CN105138624B (zh) 一种基于在线课程用户数据的个性化推荐方法
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及***
CN112199608B (zh) 基于网络信息传播图建模的社交媒体谣言检测方法
CN111506835B (zh) 一种融合用户时间特征和个性特征的数据特征提取方法
CN106055661A (zh) 基于多Markov链模型的多兴趣资源推荐方法
CN111241425A (zh) 一种基于层次注意力机制的poi推荐方法
CN105574213A (zh) 一种基于数据挖掘技术的微博推荐方法及装置
CN112148868A (zh) 一种基于法条共现的法条推荐方法
CN108364098B (zh) 一种天气特征对用户签到影响的度量方法
Hamim et al. Student profile modeling using boosting algorithms
CN116304299A (zh) 一种融和用户兴趣演化和梯度提升算法的个性化推荐方法
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
Chen et al. Utilizing generative adversarial networks for recommendation based on ratings and reviews
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法
CN111444414A (zh) 一种用于建模ad-hoc检索任务中多样相关特征的信息检索模型
CN105653686A (zh) 一种域名网址活跃度统计方法及***
CN113362034B (zh) 一种职位推荐方法
CN115618092A (zh) 一种信息推荐方法和信息推荐***
CN114595693A (zh) 一种基于深度学习的文本情感分析方法
CN111611455A (zh) 一种微博热点话题下基于用户情感行为特征的用户群体划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant