CN111597440A

CN111597440A - 一种基于内在加权矩阵三分解低秩近似的推荐***信息估计方法

Info

Publication number: CN111597440A
Application number: CN202010374602.9A
Authority: CN
Inventors: 刘芝; 李明; 樊重俊
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-28

Abstract

本发明提出一种基于内在加权矩阵三分解低秩近似的推荐***信息估计方法，本发明基于内在加权矩阵三分解低秩近似的推荐***信息估计方法采用了上述技术方案，即该方法首先初始化低秩潜在因子矩阵和内在加权矩阵，即确定潜在因子矩阵的维数及内部元素的初始值，同时随机固定内在加权矩阵的内部元素值；基于高维稀疏评分矩阵中的已知信息来设计目标函数；然后利用梯度学习方法，设计求解最小化目标函数的算法；通过运行设计的算法，得到潜在因子矩阵；将潜在因子矩阵与内在加权矩阵相乘，得到高维稀疏评分矩阵的信息估计矩阵，从而得到高维稀疏评分矩阵中的缺失信息。该方法在不损失精度的前提下，提高了计算效率。

Description

一种基于内在加权矩阵三分解低秩近似的推荐***信息估计方法

技术领域

本发明涉及人工智能技术和推荐***领域，尤其涉及一种基于内在加权矩阵三分解低秩近似的推荐***信息估计方法。

背景技术

近年来随着互联网和电子商务的飞速发展，各式各样的数据信息充斥着人们的生活。商品个数和种类的***式增长，使人们花费大量的时间找到自己想买的商品。在浏览大量无关信息和产品的过程中，无疑会加剧消费者的流失。为了解决这些问题，个性化推荐***应运而生。个性化推荐主要是根据用户的兴趣特点和购买行为习惯，分析用户喜好预测并挖掘其潜在的消费需求，进而为用户提供个性化的决策支持和信息服务，以满足客户的个性化需求。

个性化推荐***的直接产物就是推荐***，它是建立在海量数据挖掘基础上的一种智能平台。好的推荐***不仅能够提高用户的忠诚度，而且为电子商务带来巨大的商业利益。亚马逊Amazon每年有20％-30％的销售收入来自推荐***；谷歌Google通过在线广告AdWorks给用户提供个性化推荐服务，其点击率成为Google广告收入的主要来源。所以，推荐***除了具有很大的学术价值，在电子商务领域里也有很高的实用价值。

推荐***是数据挖掘的一个分支,是一种较为特殊的数据挖掘***,主要体现在推荐***的实时性和交互性上。***根据用户的兴趣爱好,向用户推荐符合其兴趣爱好的信息,它不仅需要用户以往的历史纪录,更需要结合当前一段时间的行为动作作出实时的反应,并根据与用户交互的反馈结果不断地修正和优化其推荐结果。

2000年，北京大学余锦凤等人开始研究个性化定制服务；2001年，清华大学冯韩等人借助向量空间法和协同过滤法进行推荐，设计了混合推荐***OpenBookmarkPU；2003年，邓爱林等人发表《基于物品评分预测的协同过滤推荐算法》；2007年，彭玉等人发表《基于属性相似性的Item-based协同过滤算法》；2009年，彭德巍等人发表《一种基于用户特征和时间的协同过滤推荐算法》，越来越多的优秀论文表明我国学术界在个性化技术领域取得的巨大进步。

2014年，重庆大学罗辛教授提出了一种基于单因素矩阵二分解的推荐***信息估计方法，但模型的鲁棒性较低，变量较少，精度较低；2018年，上海理工大学宋燕教授提出了一种基于单因素矩阵三分解的推荐***信息估计方法，但该方法的计算效率较低，不能更好的适用于对时间要求较高的在线电商推荐任务。因此，如何构建高效的推荐***，使得其同时兼顾预测精度和时间效率成为一个棘手的问题。

发明内容

本发明的目的在于提出一种在不太损失精度的前提下，提高了计算效率的推荐***信息估计方法。

为达到上述目的，本发明提出一种基于内在加权矩阵三分解低秩近似的推荐***信息估计方法，包括以下步骤：

步骤1、初始化低秩潜在因子矩阵，确定低秩潜在因子矩阵的维数和矩阵内部元素的初始值，同时随机固定内在加权矩阵的内部权重值；

步骤2、依据高维稀疏评分矩阵中的已知信息设计目标函数；

步骤3、依据设计的目标函数，利用梯度学习方法，设计最小化目标函数的算法；

步骤4、通过运行算法，求解最小化的目标函数，得到潜在因子矩阵；

步骤5、将潜在因子矩阵与内在加权矩阵相乘，得到高维稀疏评分矩阵的信息估计矩阵，由信息估计矩阵得到高维稀疏评分矩阵中关于缺失数据的信息。

优选的，在步骤1中，所述初始化低秩潜在因子矩阵以及所述随机固定内在加权矩阵的内部权重值的具体操作步骤为：

步骤1.1、确定潜在因子矩阵分别为P_|N|×e和

固定内在权重矩阵为H_e×e；其中，|N|和|M|分别为推荐***参与评分的条目的集合大小和参与推荐***评分的用户的集合大小，e为潜在因子矩阵的维数，且e<<N(M)；

步骤1.2：对潜在因子矩阵和固定内在权重矩阵中的元素，随机赋予[0,1]之间的数值进行初始化。

优选的，在步骤2中，所述已知信息为高维稀疏评分矩阵中的已存在的数据；

所述目标函数为依据已知数据和估计数据之间的差异建立损失函数，用O_|N|×|N|表示高维稀疏评分矩阵，Λ表示已知元素的集合，所述目标函数表示为：

式中，p_i,m≥0,q_n,j≥0，且分别代表潜在因子矩阵中的潜在因子；h_m,n≥0为内在权重矩阵中已给定的固定数值；m,n∈{1,2,…,e}；L为损失函数。

优选的，在步骤3中，利用优化学习方法中的梯度学习方法，推导潜在因子矩阵P_|N|×e和

内的元素p_i,m和q_n,j更新迭代公式，得到使得目标函数L的全局极小值的矩阵P和Q^T，具体公式如下：

优选的，在步骤4中，包括以下步骤：

在p_i,m中，由步骤3中的公式可以看出，其中的负数项为：

则，设学习率η为：

在q_n,j中，由步骤3的的公式可以看出，其中的负数项为：

则设置学习率η为：

根据以上可以推导出来最后的更新迭代公式为：

对上述公式进行迭代，当出现以下两种情况之一时，将会停止迭代，则此时得到的矩阵P和Q，即为潜在因子矩阵；

情况1：当迭代的次数达到3000次；情况2：当迭代前后两次得到的矩阵对应位置的数值之差小于10^-6。

优选的，在步骤5中，具体为以下步骤：将得到的潜在因子矩阵P和Q，根据公式

得到O的估计矩阵

依据估计信息矩阵的对应位置查找之前矩阵中缺失数据的估计值。

与现有技术相比，本发明的优势之处在于：本发明基于内在加权矩阵三分解低秩近似的推荐***信息估计方法采用了上述技术方案，即该方法首先初始化低秩潜在因子矩阵和内在加权矩阵，即确定潜在因子矩阵的维数及内部元素的初始值，同时随机固定内在加权矩阵的内部元素值；基于高维稀疏评分矩阵中的已知信息来设计目标函数；然后利用梯度学习方法，设计求解最小化目标函数的算法；通过运行设计的算法，得到潜在因子矩阵；将潜在因子矩阵与内在加权矩阵相乘，得到高维稀疏评分矩阵的信息估计矩阵，从而得到高维稀疏评分矩阵中的缺失信息。该方法在不损失精度的前提下，提高了计算效率；克服了以往从高维稀疏评分矩阵中提取有用信息时，改进模型只提高了精度但不能保证时间效率的缺陷。

附图说明

图1为本方法的流程框图；

图2为本方法的模型示意图；

图3为本发明实施例中的计算迭代收敛图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案作进一步地说明。

如图1所示，本发明提出一种基于内在加权矩阵三分解低秩近似的推荐***信息估计方法，包括以下步骤：

具体的，包括以下步骤：步骤1.1、确定潜在因子矩阵分别为P_|N|×e和

步骤2、依据高维稀疏评分矩阵中的已知信息设计目标函数；

具体的，已知信息为高维稀疏评分矩阵中的已存在的数据；

目标函数为依据已知数据和估计数据之间的差异建立损失函数，用O_|N|×|N|表示高维稀疏评分矩阵，Λ表示已知元素的集合，目标函数表示为：

具体的，利用优化学习方法中的梯度学习方法，推导潜在因子矩阵P_|N|×e和

具体包括以下步骤：在p_i,m中，由步骤3中的公式可以看出，其中的负数项为：

则，设学习率η为：

在q_n,j中，由步骤3的的公式可以看出，其中的负数项为：

则设置学习率η为：

根据以上可以推导出来最后的更新迭代公式为：

对上述公式进行迭代，如图3实施，当出现以下两种情况之一时，将会停止迭代，则此时得到的矩阵P和Q，即为潜在因子矩阵；

具体为：如图2所示，将得到的潜在因子矩阵P和Q，根据公式

得到O的估计矩阵

下面将结合具体的实验数据，对本发明做出进一步的解释说明：

以豆瓣网数据为例子，它们由中过最大的在线电子评分***收集而成，数据包含了对电影、书籍以及音乐的评分。具体而言这个数据集包含了16830839个数据，它主要由129490名用户对58541部电影评分得到的。数据的大小范围为[0,5]，数据集的数据密度为9.87％(已知数据的个数占数据集大小的百分比)；

选取评价指标式

来评价估计准确度，其中Γ表示缺失数据的集合，|Γ|表示为缺失数据的集合的大小；o_i,j∈Γ，

表示o_i,j的估计值。需要说明的是，NMAE越小则代表预测的准确度越高，反之，则表示预测精准度较差；设置参数n＝3000，e＝30；

依据以上参数设置和最终更新迭代算法，同时选取相同的参数和评价指标，将本方法与基于矩阵二分解的潜在因子模型和基于矩阵三分解的潜在因子模型在预测精度方面进行比较。重复实验50次。

选取50次实验结果中最好、最差和平均的NMAE值进行记录，如下表1所示，在e＝30时，记录计算收敛过程，如图3所示；

表1、50次实验结果中最好、最差和平均的NMAE值

从表1可以看出，该方法在预测精度方面，优于现有的基于矩阵二分解的潜在因子信息估计模型；

表2、,当e＝30时三个模型平均一次更新迭代的时间(ms)

从表2可得出，在计算效率方面，所提出的方法优于一般的基于矩阵三分解的信息估计模型。由此可看出，该方法在对评分矩阵中缺失信息进行估计的时候，不仅预测精度有一个良好的保证，同时计算效率方面，也有一个优良的表现。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。