CN107391670A

CN107391670A - 一种融合协同过滤和用户属性过滤的混合推荐方法

Info

Publication number: CN107391670A
Application number: CN201710599815.XA
Authority: CN
Inventors: 曹俊豪; 李泽河; 江龙; 张德刚; 王达达
Original assignee: Education Training and Evaluation Center of Yunnan Power Grid Co Ltd
Current assignee: Education Training and Evaluation Center of Yunnan Power Grid Co Ltd
Priority date: 2017-07-21
Filing date: 2017-07-21
Publication date: 2017-11-24

Abstract

本发明公开了一种融合协同过滤和用户属性过滤的混合推荐方法，解决了传统的协同过滤推荐算法是依据用户评分矩阵向用户推荐，存在着因数据稀疏而导致推荐信息不准确的问题。本发明采用时间热度的计算方法对Pearson相关系数算法进行改进，然后建立用户属性相似度模型，对邻居用户进行过滤，由最终得到的可信邻居对当前用户进行推荐。实验结果表明，本发明提出的混合推荐算法较传统的***过滤算法有更好的效果。

Description

一种融合协同过滤和用户属性过滤的混合推荐方法

技术领域

本发明涉及一种融合协同过滤和用户属性过滤的混合推荐方法，属于信息技术领域。

背景技术

目前，云南电网每年的培训达到6万人次，具有培训规模大、培训内容覆盖面广、专业多、专业性强等特点，如何根据每个用户的行为数据对用户推送其感兴趣的项目(如设备知识点)成为了培训中的一个难题。其中，推荐***的主体部分是个性化推荐算法，研究推荐***其实就是研究个性化推荐算法，因为推荐***的性能就取决于个性化推荐算法的性能。目前各类推荐***中使用的推荐算法有很多种，其中协同过滤算法是目前应用范围最广、研究最多的个性化推荐算法。协同过滤算法首先找出当前用户的相似用户并利用相似用户进行推荐，而不考虑项目的自身属性，主要依赖于最近邻居用户的意见进行推荐，偏向于个性化推荐。

协同过滤算法最大的优点是对推荐对象没有特殊的要求，能处理非结构化的复杂对象，协同过滤的主要缺点是数据稀疏性问题，即在用户评分矩阵数据比较稀疏的情况下，用户的相似度计算是不准确的，由此将导致推荐的效果无法满足***要求。研究者为了进一步提高协同过滤算法的推荐质量，针对其缺点，采用了一系列的处理方法，如《基于奇异值分解的协同过滤推荐算法研究》阐述了如何利用奇异值分解的方式降低评分矩阵的维数，获取有用信息，但该方法却缺失了部分数据，在数据稀疏时，其预测误差会大于传统的协同过滤算法。《基于填充和相似性信任因子的协同过滤推荐算法》阐述了一种进行评分矩阵填充的数据挖掘算法，该算法部分改进了协同过滤算法，但该算法过于依赖活跃用户，在评分稀疏时，不利于对用户进行个性化推荐。而且传统的协同过滤推荐算法是依据用户评分矩阵向用户推荐，存在着因数据稀疏而导致推荐信息不准确的问题。

在推荐领域，协同过滤算法是比较实用的推荐算法，该算法分两种：一种是基于用户的协同过滤算法(UserCF)；还有一种是基于项目的协同过滤算法(ItemCF)。基于用户的协同过滤推荐的基本原理是：根据所有用户对物品的偏好，发现与当前用户口味和偏好相似的邻居用户群，然后基于邻居群的历史偏好信息，为当前用户进行推荐。基于项目的协同过滤推荐的基本原理是：根据所有用户对物品偏好，发现物品和物品之间的相似度，然后根据用户的历史偏好信息，将类似的物品推荐给用户。

本发明的融合协同过滤和用户属性过滤的混合推荐算法的优势主要体现在将用户属性过滤应用在协同过滤可信邻居的寻找中，这样可以有效地缓解由于评分矩阵数据稀疏带来的寻找相似用户不准的缺陷，同时，通过对协同过滤算法中Pearson相关系数进行优化，也增加了寻找相似用户的可信度，可以有效提高推荐准确率。

发明内容

为实现上述目的，本发明提供如下技术方案：一种融合协同过滤和用户属性过滤的混合推荐方法，其包括以下步骤：

(1)采用时间热度函数的计算方法对Pearson相关系数算法进行改进得到改进后的相似度计算公式；

(2)根据步骤(1)的改进后的相似度计算公式计算当前用户与其他用户的相似度，并找出最终相似度最高的N个初步邻居用户；

(3)建立用户属性相似度模型，对邻居用户进行进一步过滤，得到最终可信邻居集合 M；

(4)由最终得到的可信邻居对当前用户进行推荐。

进一步，作为优选，所述步骤(1)中，时间热度函数计算公式如下：

其中，设Dui表示用户u访问项目i的时间与用户u最早访问***任一项目的时间间隔，该时间间隔在数据库中有相应的时间记录，时间热度函数WT(u，i)是一个和Dui相关的函数值，其采用关于Dui的非递减函数，即对于Dui＞Duj，有WT(u，i)≥WT(u，j)，该时间热度函数是一个线形函数，其中Lu表示用户u使用推荐***的时间跨度，即该用户最早访问***任一项目的时间与最近访问***任一项目的时间间隔，a∈(0，1)，称为权重增长指数，改变a的值可以调整权重随时间变化的速度，a越大权重增长速度越快，a的大小可影响到算法性能，动态调整a的值来优化推荐效果。

进一步，作为优选，所述步骤(1)中，Pearson相关系数算法具体为：

用户a和用户b的Pearson相似度表示如下：

其中，给定用户集U、项目集P以及用户对项目的评分矩阵R，ra，p表示用户a对项目p 的评分，表示用户u对项目P评分的平均值。

进一步，作为优选，所述步骤(1)中，将时间热度加入到相似度计算公式中来，优化后得到的改进后的相似度计算公式如下：

其中，引入时间热度之后，在计算a和b的相似度时，用户近期的兴趣将会反映更加充分，利用优化改进后的公式可计算出当前用户与其余用户的相似度，并且根据Top-N原则选出当前用户的N位邻居。

进一步，作为优选，利用用户属性过滤滤除相似度低的邻居，并对用户的属性进行特征提取形成特征矩阵，利用特征矩阵计算用户之间的相似度。

进一步，作为优选，在建立用户的特征矩阵后，首先，通过改进后的计算公式比较N位邻居与当前用户的相似度，根据相似度由大到小对N位邻居进行重新排序，选出前M位最终的可信邻居，其中M＜N；

之后，由M位可信邻居计算当前用户对未知项目的评分，其中，用户a对项目p的预测评分ra，p的计算公式如下：

根据Top-N原则选出预测评分高的项目组成当前用户最终的推荐项目集。

与现有技术相比，本发明的有益效果是：

本发明以基于用户的协同过滤算法为基础，计算用户之间的相似度，考虑到用户的兴趣会随时间变化，本发明提出时间热度的概念并对相似度计算进行优化，可以有效地缓解由于评分矩阵数据稀疏带来的寻找相似用户不准的缺陷，同时，通过对协同过滤算法中 Pearson相关系数进行优化，也增加了寻找相似用户的可信度，可有效提高推荐准确率。

附图说明

图1是基于协同过滤算法的MAE值；

图2基于本发明混合推荐算法的MAE值；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种融合协同过滤和用户属性过滤的混合推荐方法，其是以基于用户的协同过滤算法为基础，计算用户之间的相似度。考虑到用户的兴趣会随时间变化，本发明提出时间热度的概念并对相似度计算进行优化。

1、先来介绍一下本发明的用户评分矩阵：

在***中，用户可以对项目进行兴趣评分，评分值范围为1-5，评分越高，表示用户对项目的兴趣度越大。设I1、I2、I3、...、IM为***的项目，U1、U2、U3、...、UN为***的用户，然后将用户对项目的评分填入对应的矩阵单元中，即可得到用户-项目评分矩阵，如下表：

表1 用户-项目评分矩阵

	I1	I2	I3	…	IM
						U1	5	-	1	…	-
U2	-	-	2	…	4
						U3	3	4	-	…	-
…	…	…	…	…	…
						UN	5	-	-	…	-

2、介绍下本发明的时间热度

传统的算法在寻找当前用户的最近邻居时并没有考虑到不同用户访问项目的具体时间对预测未评分项目的影响，忽略了用户兴趣会随时间而变化这一规律，为了寻找对推荐结果更有价值的相似用户，考虑到用户近期访问的项目比很久之前访问过的项目更能反应用户的兴趣这一道理，本发明将时间热度引入到相似度计算公式，以达到增加寻找相似用户可信度的目的。

时间热度是指用户访问项目的时间新鲜度，访问时间离当前时间越近则新鲜度越高，时间热度就越高，反之亦然。设Dui表示用户u访问项目i的时间与用户u最早访问***任一项目的时间间隔(在数据库中有相应的时间记录)，定义时间热度函数WT(u，i)，它是一个和Dui相关的函数值。为了突出用户u近期访问过的项目的重要性，本发明将函数设计成关于Dui的非递减函数，即对于Dui＞Duj，有WT(u，i)≥WT(u，j)，时间热度函数计算公式如下：

上式是一个线形函数，其中Lu表示用户u使用推荐***的时间跨度，即该用户最早访问***任一项目的时间与最近访问***任一项目的时间间隔，a∈(0，1)，称为权重增长指数。改变a的值可以调整权重随时间变化的速度。a越大权重增长速度越快，a的大小可以影响到算法性能，可以动态调整a的值来优化推荐效果。

3、Pearson相关系数的优化

常用的计算用户相似度的方法为Pearson相关系数，给定用户集U、项目集P以及用户对项目的评分矩阵R(如表1)，ra，p表示用户a对项目p的评分，表示用户u对项目P评分的平均值，则用户a和用户b的相似度表示如下：

传统的算法在寻找当前用户的最近邻居时忽略了用户兴趣会随时间而变化这一规律，为了寻找对推荐结果更有价值的相似用户，本发明对Pearson相关系数(公式(2))进行改进，将时间热度加入到相似度计算公式中来，优化后的相似度计算公式如下：

从公式(3)中可以看出，引入时间热度之后，在计算a和b的相似度时，用户近期的兴趣将会反映更加充分。利用优化后的公式(3)可计算出当前用户与其余用户的相似度，并且根据Top-N原则选出当前用户的N位邻居。

用本发明改进的用户相似度计算公式(公式(3))计算得到的相似用户集合，并不是对所有的用户都能有很好的推荐效果，因为集合中可能会存在与目标用户兴趣差异很大的相似用户，由这样的相似用户产生的推荐准确率是比较低的。之所以会存在这种现象，主要是由于评分矩阵比较稀疏的缘故导致的，接下来要做的就是要再次过滤掉这类相似度比较低的用户。主要方法是为每一个用户建立其用户属性模型，通过比较用户属性相似度来过滤。

4、用户属性过滤滤除相似度低的邻居

利用用户属性过滤滤除相似度低的邻居，需要对用户的属性进行特征提取形成特征矩阵，利用特征矩阵计算用户之间的相似度。

1)建立用户的特征矩阵

一个用户可以有多种属性，如工种、学历、性别等，本发明提取其中较能反应用户特征的7种属性来构建用户特征矩阵，这7种属性分别是：工种、学历、工龄、归属部门、性别、岗位、技能等级。

特征矩阵如下表2所示：

表2用户特征矩阵

用户	工种	技能等级	岗位	归属部门	…
						用户1	工种1	等级1	岗位1	部门1	…
用户2	工种2	等级1	岗位2	部门2	…
						用户3	工种3	等级1	岗位1	部门1	…
…	…	…	…	…	…

2)计算用户之间的相似度

用户特征属性包括工种、学历、工龄、归属部门、性别、岗位、技能等级，则用户u 的特征属性可以用向量UAttru＝(au1，au2，au3，au4，au5，au6，au7)来表示。其中，从u1到u7分表代表工种、学历、工龄、归属部门、性别、岗位、技能等级。对于数值属性，如工龄，根据实际经验本发明规定若二者工龄相差超过3岁，则认为二者不同；对于分类属性，例如工种、学历、归属部门、性别、岗位、技能等级，采用原始值，若用户u 和用户v的第i个属性相同，我们令USimUAttr(u，v，i)＝1，否则USimUAttr(u，v，i) ＝0。用户u和v的相似度可以用下面的公式来计算

USimAttr(u，v)＝∑_i∈UAttrω_i·Usim_UAttr(u，v，i) (4)

式中：ω_i为第i个属性的权重，所有属性的权重值相加为1。

5、推荐步骤的描述

融合协同过滤和用户属性过滤的混合推荐方法具体实现流程有以下几个步骤：

①由用户访问项目的具体时间，根据公式(1)计算时间热度。

②对于待推荐用户，根据改进过的相似度计算公式(公式(3))计算出当前用户与其他用户的相似度，然后采用Top-N的方法得出由N位用户组成的初步相似邻居集。

③依据3.2节介绍的方法建立用户的特征矩阵，并且通过公式(4)比较N位邻居与当前用户的相似度，根据相似度由大到小对N位邻居进行重新排序，选出前M位最终的可信邻居(M＜N)。

④由M位可信邻居计算当前用户对未知项目的评分，其中，用户a对项目p的预测评分ra，p的计算公式如下：

6、实验与结果分析

1)实验数据与度量

数据稀疏度是指不包含数据的单元与总单元的相对百分比，其计算公式如下：

式中：A表示已包含数据的单元数，P表示总单元数

本发明采用的数据集采自《基于数字编码的移动学***台》产生的数据集，该数据集包含897个用户对122个项目的8600条兴趣评分，评分的值为1到5，根据公式(6) 可计算出数据稀疏度为0.9214。对此数据集随机抽取80％作为训练集，剩余20％作为测试集。利用训练集中的数据和本发明所属的算法来算出测试集中所有单元的预测评分，然后对比测试集中的实际评分可对算法的推荐质量进行分析。

实验采用平均绝对误差(MAE)作为评价指标，MAE度量测试集中用户对项目的预测评分与实际评分的误差，MAE越小，说明推荐质量越高。假设预测的用户评分集合表示为{P1，P2，…PN}，对应的实际用户评分集合为{q1，q2，…，qN}，则具体的MAE计算公式为

2)实验结果分析

为了验证本发明混合推荐算法的有效性，分别对传统的协同过滤算法(UserCF)和本发明混合推荐算法(Hybrid Recommendation Method，HRM)进行了对比实验，实验的结果如图1-2所示。图中横坐标为K值(用户数)，纵坐标为评价指标MAE值。

(1)从图1-2可得出，基于协同过滤算法的MAE值在整个k值区间都要大于本发明混合推荐算法的MAE值，MAE越小，表示推荐质量越高，由此可说明本发明所述的混合推荐算法在整体推荐精准度上优于传统的协同过滤算法。

(2)从两个图可得出，当k＞60后，随着k值的增加，两种算法的MAE值都有所增加，但是基于协同过滤算法的MAE值的增长速率明显高于基于本发明混合推荐算法的MAE值的增长速率，MAE值增长速率越低，则表示推荐稳定性越好，由此可说明本发明所述的推荐算法在稳定性上要优于传统的协同过滤算法。

本发明从寻找可信邻居的角度出发，提出了一种融合协同过滤和用户属性过滤的混合推荐算法，通过参数关系分析以及推荐方法对比实验表明，本发明的混合推荐算法是行之有效的算法，其推荐效果要优于传统的协同过滤算法。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种融合协同过滤和用户属性过滤的混合推荐方法，其包括以下步骤：

(3)建立用户属性相似度模型，对邻居用户进行进一步过滤，得到最终可信邻居集合M；

(4)由最终得到的可信邻居对当前用户进行推荐。

2.根据权利要求1所述的一种融合协同过滤和用户属性过滤的混合推荐方法，其特征在于：所述步骤(1)中，时间热度函数计算公式如下：

3.根据权利要求2所述的一种融合协同过滤和用户属性过滤的混合推荐方法，其特征在于：所述步骤(1)中，Pearson相关系数算法具体为：

用户a和用户b的Pearson相似度表示如下：

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>a</mi> <mo>.</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>a</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>b</mi> <mo>,</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>b</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>a</mi> <mo>.</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>a</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>b</mi> <mo>.</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>b</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

其中，给定用户集U、项目集P以及用户对项目的评分矩阵R，ra，p表示用户a对项目p的评分，表示用户u对项目P评分的平均值。

4.根据权利要求3所述的一种融合协同过滤和用户属性过滤的混合推荐方法，其特征在于：所述步骤(1)中，将时间热度加入到相似度计算公式中来，优化后得到的改进后的相似度计算公式如下：

<mrow> <msup> <mi>sim</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>a</mi> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <mi>W</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <mi>a</mi> <mo>,</mo> <mi>p</mi> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>r</mi> <mrow> <mi>a</mi> <mo>.</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>a</mi> </msub> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mrow> <mi>W</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <mi>b</mi> <mo>,</mo> <mi>p</mi> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>r</mi> <mrow> <mi>b</mi> <mo>,</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>b</mi> </msub> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <mrow> <mi>W</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <mi>a</mi> <mo>,</mo> <mi>p</mi> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>r</mi> <mrow> <mi>a</mi> <mo>,</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>a</mi> </msub> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <msqrt> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>p</mi> <mo>&Element;</mo> <mi>P</mi> </mrow> </msub> <msup> <mrow> <mo>(</mo> <mrow> <mi>W</mi> <mi>T</mi> <mrow> <mo>(</mo> <mrow> <mi>b</mi> <mo>,</mo> <mi>p</mi> </mrow> <mo>)</mo> </mrow> <mo>&times;</mo> <msub> <mi>r</mi> <mrow> <mi>b</mi> <mo>,</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>b</mi> </msub> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

5.根据权利要求4所述的一种融合协同过滤和用户属性过滤的混合推荐方法，其特征在于：利用用户属性过滤滤除相似度低的邻居，并对用户的属性进行特征提取形成特征矩阵，利用特征矩阵计算用户之间的相似度。

6.根据权利要求5所述的一种融合协同过滤和用户属性过滤的混合推荐方法，其特征在于：在建立用户的特征矩阵后，首先，通过改进后的计算公式比较N位邻居与当前用户的相似度，根据相似度由大到小对N位邻居进行重新排序，选出前M位最终的可信邻居，其中M＜N；

<mrow> <msub> <mi>r</mi> <mrow> <mi>a</mi> <mo>,</mo> <mi>p</mi> </mrow> </msub> <mo>=</mo> <mover> <msub> <mi>r</mi> <mi>a</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>+</mo> <mfrac> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>b</mi> <mo>&Element;</mo> <mi>M</mi> </mrow> </msub> <msup> <mi>sim</mi> <mo>*</mo> </msup> <mo>(</mo> <mrow> <mi>a</mi> <mo>,</mo> <mi>b</mi> </mrow> <mo>)</mo> <mo>&times;</mo> <mrow> <mo>(</mo> <msub> <mi>r</mi> <mrow> <mi>b</mi> <mo>.</mo> <mi>p</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>r</mi> <mi>b</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mrow> <mi>b</mi> <mo>&Element;</mo> <mi>M</mi> </mrow> </msub> <msup> <mi>sim</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mrow> <mi>a</mi> <mo>,</mo> <mi>b</mi> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>