CN102521420A

CN102521420A - 基于偏好模型的社会化过滤方法

Info

Publication number: CN102521420A
Application number: CN2012100002281A
Authority: CN
Inventors: 王静; 刘志镜; 赵辉; 曲建铭; 贺文华; 王炜华; 王纵虎; 陈东辉; 朱旭东
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2012-01-04
Filing date: 2012-01-04
Publication date: 2012-06-27
Anticipated expiration: 2032-01-04
Also published as: CN102521420B

Abstract

本发明公开了一种基于偏好模型的社会化过滤方法，主要解决现有技术针对用户比较多，社交关系复杂的情况，过滤方法准确性不高的问题，其实现方案是：通过分析组员之间社会化关系，计算组员对组的影响因子；通过分析组内组员喜好对象分布情况，计算组员喜好对象对组的影响因子；综合上述两种影响因子，共同对组的偏好模型进行特征表示，得到组的加权影响向量。然后计算过滤系数，判断推荐条件，来过滤出组的共同相似爱好，提高社会化过滤方法的准确性和效率。本发明具有对组的偏好模型分析的优点，仅需修改获取其领域内关键字向量，即可在网络上实现对不同领域对象的推荐。

Description

基于偏好模型的社会化过滤方法

技术领域

本发明属于信息化处理技术领域，涉及协同过滤，特别是一种社会化过滤方法，可用于在网络中的信息交互和共享。

背景技术

随着互联网的发展，网络已经变成信息共享的平台，在该平台上用户之间实现信息的交互和共享，所以对于信息的共享和交互处理就是急需解决的问题。如何让人们在海量的数据中想要找到他们需要的信息，实现用户之间的信息共享与交互，就需要采用协同过滤技术。该方法是不依赖于用户的属性信息和物品的内容信息，而仅仅通过分析大量的用户对物品的行为信息，从中找出特定的行为模式，据此来预测用户的偏好。所谓偏好，表示的是用户所感兴趣的信息类型。

近年，随着以Facebook和Twitter为代表的社会网络的兴起，社会化过滤逐渐成为协同过滤技术的研究热点。社会化过滤方法利用用户和他的好友偏好的共同点，来分析好友的偏好，从而预测给定用户的偏好。最简单的社会化过滤算法是基于邻域的算法。除了简单的邻域模型，还有其他社会化过滤算法。利用图模型将用户的社会网络和用户物品的偏好关系建模到一张图中，然后利用随机游走算法给用户做社会化推荐。一个矩阵分解的算法来分解用户的社会网络矩阵和用户物品偏好矩阵，计算出用户的特征向量和物品的特征向量，并最终利用特征向量的点乘度量用户对物品的偏好。

但是以上这些社会化推荐方法，随着用户和商品的增多，***的性能会越来越低；都是针对单个用户进行偏好发现，所以对于用户比较多时，社交关系复杂的情况，推荐准确性就会大大下降。

发明内容

本发明的目的是针对已有方法的不足，提出一种基于偏好模型的社会化过滤方法，依据用户之间的关系建立群体偏好特征，从而解决在用户比较多，用户的偏好相似度比较低的情况下，通过计算群体偏好特征的加权影响向量，提高对用户偏好过滤方法的准确性。

为实现上述目的，本发明包括如下步骤：

(1)从网页配置文件中获取一个组G＝{u₁，u₂，…，u_g}，u_l为组员，1≤l≤g，g为组G中组员的个数；再从组内获取所有组员喜好对象的列表M＝{m₁，m₂，…，m_p}，m_i为组员喜好对象，1≤i≤p，p为列表M中对象的个数；

(2)根据组G的特征，分别计算组员u_l和组员喜好对象m_i对组的影响因子，得到对组G的加权影响向量：

为组员喜好对象m_i对组G归一化后的加权影响因子，1≤i≤p；

(3)使用关键字表示组员喜好对象m_i，得到组员喜好对象m_i的关键字向量W_i＝{w₁，w₂，…，w_n}，w_q为组员喜好对象m_i的关键字，1≤q≤n，n为组员喜好对象m_i的关键字个数；

(4)将对象列表M的关键字向量表示为W＝{W₁，W₂，…，W_p}，W_i表示组员喜好对象m_i的关键字向量，1≤i≤p；

(5)根据步骤(2)中所述的加权影响向量

和步骤(4)中所述对象列表M的关键字向量W，计算组G的综合加权影响向量

(6)输入待分析对象m′，并使用关键字表示待分析对象m′，得到待分析对象m′的关键字向量W′＝{w′₁，w′₂，…，w′_k}，其中w′_r为待分析对象m′的关键字，1≤r≤k，k为待分析对象m′的关键字个数；

(7)根据步骤(6)中所述待分析对象m′的关键字向量W′和步骤(5)中所述组G的加权影响向量计算待分析对象m′的过滤系数Y：

Y = Σ_{i = 1}^{p} y_{i},

其中，y_i为过滤因子，1≤i≤p；

(8)根据步骤(7)中所述待分析对象m′的过滤系数Y，判断推荐条件：若Y≥λ，则表示待分析对象m′满足推荐条件，并向组G予以推荐；反之不予以推荐，λ为推荐***预设的阈值，0≤λ≤1。

与现有技术相比，本发明具有如下优点：

1)本发明利用组员之间社会化关系，提出了组员u_l和组员喜好对象m_i对组的影响因子，来对用户的偏好特征进行表示，从而提高社会化过滤方法的准确性。

2)本发明以组为单位进行偏好描述，提出了组的加权影响向量将过滤方法的处理对象由个人变成组，降低了过滤方法计算的复杂度，从而提高社会化过滤方法的效率。

附图说明

图1是本发明采用基于兴趣模型的社会化过滤方法流程图；

图2是本发明针对群组中成员关系的拓扑结构图。

具体实施方式：

下面结合附图对本发明进行详细说明：

参照图1，本发明的具体实现步骤如下：

本发明中所述基于兴趣模型的社会化过滤方法，有很多应用领域。比如，对电影的推荐，论文的推荐等领域。下面我们以电影推荐为例，介绍如何使用基于偏好模型的社会化过滤方法。具体步骤如下：

步骤1：获取组G以及对象列表M信息

从网页配置文件中获取一个组G＝{u₁，u₂，…，u_g}，u_l为组员，1≤l≤g，g为组G中组员的个数；再从组内获取所有组员喜好对象的列表M＝{m₁，m₂，…，m_p}，m_i为组员喜好对象，1≤i≤p，p为列表M中对象的个数；

所述喜好对象，是指组员在其网页上显示其喜好的对象信息；

所述的喜好对象列表，是取每个组员所喜好对象的一个并集。

图2给出的一个组的拓扑结构图，表示组员之间的好友关系图，组员之间的连线表示他们的好友关系，该组表示为G＝{u₁，u₂，…，u₅}，组员分别为u₁，u₂，u₃，u₄和u₅，其中组员u₁喜好的对象有m₁，m₂，m₃和m₄；组员u₂喜好的对象有m₂，m₅和m₆；组员u₃喜好的对象是m₂，m₃，m₄和m₅；组员u4喜好的对象是m₃，m₅和m₆；组员u₅喜好的对象是m₁和m₄。

所有组员喜好对象列表M，就由组员u₁，u₂，u₃，u₄和u₅的喜好对象取并集：则对象列表：

M＝{m₁，m₂，m₃，m₄}∩{m₂，m₅，m₆}

{m₂，m₃，m₄，m₅}∩{m₃，m₅，m₆}∩{m₁，m₄}

＝{m₁，m₂，m₃，m₄，m₅，m₆}。

步骤2：计算对组G的综合影响度向量

2.1)计算组员u_l对组G的影响因子其中，表示组员u_l在组G中的好友个数，组G＝{u₁，u₂，…，u_g}，u_l为组员，1≤l≤g，g为组G中组员的个数。

对于附图2中，组员u₁与u₂和u₃是好友关系，所以组员u₁的好友数

以此类推所有组员好友的个数之和

组员u₁对组G的影响因子

依次得到其余组员的影响因子。

2.2)计算对象m_i的对组G的影响因子

表示组G内包含组员喜好对象m_i的组员个数，

表示组G内组员u_l所有喜好的对象的个数，组员喜好对象列表M＝{m₁，m₂，…，m_p}，m_i为组员喜好对象，1≤i≤p，p为列表M中对象的个数。

如附图2，对象m₁分别在组员u₁和u₅喜好的对象列表中出现，组G内包含组员喜好对象m₁的组员个数

各组员喜好的对象个数分别为4，3，4，3和2，所有组员喜好的对象的个数之和则组G对对象m₁的影响因子为

依次得到其余组员喜好对象对组G的影响因子。

2.3)根据组员u_l对组G的影响因子和组员喜好对象m_i对组G的影响因子，计算组员喜好对象m_i对组G的加权影响因子x_i：

x_{i} = f_{G, m_{i}} * \underset{u_{l} &Element; G}{Σ} α \cdot f_{G, u_{l}}

其中，α为加权系数，

1≤i≤p，1≤l≤g。

如附图2，组G对对象m₁的影响因子为

对象m₁出现在组员u₁和u₅的喜好对象中，所以对于组员u₁和u₅的α＝1，其余组员的α＝0。计算组员喜好对象m₁对组G的加权影响因子：

x_{1} = f_{G, m_{1}} * \underset{u_{l} &Element; G}{Σ} α \cdot f_{G, u_{l}}

= f_{G, m_{1}} (f_{G, u_{1}} + f_{G, u_{5}})

= \frac{2}{16} (\frac{2}{12} + \frac{2}{12})

= \frac{1}{24},

计算所有对象的x_i即得到加权影响因子向量X：

X = {x_{1}, x_{2}, \cdot \cdot \cdot, x_{6}}

= {\frac{1}{24}, \frac{9}{64}, \frac{11}{64}, \frac{1}{8}, \frac{7}{96}},

对加权影响因子向量X进行归一化处理，得到归一化的加权影响向量

\tilde{X} = {{\tilde{x}}_{1}, {\tilde{x}}_{2}, \cdot \cdot \cdot, {\tilde{x}}_{6}}

= {\frac{x_{1}}{Σ_{i = 1}^{6} x_{i}}, \frac{x_{2}}{Σ_{i = 1}^{6} x_{i}}, \frac{x_{3}}{Σ_{i = 1}^{6} x_{i}}, \frac{x_{4}}{Σ_{i = 1}^{6} x_{i}}, \frac{x_{5}}{Σ_{i = 1}^{6} x_{i}}, \frac{x_{6}}{Σ_{i = 1}^{6} x_{i}}}

= {\frac{8}{106}, \frac{27}{106}, \frac{33}{106}, \frac{24}{106}, \frac{14}{106}} .

步骤3：获取组G喜好对象的关键字向量。

使用关键字表示组员喜好对象m_i，得到组员喜好对象m_i的关键字向量W_i＝{w₁，w₂，…，w_n}，w_q为组员喜好对象m_i的关键字，1≤q≤n，n为组员喜好对象m_i的关键字个数。

例如对于电影对象，则根据组G所喜爱的电影列表M，可以通过查询IMDB(Internet Movie Database，互联网电影资料库)获取电影的关键字。如图2中，将电影m₁的关键字表示成向量：

W₁＝{w₁，w₂，…，w_n}

＝{Compassion，Tragic Villain，Mental Illness}；

对于论文对象，则根据组G所喜爱的论文列表M，可以通过查询万方数据库获取论文的关键字。如图2中，将论文m₁的关键字表示成向量：

W₁＝{w₁，w₂，…，w_n}

＝{Data Ming，SVM，Methion Learning}。

步骤4：表示对象列表M的关键字向量W。

将对象列表M的关键字向量表示为W＝{W₁，W₂，…，W_p}，W_i表示组员喜好对象m_i的关键字向量，1≤i≤p。

例如对于电影对象，则综合所有电影m₁，m₂，…，m₆的关键字向量最终得到组G喜好的电影的关键字向量：

W＝{W₁，W₂，…，W_M}

＝{(Compassion，Tragic Villain，Mental Illness)，…

(Crushed To Deah，Disney Animation Feature，)}；

对于论文对象，则综合所有论文m₁，m₂，…，m₆的关键字向量最终得到组G喜好的论文的关键字向量：

W＝{W₁，W₂，…，W_M}

＝{(Data Ming，SVM，Methion Learning)，…

(Feature Expretion，CRFs，Desetion Tree)}。

步骤5：计算组G的综合加权影响向量。

根据步骤2中所述的加权影响向量

和步骤4中所述对象列表M的关键字向量W，计算组G的综合加权影响向量

例如对于电影对象，则根据电影对组G的加权影响向量

和电影关键字向量W，计算组G的综合加权影响向量：

(W) \cdot {(\tilde{X})}^{T} = {{\tilde{x}}_{1} W_{1}, {\tilde{x}}_{2} W_{2}, \cdot \cdot \cdot, {\tilde{x}}_{M} W_{M}}

= {\frac{8}{106} (Compassion, Tragic Villain, Mental Il \ln ess), \cdot \cdot \cdot

\frac{14}{106} (Crushed To Death, Disney Animation Feature)};

对于论文对象，则根据论文对组G的加权影响向量

和论文关键字向量W，计算组G的综合加权影响向量：

(W) \cdot {(\tilde{X})}^{T} = {{\tilde{x}}_{1} W_{1}, {\tilde{x}}_{2} W_{2}, \cdot \cdot \cdot, {\tilde{x}}_{M} W_{M}}

= {\frac{8}{106} (Data Ming, SVM, Methion Learning), \cdot \cdot \cdot

\frac{14}{106} (Feature Expretion, CRFs, Desetion Tree)} .

步骤6：输入待分析对象，对其进行关键字向量的表示。

输入待分析对象m′，并使用关键字表示待分析对象m′，得到待分析对象m′的关键字向量W′＝{w′₁，w′₂，…，w′_k}，其中w′_r为待分析对象m′的关键字，1≤r≤k，k为待分析对象m′的关键字个数。

例如对于电影对象，则通过IMDB获取待推荐电影m′的关键字，得到待推荐电影m′的关键字向量：

W′＝{w′₁，w′₂，…，w′_k}

＝{Accident，Child，Tragic Villain}；

对于论文对象，则通过万方数据库获取待推荐论文m′的关键字，得到待推荐论文m′的关键字向量：

W′＝{w′₁，w′₂，…，w′_k}

＝{Data Base，Filing，Information Extraction}。

步骤7：计算过滤系数。

根据步骤6中所述待分析对象m′的关键字向量W′和步骤5中所述组G的加权影响向量

计算待分析对象m′的过滤系数Y：

Y = Σ_{i = 1}^{p} y_{i},

其中，y_i为过滤因子，

例如对于电影对象，则根据待推荐电影m′的关键字向量W′和步骤5中所述组G的加权影响向量

计算待推荐电影m′的过滤系数Y：

Y = Σ_{i = 1}^{p} y_{i},

采用文本相似度算法，对W′＝{Accident，Child，Tragic Villain}和W中每个项进行比较，W₁＝{Compassion，Tragic Villain，Mental Illness}，通过比较可见，W′与W₃、W₄相似，而W′与W₁、W₂、W₅不相似，则y₁＝y₂＝y₅＝0，

y_{3} = {\tilde{x}}_{3} = \frac{33}{106},

y_{4} = {\tilde{x}}_{4} = \frac{24}{106},

过滤系数为：

Y = Σ_{i = 1}^{p} y_{i} = 0 + 0 + \frac{33}{106} + \frac{24}{160} + 0 = \frac{57}{106} = 0.5377;

对于论文对象，则根据待推荐电影m′的关键字向量W′和步骤5中所述组G的加权影响向量计算待推荐电影m′的过滤系数Y：

Y = Σ_{i = 1}^{p} y_{i},

采用文本相似度算法，对W′＝{Data Base，Filing，Information Extraction}和W中每个项进行比较，W₁＝{Data Ming，SVM，Mecthion Learning}，通过比较可见，W′和与W₁、W₄相似，而W′与W₂、W₃、W₅不相似，则y₂＝y₃＝y₅＝0，

y_{1} = {\tilde{x}}_{1} = \frac{8}{106},

y_{4} = {\tilde{x}}_{4} = \frac{24}{106},

过滤系数为：

Y = Σ_{i = 1}^{p} y_{i} = \frac{8}{106} + 0 + 0 + \frac{24}{106} + 0 = \frac{32}{106} = 0.3019 .

步骤8：判断推荐条件。

根据步骤7中所述待分析对象m′的过滤系数Y，判断推荐条件：若Y≥λ，则表示待分析对象m′满足推荐条件，并向组G予以推荐；反之不予以推荐，λ为推荐***预设的阈值，0≤λ≤1。

例如对于电影对象，则根据待推荐电影m′的过滤系数Y，判断推荐条件：若Y≥λ，则表示待推荐电影m′满足推荐条件，并向组G予以推荐；反之不予以推荐，这里λ＝0.5，过滤系数Y为：

Y＝0.5377≥0.5，

所以待推荐电影m′满足推荐条件，向组G予以推荐该电影。

对于论文对象，则根据待推荐论文m′的过滤系数Y，判断推荐条件：若Y≥λ，则表示待推荐论文m′满足推荐条件，并向组G予以推荐；反之不予以推荐，这里λ＝0.5，过滤系数Y为：

Y＝0.3019≤0.5，

所以待推荐论文m′不满足推荐条件，不向组G予以推荐该论文。

以上仅为本发明的两个具体实例，不构成对本发明的任何限制，显然用本发明方法可针对不同的领域，仅需修改获取其领域内关键字向量的方法，即可应用到网络上的不同领域，实现对不同领域对象的推荐。