CN103678672A

CN103678672A - 一种信息推荐方法

Info

Publication number: CN103678672A
Application number: CN201310726417.1A
Authority: CN
Inventors: 程嘉薪; 李丽丽; 雷翻翻; 马雪峰
Original assignee: BEIJING ZHONG XING TONG SOFTWARE TECHNOLOGY Co Ltd
Current assignee: Beijing Tongde ZTE Network Technology Co. Ltd.
Priority date: 2013-12-25
Filing date: 2013-12-25
Publication date: 2014-03-26
Anticipated expiration: 2033-12-25
Also published as: CN103678672B

Abstract

本发明涉及信息技术领域，特别涉及一种信息推荐方法，包括：接收到访问请求时，提取与访问请求相对应的当前用户的特征信息，根据特征信息确定当前用户是否为新用户；确定当前用户为新用户时，根据当前用户的历史访问记录，按照点击率排名向当前用户进行热点推荐；确定当前用户为老用户时，对预先存储的用户信息及项目信息进行聚类，生成用户聚类；在用户聚类中，生成基于项目内容的第一推荐列表，还生成基于用户-项目网络的协同过滤的第二推荐列表；根据第一推荐列表及第二推荐列表生成混合推荐列表；根据混合推荐列表向当前用户进行信息推荐。该信息推荐方法形成的推荐信息的实时性提高，精确性及关联性提高，能够有效为用户进行信息推荐。

Description

一种信息推荐方法

技术领域

本发明涉及信息技术领域，具体而言，涉及一种信息推荐方法。

背景技术

随着信息技术的发展，用户可方便快捷地接触到大量信息。但，海量信息及海量用户的同时出现，一方面令用户难以从海量数据信息中发现自己的目标数据，同时也造成大量信息的无人问津，使得信息利用率低；另一方面，用户访问量的增加造成原始日志文件的增加。为了有针对性的向用户提供其所需要的信息，进而出现了用于向用户推荐相关信息的推荐***及推荐方法。具体地，推荐***，就是通过建立用户与信息产品之间的二元关系，利用已有的选择过程或相似性关系挖掘每个用户潜在的感兴趣的对象，进而进行个性化推荐，其本质就是信息过滤。

相关技术中的信息推荐方法的推荐形式主要有两种，一种是基于内容的推荐，另一种是基于协同过滤算法的推荐。但，现有的该两种推荐方法均存在着一定局限性。

例如，基于协同过滤算法的推荐方法需通过计算用户或是项目的相似度以识别“最近邻居”，在大数据情况下，计算量的增加直接影响信息推荐的实时性和精确度。而基于内容的推荐则过分依赖信息的特征，使得实现后的推荐不能够很好的表达信息的关联性，进而导致不能够为用户进行有效的信息推荐。

发明内容

本发明的目的在于提供一种信息推荐方法，以解决上述的问题。

在本发明的实施例中提供了一种信息推荐方法，包括：

接收到访问请求时，提取与所述访问请求相对应的当前用户的特征信息，根据所述特征信息确定所述当前用户是否为新用户；

确定所述当前用户为新用户时，根据所述当前用户的历史访问记录，按照点击率排名向所述当前用户进行热点推荐；

确定所述当前用户为老用户时，对预先存储的用户信息及项目信息进行聚类，生成用户聚类；在所述用户聚类中，生成基于项目内容的第一推荐列表，还生成基于用户-项目网络的协同过滤的第二推荐列表；根据所述第一推荐列表及所述第二推荐列表生成混合推荐列表；根据所述混合推荐列表向当前用户进行信息推荐。

本发明上述实施例的信息推荐方法，接收到用户的访问请求，向用户进行信息推荐时，能够根据用户的特征信息将用户分为新用户及老用户，对于新用户进行热点推荐；而向老用户进行信息推荐时，会将***中存储的大量数据进行聚类，如此能够将海量用户降维成有限的几个聚类，在形成的用户聚类中对用户形成推荐信息，如此能够简化海量数据的计算，保证信息推荐的实时性，而且在形成的聚类中形成面向老用户的推荐信息时，能够基于项目内容生成第一推荐列表及基于用户-项目网络的协同过滤生成第二推荐列表，其中用户-项目网络是指根据用户信息及项目信息形成的信息网络。根据第一推荐列表及第二推荐列表形成混合推荐列表，通过混合推荐列表能够避免基于内容推荐的过于依赖信息特征的缺陷，而且通过混合推荐列表向用户进行信息推荐，保证推荐的信息的精确性，及推荐的信息的关联性，因此通过本发明的信息推荐方法形成的推荐信息的实时性提高，推荐信息的精确性及关联性提高，保证能够有效为用户进行信息推荐。

附图说明

图1示出了本发明实施例信息推荐方法的流程图；

图2示出了本发明实施例中对预先存储的用户信息及项目信息进行聚类的流程图；

图3示出了本发明实施例中构建用户偏好向量的流程图；

图4示出了本发明实施例中基于Hadoop技术，采用MapReduce编程模型下的K-Means算法对构建的所有用户偏好向量进行聚类操作的流程图；

图5示出了本发明实施例中在用户聚类中生成基于项目内容的第一推荐列表的流程图；

图6示出了本发明实施例中在用户聚类中生成基于用户-项目网络的协同过滤的第二推荐列表的流程图；

图7示出了本发明实施例中在用户聚类中构建项目网络的流程图。

具体实施方式

下面通过具体的实施例子并结合附图对本发明做进一步的详细描述。

本发明实施例提供一种推荐方法，如图1所示，主要处理步骤包括：

步骤A：接收到访问请求时，提取与所述访问请求相对应的当前用户的特征信息，根据所述特征信息确定所述当前用户是否为新用户；

确定所述当前用户为新用户时，执行步骤B：根据所述当前用户的历史访问记录，按照点击率排名向所述当前用户进行热点推荐；

确定所述当前用户为老用户时，执行步骤C：对预先存储的用户信息及项目信息进行聚类，生成用户聚类；在所述用户聚类中，生成基于项目内容的第一推荐列表，还生成基于用户-项目网络的协同过滤的第二推荐列表；根据所述第一推荐列表及所述第二推荐列表生成混合推荐列表；根据所述混合推荐列表向当前用户进行信息推荐。

步骤A中，所述根据所述特征信息确定所述当前用户是否为新用户，包括：

所述特征信息为发出所述访问请求的当前用户的已参与项目数目；将提取的所述已参与项目数目与预设的项目数目阈值进行比较，若所述已参与项目数目不大于所述项目数目阈值，则确定所述当前用户为新用户，否则确定所述当前用户为老用户。

步骤C中，所述对预先存储的用户信息及项目信息进行聚类，生成用户聚类，如图2所示，包括：

步骤C1：根据预先存储的用户信息及项目信息，构建用户偏好向量；

步骤C2：基于Hadoop技术，采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作，生成用户聚类。

步骤C1中所述根据预先存储的用户信息及项目信息，构建用户偏好向量，如图3所示，包括：

步骤C11：所述项目信息对应设置有项目类别标签，根据所述项目类别标签确定所述用户偏好向量的分量及维度；

其中，所述用户偏好向量的数学表达式为：

u = {(t_{1}, w_{1}^{u}), (t_{2}, w_{2}^{u}), . . ., (t_{k}, w_{k}^{u})};

所述用户偏好向量的分量的前部为项目类别标签，后部为分量权重；所述用户偏好向量的维度k由项目类别数目确定；

步骤C12：采用TF-IDF算法确定所述用户偏好向量的分量权重。

具体地，步骤C12采用TF-IDF算法确定所述用户偏好向量的分量权重，包括：

存储的所有所述项目信息组成项目集，所述项目集中的项目信息的项目数目记为N；

所述项目集中设置有项目类别标签ti的项目信息的项目数目为n_i；

所述项目集中，将项目类别标签t_i在任意用户u已参与项目信息中出现的次数记为f_iu；

则，项目类别标签t_i在所述用户u已参与项目集中出现的词频为

{TF}_{iu} = \frac{f_{iu}}{\max_{z} f_{zu}};

其中，max_zf_zu是指所述用户u已参与项目集中项目类别标签出现的最大次数；

项目类别标签t_i在所述项目集中出现的逆频为

根据所述项目类别标签t_i在所述用户u已参与项目集中出现的词频及在所述项目集中出现的逆频，确定项目类别标签t_i在与用户u相关的用户偏好向量中的分量权重为：

w_{i}^{u} = \frac{f_{iu}}{\max_{z} f_{zu}} \cdot \log \frac{N}{n_{i}} .

步骤C2中基于Hadoop技术，采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作，生成用户聚类，如图4所示，包括：

步骤C21：所有所述用户偏好向量组成用户偏好向量集合；

其中，用户偏好向量集合表达式为{P₁,P₂,...,P_n}

步骤C22：从所述用户偏好向量集合中随机选取K个用户偏好向量分别作为K个类的初始中心，该K个初始中心分别记为C₁,C₂,...C_K；

步骤C23：利用Split过程按预设规则对所述用户偏好向量集合中的所有用户偏好向量进行分组；

步骤C24：利用Map过程，按照所述Split过程分组的结果，计算所述用户偏好向量集合中每个所述用户偏好向量分别到K个所述初始中心的中心距离，并根据最短中心距离原则，形成K个聚类，同时确定K个所述聚类的用户中心；

其中，中心距离的计算公式为：

| | P_{i} - C_{j} | | = \sqrt{{(w_{1}^{P_{i}} - w_{1}^{C_{j}})}^{2} + {(w_{2}^{P_{i}} - w_{2}^{Cj})}^{2} + \cdot \cdot \cdot + {(w_{k}^{P_{i}} - w_{k}^{C_{j}})}^{2}},

（1≤i≤n,1≤j≤K）；

根据最短中心距离原则，确定每个用户偏好向量的最短中心距离，其中最短中心距离的计算公式为Δ_i={||P_i-C₁||,||P_i-C₂||,…,||P_i-C_K||}（1≤i≤n），将每个用户偏好向量归于与最短中心距离对应的聚类中。

步骤C25：利用Shuffle过程，对K个所述聚类进行洗牌归类；

步骤C26：利用Reduce过程，重新计算所述洗牌归类后的K个聚类的聚类中心：

Λ_{j} = \frac{\underset{P_{t, C_{j}} &Element; {C_{j}}}{Σ} | | C_{j} - P_{t, C_{j}} | |}{| {C_{j}} |},

（1≤j≤K,1≤t≤|{Cj}|）；

表示类C_j中第t个用户，|{C_j}|表示类C_j中用户的个数。

该步骤中，利用Reduce过程重新计算洗牌归类后的K个聚类的聚类中心后，进行Reduce结果输出，具体地，将重新计算得到的所述聚类中心与所述用户中心对应排列输出。

步骤C27：将重新计算得到的所述聚类中心分别对应地与所述用户中心进行比较；

步骤C28：若重新计算得到的所述聚类中心分别对应地与所述用户中心相等，则完成聚类操作，输出聚类结果；否则，按预设规则重新计算聚类用户中心，直至聚类用户中心稳定。

重新计算得到的所述聚类中心分别对应地与所述用户中心相等，即Λ_i=C_i，（1≤i≤K），输出聚类结果，最终聚类中心为O₁,O₂,...,O_K。

步骤C28中，按预设规则重新计算聚类用户中心，是指重新执行步骤C24至C28，进行迭代更新，直到聚类用户中心稳定，此处稳定是指得到的聚类的中心不再移动。

步骤C中，在所述用户聚类中，生成基于项目内容的第一推荐列表，如图5所示，包括：

步骤SC11：在当前用户所属的用户聚类中，构建项目属性向量；

其中，所述项目属性向量的数学表达式为：

i = {(t_{1}, w_{1}^{i}), (t_{2}, w_{2}^{i}), . . ., (t_{k}, w_{k}^{i})};

所述项目属性向量的分量的前部为项目信息的项目类别标签，后部为分量权重；所述项目属性向量的维度k由项目类别数目确定；所述项目属性向量的分量的权重中的i取值为1或0；

步骤SC12：计算当前用户的用户偏好向量与所述项目属性向量间的相似度；

当前用户记为用户a，用户a与任意项目d之间的相似度的计算过程为：

sim (a, d) = \cos (a, d) = \frac{Σ_{i = 1}^{k} w_{i}^{a} \cdot w_{i}^{d}}{\sqrt{Σ_{i = 1}^{k} {(w_{i}^{a})}^{2}} \cdot \sqrt{Σ_{i = 1}^{k} {(w_{i}^{d})}^{2}}};

其中，

a = {(t_{1}, w_{1}^{a}), (t_{2}, w_{2}^{a}), . . ., (t_{k}, w_{k}^{a})}, d = {(t_{1}, w_{1}^{d}), (t_{2}, w_{2}^{d}), . . ., (t_{k}, w_{k}^{d})} .

步骤SC13：根据所述相似度的计算结果，选取当前用户的用户偏好向量相似度值满足预设阈值的多个项目作为当前用户的第一推荐列表。

步骤C中，在所述用户聚类中，还生成基于用户-项目网络的协同过滤的第二推荐列表，如图6所示，包括：

步骤CC11：在所述用户聚类中，构建项目网络；

步骤CC12：基于所述项目网络构建用户网络；

步骤CC13：在所述用户网络中，按预设规则确定当前用户的最近邻居集；

其中，用户的最近邻居集用S_a表示。

步骤CC14：根据所述当前用户的已参与项目信息集合及所述最近邻居集的已参与项目信息集合，形成候选推荐项目集合；

设定当前用户a的已参与项目信息集合记为I_a，其最近邻居集的已参与项目信息集合记为D，则候选推荐项目集合为

步骤CC15：计算所述候选推荐项目集合中的项目信息对于当前用户的推荐度；

步骤CC16：根据所述推荐度的计算结果，从所述候选推荐项目集合中选取项目信息形成第二推荐列表。

其中，步骤CC15及CC16中，候选项目

则候选项目i对于当前用户a的推荐度为

{Rec}_{i, a} = \frac{\underset{s &Element; S_{a}}{Σ} {count}_{s, i}}{| {S_{a}} |},

其中，用户s对项目i感兴趣，则count_s,i=1，否则count_s,i=0。

步骤CC11中，在所述用户聚类中，构建项目网络，如图7所示，包括：

步骤CC111：在所述用户聚类中，所有项目信息形成项目集I，根据任意两个项目信息之间的边权值，确定边集E；

其中，所述边权值的数学表达式为：

w (i, j) = \frac{| U_{i} \cap U_{j} |}{| U_{i} | + | U_{j} |};

U_i表示已参与项目i的用户信息的集合，U_j表示已参与项目j的用户信息的集合；

步骤CC112：根据所述项目集I及所述边集E，构建初步项目网络；

步骤CC113：将所述初步项目网络中，任意两个项目间边权值小于预设的边权阈值的边去掉，形成项目网络G=(I,E)。

步骤CC12中，基于所述项目网络构建用户网络，包括：

构建用户网络u=(I_u,E_u)；

其中，I_u为任意用户u已参与项目的项目信息集合，E_u={(i,j)|(i,j)∈E且i,j∈I_u}为任意用户u已参与的任意两个项目之间的边集，所述E指所述项目网络中的边集E。

步骤CC13中，在所述用户网络中，按预设规则确定当前用户的最近邻居集，包括：

步骤CC131：根据预设的同一项目对关系计算当前用户与任意用户u之间的Jaccard相似性，其中当前用户记为用户a，计算公式为：

{sim}_{1} (a, u) = \frac{| I_{a} \cap I_{u} |}{| I_{a} \cup I_{u} |};

步骤CC132：根据预设的相似项目对关系，计算用户a和任意用户u之间的相似性，计算公式为：

步骤CC133：根据预设的相关项目对关系，计算用户a和任意用户u之间的相似性，计算公式为：

步骤CC134：根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果，确定用户a和任意用户u之间的相似度量值，所述相似度量值的计算公式为：

sim(a,u)=αsim₁(a,u)+βsim₂(a,u)+γsim₃(a,u)，其中α+β+γ=1；

步骤CC135：根据所述相似度量值的计算确定当前用户的最近邻居集。

本发明实施例中，按预设规则确定当前用户的最近邻居集时，会根据任意项目所属的用户网络，预先确定任意两个项目间的相似关系，其中确定出的相似关系包括：同一项目对、相似项目对、相关项目对和无关项目对。

具体地，同一项目对关系、相似项目对关系、相关项目对关系分别为：

设任意两个用户a和u，I_u为用户u已参与项目的项目信息集合，I_a为用户a已参与项目的项目信息集合，i及j分别表示任意项目i及任意项目j；

若i∈I_a，j∈I_u，i,j∈I_a∩I_u，称i,j为同一项目对；

若i∈I_a/I_u，j∈I_u/I_a，(i,j)∈E，称i,j为用户a和u之间的相似项目对；

若

且w(i,j)>θ，称i,j为用户a和u之间的相关项目对，其中

θ = \frac{1}{2} [\underset{(k, t) &Element; N (I_{u})}{Σ} \frac{w (k, t)}{| N (I_{u}) |} + \underset{(k, t) &Element; N (I_{a})}{Σ} \frac{w (k, t)}{| N (I_{a}) |}],

且N(I_u)={(k,t)|w(k,t)≤0.01,且k,t∈I_u}，|N(I_u)|表示集合N(I_u)的元素个数。

称用户a和u之间的其余项目对为无关项目对。

步骤CC134中，所述根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果，确定用户a和任意用户u之间的相似度量值，包括：

在所述用户聚类中，除构建项目网络外，还构建用户-项目兴趣度矩阵；

利用所述用户-项目兴趣度矩阵实现所述sim₁(a,u)、sim₂(a,u)及sim₃(a,u)；

利用矩阵实现的所述sim₁(a,u)、sim₂(a,u)及sim₃(a,u)确定用户a和任意用户u之间的相似度量值。

信息推荐时，仅仅根据用户的评价并不能完整体现用户真实兴趣，进而结合用户浏览记录和购买记录等隐式数据，将其转换成评分数据，构建伪评分数据，获取用户综合兴趣度，构造用户-项目兴趣度矩阵，其中所述用户-项目兴趣度矩阵R的数学表达式为：

R = (\begin{matrix} r_{11} & r_{12} & \cdot \cdot \cdot & r_{1 i} & \cdot \cdot \cdot & r_{1 n} \\ r_{21} & r_{22} & \cdot \cdot \cdot & r_{2 i} & \cdot \cdot \cdot & r_{2 n} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ r_{u 1} & r_{u 2} & \cdot \cdot \cdot & r_{ui} & \cdot \cdot \cdot & r_{un} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ r_{m 1} & r_{m 2} & \cdot \cdot \cdot & r_{mi} & \cdot \cdot \cdot & r_{mn} \end{matrix})

可以看出，用户-项目兴趣度矩阵表现形式为一个m×n的矩阵R，m表示用户数，n表示项目数目。

该矩阵中，r_ui=1或0，1≤u≤m,1≤i≤n。

利用所述用户-项目兴趣度矩阵实现所述sim₁(a,u)、sim₂(a,u)及sim₃(a,u)的实现方法具体包括：

项目集中的任意项目i,j之间的边权值定义为

利用矩阵R实现边权值为：

w (i, j) = \frac{| U_{i} \cap U_{j} |}{| U_{i} | + | U_{j} |} = \frac{{R_{i}}^{T} \cdot R_{j}}{{R_{i}}^{T} \cdot R_{j} + {R_{j}}^{T} \cdot R_{j} - {R_{i}}^{T} \cdot R_{j}}

其中，R_i=(r_1i,r_2i,…,r_mi)^T为用户-项目兴趣度矩阵R中第i列的元素构成的向量，R_i ^T为向量R_i的转置。

sim₁(a,u)的矩阵实现为：

{sim}_{1} (a, u) = \frac{| I_{a} \cap I_{u} |}{| I_{a} \cup I_{u} |} = \frac{R_{a} \cdot {R_{u}}^{T}}{R_{a} \cdot {R_{a}}^{T} + R_{u} \cdot {R_{u}}^{T} - R_{a} \cdot {R_{u}}^{T}}

其中，R_u=(r_u1,r_u2,…,r_un)为用户-项目矩阵R中第u行的元素构成的向量，表示用户u兴趣项目的向量。

sim₂(a,u)的矩阵实现包括：

矩阵实现为：

取矩阵R_u ^T·R_a对角线元素组成向量A=(A₁,A₂,…A_n)，（1≤i≤n），A_i=1表示用户a和用户u共同对项目i感兴趣，A_i=0表示用户a和用户u至少有一个对项目i不感兴趣。

则，

|I_a/I_u|=||R_a-A||²

|I_u/I_a|=||R_u-A||²

其中，||R_u||²如步骤C24所定义。

|{(i,j)|(i,j)∈E,i∈I_a/I_u,j∈I_u/I_a}|

=(R_a-A)·L·(R_u-A)^T

其中，

L = (\begin{matrix} l_{11} & l_{12} & \cdot \cdot \cdot & l_{1 i} & \cdot \cdot \cdot & l_{1 n} \\ l_{21} & l_{22} & \cdot \cdot \cdot & l_{2 i} & \cdot \cdot \cdot & l_{2 n} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ l_{i 1} & l_{i 2} & \cdot \cdot \cdot & l_{ij} & \cdot \cdot \cdot & l_{in} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ l_{n 1} & l_{n 2} & \cdot \cdot \cdot & l_{nj} & \cdot \cdot \cdot & l_{nn} \end{matrix})

为项目-项目矩阵，l_ij=1表示项目i与项目j项目之间有边，即(i,j)∈E，l_ij=0表示

1≤i,j≤n。

于是，

{sim}_{2} (a, u) = \frac{(R_{a} - A) \cdot L \cdot {(R_{u} - A)}^{T}}{{| | R_{a} - A | |}^{2} \times {| | R_{u} - A | |}^{2}} .

sim₃(a,u)的矩阵实现：

根据相关项目相似定义，计算用户a和u之间的相似性，有

其中，

θ = \frac{1}{2} [\underset{(k, t) &Element; N (I_{u})}{Σ} \frac{w (k, t)}{| N (I_{u}) |} + \underset{(k, t) &Element; N (I_{a})}{Σ} \frac{w (k, t)}{| N (I_{a}) |}]

N(I_u)={(k,t)|w(k,t)≤0.01,且k,t∈I_u}

矩阵实现为：

| N (I_{u}) | = P_{{| | R_{u} | |}^{2}}^{2} - \frac{R_{a} \cdot L \cdot {R_{a}}^{T}}{2},

其中

P_{n}^{m} = \frac{n!}{(n - m)!}

再由边权值的矩阵实现可知

w (i, j) = \frac{| U_{i} \cap U_{j} |}{| U_{i} | + | U_{j} |} = \frac{{R_{k}}^{T} \cdot R_{t}}{{R_{k}}^{T} \cdot R_{k} + {R_{t}}^{T} \cdot R_{t} - {R_{k}}^{T} \cdot R_{t}},

由此可知θ可由矩阵形式实现。

定义矩阵

L^{'} = (\begin{matrix} {l_{1,1}}^{'} & {l_{1,2}}^{'} & \cdot \cdot \cdot & {l_{1, j}}^{'} & \cdot \cdot \cdot & {l_{1, | | R_{u} - A | |}}^{'} \\ {l_{2,1}}^{'} & {l_{2,2}}^{'} & \cdot \cdot \cdot & {l_{2, j}}^{'} & \cdot \cdot \cdot & {l_{2, | | R_{u} - A | |}}^{'} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ {l_{i, 1}}^{'} & {l_{i, 2}}^{'} & \cdot \cdot \cdot & {l_{i, j}}^{'} & \cdot \cdot \cdot & {l_{i, | | R_{u} - A | |}}^{'} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ {l_{| | R_{a} - A | |, 1}}^{'} & {l_{| | R_{a} - A | |}}^{'} & \cdot \cdot \cdot & {l_{| | R_{a} - A | |}}^{'} & \cdot \cdot \cdot & {l_{| | R_{a} - A | |, | | R_{u} - A | |}}^{'} \end{matrix}),

l_i,j′=1表示项目i与项目j之间满足：

且i∈I_a/I_u,j∈I_u/I_a；l_i,j′=0表示w(i,j)≤θ,，且i∈I_a/I_u,j∈I_u/I_a。

于是

{sim}_{3} (a, u) = \frac{(R_{a} - A) \cdot L^{'} \cdot {(R_{u} - A)}^{T}}{{| | R_{a} - A | |}^{2} \times {| | R_{u} - A | |}^{2}} .

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信息推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息确定所述当前用户是否为新用户，包括：

所述特征信息为发出所述访问请求的当前用户的已参与项目数目；

将提取的所述已参与项目数目与预设的项目数目阈值进行比较，若所述已参与项目数目不大于所述项目数目阈值，则确定所述当前用户为新用户，否则确定所述当前用户为老用户。

3.根据权利要求1所述的方法，其特征在于，所述对预先存储的用户信息及项目信息进行聚类，生成用户聚类，包括：

根据预先存储的用户信息及项目信息，构建用户偏好向量；

基于Hadoop技术，采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作，生成用户聚类。

4.根据权利要求3所述的方法，其特征在于，所述根据预先存储的用户信息及项目信息，构建用户偏好向量，包括：

所述项目信息对应设置有项目类别标签，根据所述项目类别标签确定所述用户偏好向量的分量及维度；

其中，所述用户偏好向量的数学表达式为：

u = {(t_{1}, w_{1}^{u}), (t_{2}, w_{2}^{u}), . . ., (t_{k}, w_{k}^{u})};

采用TF-IDF算法确定所述用户偏好向量的分量权重。

5.根据权利要求4所述的方法，其特征在于，所述采用TF-IDF算法确定所述用户偏好向量的分量权重，包括：

所述项目集中设置有项目类别标签t_i的项目信息的项目数目为n_i；

{TF}_{iu} = \frac{f_{iu}}{\max_{z} f_{zu}};

项目类别标签t_i在所述项目集中出现的逆频为

w_{i}^{u} = \frac{f_{iu}}{\max_{z} f_{zu}} \cdot \log \frac{N}{n_{i}} .

6.根据权利要求3所述的方法，其特征在于，所述基于Hadoop技术，采用MapReduce编程模型下的K-Means算法对构建的所有所述用户偏好向量进行聚类操作，生成用户聚类，包括：

所有所述用户偏好向量组成用户偏好向量集合；

从所述用户偏好向量集合中随机选取K个用户偏好向量分别作为K个类的初始中心；

利用Split过程按预设规则对所述用户偏好向量集合中的所有用户偏好向量进行分组；

利用Map过程，按照所述Split过程分组的结果，计算所述用户偏好向量集合中每个所述用户偏好向量分别到K个所述初始中心的中心距离，并根据最短中心距离原则，形成K个聚类，同时确定K个所述聚类的用户中心；

利用Shuffle过程，对K个所述聚类进行洗牌归类；

利用Reduce过程，重新计算所述洗牌归类后的K个聚类的聚类中心；

将重新计算得到的所述聚类中心分别对应地与所述用户中心进行比较；

若重新计算得到的所述聚类中心分别对应地与所述用户中心相等，则完成聚类操作，输出聚类结果；否则，按预设规则重新计算聚类用户中心，直至聚类用户中心稳定。

7.根据权利要求3所述的方法，其特征在于，所述在所述用户聚类中，生成基于项目内容的第一推荐列表，包括：

在当前用户所属的用户聚类中，构建项目属性向量；

其中，所述项目属性向量的数学表达式为：

i = {(t_{1}, w_{1}^{i}), (t_{2}, w_{2}^{i}), . . ., (t_{k}, w_{k}^{i})};

计算当前用户的用户偏好向量与所述项目属性向量间的相似度；

根据所述相似度的计算结果，选取当前用户的用户偏好向量相似度值满足预设阈值的多个项目作为当前用户的第一推荐列表。

8.根据权利要求3所述的方法，其特征在于，在所述用户聚类中，还生成基于用户-项目网络的协同过滤的第二推荐列表，包括：

在所述用户聚类中，构建项目网络；

基于所述项目网络构建用户网络；

在所述用户网络中，按预设规则确定当前用户的最近邻居集；

根据所述当前用户的已参与项目信息集合及所述最近邻居集的已参与项目信息集合，形成候选推荐项目集合；

计算所述候选推荐项目集合中的项目信息对于当前用户的推荐度；

根据所述推荐度的计算结果，从所述候选推荐项目集合中

选取项目信息形成第二推荐列表。

9.根据权利要求8所述的方法，其特征在于，所述在所述用户聚类中，构建项目网络，包括：

在所述用户聚类中，所有项目信息形成项目集I，根据任意两个项目信息之间的边权值，确定边集E；

其中，所述边权值的数学表达式为：

w (i, j) = \frac{| U_{i} \cap U_{j} |}{| U_{i} | + | U_{j} |};

根据所述项目集I及所述边集E，构建初步项目网络；

将所述初步项目网络中，任意两个项目间边权值小于预设的边权阈值的边去掉，形成项目网络G=(I,E)。

10.根据权利要求9所述的方法，其特征在于，所述基于所述项目网络构建用户网络，包括：

构建用户网络u=(I_u,E_u)；

11.根据权利要求10所述的方法，其特征在于，所述在所述用户网络中，按预设规则确定当前用户的最近邻居集，包括：

根据预设的同一项目对关系计算当前用户与任意用户u之间的Jaccard相似性，其中当前用户记为用户a，计算公式为：

{sim}_{1} (a, u) = \frac{| I_{a} \cap I_{u} |}{| I_{a} \cup I_{u} |};

根据预设的相似项目对关系，计算用户a和任意用户u之间的相似项目相似性，计算公式为：

根据预设的相关项目对关系，计算用户a和任意用户u之间的相关项目相似性，计算公式为：

根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果，确定用户a和任意用户u之间的相似度量值，所述相似度量值的计算公式为：

sim(a,u)=αsim₁(a,u)+βsim₂(a,u)+γsim₃(a,u)，其中α+β+γ=1；

根据所述相似度量值的计算确定当前用户的最近邻居集。

12.根据权利要求11所述的方法，其特征在于，所述根据所述Jaccard相似性、所述相似项目相似性及所述相关项目相似性的计算结果，确定用户a和任意用户u之间的相似度量值，包括：

13.根据权利要求11所述的方法，其特征在于，所述同一项目对关系、相似项目对关系、相关项目对关系分别为：

设任意两个用户a和用户u，I_u为用户u已参与项目的项目信息集合，I_a为用户a已参与项目的项目信息集合，i及j分别表示任意项目i及任意项目j；

若i∈I_a，j∈I_u，i,j∈I_a∩I_u，则称i,j为同一项目对；

若

且w(i,j)>θ，称i,j为用户a和用户u之间的相关项目对，其中

θ = \frac{1}{2} [\underset{(k, t) &Element; N (I_{u})}{Σ} \frac{w (k, t)}{| N (I_{u}) |} + \underset{(k, t) &Element; N (I_{a})}{Σ} \frac{w (k, t)}{| N (I_{a}) |}],