CN102982131B

CN102982131B - 一种基于马尔科夫链的图书推荐方法

Info

Publication number: CN102982131B
Application number: CN201210460908.1A
Authority: CN
Inventors: 廖建新; 郭伟东; 张雷; 赵贝尔; 崔晓茹
Original assignee: Hangzhou Dongxin Beiyou Information Technology Co Ltd
Current assignee: Xinxun Digital Technology Hangzhou Co ltd
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2015-12-23
Anticipated expiration: 2032-11-16
Also published as: CN102982131A

Abstract

一种基于马尔科夫链的图书推荐方法，方法包括有：步骤一、查询用户的阅读历史数据，并基于朴素贝叶斯算法，计算用户的初始状态概率向量；步骤二、查询用户的当前阅读图书和所有未阅读图书，并根据所有用户对该用户的当前阅读图书和未阅读图书的喜欢和不喜欢状态，分别计算该用户当前阅读图书到每个未阅读图书的转移概率矩阵；步骤三、根据用户的初始状态概率向量、和用户当前阅读图书到未阅读图书的转移概率矩阵，分别计算用户从当前阅读图书转移到每个未阅读图书的状态概率向量，所述状态概率向量包括有用户对未阅读图书的喜欢状态概率，并据此向用户推荐未阅读图书。本发明属于网络应用技术领域，能根据用户的动态行为进行图书的个性化推荐。

Description

一种基于马尔科夫链的图书推荐方法

技术领域

本发明涉及一种基于马尔科夫链的图书推荐方法，属于网络应用技术领域。

背景技术

随着移动、互联网技术的飞速发展，图书的数字化成为一个必然趋势。越来越多的图书阅读平台受到了用户的高度关注，并取得了迅猛发展，已经成为人们获取信息和知识的重要途径。

图书阅读平台上通常拥有海量的数字图书资源，如何有效地利用这些丰富而宝贵的资源，让用户能够更快捷地找到并充分地利用它们就显得非常重要，因此图书的个性化智能推荐是图书阅读平台的一个很重要的功能。

目前，图书的个性化智能推荐主要分为基于内容的图书推荐、协同过滤图书推荐、基于知识的图书推荐和组合图书推荐。基于内容的图书推荐根据用户的行为记录，建立符合用户口味的兴趣档案，根据推荐对象的内容特征匹配用户的兴趣档案，发现用户可能感兴趣的商品，常用于文本类的推荐，例如新闻和邮件等。协同过滤图书推荐是应用比较广泛的推荐方法，发现用户的相似用户，根据相似用户群体的行为信息对用户进行推荐。基于知识的图书推荐主要是根据行业内的一些专家意见进行推荐，往往是一定固定的推荐规则。组合图书推荐是综合利用各种推荐算法，把推荐算法的结果进行整合，形成更加全面的推荐结果。

以上的推荐方法都是根据用户的历史行为记录的静态数据进行推荐，而没有考虑用户的行为实际上是一个动态的过程，即用户的行为是一个时间序列上的数据，而不是简单的对某个物体的喜欢或者厌恶。在对用户进行图书推荐时，用户的阅读喜好很有可能正慢慢地发生改变，这一点可以根据用户最近的阅读图书反映出来，如果仅仅利用用户的静态数据，而没有结合时间特性，就不可能在第一时间发现用户对图书的喜好变化，从而造成信息缺失，导致向用户推荐的图书不符合用户的当前喜好。

因此，如何根据用户的动态行为，向用户进行图书的个性化推荐，仍是一个急需要解决的技术难题。

发明内容

有鉴于此，本发明的目的是提供一种基于马尔科夫链的图书推荐方法，能根据用户的动态行为，向用户进行图书的个性化推荐。

为了达到上述目的，本发明提供了一种基于马尔科夫链的图书推荐方法，所述方法包括有：

步骤一、查询用户的阅读历史数据，并基于朴素贝叶斯算法，计算用户的初始状态概率向量：P＝(P(C₀|X)，P(C₁|X))，其中，C₀、C₁分别是用户对图书的喜欢、不喜欢状态，X是用户当前阅读图书的标签向量，P(C₀|X)、P(C₁|X)分别是用户对图书的喜欢、不喜欢状态概率；

步骤二、查询用户的当前阅读图书和所有未阅读图书，并根据所有用户对该用户的当前阅读图书和未阅读图书的喜欢和不喜欢状态，分别计算该用户当前阅读图书到每个未阅读图书的转移概率矩阵；

步骤三、根据用户的初始状态概率向量、和用户当前阅读图书到未阅读图书的转移概率矩阵，分别计算用户从当前阅读图书转移到每个未阅读图书的状态概率向量，所述状态概率向量包括有用户对未阅读图书的喜欢状态概率，并据此向用户推荐未阅读图书，

所述步骤一中，P(C_j|X)的计算公式如下，j＝0表示喜欢，j＝1表示不喜欢：其中，P(X|C_j)是用户喜欢或不喜欢图书的情况下对应图书标签的概率，P(C_j)是用户喜欢或不喜欢一本图书的先验概率，P(X)是一个根据图书自身属性信息而定义的常量。

与现有技术相比，本发明的有益效果是：本发明能够综合运用用户的动态历史数据，及时获取用户最近的阅读喜好，并向用户提供个性化图书推荐；本发明基于马尔科夫链，对历史数据要求不多，可以被普遍应用，具有较高的实用性；采用图书的标签代替图书来计算用户对图书的喜欢概率，数据的稀疏性明显下降，从而提高了运算的效率和准确度。

附图说明

图1是本发明一种基于马尔科夫链的图书推荐方法流程图。

图2是图书的喜欢或不喜欢状态迁移过程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明作进一步的详细描述。

本发明基于马尔科夫链预测模型，首先利用个体用户的阅读历史数据，分别对每个用户建立对应的朴素贝叶斯预测模型，计算得到用户对图书属于喜欢或不喜欢状态的概率，即得到马尔科夫链的初始状态概率向量；再结合所有用户的阅读历史数据，利用所有用户阅读图书的喜好状态，计算得到图书喜好状态之间的转移概率矩阵，形成马尔科夫链中的转移概率矩阵；最后综合以上两部分信息，构成一个完整的马尔科夫链预测模型，计算得到基于马尔科夫链的个性化图书推荐列表，使得用户的图书推荐结果更加准确。如图1所示，本发明一种基于马尔科夫链的图书推荐方法包括有：

步骤三、根据用户的初始状态概率向量、和用户当前阅读图书到未阅读图书的转移概率矩阵，分别计算用户从当前阅读图书转移到每个未阅读图书的状态概率向量，所述状态概率向量包括有用户对未阅读图书的喜欢状态概率，并据此向用户推荐未阅读图书。

所述步骤一中，用户对图书的状态包括两类：喜欢和不喜欢。图书的内容可以利用图书的标签很好的表示出来，每本图书所包含的标签是由图书编辑根据图书内容、从标签库中选取若干个能代表图书内容特征的关键词。因此，可以选用用户的阅读历史数据中阅读过的所有图书的标签为预测因子，将用户对图书的喜欢/或不喜欢状态作为分类预测的类别，并利用朴素贝叶斯算法计算得到用户的初始状态概率向量。上述P(C_j|X)(即P(C₀|X)、P(C₁|X)，j＝0或1)的计算公式如下：其中，P(X|C_j)是用户喜欢(j＝0)或不喜欢(j＝1)图书的情况下对应图书标签的概率，P(C_j)是用户喜欢(j＝0)或不喜欢(j＝1)一本图书的先验概率，P(X)是一个根据图书自身属性信息而定义的常量，其值并不影响最后的计算结果。

如果直接计算用户对所阅读图书的喜欢概率，数据会非常稀疏，导致运算的效率低下和准确度下降，而采用图书的标签代替图书来计算用户对图书的喜欢概率，数据的稀疏性会明显下降。所述P(X|C_j)的计算公式是：其中，n是用户的当前阅读图书包含的标签总数，x_k是用户的当前阅读图书所包含的标签k，P(x_k|C_j)是用户喜欢(j＝0)或不喜欢(j＝1)标签k的概率，其值为：T_j是用户阅读过，并且喜欢(j＝0)或不喜欢(j＝1)的所有图书包含的标签总数，是用户阅读过，并且喜欢(j＝0)或不喜欢(j＝1)的所有图书包含的标签k的总数。

所述P(C_j)的计算公式是：其中，S_j是用户喜欢(j＝0)或不喜欢(j＝1)的图书总数，S是用户阅读过的图书总数。

由于所以在实际的计算中，不必计算P(X)，只要根据用户的阅读历史数据来计算P(C₀|X)和P(C₁|X)的比例，并根据即可计算出P(C₀|X)和P(C₁|X)的具体数值。

图2是图书的喜欢或不喜欢状态迁移过程示意图，可以看出，用户的当前阅读图书u到未阅读图书v的转移概率矩阵Q^uv是一个2×2的矩阵，

Q^{u v} = [\begin{matrix} q_{00} & q_{01} \\ q_{10} & q_{11} \end{matrix}],

其中，q₀₀是从喜欢图书u到喜欢图书v的状态转移概率，q₀₁是从喜欢图书u到不喜欢图书v的状态转移概率，q₁₀是从不喜欢图书u到喜欢图书v的状态转移概率，q₁₁是从不喜欢图书u到不喜欢图书v的状态转移概率。上述q_it的计算公式如下：其中，U是连续读过图书u和v的用户总数，i/或t的取值可以是0或1，分别表示对图书u/或v的喜欢或不喜欢状态，即当i＝0时，表示对图书u是喜欢状态，当i＝1时，表示对图书u是不喜欢状态，当t＝0时，表示对图书v是喜欢状态，当t＝1时，表示对图书v是不喜欢状态，U_it是在连续读过图书u和v的用户中，由对图书u的状态i直接转移到对图书v的状态t的用户总数。由于经过多次转移的转移概率有所衰减，为了简化实际计算，我们不考虑非连续阅读图书u和v这种情况导致的转移变化，而仅考虑直接转移的情况，即连续阅读图书u和v。

所述步骤三中，用户从当前阅读图书u转移到未阅读图书v的状态概率向量P^uv的计算公式如下：P^uv＝P×Q^uv，其中，P^uv＝(P^uv(C₀|X),P^uv(C₁|X))，P^uv(C₀|X)是用户对未阅读图书v的喜欢状态概率，P^uv(C₁|X)是用户对未阅读图书v的不喜欢状态概率。按照用户对未阅读图书的喜欢状态概率值的大小，对所有未阅读图书进行排序，并从中挑选出喜欢状态概率值最大的若干本图书向用户推荐。

为了阐述的更清楚，下面举例对本发明作进一步详细解释：

1、假设用户集合为：{u₀，u₁，u₂，u₃，u₄，u₅，u₆，u₇}；图书集合为：{b₀，b₁，b₂，b₃，b₄}；标签集合为：{x₀，x₁，x₂，x₃}；时间序列集合为：{t₀，t₁，t₂}，其中t₂是当前时刻；用户对图书的喜欢状态集合为：{c₀,c₁}，其中c₀表示喜欢状态，c₁表示不喜欢状态。表1为所有用户阅读历史数据的时间序列数据，即在不同时刻所阅读的不同图书；表2为图书和标签的对应关系，其中1表示图书包含该标签，0表示图书不包含该标签。

表1用户阅读历史数据的时间序列数据

	t₀	t₁	t₂
				u₀	b₀	b₁	b₂
u₁	b₂	b₄	b₀
				u₂	b₀	b₁	b₄
u₃	b₀	b₂	b₁
				u₄	b₃	b₂	b₁
u₅	b₂	b₀	b₁
				u₆	b₀	b₁	b₃
u₇	b₂	b₀	b₁

表2图书与标签对应关系

	x₀	x₁	x₂	x₃
					b₀	1	1	0	0
b₁	1	0	1	1
					b₂	1	0	0	1
b₃	0	1	1	0
					b₄	1	1	1	0

2、计算用户的初始状态概率向量

通过表1和表2可以看出，用户u₁阅读的图书集合为：{b₂，b₄，b₀}，假设其对b₂、b₄、b₀的状态分别为：c₀、c₁、c₀，用户u₁在当前时刻(t₂)的当前阅读图书是b₀，b₀包含有2个标签：x₀、x₁，则用户u₁阅读过、并且喜欢的所有图书包含的标签总数T₀为4，用户u₁阅读过、并且喜欢的所有图书包含的标签x₀的总数是2，用户u₁阅读过、并且喜欢的所有图书包含的标签x₁的总数是1，因此：

P (X | C_{0}) = Π_{k = 1}^{2} P (x_{k} | C_{0}) = P (x_{0} | C_{0}) * P (x_{1} | C_{0}) = \frac{2}{16},

同理，

P (x_{0} | C_{1}) = \frac{T_{1}^{0}}{T_{1}} = \frac{1}{3},

\begin{matrix} P (x_{1} | C_{1}) = \frac{T_{1}^{1}}{T_{1}} = \frac{1}{3}, & P (X | C_{1}) = Π_{k = 1}^{2} P (x_{k} | C_{1}) = P (x_{0} | C_{1}) * P (x_{1} | C_{1}) = \frac{1}{9} \end{matrix} .

用户u₁喜欢的图书总数S₀＝2，用户u₁不喜欢的图书总数S₁＝1，用户u₁阅读过的图书总数S＝3，因此，

\begin{matrix} P (C_{0}) = \frac{S_{0}}{S} = \frac{2}{3}, & P (C_{1}) = \frac{S_{1}}{S} = \frac{1}{3} \end{matrix} .

用户u₁对图书的喜欢状态概率

P (C_{0} | X) = \frac{P (X | C_{0}) \times P (C_{0})}{P (X)} = \frac{\frac{2}{16} \times \frac{2}{3}}{P (X)},

用户u₁对图书的喜欢状态概率

P (C_{1} | X) = \frac{P (X | C_{1}) \times P (C_{1})}{P (X)} = \frac{\frac{1}{9} \times \frac{1}{3}}{P (X)},

由于

Σ_{j = 0}^{1} P (C_{j} | X) = 1,

所以

\begin{matrix} P (C_{0} | X) = \frac{9}{13}, & P (C_{1} | X) = \frac{4}{13} \end{matrix} .

即用户u₁的初始状态概率向量：

P = (\frac{9}{13}, \frac{4}{13}) .

3、计算用户的当前阅读图书到每个未阅读图书的转移概率矩阵

用户u₁在当前时刻t₂的当前阅读图书是b₀，未阅读图书是：b₁、b₃。

同时读过图书b₀和b₁的用户集合是：{u_0，u_2，u_3，u_5，u_6，u₇}，其中由于u₃不是连续读过图书b₀和b₁，因此连续读过图书b₀和b₁的用户集合为{u_0，u_2，u_5，u_6，u₇}。假设用户u₀同时喜欢图书b₀和b₁；u₂同时不喜欢图书b₀和b₁；u₅喜欢图书b₀，不喜欢b₁；u₆不喜欢图书b₀，喜欢b₁；u₇同时喜欢图书b₀和b₁。则q₀₀＝2/5，q₀₁＝1/5，q₁₀＝1/5，q₁₁＝1/5。即用户u₁的当前阅读图书b₀到未阅读图书b₁的转移概率矩阵

Q^{01} = [\begin{matrix} \frac{2}{5} & \frac{1}{5} \\ \frac{1}{5} & \frac{1}{5} \end{matrix}] .

同理，还可以计算得到用户u₁的当前阅读图书b₀到未阅读图书b₃的转移概率矩阵Q⁰³。

4、计算用户从当前阅读图书转移到每个未阅读图书的状态概率向量

用户u₁从当前阅读图书b₀转移到未阅读图书b₁的状态概率向量

P^{01} = P \times Q^{01} = (\frac{9}{13}, \frac{4}{13}) \times [\begin{matrix} \frac{2}{5} & \frac{1}{5} \\ \frac{1}{5} & \frac{1}{5} \end{matrix}] = (\frac{22}{65}, \frac{13}{65}),

其中，用户u₁对未阅读图书b₁的喜欢状态概率同理，还可以计算出用户u₁对未阅读图书b₃的喜欢状态概率P⁰³(C₀|X)，对P⁰¹(C₀|X)、P⁰³(C₀|X)进行比较排序，从而将喜欢状态概率最大的图书向用户推荐。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于马尔科夫链的图书推荐方法，其特征在于，所述方法包括有：

2.根据权利要求1所述的方法，其特征在于，所述P(X|C_j)的计算公式是：其中，n是用户的当前阅读图书包含的标签总数，x_k是用户的当前阅读图书所包含的标签k，P(x_k|C_j)是用户喜欢或不喜欢标签k的概率。

3.根据权利要求2所述的方法，其特征在于，所述P(x_k|C_j)的计算公式是：其中，T_j是用户阅读过，并且喜欢或不喜欢的所有图书包含的标签总数，是用户阅读过，并且喜欢或不喜欢的所有图书包含的标签k的总数。

4.根据权利要求1所述的方法，其特征在于，所述P(C_j)的计算公式是：其中，S_j是用户喜欢或不喜欢的图书总数，S是用户阅读过的图书总数。

5.根据权利要求1所述的方法，其特征在于，根据用户的阅读历史数据来计算P(C₀|X)和P(C₁|X)的比例，并根据即可计算出P(C₀|X)和P(C₁|X)具体数值。

6.根据权利要求1所述的方法，其特征在于，所述步骤二中，用户的当前阅读图书u到未阅读图书v的转移概率矩阵其中，q₀₀是从喜欢图书u到喜欢图书v的状态转移概率，q₀₁是从喜欢图书u到不喜欢图书v的状态转移概率，q₁₀是从不喜欢图书u到喜欢图书v的状态转移概率，q₁₁是从不喜欢图书u到不喜欢图书v的状态转移概率。

7.根据权利要求6所述的方法，其特征在于，q_it的计算公式如下，i或t＝0表示对图书u或v是喜欢状态，i或t＝1表示对图书u或v是不喜欢状态：其中，U是连续读过图书u和v的用户总数，U_it是在连续读过图书u和v的用户中，由对图书u的状态i直接转移到对图书v的状态j的用户总数。

8.根据权利要求1所述的方法，其特征在于，所述步骤三中，用户从当前阅读图书u转移到未阅读图书v的状态概率向量P^uv的计算公式如下：P^uv＝P×Q^uv，其中，Q^uv是用户的当前阅读图书u到未阅读图书v的转移概率矩阵。

9.根据权利要求8所述的方法，其特征在于，P^uv＝(P^uv(C₀|X),P^uv(C₁|X))，其中，P^uv(C₀|X)是用户对未阅读图书v的喜欢状态概率，P^uv(C₁|X)是用户对未阅读图书v的不喜欢状态概率。

10.根据权利要求9所述的方法，其特征在于，按照用户对未阅读图书的喜欢状态概率值的大小，对所有未阅读图书进行排序，并从中挑选出喜欢状态概率值最大的若干本图书向用户推荐。