CN109902169A

CN109902169A - 基于电影字幕信息提升电影推荐***性能的方法

Info

Publication number: CN109902169A
Application number: CN201910076649.4A
Authority: CN
Inventors: 李璐璞; 于海阳; 杨震
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-26
Filing date: 2019-01-26
Publication date: 2019-06-18
Anticipated expiration: 2039-01-26
Also published as: CN109902169B

Abstract

本发明公开了基于电影字幕信息提升电影推荐***性能的方法，该方法的步骤如下：步骤(1)获取电影推荐数据集MovieLens‑Latest；步骤(2)建立字幕数据集；步骤(3)字幕主题提取；步骤(4)推荐模型训练；步骤(5)电影评分预测本方法在矩阵分解的方法的基础之上，利用电影字幕文本提取电影的主题分布，使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明，使用了电影字幕信息的电影推荐***性能相比于原来的推荐***性能提升明显。

Description

基于电影字幕信息提升电影推荐***性能的方法

技术领域

本发明涉及一种基于矩阵分解的新型电影推荐方法，属于互联网推荐***技术领域。

背景技术

个性化推荐***作为数据挖掘的应用之一，在购物网站、新闻、电影音乐等领域被广泛的应用，是解决信息过载、增加用户忠诚度的有效解决办法之一。由于电影推荐的历史数据集较为完善，标签明确，实验结果好量化，一直是研究和改进推荐***常用的数据集。

典型的电影评分数据集(如图1所示)，每个数字代表用户对相应的电影打分，一般是1到5分制。由于电影数据是矩阵的形式，常用的方法就是矩阵分解比如SVD算法，将高维矩阵分解为两个低维矩阵，这样当使用两个低维矩阵相乘还原高维矩阵的时候，就会对空缺部位进行填充，达到了一个预测评分的目的(如图2所示)。推荐***性能主要受限于评分矩阵的稀疏性以及冷启动问题。

发明内容

本发明的目的在于提出了一种基于电影字幕信息来提升电影推荐***性能的方法，本方法在矩阵分解的方法的基础之上，利用电影字幕文本提取电影的主题分布，使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明，使用了电影字幕信息的电影推荐***性能相比于原来的推荐***性能提升明显。

为实现上述目的，本发明采用的技术方案为基于电影字幕信息提升电影推荐***性能的方法，如图3所示，该方法的实现步骤如下：

步骤(1)获取电影推荐数据集MovieLens-Latest

获取电影推荐数据集MovieLens-Latest，该数据集包含671个用户，9125部电影以及10万条用户对电影的评分，数据经过脱敏处理。

步骤(2)建立字幕数据集

依托Movielens-Latest数据集建立电影字幕数据集，在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本，并对获取到的字幕数据进行校对。

步骤(3)字幕主题提取

将字幕数据集去除停用词、词干化以后，通过对文本信息使用LDA概率主题模型提取对应电影的主题分布，算法描述如下：

1)选择合适的主题数K,选择合适的超参数向量α,η。

2)对应语料库中每一篇文档的每一个词，随机的赋予一个主题编号z。

3)重新扫描语料库，对于每一个词，利用Gibbs采样公式更新它的topic编号，并更新语料库中该词的编号。

4)重复3)的基于坐标轴轮换的Gibbs采样，直到Gibbs采样收敛。

5)统计语料库中的各个文档各个词的主题，得到文档主题分布θ_d，统计语料库中各个主题词的分布，得到LDA的主题与词的分布β_d。

步骤(4)推荐模型训练

步骤(4.1)推荐模型介绍

使用得到的电影主题分布数据，对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息，因此对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为：

该Bias-SVD模型将用户u对电影i的评分r_u，i看作是由全部电影的平均评分u、用户偏执项b_u、物品偏置项b_i和矩阵分解项相加而得，其中u和i分别代表用户和电影的序号，T表示矩阵的转置操作，矩阵分解项可以用图2表示。如果R代表电影评分矩阵，由m个用户和n个电影组成，r_ui代表用户u对电影i的评分，通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V，使得矩阵U和矩阵V的乘积无限接近于原始矩阵R，那么相对应的评分就通过来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式：

步骤(4.2)推荐模型训练

优化目标函数为：

其中λ为正则化系数，使用随机梯度下降法进行迭代优化，需要优化的参数有用户偏置项b_u、电影偏置项b_i、用户向量p_u和电影向量q_i，←代表迭代更新，迭代过程如下：

步骤(5)电影评分预测

使用训练集的数据对模型进行训练调参后，得到代表用户u的向量p_u，代表电影i的向量q_i，其中u和i分别代表用户和电影的序号，以及得到分别代表用户偏置项和电影偏置项的b_u和b_i，电影的主体分本topic_i，然后就可以使用评分预测公式预测用户对该电影的评分了。

附图说明

图1为评分矩阵示例图。

图2为矩阵分解示例图。

图3为电影推荐***框架图。

图4为实验结果性能对照图。

具体实施方式

本方法采用的技术方案为基于电影字幕信息提升电影推荐***性能的方法，该方法的实现过程如下：

步骤(1)获取电影推荐数据集MovieLens-Latest

步骤(2)建立字幕数据集

步骤(3)字幕主题提取

1)选择合适的主题数K，选择合适的超参数向量α，η。

4)重复3)的基于坐标轴轮换的Gibbs采样，直到Gibbs采样收敛。

步骤(4)推荐模型训练

步骤(4.1)推荐模型介绍

使用得到的电影主题分布数据，对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息，因此可以对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为：

该模型将用户u对电影i的评分rui看作是由全部电影的平均评分u、用户偏执项b_u、物品偏置项b_i和矩阵分解项相加而得。其中矩阵分解项可以用图4表示：

R代表电影评分矩阵，由m个用户和n个电影组成，r_ui代表用户u对电影i的评分，通过矩阵分解可以将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V，使得矩阵U和矩阵V的乘积无限接近于原始矩阵R，那么相对应的评分就可以通过来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式：

步骤(4.2)推荐模型训练

优化目标函数为：

其中λ为正则化系数，使用随机梯度下降法进行迭代优化，需要优化的参数有b_u、b_i、p_u和q_i，迭代过程如下：

步骤(5)电影评分预测性能分析

实验结果部分，选用均方根差作为性能评价指标，结果越小说明标准误差越小，预测精确度也就越高。可以从实验结果(如图4所示)看出，融入了字幕信息的推荐模型，相比于只用了评分信息的模型，误差有了降低，说明了字幕信息对电影推荐***改善的有效性。并且当随着特征数量的增加，LDA主题模型训练的收敛效果更好，对电影主题分布的表达也更加准确，对电影推荐性能的提升也更大。

Claims

1.基于电影字幕信息提升电影推荐***性能的方法，其特征在于：该方法的时间步骤如下，

步骤(1)获取电影推荐数据集MovieLens-Latest

获取电影推荐数据集MovieLens-Latest，该数据集包含671个用户，9125部电影以及10万条用户对电影的评分，数据经过脱敏处理；

步骤(2)建立字幕数据集

依托Movielens-Latest数据集建立电影字幕数据集，在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本，并对获取到的字幕数据进行校对；

步骤(3)字幕主题提取

将字幕数据集去除停用词、词干化以后，通过对文本信息使用LDA概率主题模型提取对应电影的主题分布；

步骤(4)推荐模型训练

步骤(5)电影评分预测

2.根据权利要求1所述的基于电影字幕信息提升电影推荐***性能的方法，其特征在于：字幕主题提取的算法描述如下：

1)选择合适的主题数K，选择合适的超参数向量α，η；

2)对应语料库中每一篇文档的每一个词，随机的赋予一个主题编号z；

3)重新扫描语料库，对于每一个词，利用Gibbs采样公式更新它的topic编号，并更新语料库中该词的编号；

4)重复3)的基于坐标轴轮换的Gibbs采样，直到Gibbs采样收敛；

3.根据权利要求1所述的基于电影字幕信息提升电影推荐***性能的方法，其特征在于：步骤(4)的实施过程如下，

步骤(4.1)推荐模型介绍

使用得到的电影主题分布数据，对Bias-SVD模型进行扩展；字幕信息属于和电影高度相关的信息，因此对电影相关的偏置项进行扩展；扩展前的Bias-SVD模型为：

该Bias-SVD模型将用户u对电影i的评分r_u，i看作是由全部电影的平均评分u、用户偏执项b_u、物品偏置项b_i和矩阵分解项相加而得，其中u和i分别代表用户和电影的序号，T表示矩阵的转置操作；如果R代表电影评分矩阵，由m个用户和n个电影组成，r_ui代表用户u对电影i的评分，通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵；k远远小于m和n；通过历史评分数据不断的迭代优化矩阵U和矩阵V，使得矩阵U和矩阵V的乘积无限接近于原始矩阵R，那么相对应的评分就通过来得出；将字幕主题向量作为偏置项加入Bias-SVD模型后的形式：

步骤(4.2)推荐模型训练

优化目标函数为：

。