CN109902169A - 基于电影字幕信息提升电影推荐***性能的方法 - Google Patents

基于电影字幕信息提升电影推荐***性能的方法 Download PDF

Info

Publication number
CN109902169A
CN109902169A CN201910076649.4A CN201910076649A CN109902169A CN 109902169 A CN109902169 A CN 109902169A CN 201910076649 A CN201910076649 A CN 201910076649A CN 109902169 A CN109902169 A CN 109902169A
Authority
CN
China
Prior art keywords
film
user
matrix
vector
caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910076649.4A
Other languages
English (en)
Other versions
CN109902169B (zh
Inventor
李璐璞
于海阳
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910076649.4A priority Critical patent/CN109902169B/zh
Publication of CN109902169A publication Critical patent/CN109902169A/zh
Application granted granted Critical
Publication of CN109902169B publication Critical patent/CN109902169B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Silver Salt Photography Or Processing Solution Therefor (AREA)

Abstract

本发明公开了基于电影字幕信息提升电影推荐***性能的方法,该方法的步骤如下:步骤(1)获取电影推荐数据集MovieLens‑Latest;步骤(2)建立字幕数据集;步骤(3)字幕主题提取;步骤(4)推荐模型训练;步骤(5)电影评分预测本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐***性能相比于原来的推荐***性能提升明显。

Description

基于电影字幕信息提升电影推荐***性能的方法
技术领域
本发明涉及一种基于矩阵分解的新型电影推荐方法,属于互联网推荐***技术领域。
背景技术
个性化推荐***作为数据挖掘的应用之一,在购物网站、新闻、电影音乐等领域被广泛的应用,是解决信息过载、增加用户忠诚度的有效解决办法之一。由于电影推荐的历史数据集较为完善,标签明确,实验结果好量化,一直是研究和改进推荐***常用的数据集。
典型的电影评分数据集(如图1所示),每个数字代表用户对相应的电影打分,一般是1到5分制。由于电影数据是矩阵的形式,常用的方法就是矩阵分解比如SVD算法,将高维矩阵分解为两个低维矩阵,这样当使用两个低维矩阵相乘还原高维矩阵的时候,就会对空缺部位进行填充,达到了一个预测评分的目的(如图2所示)。推荐***性能主要受限于评分矩阵的稀疏性以及冷启动问题。
发明内容
本发明的目的在于提出了一种基于电影字幕信息来提升电影推荐***性能的方法,本方法在矩阵分解的方法的基础之上,利用电影字幕文本提取电影的主题分布,使用电影主题分布向量作为电影的特征信息来解决稀疏性以及冷启动问题。实验结果表明,使用了电影字幕信息的电影推荐***性能相比于原来的推荐***性能提升明显。
为实现上述目的,本发明采用的技术方案为基于电影字幕信息提升电影推荐***性能的方法,如图3所示,该方法的实现步骤如下:
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理。
步骤(2)建立字幕数据集
依托Movielens-Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对。
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布,算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η。
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z。
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号。
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd
步骤(4)推荐模型训练
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息,因此对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为:
该Bias-SVD模型将用户u对电影i的评分ru,i看作是由全部电影的平均评分u、用户偏执项bu、物品偏置项bi和矩阵分解项相加而得,其中u和i分别代表用户和电影的序号,T表示矩阵的转置操作,矩阵分解项可以用图2表示。如果R代表电影评分矩阵,由m个用户和n个电影组成,rui代表用户u对电影i的评分,通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就通过来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
步骤(4.2)推荐模型训练
优化目标函数为:
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有用户偏置项bu、电影偏置项bi、用户向量pu和电影向量qi,←代表迭代更新,迭代过程如下:
步骤(5)电影评分预测
使用训练集的数据对模型进行训练调参后,得到代表用户u的向量pu,代表电影i的向量qi,其中u和i分别代表用户和电影的序号,以及得到分别代表用户偏置项和电影偏置项的bu和bi,电影的主体分本topici,然后就可以使用评分预测公式预测用户对该电影的评分了。
附图说明
图1为评分矩阵示例图。
图2为矩阵分解示例图。
图3为电影推荐***框架图。
图4为实验结果性能对照图。
具体实施方式
本方法采用的技术方案为基于电影字幕信息提升电影推荐***性能的方法,该方法的实现过程如下:
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理。
步骤(2)建立字幕数据集
依托movielens-Latest数据集建立电影字幕数据集,在开源的openSubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对。
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布,算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η。
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z。
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号。
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd
步骤(4)推荐模型训练
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展。字幕信息属于和电影高度相关的信息,因此可以对电影相关的偏置项进行扩展。扩展前的Bias-SVD模型为:
该模型将用户u对电影i的评分rui看作是由全部电影的平均评分u、用户偏执项bu、物品偏置项bi和矩阵分解项相加而得。其中矩阵分解项可以用图4表示:
R代表电影评分矩阵,由m个用户和n个电影组成,rui代表用户u对电影i的评分,通过矩阵分解可以将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵。k远远小于m和n。通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就可以通过来得出。将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
步骤(4.2)推荐模型训练
优化目标函数为:
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有bu、bi、pu和qi,迭代过程如下:
步骤(5)电影评分预测性能分析
实验结果部分,选用均方根差作为性能评价指标,结果越小说明标准误差越小,预测精确度也就越高。可以从实验结果(如图4所示)看出,融入了字幕信息的推荐模型,相比于只用了评分信息的模型,误差有了降低,说明了字幕信息对电影推荐***改善的有效性。并且当随着特征数量的增加,LDA主题模型训练的收敛效果更好,对电影主题分布的表达也更加准确,对电影推荐性能的提升也更大。

Claims (3)

1.基于电影字幕信息提升电影推荐***性能的方法,其特征在于:该方法的时间步骤如下,
步骤(1)获取电影推荐数据集MovieLens-Latest
获取电影推荐数据集MovieLens-Latest,该数据集包含671个用户,9125部电影以及10万条用户对电影的评分,数据经过脱敏处理;
步骤(2)建立字幕数据集
依托Movielens-Latest数据集建立电影字幕数据集,在开源的opensubtitle字幕下载站为每一部电影寻找它对应的英语字幕文本,并对获取到的字幕数据进行校对;
步骤(3)字幕主题提取
将字幕数据集去除停用词、词干化以后,通过对文本信息使用LDA概率主题模型提取对应电影的主题分布;
步骤(4)推荐模型训练
步骤(5)电影评分预测
使用训练集的数据对模型进行训练调参后,得到代表用户u的向量pu,代表电影i的向量qi,其中u和i分别代表用户和电影的序号,以及得到分别代表用户偏置项和电影偏置项的bu和bi,电影的主体分本topici,然后就可以使用评分预测公式预测用户对该电影的评分了。
2.根据权利要求1所述的基于电影字幕信息提升电影推荐***性能的方法,其特征在于:字幕主题提取的算法描述如下:
1)选择合适的主题数K,选择合适的超参数向量α,η;
2)对应语料库中每一篇文档的每一个词,随机的赋予一个主题编号z;
3)重新扫描语料库,对于每一个词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号;
4)重复3)的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛;
5)统计语料库中的各个文档各个词的主题,得到文档主题分布θd,统计语料库中各个主题词的分布,得到LDA的主题与词的分布βd
3.根据权利要求1所述的基于电影字幕信息提升电影推荐***性能的方法,其特征在于:步骤(4)的实施过程如下,
步骤(4.1)推荐模型介绍
使用得到的电影主题分布数据,对Bias-SVD模型进行扩展;字幕信息属于和电影高度相关的信息,因此对电影相关的偏置项进行扩展;扩展前的Bias-SVD模型为:
该Bias-SVD模型将用户u对电影i的评分ru,i看作是由全部电影的平均评分u、用户偏执项bu、物品偏置项bi和矩阵分解项相加而得,其中u和i分别代表用户和电影的序号,T表示矩阵的转置操作;如果R代表电影评分矩阵,由m个用户和n个电影组成,rui代表用户u对电影i的评分,通过矩阵分解将R矩阵分解为由用户向量组成的U矩阵和由电影向量组成的V矩阵;k远远小于m和n;通过历史评分数据不断的迭代优化矩阵U和矩阵V,使得矩阵U和矩阵V的乘积无限接近于原始矩阵R,那么相对应的评分就通过来得出;将字幕主题向量作为偏置项加入Bias-SVD模型后的形式:
步骤(4.2)推荐模型训练
优化目标函数为:
其中λ为正则化系数,使用随机梯度下降法进行迭代优化,需要优化的参数有用户偏置项bu、电影偏置项bi、用户向量pu和电影向量qi,←代表迭代更新,迭代过程如下:
CN201910076649.4A 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐***性能的方法 Active CN109902169B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910076649.4A CN109902169B (zh) 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐***性能的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910076649.4A CN109902169B (zh) 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐***性能的方法

Publications (2)

Publication Number Publication Date
CN109902169A true CN109902169A (zh) 2019-06-18
CN109902169B CN109902169B (zh) 2021-03-30

Family

ID=66944331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910076649.4A Active CN109902169B (zh) 2019-01-26 2019-01-26 基于电影字幕信息提升电影推荐***性能的方法

Country Status (1)

Country Link
CN (1) CN109902169B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987742A (zh) * 2021-09-14 2022-01-28 东华大学 基于svd算法实现优化梯度下降过程的建模方法
CN116401458A (zh) * 2023-04-17 2023-07-07 南京工业大学 基于Lorenz混沌自适应的推荐方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103069414A (zh) * 2010-08-11 2013-04-24 索尼公司 信息处理设备、信息处理方法和程序
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN106469170A (zh) * 2015-08-18 2017-03-01 阿里巴巴集团控股有限公司 文本数据的处理方法和装置
US20170132230A1 (en) * 2015-11-09 2017-05-11 WP Company LLC d/b/a The Washington Post Systems and methods for recommending temporally relevant news content using implicit feedback data
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103069414A (zh) * 2010-08-11 2013-04-24 索尼公司 信息处理设备、信息处理方法和程序
CN106469170A (zh) * 2015-08-18 2017-03-01 阿里巴巴集团控股有限公司 文本数据的处理方法和装置
US20170132230A1 (en) * 2015-11-09 2017-05-11 WP Company LLC d/b/a The Washington Post Systems and methods for recommending temporally relevant news content using implicit feedback data
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN106446135A (zh) * 2016-09-19 2017-02-22 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN108920454A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种主题短语抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KONSTANTINOS BOUGIATIOTIS等: ""Content Representation and Similarity of Movies based on Topic Extraction from Subtitles"", 《SETN "16: PROCEEDINGS OF THE 9TH HELLENIC CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987742A (zh) * 2021-09-14 2022-01-28 东华大学 基于svd算法实现优化梯度下降过程的建模方法
CN116401458A (zh) * 2023-04-17 2023-07-07 南京工业大学 基于Lorenz混沌自适应的推荐方法
CN116401458B (zh) * 2023-04-17 2024-01-09 南京工业大学 基于Lorenz混沌自适应的推荐方法

Also Published As

Publication number Publication date
CN109902169B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN108304359B (zh) 无监督学习统一特征提取器构建方法
US10726446B2 (en) Method and apparatus for pushing information
CN105095508B (zh) 一种多媒体内容推荐方法和多媒体内容推荐装置
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN104156450B (zh) 一种基于用户网络数据的物品信息推荐方法
CN104636402B (zh) 一种业务对象的分类、搜索、推送方法和***
CN106599226A (zh) 一种内容推荐方法及内容推荐***
Li et al. Content-based filtering recommendation algorithm using HMM
CN104462383A (zh) 一种基于用户多种行为反馈的电影推荐方法
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
CN108460153A (zh) 一种混合博文与用户关系的社交媒体好友推荐方法
CN109598586A (zh) 一种基于注意力模型的推荐方法
EP4310695A1 (en) Data processing method and apparatus, computer device, and storage medium
Vuurens et al. Exploring deep space: Learning personalized ranking in a semantic space
CN103425763A (zh) 基于sns的用户推荐方法及装置
CN112256966B (zh) 基于半监督因子分解机的物品推荐方法
CN112214661B (zh) 一种面向视频常规评论的情感不稳定用户检测方法
CN109902169A (zh) 基于电影字幕信息提升电影推荐***性能的方法
CN109034953A (zh) 一种电影推荐方法
CN109376301A (zh) 一种融合社交信息的个性化推荐方法
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
CN106933380A (zh) 一种词库的更新方法和装置
Meng et al. DCAN: Deep co-attention network by modeling user preference and news lifecycle for news recommendation
CN112052388A (zh) 一种推荐美食店铺的方法及***
CN111046280A (zh) 一种应用fm的跨领域推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant