CN110688585A

CN110688585A - 一种基于神经网络和协同过滤的个性化电影推荐方法

Info

Publication number: CN110688585A
Application number: CN201910912752.8A
Authority: CN
Inventors: 杨新武; 熊乐歌; 王羽钧; 董雨萌; 杜欣钰; 宋霖涛
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2020-01-14
Anticipated expiration: 2039-09-25
Also published as: CN110688585B

Abstract

本发明公开了一种基于神经网络和协同过滤的个性化电影推荐方法，采用Bert神经网络对电影情节进行特征提取，形成一个关于item的特征矩阵与Funk‑SVD形成衔接，再利用矩阵分解技术产生一个完整的U‑I矩阵，得到所有预测评分的一种快速有效的方法。先利用Bert神经网络对电影情节进行特征提取，并得到一个关于电影item的特征矩阵；然后将得到的特征矩阵与协同过滤算法Funk‑SVD算法衔接，再利用矩阵分解技术，梯度下降法进行优化，得到一个误差最小的完整的U‑I矩阵，最终获得所有预测评分等一系列操作；本发明在原有显式反馈和隐式反馈的基础上，加入辅助信息即电影情节，更加准确的获取item的特征矩阵，使最小误差降低了2.40％，提高了预测的精确度。

Description

一种基于神经网络和协同过滤的个性化电影推荐方法

技术领域

本发明属于基于人工智能的个性化推荐领域，具体采用Bert神经网络对电影情节进行特征提取，形成一个关于item的特征矩阵与Funk-SVD形成衔接，再利用矩阵分解技术产生一个完整的U-I矩阵，得到所有预测评分的一种快速有效的方法。

背景技术

目前使用较多的实现推荐***的主要途径有三种：基于内容推荐(CB)、协同过滤推荐(CF)和混合推荐。

·CB:将物品与用户先前喜欢的物品进行比较，然后推荐最匹配的物品。但该方法存在的主要问题是冷启动问题和相似用户可靠性问题。

·CF：协同过滤是推荐***中最流行的算法，通过分析用户和物品交互数据来建模，预测用户对物品的喜好。其主要的障碍在于用户和物品交互数据的稀疏性。

·混合过滤：是指将多种推荐算法结合,实现缺点互补,实现更好的推荐效果。在实际应用中,我们可以针对具体问题采用合适的组合策略。目前基于内容的推荐和协同过滤推荐的组合是研究和应用较多的组合。

在计算物品评分矩阵时，为了提取更为准确的特征向量，对电影情节采用了自然语言处理(NLP)。现存两种处理预训练产生词向量和下游具体NLP任务的关系的策略：基于特征处理(如ELMo)和微调处理(如the Generative Pre-trained Transformer(OpenAIGPT))。这两种处理方式都会限制预训练产生词向量的结果，其原因主要是其标准语言模型是单向的，这限制了在训练中使用的结构，并导致特征提取的准确度下降。

发明内容

针对现有技术中存在的上述问题，本发明提出一种基于神经网络和协同过滤的个性化电影推荐方法。对于想得到用户的物品的评分，并实现个性化推荐，本发明提出的方法整体思路是，先利用Bert神经网络对电影情节进行特征提取，并得到一个关于电影item的特征矩阵；然后将得到的特征矩阵与协同过滤算法Funk-SVD算法衔接，再利用矩阵分解技术，梯度下降法进行优化，得到一个误差最小的完整的U-I矩阵，最终获得所有预测评分等一系列操作。

为实现上述目的，本发明采用的技术方案为一种基于基于神经网络和协同过滤的个性化推荐方，包括以下步骤：

神经网络Bert：

Bert在训练双向语言模型时以较小的概率把少量的词替成了Mask或者另一个随机的词，目的在于使模型被迫增加对上下文的记忆。BertTransformer使用双向self-attention，分别从左到右和从右到左提取和编码语句信息。超大数据集的使用，从源域到目标域的迁移学习有效提高的模型的表征能力。在实验中的数据为电影情节文本，由于描述电影情节的语句较长，与RNN按照时间顺序提取特征相比，transformer可以有效的保证前面的特征不会消失Bert包括两个主要步骤：预训练和微调。其中，在预训练过程中Bert遮蔽了输入的15％的电影情节文本，通过一个transformer Encoder来运行整个序列，然后只预测被遮蔽的电影情节部分，以此来达到深层双向的预训练表示。首先，使用Bert的方法将情节文本转化成词向量并获得特征矩阵，然后在CF模型中使用得到的矩阵。Bert使用transformer的结构，Transformer由一些堆叠层组成，每一层由一个注意力层以及一个应用在每个输入元素的非线性函数组成。Transformer迭代地使用句法解析和语义合成的步骤，来解决它们相互依赖的问题，从而更好地生成包含所有电影特征的向量即item特征矩阵。

协同过滤模型：

本方法提出的Bert-SVD模型中采用的协同过滤模型是Funk-SVD，从用户和项目的关系角度出发，最先注重的是显式反馈，即能够以数字形式直接呈现的数据，如用户对某一个项目的评分值。在下述公式中r(ui)表示的是预测的评分值，u表示所有评分数据的总体平均值，b_u表示具体某一个用户的评分偏置，还原现实中人为主观因素对评分的影响，b_i表示具体某一个项目所产生的评分偏置，还原现实中由项目属性导致的评分不同的影响，由此通过偏置项的不同来实现特异性的区分。

r(ui)＝u+b_i+b_u (1)

对于偏置项b_i，b_u的计算，首先求解了具体某一个用户或项目所产生的评分的平均值n，进而通过与总平均值u的差值获得偏置。

b_u＝n_u-u (2)

b_i＝n_i-u (3)

为了进一步增加对数据的利用率，加入了对隐式反馈的计算，比如用户的评论记录，浏览记录，购买记录等。借助矩阵分解技术，分解形成两个K维的矩阵P,Q，分别用来描述用户和项目的隐式特征，此处通过K来还原算法中对隐式反馈种类个数的需求。加入隐式反馈项弱化了原来显式反馈对预测结果100％的影响，从多维度来进行预测，从而提高精度。

r(ui)＝u+b_i+b_u+q_i ^Tp_u (4)

梯度下降法：

由于P,Q矩阵中所有元素的初值是***随机设定的，通过梯度下降法迭代更新矩阵中所有元素的值至***收敛，减小误差得到最优解，e_ui表示某个预测评分与已知评分R(ui)的误差，SSE为平方误差之和。

e_ui＝R(ui)-r(ui) (5)

SSE＝Σ_u,ieui²＝Σ_u,i[r(ui)-Σ_k＝1p_ukq_ki]² (6)

经过梯度求解后，下式为最终结果，其中η为学习率，λ为正则化参数，避免过度收敛，按梯度更新后的p_uk和q_ki为:

p_uk＝p_uk+2η(e_uiq_ki-λp_uk) (7)

q_ki＝q_ki+2η(e_uip_uk-λq_ki) (8)

其特征在于：包括以下步骤，

步骤1，实验从MovieLens上获取了一组943*1682的评分矩阵，包括1682个item和943个user，对应只产生了100000组评分数据，U-I矩阵的稀疏度为93.7％。在Bert-SVD模型中，从IMDB上通过Python爬虫的方式爬取了每个item的电影情节，再从情节概括中提取的内容特征被用作项目推荐模型中的关键项目因子向量，成为推荐模型的关键组成部分，这影响了模型的训练和CS项目未知评级的预测。

步骤2，本方法中首先采用随机数设定了一个943*100的user分解矩阵和1682*100的item分解矩阵，CF算法中的K值在此数据集中选取为100，为了验证加入bert的学习过程对误差的影响，进行了两组对比实验，一个是直接用两个随机值生成的矩阵，另一个是用bert通过电影情节计算出来的item特征矩阵替换掉原随机值生成的item特征矩阵，后续对运算结果进行了800次的迭代，使***收敛，得到误差的最小值，因此训练后得到的两个特征矩阵就可以对此数据集中U-I矩阵的空缺项进行预测。

SVD加入Bert神经网络后的结果对比：

用Bert学习电影情节，预期输出结果为一个1682*100的item矩阵，直接代替由matlab随机值经过迭代生成的item特征矩阵。

针对误差的计算采用的是RMSE——均方根误差亦称标准误差，其定义为，i＝1，2，3，…n。在有限测量次数中，均方根误差常用下式表示：[∑di^2/n]^1/2＝Re，式中：n为测量次数；di为一组测量值与真值的偏差。

对Bert输出的特征矩阵，产生了两种实验猜想，第一种直接作为item的特征矩阵，不经过迭代计算，但造成了误差增大，猜想失败。第二种仅用输出结果替换掉原矩阵中的随机初始值，最小误差缩小了2.40％，具体实验结果如下：

步骤3，通过800次迭代得到

两个分解的特征矩阵，然后运用这两个矩阵按照公式(4)填充真实的943*1682的U-I矩阵中的评分空缺项。

附图说明

图1为Bert神经网络的示意图。

图2为NLP过程的流程图。

图3为Bert-SVD和Funk-SVD的实验误差对比。

具体实施方式

下面将结合附图和实例对发明做进一步说明。

图1为Bert神经网络的示意图。

图2为NLP过程的流程图。

图3为Bert-SVD和Funk-SVD的实验误差对比，本发明用Movielens提供的一组由943个用户，1682个物品产生的100000组评分的数据进行测试，将隐式反馈维度K设为100，学习率设为0.002，正则化参数设为0.01，迭代次数为800次。原先Funk-SVD的最小误差为0.129，本发明的最小误差为0.126。

Claims

1.一种基于Bert神经网络和协同过滤算法中的Funk-SVD模型相结合的个性化电影推荐方法，其特征在于：包括以下步骤，

步骤1，实验从MovieLens上获取了一组943*1682的评分矩阵，包括1682个item和943个user，对应只产生了100000组评分数据，U-I矩阵的稀疏度为93.7％；在Bert-SVD模型中，从IMDB上通过Python爬虫的方式爬取了每个item的电影情节，再从情节概括中提取的内容特征被用作项目推荐模型中的关键项目因子向量，成为推荐模型的关键组成部分；

步骤2，首先采用随机数设定了一个943*100的user分解矩阵和1682*100的item分解矩阵，CF算法中的K值在此数据集中选取为100，为了验证加入bert的学习过程对误差的影响，进行了两组对比实验，一个是直接用两个随机值生成的矩阵，另一个是用bert通过电影情节计算出来的item特征矩阵替换掉原随机值生成的item特征矩阵，后续对运算结果进行了800次的迭代，使***收敛，得到误差的最小值，因此训练后得到的两个特征矩阵就可以对此数据集中U-I矩阵的空缺项进行预测；

SVD加入Bert神经网络后的结果对比：

用Bert学习电影情节，预期输出结果为一个1682*100的item矩阵，直接代替由matlab随机值经过迭代生成的item特征矩阵；

针对误差的计算采用的是RMSE——均方根误差亦称标准误差，其定义为，i＝1，2，3，…n；在有限测量次数中，均方根误差常用下式表示：[∑di^2/n]^1/2＝Re，式中：n为测量次数；di为一组测量值与真值的偏差；

步骤3，通过800次迭代得到

2.根据权利要求1所述的一种基于Bert神经网络和协同过滤算法中的Funk-SVD模型相结合的个性化电影推荐方法，其特征在于：神经网络Bert中，在实验中的数据为电影情节文本，由于描述电影情节的语句较长，与RNN按照时间顺序提取特征相比，transformer可以有效的保证前面的特征不会消失Bert包括两个步骤：预训练和微调；其中，在预训练过程中Bert遮蔽了输入的15％的电影情节文本，通过一个transformer Encoder来运行整个序列，然后只预测被遮蔽的电影情节部分，以此来达到深层双向的预训练表示；首先，使用Bert的方法将情节文本转化成词向量并获得特征矩阵，然后在CF模型中使用得到的矩阵；Bert使用transformer的结构，Transformer由一些堆叠层组成，每一层由一个注意力层以及一个应用在每个输入元素的非线性函数组成；Transformer迭代地使用句法解析和语义合成的步骤，来解决它们相互依赖的问题，从而更好地生成包含所有电影特征的向量即item特征矩阵。

3.根据权利要求1所述的一种基于Bert神经网络和协同过滤算法中的Funk-SVD模型相结合的个性化电影推荐方法，其特征在于：协同过滤模型中，提出的Bert-SVD模型中采用的协同过滤模型是Funk-SVD，从用户和项目的关系角度出发，最先注重的是显式反馈，即能够以数字形式直接呈现的数据；在下述公式中r(ui)表示的是预测的评分值，u表示所有评分数据的总体平均值，bu表示具体某一个用户的评分偏置，还原现实中人为主观因素对评分的影响，bi表示具体某一个项目所产生的评分偏置，还原现实中由项目属性导致的评分不同的影响，由此通过偏置项的不同来实现特异性的区分；

r(ui)＝u+bi+bu (1)

对于偏置项bi，bu的计算，首先求解了具体某一个用户或项目所产生的评分的平均值n，进而通过与总平均值u的差值获得偏置；

bu＝nu-u (2)

bi＝ni-u (3)

为进一步增加对数据的利用率，加入了对隐式反馈的计算；借助矩阵分解技术，分解形成两个K维的矩阵P,Q，分别用来描述用户和项目的隐式特征，此处通过K来还原算法中对隐式反馈种类个数的需求；

r(ui)＝u+bi+bu+qiTpu (4)。

4.根据权利要求1所述的一种基于Bert神经网络和协同过滤算法中的Funk-SVD模型相结合的个性化电影推荐方法，其特征在于：梯度下降法中，由于P,Q矩阵中所有元素的初值是***随机设定的，通过梯度下降法迭代更新矩阵中所有元素的值至***收敛，减小误差得到最优解，eui表示某个预测评分与已知评分R(ui)的误差，SSE为平方误差之和；

eui＝R(ui)-r(ui) (5)

SSE＝Σu,i eui2＝Σu,i[r(ui)-Σk＝1 puk qki]2 (6)

经过梯度求解后，下式为最终结果，其中η为学习率，λ为正则化参数，避免过度收敛，按梯度更新后的puk和qki为:

puk＝puk+2η(eui qki-λpuk) (7)

qki＝qki+2η(eui puk-λqki) (8)。