CN109492157A

CN109492157A - 基于rnn、注意力机制的新闻推荐方法及主题表征方法

Info

Publication number: CN109492157A
Application number: CN201811245204.6A
Authority: CN
Inventors: 缑锦; 李威; 王成; 张璐
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2019-03-19
Anticipated expiration: 2038-10-24
Also published as: CN109492157B

Abstract

本发明涉及一种基于RNN、注意力机制的新闻推荐方法及主题表征方法，将传统的主题模型与神经网络词向量结合，可有效提升新闻内容文本语义提取与表示的准确性；利用RNN网络刻画用户新闻浏览的序列性特征，可极大提升个性化新闻推荐内容的时效性；利用注意力机制区分不同新闻对推荐预测的影响力权重，可捕捉到用户兴趣迁移，提升个性化新闻推荐内容准确性与新颖性；最后，结合DBSCAN密度聚类算法的注意力机制，通过密度聚类对新旧话题进行启发式发现，利用主题聚类结果动态计算新闻的影响力权重，提升推荐话题的新颖性。

Description

基于RNN、注意力机制的新闻推荐方法及主题表征方法

技术领域

本发明属于数据挖掘和神经网络的技术领域，具体涉及一种基于RNN、注意力机制的新闻推荐方法及主题表征方法。

背景技术

随着信息技术和互联网的发展，人们逐渐从信息匮乏的时代走入了信息过载的时代。作为大众获取各类信息的主要途径，各色新闻网站每天充斥着海量的信息。如何去筛选和过滤新闻内容，如何抓住不同用户的个性化需求，如何能跟进用户阅读兴趣的迁移，如何为用户提供新颖、准确、时效性强的个性化推荐已经成为新闻网站面对的主要挑战。在这种需求背景下，个性化新闻推荐***应运而生。

目前新闻推荐***主要有四种推荐策略：

第一种是基于热门推荐。这是最常见的推荐策略。***会设置一个固定时间窗口，然后统计过去时间窗口长度的时间内所有新闻的点击量，对点击量进行排序，最后将排序结果推荐给用户。

热门推荐策略，优点：可以及时推荐全网热度高的新闻，实时性强，实现简单，推荐的新闻比较主流。缺点：无法区分不同用户的个性化阅读兴趣的需求，推荐的内容需要用户自行过滤，无法刻画用户的兴趣迁移。

第二种是基于协同过滤算法推荐。基于协同过滤算法是一种使用非常广泛的推荐算法，其主要又可以细分为：(1)基于用户的协同过滤推荐(UserCF)，根据用户的浏览行为数据，找到和他兴趣相似的其他用户，找到其他用户喜欢的新闻中该用户没有浏览过的推荐给目标用户；(2)基于物品的协同过滤推荐(ItemCF)，先通过两个新闻被用户同时浏览的行为统计，计算新闻之间的相似度，给用户推荐和他之前浏览的新闻相似度较高的新闻。

基于用户的协同过滤推荐算法，优点：在数据集比较完善，内容比较丰富的情况下，不用对新闻内容具体挖掘，就能根据用户之间隐含的兴趣相关性，来做到较为准确的推荐。缺点：用户之间还是有明显的差异性的，当***内用户数量较少时，很难找到与该用户特别相近的用户。而随着用户数量增多，维护用户关联相似矩阵的维护成本又很高。

基于物品的协同过滤推荐算法，优点：新闻之间的相似性基本稳定，可以进行离线计算，可以根据用户的浏览情况及时地更新推荐列表。缺点：没有考虑用户之间兴趣的差异性，容易重复推荐太多相似的新闻，无法捕捉用户的兴趣迁移。随着新闻数量增多，维护新闻相似矩阵的成本也很高。

第三种是隐语义模型LFM(latent factor model)。不同于协同过滤直接寻找相似用户和相似新闻，LFM是通过隐含特征联系用户兴趣和新闻，对于某个用户，首先要得到他的兴趣分类，然后从新闻分类中挑选他可能喜欢的新闻。具体的步骤为：采用了基于用户阅读行为统计的自动聚类，以此得到各新闻所属的分类；然后根据用户浏览各类别新闻的频率来计算用户感兴趣的新闻和感兴趣的程度。最后根据用户喜欢的分类，给他推荐可能喜欢的新闻。

第四种是基于内容的推荐算法。不同于以上算法只考虑到用户和用户的浏览行为。基于内容的推荐算法，可以根据用户过去浏览的新闻的内容，构建“用户画像”，最后根据“用户画像”生成新闻推荐列表。基于内容的推荐***具体过程一般包括以下三步：

(1)物品表示(Item Representation)：为每个item抽取出一些特征(也就是item的content)来表示此item；

(2)特征学习(Profile Learning)：利用一个用户过去喜欢(及不喜欢)的item的特征数据，来学习出此用户的喜好特征(profile)；

(3)生成推荐列表(Recommendation Generation)：通过比较上一步得到的用户profile与候选item的特征，为此用户推荐一组相关性最大的item。

优点：(1)用户之间独立性强。由于每个用户的喜好特征都是根据他自身的阅读兴趣获取的，与他人的行为无关，因此不管别人对某些新闻如何作弊(比如利用多个账号把某个新闻排名刷上去)都不会影响到用户自身。(2)可解释性好。由于刻画出“用户画像”，因此很容易解释出因为用户哪个喜好来推荐的新闻了。(3)新的新闻可以立刻得到推荐。只要一条新的新闻加入新闻语料库，稍微对其进行一下关键词提取，就可以马上被推荐。而不用管是否有浏览记录。

缺点：(1)新闻内容的特征抽取一般很难。提取的关键词也不一定能完全准确表达出每篇新闻的语义。(2)无法挖掘出用户的潜在兴趣。既然基于内容的推荐只依赖于用户过去对某些新闻的喜好，它产生的推荐也都会和用户过去喜欢的新闻相似。如果一个人以前只看与推荐有关的新闻，那推荐***只会给他推荐更多与推荐相关的文章，它不会知道用户可能的其他新闻。(3)无法为新用户产生推荐。新用户没有喜好历史，自然无法刻画他的“用户画像”，所以也就无法为他产生推荐了。

基于内容的新闻推荐***的过程如下：

(1)利用TF-IDF(term frequency-inverse document frequency)计算词的权重，然后对于每篇文章提取其中的词权重较高的作为其每篇新闻的关键词特征。

其中TF-IDF权重计算公式为：其中TF指的是某一个给定的词语t_k在该文件d_j中出现的次数，IDF的主要思想是：如果包含词条t_k的文档越少,IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。

(2)利用提取到的关键词，映射成每篇新闻的特征向量，利用相似度算法(如：余弦相似度)，计算新闻之间相似性，然后根据新闻之间间的相似性，生成该用户的新闻推荐列表。

(3)兴趣衰减机制。用户的兴趣是会随着时间的推移逐渐发生变化的，如果一直推荐相似度高的新闻，无法保证新闻推荐的新颖性，因此要采用兴趣迁移策略来模拟用户阅读兴趣的动态变化。可以让用户的关键词表中的每个关键词喜好程度都按一定周期保持衰减，比如用指数衰减的形式来进行衰减，即引入λ系数，每隔一段时间，对所有用户的所有关键词喜好程度进行*λ的衰减。

虽然引入时间衰减来体现用户兴趣迁移可以模拟部分用户阅读兴趣的动态变化，但只是简单的引入时间维度无法真正表示出用户兴趣的真正变化，使得推荐的新颖性、内容的多样性仍然不太好。

从上面的分析可以看出个性化新闻推荐***主要需要解决以下三个问题：

(1)目前基于内容的新闻推荐方法，大多是基于内容的关键词或者主题抽取，由于传统主题模型抽取性能有限(容易抽取一些公共的没有太大意义的主题)，表达新闻内容语义的能力较弱，使得推荐的新闻内容质量大打折扣。

(2)目前的推荐算法较少考虑用户阅读新闻的时序性特征，忽视了用户阅读新闻的先后顺序对推荐的时效性、新颖性的影响。

(3)目前推荐***大多会大量推荐用户经常看的新闻话题，却忽视了新话题对推荐的影响，很难发现用户兴趣迁移，导致推荐的结果总是围绕几个老旧话题，无法发现用户潜在感兴趣的话题。

近些年来，深度学习已经成为了一个非常火的话题，在计算机视觉、自然语言处理等方面已经成为了主流的研究方法。深度学习的本质是一种深度人工神经网络，通过模仿人类大脑的神经元结构，构建学习模型。常见的神经网络模型有：BP神经网络、卷积神经网络、循环神经网络、残差网络等等。传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的，因此无法刻画序列性特征。循环神经网络(Recurrent Neural Network)是一种对序列数据建模的神经网络，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行“记忆”并应用于当前输出的计算中，即隐藏层之间的节点不再无连接而是有连接的，并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。在新闻推荐的应用场景中，用户常常会每天都阅读某些话题点，并关心着该话题的持续发展。对于某些话题，用户则会阶段性关注。传统的内容推荐算法很少考虑其内容的序列性特征，因此会导致某些同类话题会大量重复推荐，“忘记”了用户曾经的关注点，无法捕捉远距离的兴趣。而循环神经网络的网络结构可以很好描述用户阅读内容的序列特征，“记忆”过往的阅读兴趣，因此本发明的发明点之一是采用基于循环神经网络的序列型推荐预测模型。

注意力机制这两年被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中，是深度学习技术中最值得关注与深入了解的核心技术之一。注意力机制借鉴人类的视觉注意力机制，视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。这是人类利用有限的注意力资源从大量信息中快速筛选出高价值信息的手段，是人类在长期进化中形成的一种生存机制，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。在个性化新闻推荐***中，用户浏览的新闻数量非常大，不同的新闻对于推荐预测的重要性不一样，本发明还采用注意力机制对不同新闻进行注意力权重计算，降低不重要的新闻对推荐的影响，提升推荐的准确性。

发明内容

本发明的目的在于克服现有技术的不足，结合词嵌入、主题模型、密度聚类、神经网络和注意力机制，提供一种新闻主题表征方法、一种基于RNN的序列化新闻推荐方法、一种基于注意力机制的新闻推荐方法、一种基于DBSCAN和注意力机制的新闻推荐方法及一种基于DBSCAN和注意力机制的循环神经网络序列化新闻推荐方法。

为了实现上述目的，本发明的技术方案是：

一方面，本发明一种新闻主题表征方法，基于TF-IDF、主题模型、神经词嵌入的新闻内容的语义提取、主题表征向量计算的方法，用于提升新闻文档语义提取和表示的准确性，包括：利用关键词算法对新闻标题进行关键词提取，利用主题模型对新闻正文文本进行主题建模，然后对主题模型得到的主题分布和词分布分别进行采样，最后利用词向量对采样的关键词和主题词进行词向量化，具体步骤如下：

步骤1.1，利用TF-IDF(Term Frequency-Inverse Document Frequency；词频-逆文档频率)算法计算出每篇新闻标题中各个词的权重；

步骤1.2，利用LDA(Latent Dirichlet Allocation；隐含狄利克雷分布)主题模型对新闻正文文本进行主题建模，训练获得每篇新闻正文的主题分布θ和词分布

步骤1.3，对于每篇新闻正文，采样其主题分布θ，选取概率值由大到小的前K个主题作为新闻正文的主题表示T＝{t₁,t₂,...,t_i,...,t_k}；

步骤1.4，对于每篇新闻标题，选取标题中各词权重最高的2个词作为其关键词；

步骤1.5，对于每篇新闻的每个主题t_i，根据其词分布采样出词概率最高的前M个单词W_ti＝{w_i,1,w_i,2,...,w_i,M}，加上该篇新闻标题的2个关键词，将这K*M+2个单词转换为词向量表征集W＝{w₁,w₂,...,w_i,...,w_K*M+2}；

步骤1.6，对于第i篇新闻的词向量表征集W_i，分别以词分布和主题分布的概率值作为其权重，依次对每个主题的各个单词、每篇新闻的各个主题进行加权平均，最终将这K*M+2个词向量映射到一个词向量Embedding_i中，将该词向量作为该篇新闻的主题表征；

步骤1.7，遍历整个新闻语料集，循环执行步骤1.3到步骤1.6，可得到语料集中每篇新闻的主题表征集合D＝{d₁,d₂,...,d_i,...,d_N}；其中，N为用户浏览新闻语料库中新闻的数量。

优选的，所述步骤1.1之前还包括：

语料获取，通过爬虫技术实时获取新闻网站最新的新闻内容和用户浏览信息，将全网新产生的新闻保存到新闻语料库中；将用户id、浏览新闻id、新闻标题、新闻详细内容、新闻发布时间以及用户阅读该新闻的时间以用户为单位保存到用户语料库中。

优选的，所述语料获取之后还包括：

数据预处理，清除缺值和空值的记录；删除不可识别的字符和URL；使用分词工具对新闻文本分词，去除停用词。

优选的，所述步骤1.7之后还包括：

新闻消重，对于用户的新闻主题表征集合，利用余弦相似度算法，计算其相似度，剔除相似度超过阈值γ的新闻，将新闻消重的结果，放入最终的新闻数据集中。

第二方面，本发明一种基于RNN(Recurrent Neural Network；循环神经网络)的序列化新闻推荐方法，基于所述的新闻主题表征方法，利用RNN序列化建模的特性，用于提升新闻推荐的时序相关性与推荐的准确性，依次输入每篇新闻的向量化表示序列到RNN中，经过隐藏层以及激励函数，最终将学习到的隐藏层向量，传入全连接网络中，得到待预测新闻的向量表示，具体步骤如下：

步骤5.1，将主题表征集合D中新闻按照用户阅读的先后顺序依次输入到网络中，利用当前输入的文档向量d_t与上一个隐藏层状态S_t-1共同计算得到当前文档的隐藏层状态S_t，再根据隐藏层状态S_t传入softmax分类器中，得到RNN当前输出向量o_t，即：S_t＝f(U*d_t+W*S_t-1)，o_t＝soft max(VS_t)；其中U、W、V分别代表了输入层、隐藏层与输出层的权重矩阵，f(*)是激活函数(如：sigmoid，tanh，relu等)；

步骤5.2，将RNN序列最后一个输出层的输出o_N输入到全连接网络中，得到神经网络最终预测向量Predict；

步骤5.3，从当前新闻语料库中，选取该用户未曾阅读过且分布时间最新的新闻文档向量{p₁,p₂,...,p_i,...,p_n}，使用余弦相似度算法分别计算Predict与p_i相似性，选取相似度最大的新闻作为最终推荐，即R＝{max{sim(predict,p_i)}}。

第三方面，本发明一种基于注意力机制的新闻推荐方法，基于所述的新闻主题表征方法，用于发现用户的兴趣迁移以及提升推荐内容的准确性，利用注意力机制动态计算新闻序列中不同的新闻对推荐预测结果的影响力权重，根据影响力权重，具体步骤为：

步骤6.1，计算输入新闻序列的隐含向量h_s与待预测的新闻的隐含向量h_t之间的相关性，如下：

其中，h_s是输入端第s篇新闻的隐含变量，h_t是推荐预测序列第t篇新闻的隐含变量，a_st是推荐预测序列第t篇新闻与输入序列第s篇新闻的相关性权重，score(*)是相关性打分函数，v_a、W_a、U_a是权值矩阵，tanh(*)是非线性激活函数；

步骤6.2，根据相关性打分计算输入的新闻序列中不同新闻对于预测新闻i的注意力分配权重c_i，其中i为推荐序列中新闻编号，j为输入序列中新闻编号，从而突出不同新闻对最终推荐预测的影响力的差异性；

步骤6.3，将注意力分配权重c_i与输入序列的输出o_N输入到全连接网络中，计算推荐预测向量的值Predict＝f(U*c_i+V*o_N)；其中U和V为权重矩阵，f(*)为非线性激励函数(sigmoid、relu、tanh等)；

步骤6.3，从当前新闻语料库中，选取该用户未曾阅读过且分布时间最新的新闻文档向量{p₁,p₂,...,p_i,...,p_n}，使用余弦相似度算法分别计算Predict与p_i相似性，选取相似度最大的新闻作为最终推荐，即R＝{max{sim(predict,p_i)}}。

第四方面，本发明一种基于DBSCAN(Density-Based Spatial Clustering ofApplications with Noise；具有噪声的基于密度的聚类方法)和注意力机制的新闻推荐方法，基于所述的新闻主题表征方法，用于提升个性化新闻推荐的准确性与话题的新颖性，利用DBSCAN密度聚类算法对用户阅读的新闻向量集进行聚类，区分出新闻向量集中类内点和离群点，并以此重构注意力分配过程，突出离群点对注意力分配的影响，以此实现对新旧话题进行启发式发现，提升推荐话题的新颖性，具体步骤如下：

步骤7.1，利用DBSCAN密度算法对每个用户的新闻向量集进行聚类，包括：①先初始化核心对象集合为空集：Ω＝φ；②遍历新闻向量集D中每一个向量计算其中N为该用户阅读新闻的数量，为的ε邻域，distance(*)为欧式距离函数，ε为半径参数；③如果则其中MinPts为领域密度阈值，即对任一向量点若其ε邻域对应的至少包含MinPts个样本，则是核心对象放入核心对象集合Ω中；④以任一未访问过的核心对象为出发点，找出其密度可达的向量点生成的聚类簇，直到所有的核心对象都被访问，迭代终止；

步骤7.2，根据DBSCAN密度聚类的结果进行离群点检测与标识，即通过密度聚类，可将原向量集的点聚集成很多簇cluster＝{c₁,c₂,...,c_i,...}，初始化离群点集Z＝φ，①若向量点不属于任何一个簇，则该点为离群点，加入离群点集②统计各簇的大小|N(c_i)|，若簇大小|N(c_i)|小于密度阈值γ，则将小簇c_i内所有点视为离群点，加入离群点集合Z＝ZU{c_i}；

步骤7.3，依次输入用户阅读的新闻向量到模型中，计算输入新闻序列的隐含向量h_s与待预测的新闻的隐含向量h_t之间的相关性，如下：

步骤7.4，判断该当前输入向量x_j是否在离群点集Z，若x_j∈Z，则加入权重偏置b_j；若则不加入权重偏置b_j；更新注意力权重分配c_i为其中i为推荐序列中新闻编号，j为输入序列中新闻编号，h_j为输入序列第j篇新闻的隐含变量，a_ij是输入序列第j篇新闻与推荐预测序列第i篇的相关性权重，b_j是注意力分配偏置；

步骤7.5，将注意力分配权重c_i与输入序列的输出o_N输入到全连接网络中，计算推荐预测向量的值Predict＝f(U*c_i+V*o_N)，其中U、V为权重矩阵，f(*)为非线性激励函数(sigmoid、relu、tanh等)；

步骤7.6，从当前新闻语料库中，选取该用户未曾阅读过且分布时间最新的新闻文档向量{p₁,p₂,...,p_i,...,p_n}，使用余弦相似度算法分别计算Predict与p_i相似性，选取相似度最大的新闻作为最终推荐，即R＝{max{sim(predict,p_i)}}。

第五方面，本发明一种基于DBSCAN和注意力机制的循环神经网络序列化新闻推荐方法，用于提升推荐的内容语义相关性、推荐结果的时间传递性、推荐话题的新颖性与准确性，利用TF-IDF、主题模型提取语义特征，结合词向量模型映射得到文档的语义向量，利用密度聚类算法对语义向量聚类，将语义向量依次输入循环神经网络训练，根据密度聚类离群点的判读，为输入向量分配不同的注意力权重，最终神经网络训练结果放入softmax分类器中得到最终的预测向量，利用余弦相似度算法，找到最新的新闻向量集中与预测最相近的新闻，作为推荐预测；具体步骤如下：

步骤8.1，语义提取与表征，使用word2vec模型对新闻标题和内容训练词向量；对新闻标题利用TF-IDF提取关键词；对新闻内容利用LDA主题模型提取主题，根据各关键词出现概率，对关键词的词向量进行加权平均；根据主题的相关词的词向量，并结合词表征主题的概率值对词向量进行加权平均，得到主题向量表征；根据新闻内容的相关主题以及各主题表征文档的概率值，对主题表征向量进行加权平均，最终得到新闻文档的语义表征向量集；

步骤8.2，主题密度聚类，对所述语义表征向量集，利用DBSCAN算法对各用户浏览的新闻集合进行密度聚类，找寻其中聚类中心点和离群点；

步骤8.2，基于注意力机制的序列化推荐预测，将所述语义表征向量集作为输入，构建循环神经网络序列模型，根据密度聚类对中心点和离群点的判断，为输入向量的隐变量赋予不同的注意力权重，对结合注意力机制的循环神经网络模型进行训练，将神经网络的训练结果放入softmax分类器中得到最终的预测向量，利用余弦相似度算法，找到最新的新闻向量集中与预测最相近的新闻，作为推荐预测。

采用上述方案后，本发明的有益效果是：

(1)本发明使得新闻内容语义提取和表示更加准确。利用神经网络词嵌入技术和主题模型构建新闻文档语义表征向量，可以准确提取新闻内容的语义，弥补了关键词表示和简单主题模型在语义表达上的不足；

(2)本发明可以更好捕捉用户阅读的时序性，更好“记忆”曾经的阅读兴趣点。利用循环神经网络学习用户浏览新闻的序列特征，时间越近的新闻阅读对推荐影响越大，时间久远的阅读也可以被网络“记忆”；

(3)本发明可以更好刻画用户的兴趣迁移，在循环神经网络的基础上引入聚类与注意力机制，强化用户新的新闻兴趣点对推荐的影响，抑制陈旧话题的重复推荐，动态刻画用户的兴趣迁移，及时为用户推荐准确、新颖、多样的新闻。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种基于RNN、注意力机制的新闻推荐方法及主题表征方法不局限于实施例。

附图说明

图1为本发明实施例的总体流程图；

图2为本发明的主题表征向量计算流程图；

图3为本发明的基于DBSCAN的注意力分配计算方法流程图。

具体实施方式

以下将结合本发明附图，对本发明实施例中的技术方案进行详细描述和讨论。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例使用爬虫技术，爬取“财新网”2000个用户在1个月内浏览的111257条新闻作为新闻语料集；其中，将该月最后一周的2875条新闻数据作为推荐预测数据集，剩余的新闻作为推荐的训练数据集。

参见图1至图3所示，本发明实施例一种个性化新闻推荐方法，包括：新闻抓取步骤、数据预处理步骤、词向量训练步骤、主题模型训练步骤、主题表征向量计算步骤、新闻消重步骤、基于RNN的序列化推荐模型步骤、基于DBSCAN的新闻内容聚类步骤及基于DBSCAN与注意力机制的兴趣迁移步骤。

新闻抓取步骤，采用Scrapy爬虫框架爬取“财新网”用户浏览数据，数据包括：用户编号、新闻编号、浏览时间、新闻标题、新闻详细内容、新闻发布时间。

数据预处理步骤，用于数据的清洗和文本预处理。(1)清理爬取结果中数据空值的记录；(2)统一时间格式，剔除文本数据的乱码；(3)利用jieba(结巴)分词工具对新闻标题和新闻详细内容进行分词，并结合通用停用词表，删除文本中的停用词。

词向量训练步骤，用于将单词向量化。使用基于python的Gensim工具库，采用CBOW(Continous Bags Of Words)训练算法，对新闻语料(标题和详细内容)训练词向量，其中词向量维度embedding_size为100，初始学习率alpha为0.01，窗口大小window为5。

主题模型训练步骤，用于对新闻文本进行文本语义挖掘，抽取其主题语义。(1)新闻标题作为重要的文章语义概括，通常标题蕴含更直接的语义，但由于标题往往长度较短，直接用主题模型训练效果较差，于是采用TF-IDF算法计算权重，计算公式为并根据单词的TF-IDF权重排序，提取标题中的单词中权重最大的两个词；(2)对于新闻正文，采用gensim库中LDA步骤训练新闻文本的主题，其中主题个数topic_num为50，超参数α为0.05，β为0.01，训练得到每篇文档的主题分布和词分布(其中m是文档编号，k是主题编号，t是单词编号)。

主题表征向量计算步骤，对每篇新闻，采样主题分布θ中前K-2个主题，再结合标题的2个关键词共同作为该文的主题表达T＝{t₁,t₂,...,t_k}；对这些主题，再对每个主题t_i，根据其词分布采样出概率最高的前M个单词对于这些单词，利用词向量训练步骤得到的词向量，将每个单词转换为词向量表示。对于每篇新闻的K*M个词向量W＝{w_1,1,…,w_1,M,w_2,1,…,w_i,m,…,w_K,M}，分别根据词分布和主题分布中相应的概率值作为权重，对这些词向量进行加权平均，最终将这K*M个词向量映射到一个词向量中，将该词向量作为该篇新闻的主题表征。对整个新闻语料集进行同样的训练和计算，可得到每个用户浏览新闻的主题表征集合D＝{d₁,d₂,...,d_i,...,d_N}，注：N为用户浏览新闻语料库中新闻的数量。

新闻消重步骤，对于用户的新闻主题表征集合D＝{d₁,d₂,...,d_i,...,d_N}，利用余弦相似度算法计算其相似度Similarity，剔除相似度超过阈值γ的新闻。将新闻消重的结果，放入最终的新闻数据集中。

基于RNN的序列化推荐模型步骤，(1)将主题表征向量计算步骤得到的新闻向量集合D中新闻按照用户阅读的先后顺序依次输入到网络中，利用当前输入的文档向量d_t与上一个隐藏层状态S_t-1共同计算得到当前文档的隐藏层状态S_t，再根据隐藏层状态S_t传入softmax分类器中，得到RNN当前输出向量o_t，即：S_t＝f(U*d_t+W*S_t-1)，o_t＝softmax(VS_t)；其中U、W、V分别代表了输入层、隐藏层与输出层的权重矩阵，f(*)是激活函数(如：sigmoid，tanh，relu等)；

(2)将序列最后一个输出层的输出o_N输入到全连接网络中，得到神经网络最终预测向量Predict；(3)从当前新闻语料库中，选取该用户未曾阅读过且分布时间较新新闻的文档向量{p₁,p₂,...,p_i,...,p_n}，使用余弦相似度算法分别计算Predict与p_i相似性，选取相似度最大的新闻作为最终推荐，即R＝{max{sim(predict,p_i)}}。

基于DBSCAN的新闻内容聚类步骤，利用DBSCAN密度算法对每个用户的新闻向量集进行聚类，即：(1)先初始化核心对象集合为空集：Ω＝φ；(2)遍历新闻集D中每一个向量计算其中N为该用户阅读新闻的数量，为的ε邻域，distance(*)为欧式距离函数，ε为半径参数；(3)如果则其中MinPts为领域密度阈值，此处默认为5，即对任一向量点若其ε邻域对应的至少包含MinPts个样本，则是核心对象放入核心对象集合Ω中；(4)以任一未访问过的核心对象为出发点，找出其密度可达的向量点生成的聚类簇，直到所有的核心对象都被访问，迭代终止。

基于DBSCAN与注意力机制的兴趣迁移步骤，(1)根据DBSCAN密度聚类的结果进行离群点检测与标识，即通过密度聚类，可将原向量集的点聚集成很多簇cluster＝{c₁,c₂,...,c_i,...}，初始化离群点集Z＝φ，①若向量点不属于任何一个簇，则该点为离群点，加入离群点集②统计各簇的大小|N(c_i)|，若簇大小|N(c_i)|小于密度阈值γ，则将小簇c_i内所有点视为离群点，加入离群点集合Z＝ZU{c_i}。(2)将用户阅读的新闻向量作为输入，计算输入新闻序列的隐含向量h_s与待预测的新闻的隐含向量h_t之间的相关性，其中h_s是输入端第s篇新闻的隐含变量，h_t是推荐预测序列第t篇新闻的隐含变量，a_st是推荐预测序列第t篇新闻与输入序列第s篇新闻的相关性权重，score(*)是相关性打分函数，v_a、W_a、U_a是权值矩阵，tanh(*)是非线性激活函数。(3)判断该当前输入向量x_j是否在离群点集Z，若x_j∈Z，则加入权重偏置b_j；若则不加入权重偏置b_j。更新注意力权重分配c_i为其中i为推荐序列中新闻编号，j为输入序列中新闻编号，h_j为输入序列第j篇新闻的隐含变量，a_ij是输入序列第j篇新闻与推荐预测序列第i篇的相关性权重，b_j是注意力分配偏置；(4)将注意力分配权重c_i与输入序列的输出o_N输入到全连接网络中，计算推荐预测向量的值Predict＝f(U*c_i+V*o_N)，其中U、V为权重矩阵，f(*)为非线性激励函数(sigmoid、relu、tanh等)；(5)从当前新闻语料库中，选取该用户未曾阅读过且新发布的新闻文档向量{p₁,p₂,...,p_i,...,p_n}，使用余弦相似度算法分别计算Predict与p_i相似性，选取相似度最大的新闻作为最终推荐，即R＝{max{sim(predict,p_i)}}。

以上仅为本发明实例中一个较佳的实施方案。但是，本发明并不限于上述实施方案，凡按本发明所做的任何均等变化和修饰，所产生的功能作用未超出本方案的范围时，均属于本发明的保护范围。

Claims

1.一种新闻主题表征方法，其特征在于，包括：利用关键词算法对新闻标题进行关键词提取，利用主题模型对新闻正文文本进行主题建模，然后对主题模型得到的主题分布和词分布分别进行采样，最后利用词向量对采样的关键词和主题词进行词向量化，具体步骤如下：

步骤1.1，利用TF-IDF算法计算出每篇新闻标题中各个词的权重；

步骤1.2，利用LDA主题模型对新闻正文文本进行主题建模，训练获得每篇新闻正文的主题分布θ和词分布

步骤1.3，对于每篇新闻正文，采样其主题分布θ，选取概率值由大到小的前K个主题作为新闻正文的主题表示T＝{t₁，t₂，...，t_i，...，t_k}；

步骤1.5，对于每篇新闻的每个主题t_i，根据其词分布采样出词概率最高的前M个单词加上该篇新闻标题的2个关键词，将这K*M+2个单词转换为词向量表征集W＝{w₁,w₂,...,w_i,...,w_K*M+2}；

2.根据权利要求1所述的新闻主题表征方法，其特征在于，所述步骤1.1之前还包括：

3.根据权利要求2所述的新闻主题表征方法，其特征在于，所述语料获取之后还包括：

4.根据权利要求1所述的新闻主题表征方法，其特征在于，所述步骤1.7之后还包括：

5.一种基于RNN的序列化新闻推荐方法，其特征在于，基于权利要求1至4中任意一项所述的新闻主题表征方法，利用RNN序列化建模的特性，依次输入每篇新闻的向量化表示序列到RNN中，经过隐藏层以及激励函数，最终将学习到的隐藏层向量，传入全连接网络中，得到待预测新闻的向量表示，具体步骤如下：

步骤5.1，将主题表征集合D中新闻按照用户阅读的先后顺序依次输入到网络中，利用当前输入的文档向量d_t与上一个隐藏层状态S_t-1共同计算得到当前文档的隐藏层状态S_t，再根据隐藏层状态S_t传入softmax分类器中，得到RNN当前输出向量o_t，即：S_t＝f(U*d_t+W*S_t-1)，o_t＝softmax(VS_t)；其中U、W、V分别代表了输入层、隐藏层与输出层的权重矩阵，f(*)是激活函数；

6.一种基于注意力机制的新闻推荐方法，其特征在于，基于权利要求1至4中任意一项所述的新闻主题表征方法，利用注意力机制动态计算新闻序列中不同的新闻对推荐预测结果的影响力权重，根据影响力权重，具体步骤为：

步骤6.3，将注意力分配权重c_i与输入序列的输出o_N输入到全连接网络中，计算推荐预测向量的值Predict＝f(U*c_i+V*o_N)；其中U和V为权重矩阵，f(*)为非线性激励函数；

7.一种基于DBSCAN和注意力机制的新闻推荐方法，其特征在于，基于权利要求1至4中任意一项所述的新闻主题表征方法，利用DBSCAN密度聚类算法对用户阅读的新闻向量集进行聚类，区分出新闻向量集中类内点和离群点，并以此重构注意力分配过程，突出离群点对注意力分配的影响，以此实现对新旧话题进行启发式发现，提升推荐话题的新颖性，具体步骤如下：

步骤7.5，将注意力分配权重c_i与输入序列的输出o_N输入到全连接网络中，计算推荐预测向量的值Predict＝f(U*c_i+V*o_N)，其中U、V为权重矩阵，f(*)为非线性激励函数；

8.一种基于DBSCAN和注意力机制的循环神经网络序列化新闻推荐方法，其特征在于，利用TF-IDF、主题模型提取语义特征，结合词向量模型映射得到文档的语义向量，利用密度聚类算法对语义向量聚类，将语义向量依次输入循环神经网络训练，根据密度聚类离群点的判断，为输入向量分配不同的注意力权重，最终神经网络训练结果放入softmax分类器中得到最终的预测向量，利用余弦相似度算法，找到最新的新闻向量集中与预测最相近的新闻，作为推荐预测；具体步骤如下：