CN115481313A

CN115481313A - 一种基于文本语义挖掘的新闻推荐方法

Info

Publication number: CN115481313A
Application number: CN202110668465.4A
Authority: CN
Inventors: 王海艳; 胡阳; 骆健
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2022-12-16

Abstract

本发明是一种基于文本语义挖掘的新闻推荐方法，该方法包括以下步骤：从数据库中获取新闻项信息和用户阅读历史的日志信息；通过预训练的词向量对新闻项的标题建立词嵌入矩阵；通过特征提取获得新闻标题嵌入表示向量；基于神经主题模型对新闻文本内容进行主题建模得到新闻内容主题嵌入向量，形成最终的新闻特征表示；对用户阅读历史日志中的行为数据进行分析，并在用户侧根据用户阅读记录提取用户特征表示；将时间衰减函数引入模型，生成前N项的推荐新闻候选集。本发明通过双向循环神经网络和神经主题模型对新闻项的词级特征和主题特征进行分析，能够有效挖掘新闻文本中丰富的语义信息，更准确的表示新闻项特征，提升推荐的效果。

Description

一种基于文本语义挖掘的新闻推荐方法

技术领域

本发明属于新闻推荐技术领域，具体的说涉及一种基于文本语义挖掘的新闻推荐方法。

背景技术

日益繁荣的万维网(WWW)已经逐渐改变人们寻找和阅读新闻的方式，即从传统的印刷媒体转变为在线门户。为了减轻信息过载的问题，推荐***广泛用于现代在线服务，它可以帮助用户快速查找自己所需的相关内容。同一用户通常具有多种兴趣，这些兴趣反映在其浏览的不同新闻项中。同时，新闻的重要语义特征隐含在不同粒度的文本段中，新闻内容中充斥着不同类型的主题信息，这对于学习准确的新闻和新闻推荐的用户表示形式至关重要。但是，现有的新闻推荐方法通常会忽视对于新闻项细粒度的建模可以增强新闻推荐效果。

CN2014104033786公开了一种新闻推荐***，该***中的数据相关性分析通过挖掘短语之间的内在关系，构建一个新的个性化的新闻推荐超图模型，在超图模型中，节点表示短语，边表示短语与短语之间的某种内在联系，边的权值用来表示这种关联的贡献度，但是这种新闻推荐***更多的是通过历史资料获得高质量的客户，以及将新出版或没有足够访问记录的新闻推荐给用户，新闻图鉴效果并不佳。

CN201510242541X公开了一种基于用户兴趣的新闻推荐方法，该方法利用交互用户端和推荐***能够快速高效的存储和处理新闻数据，但这种推荐方法对于数据处理时间长，由于新闻更新快，计算新闻相似度的计算开销会很大。

发明内容

为了解决上述问题，本发明提供了一种基于文本语义挖掘的新闻推荐方法，利用双向循环神经网络提取新闻标题的词级语义信息，获得新闻标题表示向量，然后利用神经主题模型对新闻文本内容的主题进行建模得到主题语义信息，并将其与标题嵌入表示向量拼接共同表示新闻项特征；利用注意力网络对用户历史阅读记录中的不同兴趣分配权重获得用户侧的特征表示向量；将时间衰减函数引入到模型中，并利用得分函数计算用户侧的特征表示和目标新闻项的特征表示，生成更加符合用户阅读兴趣的新闻项，实现新闻推荐。具体包括以下步骤：

S10、从数据库中获取新闻项信息和用户阅读历史的日志信息，具体包括如下步骤：

S11、从数据库中获取新闻项信息，包括新闻编号，新闻标题，新闻内容，发布日期时间戳；

S12、从用户数据库获取用户浏览过的新闻项，包括用户编号，新闻编号，用户阅读时间戳；

S13、获取的信息进行整理和预处理，得到训练集与测试集。

S20、通过预训练的词向量对新闻项的标题建立词嵌入矩阵，具体方法为：对于每一篇新闻文章的标题表示为由单词嵌入组成的矩阵，即将标题中n个大小的词汇映射到一个d维向量中，其重点在于单词的含义，单词嵌入将新闻标题从单词序列转换为语义向量矩阵X_1：m＝[x₁，x₂，...，x_n]。

S30、利用双向循环神经网络对新闻标题词嵌入矩阵进行特征提取获得新闻标题嵌入向量；

具体包括如下步骤：

S31、基于双向循环神经网络对新闻的标题特征进行提取，捕获单词序列的上下文信息：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

其中，σ(·)为激活函数，i_t是输入门，f_t是遗忘门，o_t是输出门，

表示当前时刻t需要更新到当前细胞状态的候选信息，b是偏置向量；

S32、利用前向传播和后向传播分别对标题序列进行学习，并计算隐藏状态H：

S33、基于注意力网络提取新闻标题中更多的信息特征，从而选取标题中的关键词，通过注意力权重对单词的上下文表示加权求和，获得新闻标题的特征表示向量v_t如下：

S40、启动神经主题模型对新闻文本内容进行主题建模得到新闻内容主题嵌入向量，并综合新闻标题嵌入向量和新闻内容主题嵌入向量形成最终的新闻特征表示向量，对新闻文本内容进行主题建模的方法包括如下步骤：

S41、基于变分自编码器框架，它通过编码-解码的方式学习潜在主题，令x是给定新闻文本的单词词袋表示，其中v是词汇，在编码器中，有u＝f_u(x)，logσ＝f_σ(x)，其中u和σ是在解码器网络中参数化的主题模型分布的先验参数，f_u，f_σ是具有Relu激活函数的线性变换；

S42、利用解码器进行文档主题生成，使用高斯softmax函数绘制主题分布，即z～N(μ，σ²)，θ＝softmax(z)

其中z是潜在主题变量，σ是主体分布，k是预定义的主题数量，通过

学习预测单词

的概率，

类似于LDA主题模型的主题单词分布矩阵，

表示第i个单词和第j个主题之间的相关性，从p中提取每个单词以重构输入x，并进一步使用中间参数w₀和θ来构建主题表示，表示如下：

其中

代表一组具有预定义的d维度的主题表示，

是具有Relu激活函数的线性变换，

是每个主题表示的加权和，视为新闻项的整体主题表示；

S43、综合新闻标题嵌入向量和新闻内容主题嵌入向量形成最终的新闻特征表示向量v为：v＝Concat(v_t，v_c)。

S50、对用户阅读历史日志中的行为数据进行分析，并在用户侧根据用户阅读记录提取用户偏好特征表示向量；

分析用户阅读历史日志中的行为数据，并在用户侧根据用户阅读记录提取用户特征表示向量方法如下：

利用注意力网络将用户阅读过的新闻和目标新闻进行比较，以获得用户的最终嵌入向量。将用户u的历史阅读记录表示为{d₁，d₂，...d_n}，其嵌入可以表示为：{v₁，v₂，...v_n}。采用注意力网络为用户点击的新闻项分配不同的权重以学习用户对各个新闻项的不同兴趣。对于一个目标新闻，通过计算用户阅读过的新闻嵌入表示与目标新闻项之间的相似度，并计算用户历史阅读记录中新闻项嵌入表示作为目标新闻项的用户表示向量，其中用户阅读的每个新闻项的兴趣权重由相似度确定。在注意力机制中，查询是目标新闻，用户的历史阅读新闻项是键和值。获得的用户特征表示如下：

v_u＝Attention(q，k，v)

＝softmax(qk^T)v。

S60、将时间衰减因子引入模型，并利用得分函数将用户偏好特征表示向量和新闻特征表示向量进行相似度的计算，生成前N项的推荐新闻候选集。

这里的时间衰减函数定义为：

其中，λ是训练期间需要调整的参数，用于控制新闻的衰减率，t和t₀表示某一时刻的阅读时间和新闻的发布时间，根据得分函数来检索前N个候选新闻项目，得分函数如下：

其中，N是在匹配阶段要检索的项目的预定义数量。

本发明的有益效果：

(1)本发明使用双向循环神经网络和神经主题模型对新闻标题和新闻内容进行不同粒度的学习，可以有效提取新闻项的词级语义信息以及主题语义信息，丰富了新闻项的特征表示。

(2)本发明使用注意力网络来模拟用户历史阅读记录中的新闻项对目标新闻的影响，从而表征用户的不同兴趣，可以提高用户侧偏好的准确性。

(3)本发明引入时间衰减函数，一定程度上满足了新闻推荐的时效性，能够实时进行新闻推荐。

附图说明

图1是本发明实施例的整体流程图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

如图1所示，本发明是一种基于文本语义挖掘的新闻推荐方法，具体包括如下步骤：

S10、从数据库中获取新闻项信息和用户阅读历史的日志信息。

首先，从数据库中获取新闻项信息，包括新闻编号，新闻标题，新闻内容，发布日期时间戳。

然后，从用户数据库获取用户浏览过的新闻项，包括用户编号，新闻编号，用户阅读时间戳。

最后，对获取的信息进行整理和预处理，得到训练集与测试集。

S20、通过预训练的词向量对新闻项的标题建立词嵌入矩阵。

对于每一篇新闻文章的标题可以表示为由单词嵌入组成的矩阵，即将标题中n个大小的词汇映射到一个d维向量中，其重点在于单词的含义，单词嵌入将新闻标题从单词序列转换为语义向量矩阵X_1：n＝[x₁，x₂，...，x_n)。单词嵌入可以是任何预先训练好的单词嵌入模型，如fastText，word2Vec或Glove，本实例使用的是fastText模型预训练的词向量，并且词向量的维度d为100。

首先、基于双向循环神经网络对新闻的标题特征进行提取，捕获单词序列的上下文信息：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

然后、利用前向传播和后向传播分别对标题序列进行学习，并计算隐藏状态H：

最后、基于注意力网络提取新闻标题中更多的信息特征，从而选取标题中的关键词，通过注意力权重对单词的上下文表示加权求和，获得新闻标题的特征表示向量v_t如下：

S40、启动神经主题模型对新闻文本内容进行主题建模得到新闻内容主题嵌入向量，并综合新闻标题嵌入向量和新闻内容主题嵌入向量形成最终的新闻特征表示向量。

S42、利用解码器进行文档主题生成，使用高斯softmax函数绘制主题分布，即z～N(μ，σ²)，θ＝sofmax(z)

学习预测单词

的概率，

类似于LDA主题模型的主题单词分布矩阵，

表示第i个单词和第j个主题之间的相关性，从p中提取每个单词以重构输入x，并进一步使用中间参数

和θ来构建主题表示，表示如下：

其中

代表一组具有预定义的d维度的主题表示，

是具有Relu激活函数的线性变换，

是每个主题表示的加权和，可以视为新闻项的整体主题表示；

S50、对用户阅读历史日志中的行为数据进行分析，并在用户侧根据用户阅读记录提取用户偏好特征表示；

利用注意力网络将用户阅读过的新闻和目标新闻进行比较，以获得用户的最终嵌入向量，将用户u的历史阅读记录表示为{d₁，d₂，...d_n}，其嵌入可以表示为：{v₁，v₂，...，v_n}；采用注意力网络为用户点击的新闻项分配不同的权重以学习用户对各个新闻项的不同兴趣，对于一个目标新闻，通过计算用户阅读过的新闻嵌入表示与目标新闻项之间的相似度，并计算用户历史阅读记录中新闻项嵌入表示作为目标新闻项的用户表示向量，其中用户阅读的每个新闻项的兴趣权重由相似度确定；在注意力机制中，查询是目标新闻，用户的历史阅读新闻项是键和值，获得的用户偏好特征表示如下：

v_u＝Attention(q，k，v)

＝softmax(qk^T)v。

时间衰减函数定义为：

其中，N是在匹配阶段要检索的项目的预定义数量，本实例中N的预定义数量为50。

本发明通过双向循环神经网络和神经主题模型对新闻项的词级特征和主题特征进行分析，能够有效挖掘新闻文本中丰富的语义信息，更准确的表示新闻项特征，提升推荐的效果。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种基于文本语义挖掘的新闻推荐方法，其特征在于：所述推荐方法包括如下步骤：

S10、从数据库中获取新闻项信息和用户阅读历史的日志信息；

S20、通过预训练的词向量对新闻项的标题建立词嵌入矩阵；

S40、启动神经主题模型对新闻文本内容进行主题建模得到新闻内容主题嵌入向量，并综合新闻标题嵌入向量和新闻内容主题嵌入向量形成最终的新闻特征表示向量；

2.根据权利要求1所述一种基于文本语义挖掘的新闻推荐方法，其特征在于：所述步骤S30中利用双向循环神经网络对新闻标题词嵌入矩阵进行特征提取获得新闻标题嵌入向量具体包括如下步骤：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

3.根据权利要求1所述一种基于文本语义挖掘的新闻推荐方法，其特征在于：在所述步骤S40对新闻文本内容进行主题建模的方法包括如下步骤：

学习预测单词

的概率，

类似于LDA主题模型的主题单词分布矩阵，

和θ来构建主题表示，表示如下：

其中

代表一组具有预定义的d维度的主题表示，

是具有Relu激活函数的线性变换，

是每个主题表示的加权和，视为新闻项的整体主题表示；

4.根据权利要求1所述一种基于文本语义挖掘的新闻推荐方法，其特征在于：在所述步骤S50中分析用户阅读历史日志中的行为数据，并在用户侧根据用户阅读记录提取用户偏好特征表示向量方法包括如下步骤：

S51、利用注意力网络将用户阅读过的新闻和目标新闻进行比较，以获得用户的最终嵌入向量，将用户u的历史阅读记录表示为{d₁，d₂，…d_n}，其嵌入可以表示为：{v₁，v₂，...，v_n}；

S52、采用注意力网络为用户点击的新闻项分配不同的权重以学习用户对各个新闻项的不同兴趣，对于一个目标新闻，通过计算用户阅读过的新闻嵌入表示与目标新闻项之间的相似度，并计算用户历史阅读记录中新闻项嵌入表示作为目标新闻项的用户表示向量，其中用户阅读的每个新闻项的兴趣权重由相似度确定；

S53、在注意力机制中，查询是目标新闻，用户的历史阅读新闻项是键和值，获得的用户偏好特征表示如下：

v_u＝Attention(q，k，v)

＝softmax(qk^T)v。

5.根据权利要求1所述一种基于文本语义挖掘的新闻推荐方法，其特征在于：在所述步骤S60中的时间衰减函数定义为：

其中，N是在匹配阶段要检索的项目的预定义数量。

6.根据权利要求1所述一种基于文本语义挖掘的新闻推荐方法，其特征在于：所述步骤S10具体包括如下步骤：

S13、获取的信息进行整理和预处理，得到训练集与测试集。

7.根据权利要求1所述一种基于文本语义挖掘的新闻推荐方法，其特征在于：所述步骤S20中建立新闻标题词嵌入矩阵方法为：对于每一篇新闻文章的标题表示为由单词嵌入组成的矩阵，即将标题中n个大小的词汇映射到一个d维向量中，其重点在于单词的含义，单词嵌入将新闻标题从单词序列转换为语义向量矩阵X_1：n＝[x₁，x₂，...，x_n]。