CN108460019A

CN108460019A - 一种基于注意力机制的新兴热点话题检测***

Info

Publication number: CN108460019A
Application number: CN201810170148.8A
Authority: CN
Inventors: 廖祥文; 陈国龙; 殷明刚; 杨定达
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-08-28

Abstract

本发明涉及一种基于注意力机制的新兴热点话题检测***，包括：数据预处理模块、分层序列模型、词序列编码层、词语级别注意力层、句子级别编码层、句子级别注意力层、话题预测模块。本发明提出的一种基于注意力机制的新兴热点话题检测***，在双向循环神经网络基础上，加入两层注意力机制来加强话题的向量表示，提出基于注意力机制的分层循环神经网络模型，能够利用社交媒介中数据的各维度作为特征，训练高质量的话题向量特征，从而检测出新兴热点话题，并提高了新兴热点话题检测能力。

Description

一种基于注意力机制的新兴热点话题检测***

技术领域

本发明涉及自然语言处理领域，特别是一种基于注意力机制的新兴热点话题检测***。

背景技术

当前，存在着一些偏向于话题内容特征(静态特征)的新兴热点话题检测方法，其基本思想是根据相应的推理公式或理论来求解话题的评价依据，如转发增长率、评论数增长率、用户增长率等等，作为真是特征，再使用评判函数(如分类算法)来判定是否是新兴热点话题。

当前，还存在着一些偏向于使用话题的传播特征来检测新兴热点话题，其基本思想是利用相关特定的数据结构(如：树、图、粒子群、神经网络等等)来计算或训练话题的特征，这里特征偏向于传播型，也即数据间是有联系的，不是静态的。接着使用分类算法来求解话题是否是新兴热点话题。

然而，这些方法模型虽然在一定程度上取得了相应的成果，也推进了话题检测任务的发展；但是也存在不足的地方，基于话题内容静态特征的方法，固然在新兴热点话题预测上有一定准确率，但其缺少对话题文本的上下文语义分析，因此在话题的追踪效果上较差。基于传播特征(动态特征)的也都考虑到话题中文本的上下文语义信息，在新兴热点话题预测时间方面有一定延迟，因此其准确率不够，但它在话题追踪时有较好的性能。

发明内容

本发明的目的在于提供一种基于注意力机制的新兴热点话题检测***，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种基于注意力机制的新兴热点话题检测***，包括：

一数据预处理模块，用于对微博文本进行预处理；

一分层序列模型，用于训练双向循环神经网络模型，通过使用双向的LSTM 网络，训练输入的微博文本；

一词序列编码层，用于对句子中的各个词语向量化，形成初步的向量表示；

一词语级别注意力层，通过采用词级别注意力机制，令句子中不同词有不同的权重，通过词向量及权重，各个词之间聚合形成句子向量；

一句子级别编码层，用于对句子向量进行训练，为后阶段的话题向量表示输送句子向量；

一句子级别注意力层，通过采用注意力机制，令不同句子有不同的权重，根据句子向量及权重，各句子聚合形成话题向量；

一话题预测模块，用于对话题预测，经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率，并获取预测概率。

在本发明一实施例中，所述数据预处理模块对微博文本进行预处理包括：过滤掉微博文本中网页链接、过滤掉微博文本中的表情字符、过滤掉微博文本常用词、过滤掉微博文本长度小于5个字符的微博、过滤掉微博发表时间错误或时间大于预设时间阈值的微博以及过滤掉缺失了用户uid的微博。

在本发明一实施例中，在所述词序列编码层，使用word2vec对句子分词的一个初步向量化。

在本发明一实施例中，在所述词序列编码层，对于一个句子的词序列 w_it，t∈[1，T]，将词序列中的词通过词嵌入方法映射到向量中，嵌入矩阵为 W_e)x_ij＝W^r _ex_ij:通过一双向循环神经网络BiRNN汇总来自双向的词的信息来得到词的表示，并将表示中的上下文信息合并；所述双向循环神经网络BiRNN 包括一个向前的网络RNN用于从w_i1到w_iT读取句子s_i；以及一个向后的网络RNN用于从w_iT到w_i1读取句子s_i；通过连接向前隐藏状态和向后隐藏状态得到词w_it的隐藏表示h_it，其包括句子中围绕词w_it的总体信息，也即

在本发明一实施例中，在所述词语级别注意力层，将所述词序列编码层的输出h_it作为输入，通过运算得到h_it的表示u_it；通过u_it和词上下文向量u_w之间的相似性评价词的重要性，并通过一softmax函数来归一化该重要性权重α_it，其中，所述上下文向量u_w随机初始化，并在训练过程中连带学习更新；将各个词的权重和来作为句子s_i的表示。

在本发明一实施例中，在所述句子级别编码层，将所述词语级别注意力层的输出向量s_i作为输入向量，且该层基于句子向量，通过使用双向循环神经网络 BiRNN来编码句子，通过连接和来得到句子i的表示，即其中，表示正向RNN网络训练的句子的隐藏层向量表示；表示反向RNN网络训练的句子的隐藏层向量表示。

相较于现有技术，本发明具有以下有益效果：本发明提出的一种基于注意力机制的新兴热点话题检测***，在双向循环神经网络基础上，加入两层注意力机制来加强话题的向量表示，提出基于注意力机制的分层循环神经网络模型，能够利用社交媒介中数据的各维度作为特征，训练高质量的话题向量特征，从而检测出新兴热点话题，并提高了新兴热点话题检测能力。

附图说明

图1为本发明一实施例中在社交媒介中基于注意力机制的分层循环神经网络模型的示意配置图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明一种基于注意力机制的新兴热点话题检测***，如图1所示，包括：

数据预处理模块，用于对微博文本进行预处理，为后阶段的运算提供高可用高质量的数据；

分层序列模型，用于训练双向循环神经网络模型，使用双向的LSTM网络，训练输入的微博文本，得到高质量的话题向量表示，提高预测准确率；

词序列编码层，用于对句子中的各个词语向量化，形成初步的向量表示；使用word2vec对句子分词的一个初步向量化；

词语级别注意力层，用于考虑注意力机制形成句子中词语的高质量表示；加入词级别注意力机制，使得句子中不同词有不同的权重，最后通过一个词向量及权重，各个词之间聚合形成句子的向量表示；

句子级别编码层，用于对句子的向量进行训练进一步得到更优的向量表示，为后阶段的话题向量表示输送好的句子向量；

句子级别注意力层，用于结合注意力机制形成句子的高质量表示，进而得到高质量的话题向量表示；加入注意力机制，让不同句子有不同的权重，根据权重及句子向量，各句子聚合形成高质量的话题向量表示；

话题预测模块，于完成对话题的预测工作，使用softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率。

进一步的，由于社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声，因此通过数据预处理模块对数据集进行预处理，主要进行以下几个方面的操作：

(1)过滤掉微博文本中网页链接。如“http://t.cn/Rfan9TD”。

(2)过滤掉微博文本中的表情字符。如“[偷乐]”、“[加油啊]”等。

(3)过滤掉微博文本常用词。如“组图”、“原文转发”等。

(4)过滤掉微博文本长度小于5个字符的微博。

(5)过滤掉微博发表时间错误或者时间过于久远的微博。

(6)过滤掉缺失了用户uid的微博。

进一步的，在词序列编码层(Word Encoder Layer,WEL)，给定一个句子的词序列w_it,t∈[1,TJ，首先将词通过词嵌入方法映射到向量中，嵌入矩阵为 W_e，x_ij＝W_ex_ij。使用一个双向循环神经网络BiRNN汇总来自双向的词的信息来得到词的表示，并将表示中的上下文信息合并。双向循环神经网络 Bi-directional RNN，BiRNN包括一个向前的网络RNN用来从w_i1到 w_iT读取句子s_i；还有一个向后的网络RNN用来从w_iT到w_i1读取句子s_i。通过连接向前隐藏状态和向后隐藏状态得到词w_it的隐藏表示h_it，它包含了句子中围绕词w_it的总体信息，也即

进一步的，在词级别注意力层(Word Attention Layer,WAL)，对于一个句子的表示，并不是其中所有的词都是有相同的贡献(权重)，有些词是较重要的；有些词是不重要的或可以忽略的。因此我们引入词级别注意力机制来提取出句子中重要的词，并聚合它们信息的表示来形成句子向量表示。通过上一层词级别编码层WAL的输出h_it，作为该层的输入，通过一个层运算来得到隐藏状态h_it的表示u_it；用u_it和词上下文向量u_w之间的相似性来衡量词的重要性，并通过softmax函数来归一化该重要性权重α_it，上下文向量u_w是随机初始化并在训练过程中连带学习更新；最后使用各个词的权重和来作为句子s_i的表示。

进一步的，在句子级别编码层(Sentence Encoder Layer,SEL)，是基于上一层WAL的输出向量s_i作为输入向量的，该层是基于句子向量的，使用双向循环神经网络bi-directional RNN，BiRNN来编码句子，使得话题的表示更加高效。通过连接和来得到句子i的表示，即其中，表示正向RNN网络训练的句子的隐藏层向量表示；表示反向RNN网络训练的句子的隐藏层向量表示。

进一步的，句子级别注意力层(Sentence Attention Layer,SAL)，经过上一层SEL得到句子的表示h_i之后，该层计算中引入句子级别的上下文向量u_s，使用一个句子级别的注意力机制来衡量句子的重要程度，计算公式如下：

u_i＝tanh(W_sh_t+b_s)

v＝Σ_iα_ih_i

其中，u_i表示隐藏层h_i的输出向量；W_s和b_s分别表示权重向量和偏置；u_s表示句子s的上下文信息向量，它是随机初始化并迭代更新；α_i表示合并成最终话题向量前的权重向量；表示T时间周期内第i个句子的上下文信息向量；表示T时间周期句子i在t时刻时的上下文信息向量；v表示话题的向量表示，它总结了文本中所有的信息。同样地，句子级别的上下文向量u_s随机初始化并在训练过程中连带学习更新。

进一步的，话题预测模块在经过上面四层的计算之后，得到向量v，这是话题的高质量的表示，可以用来作为分类的特征。使用softmax来预测话题是否属于新兴热点话题或非新兴热点话题，并得到预测概率。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于注意力机制的新兴热点话题检测***，其特征在于，包括：

一数据预处理模块，用于对微博文本进行预处理；

一分层序列模型，用于训练双向循环神经网络模型，通过使用双向的LSTM网络，训练输入的微博文本；

2.根据权利要求1所述的一种基于注意力机制的新兴热点话题检测***，其特征在于，所述数据预处理模块对微博文本进行预处理包括：过滤掉微博文本中网页链接、过滤掉微博文本中的表情字符、过滤掉微博文本常用词、过滤掉微博文本长度小于5个字符的微博、过滤掉微博发表时间错误或时间大于预设时间阈值的微博以及过滤掉缺失了用户uid的微博。

3.根据权利要求1所述的一种基于注意力机制的新兴热点话题检测***，其特征在于，在所述词序列编码层，使用word2vec对句子分词的一个初步向量化。

4.根据权利要求1所述的一种基于注意力机制的新兴热点话题检测***，其特征在于，在所述词序列编码层，对于一个句子的词序列w_it，t∈[1，T]，将词序列中的词通过词嵌入方法映射到向量中，嵌入矩阵为W_e，x_ij＝W_ex_ij；通过一双向循环神经网络BiRNN汇总来自双向的词的信息来得到词的表示，并将表示中的上下文信息合并；所述双向循环神经网络BiRNN包括一个向前的网络RNN用于从W_i1到W_iT读取句子s_i；以及一个向后的网络RNN用于从W_iT到W_i1读取句子s_i；通过连接向前隐藏状态和向后隐藏状态得到词w_it的隐藏表示h_it，其包括句子中围绕词w_it的总体信息，也即

5.根据权利要求6所述的一种基于注意力机制的新兴热点话题检测***，其特征在于，在所述词语级别注意力层，将所述词序列编码层的输出h_it作为输入，通过运算得到h_it的表示u_it；通过u_it和词上下文向量u_w之间的相似性评价词的重要性，并通过一softmax函数来归一化该重要性权重α_it，其中，所述上下文向量u_w随机初始化，并在训练过程中连带学习更新；将各个词的权重和来作为句子s_i的表示。

6.根据权利要求5所述的一种基于注意力机制的新兴热点话题检测***，其特征在于，在所述句子级别编码层，将所述词语级别注意力层的输出向量s_i作为输入向量，且该层基于句子向量，通过使用双向循环神经网络BiRNN来编码句子，通过连接和来得到句子i的表示，即其中，表示正向RNN网络训练的句子的隐藏层向量表示；表示反向RNN网络训练的句子的隐藏层向量表示。