CN108460019A - 一种基于注意力机制的新兴热点话题检测*** - Google Patents
一种基于注意力机制的新兴热点话题检测*** Download PDFInfo
- Publication number
- CN108460019A CN108460019A CN201810170148.8A CN201810170148A CN108460019A CN 108460019 A CN108460019 A CN 108460019A CN 201810170148 A CN201810170148 A CN 201810170148A CN 108460019 A CN108460019 A CN 108460019A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- topic
- vector
- talked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于注意力机制的新兴热点话题检测***,包括:数据预处理模块、分层序列模型、词序列编码层、词语级别注意力层、句子级别编码层、句子级别注意力层、话题预测模块。本发明提出的一种基于注意力机制的新兴热点话题检测***,在双向循环神经网络基础上,加入两层注意力机制来加强话题的向量表示,提出基于注意力机制的分层循环神经网络模型,能够利用社交媒介中数据的各维度作为特征,训练高质量的话题向量特征,从而检测出新兴热点话题,并提高了新兴热点话题检测能力。
Description
技术领域
本发明涉及自然语言处理领域,特别是一种基于注意力机制的新兴热点话题检测***。
背景技术
当前,存在着一些偏向于话题内容特征(静态特征)的新兴热点话题检测方法,其基本思想是根据相应的推理公式或理论来求解话题的评价依据,如转发增长率、评论数增长率、用户增长率等等,作为真是特征,再使用评判函数(如分类算法)来判定是否是新兴热点话题。
当前,还存在着一些偏向于使用话题的传播特征来检测新兴热点话题,其基本思想是利用相关特定的数据结构(如:树、图、粒子群、神经网络等等)来计算或训练话题的特征,这里特征偏向于传播型,也即数据间是有联系的,不是静态的。接着使用分类算法来求解话题是否是新兴热点话题。
然而,这些方法模型虽然在一定程度上取得了相应的成果,也推进了话题检测任务的发展;但是也存在不足的地方,基于话题内容静态特征的方法,固然在新兴热点话题预测上有一定准确率,但其缺少对话题文本的上下文语义分析,因此在话题的追踪效果上较差。基于传播特征(动态特征)的也都考虑到话题中文本的上下文语义信息,在新兴热点话题预测时间方面有一定延迟,因此其准确率不够,但它在话题追踪时有较好的性能。
发明内容
本发明的目的在于提供一种基于注意力机制的新兴热点话题检测***,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于注意力机制的新兴热点话题检测***,包括:
一数据预处理模块,用于对微博文本进行预处理;
一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM 网络,训练输入的微博文本;
一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;
一词语级别注意力层,通过采用词级别注意力机制,令句子中不同词有不同的权重,通过词向量及权重,各个词之间聚合形成句子向量;
一句子级别编码层,用于对句子向量进行训练,为后阶段的话题向量表示输送句子向量;
一句子级别注意力层,通过采用注意力机制,令不同句子有不同的权重,根据句子向量及权重,各句子聚合形成话题向量;
一话题预测模块,用于对话题预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并获取预测概率。
在本发明一实施例中,所述数据预处理模块对微博文本进行预处理包括:过滤掉微博文本中网页链接、过滤掉微博文本中的表情字符、过滤掉微博文本常用词、过滤掉微博文本长度小于5个字符的微博、过滤掉微博发表时间错误或时间大于预设时间阈值的微博以及过滤掉缺失了用户uid的微博。
在本发明一实施例中,在所述词序列编码层,使用word2vec对句子分词的一个初步向量化。
在本发明一实施例中,在所述词序列编码层,对于一个句子的词序列 wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为 We)xij=Wr exij:通过一双向循环神经网络BiRNN汇总来自双向的词的信息来得到词的表示,并将表示中的上下文信息合并;所述双向循环神经网络BiRNN 包括一个向前的网络RNN用于从wi1到wiT读取句子si;以及一个向后的网络RNN用于从wiT到wi1读取句子si;通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,其包括句子中围绕词wit的总体信息,也即
在本发明一实施例中,在所述词语级别注意力层,将所述词序列编码层的输出hit作为输入,通过运算得到hit的表示uit;通过uit和词上下文向量uw之间的相似性评价词的重要性,并通过一softmax函数来归一化该重要性权重αit,其中,所述上下文向量uw随机初始化,并在训练过程中连带学习更新;将各个词的权重和来作为句子si的表示。
在本发明一实施例中,在所述句子级别编码层,将所述词语级别注意力层的输出向量si作为输入向量,且该层基于句子向量,通过使用双向循环神经网络 BiRNN来编码句子,通过连接和来得到句子i的表示,即其中,表示正向RNN网络训练的句子的隐藏层向量表示;表示反向RNN网络训练的句子的隐藏层向量表示。
相较于现有技术,本发明具有以下有益效果:本发明提出的一种基于注意力机制的新兴热点话题检测***,在双向循环神经网络基础上,加入两层注意力机制来加强话题的向量表示,提出基于注意力机制的分层循环神经网络模型,能够利用社交媒介中数据的各维度作为特征,训练高质量的话题向量特征,从而检测出新兴热点话题,并提高了新兴热点话题检测能力。
附图说明
图1为本发明一实施例中在社交媒介中基于注意力机制的分层循环神经网络模型的示意配置图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明一种基于注意力机制的新兴热点话题检测***,如图1所示,包括:
数据预处理模块,用于对微博文本进行预处理,为后阶段的运算提供高可用高质量的数据;
分层序列模型,用于训练双向循环神经网络模型,使用双向的LSTM网络,训练输入的微博文本,得到高质量的话题向量表示,提高预测准确率;
词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;使用word2vec对句子分词的一个初步向量化;
词语级别注意力层,用于考虑注意力机制形成句子中词语的高质量表示;加入词级别注意力机制,使得句子中不同词有不同的权重,最后通过一个词向量及权重,各个词之间聚合形成句子的向量表示;
句子级别编码层,用于对句子的向量进行训练进一步得到更优的向量表示,为后阶段的话题向量表示输送好的句子向量;
句子级别注意力层,用于结合注意力机制形成句子的高质量表示,进而得到高质量的话题向量表示;加入注意力机制,让不同句子有不同的权重,根据权重及句子向量,各句子聚合形成高质量的话题向量表示;
话题预测模块,于完成对话题的预测工作,使用softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率。
进一步的,由于社交媒体文档中包含了丰富的信息但同时也夹杂了一定的噪声,因此通过数据预处理模块对数据集进行预处理,主要进行以下几个方面的操作:
(1)过滤掉微博文本中网页链接。如“http://t.cn/Rfan9TD”。
(2)过滤掉微博文本中的表情字符。如“[偷乐]”、“[加油啊]”等。
(3)过滤掉微博文本常用词。如“组图”、“原文转发”等。
(4)过滤掉微博文本长度小于5个字符的微博。
(5)过滤掉微博发表时间错误或者时间过于久远的微博。
(6)过滤掉缺失了用户uid的微博。
进一步的,在词序列编码层(Word Encoder Layer,WEL),给定一个句子的词序列wit,t∈[1,TJ,首先将词通过词嵌入方法映射到向量中,嵌入矩阵为 We,xij=Wexij。使用一个双向循环神经网络BiRNN汇总来自双向的词的信息来得到词的表示,并将表示中的上下文信息合并。双向循环神经网络 Bi-directional RNN,BiRNN包括一个向前的网络RNN用来从wi1到 wiT读取句子si;还有一个向后的网络RNN用来从wiT到wi1读取句子si。通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,它包含了句子中围绕词wit的总体信息,也即
进一步的,在词级别注意力层(Word Attention Layer,WAL),对于一个句子的表示,并不是其中所有的词都是有相同的贡献(权重),有些词是较重要的;有些词是不重要的或可以忽略的。因此我们引入词级别注意力机制来提取出句子中重要的词,并聚合它们信息的表示来形成句子向量表示。通过上一层词级别编码层WAL的输出hit,作为该层的输入,通过一个层运算来得到隐藏状态hit的表示uit;用uit和词上下文向量uw之间的相似性来衡量词的重要性,并通过softmax函数来归一化该重要性权重αit,上下文向量uw是随机初始化并在训练过程中连带学习更新;最后使用各个词的权重和来作为句子si的表示。
进一步的,在句子级别编码层(Sentence Encoder Layer,SEL),是基于上一层WAL的输出向量si作为输入向量的,该层是基于句子向量的,使用双向循环神经网络bi-directional RNN,BiRNN来编码句子,使得话题的表示更加高效。通过连接和来得到句子i的表示,即其中,表示正向RNN网络训练的句子的隐藏层向量表示;表示反向RNN网络训练的句子的隐藏层向量表示。
进一步的,句子级别注意力层(Sentence Attention Layer,SAL),经过上一层SEL得到句子的表示hi之后,该层计算中引入句子级别的上下文向量us,使用一个句子级别的注意力机制来衡量句子的重要程度,计算公式如下:
ui=tanh(Wsht+bs)
v=Σiαihi
其中,ui表示隐藏层hi的输出向量;Ws和bs分别表示权重向量和偏置;us表示句子s的上下文信息向量,它是随机初始化并迭代更新;αi表示合并成最终话题向量前的权重向量;表示T时间周期内第i个句子的上下文信息向量;表示T时间周期句子i在t时刻时的上下文信息向量;v表示话题的向量表示,它总结了文本中所有的信息。同样地,句子级别的上下文向量us随机初始化并在训练过程中连带学习更新。
进一步的,话题预测模块在经过上面四层的计算之后,得到向量v,这是话题的高质量的表示,可以用来作为分类的特征。使用softmax来预测话题是否属于新兴热点话题或非新兴热点话题,并得到预测概率。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种基于注意力机制的新兴热点话题检测***,其特征在于,包括:
一数据预处理模块,用于对微博文本进行预处理;
一分层序列模型,用于训练双向循环神经网络模型,通过使用双向的LSTM网络,训练输入的微博文本;
一词序列编码层,用于对句子中的各个词语向量化,形成初步的向量表示;
一词语级别注意力层,通过采用词级别注意力机制,令句子中不同词有不同的权重,通过词向量及权重,各个词之间聚合形成句子向量;
一句子级别编码层,用于对句子向量进行训练,为后阶段的话题向量表示输送句子向量;
一句子级别注意力层,通过采用注意力机制,令不同句子有不同的权重,根据句子向量及权重,各句子聚合形成话题向量;
一话题预测模块,用于对话题预测,经过softmax层输出各个话题是新兴热点话题和非新兴热点话题的概率,并获取预测概率。
2.根据权利要求1所述的一种基于注意力机制的新兴热点话题检测***,其特征在于,所述数据预处理模块对微博文本进行预处理包括:过滤掉微博文本中网页链接、过滤掉微博文本中的表情字符、过滤掉微博文本常用词、过滤掉微博文本长度小于5个字符的微博、过滤掉微博发表时间错误或时间大于预设时间阈值的微博以及过滤掉缺失了用户uid的微博。
3.根据权利要求1所述的一种基于注意力机制的新兴热点话题检测***,其特征在于,在所述词序列编码层,使用word2vec对句子分词的一个初步向量化。
4.根据权利要求1所述的一种基于注意力机制的新兴热点话题检测***,其特征在于,在所述词序列编码层,对于一个句子的词序列wit,t∈[1,T],将词序列中的词通过词嵌入方法映射到向量中,嵌入矩阵为We,xij=Wexij;通过一双向循环神经网络BiRNN汇总来自双向的词的信息来得到词的表示,并将表示中的上下文信息合并;所述双向循环神经网络BiRNN包括一个向前的网络RNN用于从Wi1到WiT读取句子si;以及一个向后的网络RNN用于从WiT到Wi1读取句子si;通过连接向前隐藏状态和向后隐藏状态得到词wit的隐藏表示hit,其包括句子中围绕词wit的总体信息,也即
5.根据权利要求6所述的一种基于注意力机制的新兴热点话题检测***,其特征在于,在所述词语级别注意力层,将所述词序列编码层的输出hit作为输入,通过运算得到hit的表示uit;通过uit和词上下文向量uw之间的相似性评价词的重要性,并通过一softmax函数来归一化该重要性权重αit,其中,所述上下文向量uw随机初始化,并在训练过程中连带学习更新;将各个词的权重和来作为句子si的表示。
6.根据权利要求5所述的一种基于注意力机制的新兴热点话题检测***,其特征在于,在所述句子级别编码层,将所述词语级别注意力层的输出向量si作为输入向量,且该层基于句子向量,通过使用双向循环神经网络BiRNN来编码句子,通过连接和来得到句子i的表示,即其中,表示正向RNN网络训练的句子的隐藏层向量表示;表示反向RNN网络训练的句子的隐藏层向量表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810170148.8A CN108460019A (zh) | 2018-02-28 | 2018-02-28 | 一种基于注意力机制的新兴热点话题检测*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810170148.8A CN108460019A (zh) | 2018-02-28 | 2018-02-28 | 一种基于注意力机制的新兴热点话题检测*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108460019A true CN108460019A (zh) | 2018-08-28 |
Family
ID=63216979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810170148.8A Pending CN108460019A (zh) | 2018-02-28 | 2018-02-28 | 一种基于注意力机制的新兴热点话题检测*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108460019A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241377A (zh) * | 2018-08-30 | 2019-01-18 | 山西大学 | 一种基于深度学习话题信息增强的文本文档表示方法和装置 |
CN109657226A (zh) * | 2018-09-20 | 2019-04-19 | 北京信息科技大学 | 多联结注意力的阅读理解模型、***及方法 |
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及*** |
CN110334189A (zh) * | 2019-07-11 | 2019-10-15 | 河南大学 | 基于长短时和自注意力神经网络的微博话题标签确定方法 |
CN110704715A (zh) * | 2019-10-18 | 2020-01-17 | 南京航空航天大学 | 一种网络霸凌的检测方法及*** |
CN110852070A (zh) * | 2019-10-25 | 2020-02-28 | 杭州费尔斯通科技有限公司 | 一种文档向量生成方法 |
CN111444337A (zh) * | 2020-02-27 | 2020-07-24 | 桂林电子科技大学 | 一种基于改进kl散度的话题跟踪方法 |
CN112418525A (zh) * | 2020-11-24 | 2021-02-26 | 重庆邮电大学 | 社交话题群体行为的预测方法、装置及计算机存储介质 |
CN112700795A (zh) * | 2020-12-15 | 2021-04-23 | 深圳市声希科技有限公司 | 口语发音质量评价方法、装置、设备及存储介质 |
CN112712159A (zh) * | 2020-12-28 | 2021-04-27 | 广州市交通规划研究院 | 一种基于改进pso算法的lstm短时交通流预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106383815A (zh) * | 2016-09-20 | 2017-02-08 | 清华大学 | 结合用户和产品信息的神经网络情感分析方法 |
CN107291886A (zh) * | 2017-06-21 | 2017-10-24 | 广西科技大学 | 一种基于增量聚类算法的微博话题检测方法及*** |
US20180018358A1 (en) * | 2013-10-16 | 2018-01-18 | University Of Tennessee Research Foundation | Method and apparatus for constructing a neuroscience-inspired artificial neural network with visualization of neural pathways |
-
2018
- 2018-02-28 CN CN201810170148.8A patent/CN108460019A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018358A1 (en) * | 2013-10-16 | 2018-01-18 | University Of Tennessee Research Foundation | Method and apparatus for constructing a neuroscience-inspired artificial neural network with visualization of neural pathways |
CN106383815A (zh) * | 2016-09-20 | 2017-02-08 | 清华大学 | 结合用户和产品信息的神经网络情感分析方法 |
CN107291886A (zh) * | 2017-06-21 | 2017-10-24 | 广西科技大学 | 一种基于增量聚类算法的微博话题检测方法及*** |
Non-Patent Citations (1)
Title |
---|
ZICHAO YANG ET.AL: "Hierarchical Attention Networks for Document Classification", 《HTTPS://WWW.RESEARCHGATE.NET/PUBLICATION/305334401》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241377B (zh) * | 2018-08-30 | 2021-04-23 | 山西大学 | 一种基于深度学习话题信息增强的文本文档表示方法和装置 |
CN109241377A (zh) * | 2018-08-30 | 2019-01-18 | 山西大学 | 一种基于深度学习话题信息增强的文本文档表示方法和装置 |
CN109657226A (zh) * | 2018-09-20 | 2019-04-19 | 北京信息科技大学 | 多联结注意力的阅读理解模型、***及方法 |
CN109657226B (zh) * | 2018-09-20 | 2022-12-27 | 北京信息科技大学 | 多联结注意力的阅读理解模型、***及方法 |
CN110263343A (zh) * | 2019-06-24 | 2019-09-20 | 北京理工大学 | 基于短语向量的关键词抽取方法及*** |
CN110263343B (zh) * | 2019-06-24 | 2021-06-15 | 北京理工大学 | 基于短语向量的关键词抽取方法及*** |
CN110334189A (zh) * | 2019-07-11 | 2019-10-15 | 河南大学 | 基于长短时和自注意力神经网络的微博话题标签确定方法 |
CN110704715B (zh) * | 2019-10-18 | 2022-05-17 | 南京航空航天大学 | 一种网络霸凌的检测方法及*** |
CN110704715A (zh) * | 2019-10-18 | 2020-01-17 | 南京航空航天大学 | 一种网络霸凌的检测方法及*** |
CN110852070A (zh) * | 2019-10-25 | 2020-02-28 | 杭州费尔斯通科技有限公司 | 一种文档向量生成方法 |
CN111444337A (zh) * | 2020-02-27 | 2020-07-24 | 桂林电子科技大学 | 一种基于改进kl散度的话题跟踪方法 |
CN111444337B (zh) * | 2020-02-27 | 2022-07-19 | 桂林电子科技大学 | 一种基于改进kl散度的话题跟踪方法 |
CN112418525A (zh) * | 2020-11-24 | 2021-02-26 | 重庆邮电大学 | 社交话题群体行为的预测方法、装置及计算机存储介质 |
CN112700795A (zh) * | 2020-12-15 | 2021-04-23 | 深圳市声希科技有限公司 | 口语发音质量评价方法、装置、设备及存储介质 |
CN112712159A (zh) * | 2020-12-28 | 2021-04-27 | 广州市交通规划研究院 | 一种基于改进pso算法的lstm短时交通流预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460019A (zh) | 一种基于注意力机制的新兴热点话题检测*** | |
CN110134771B (zh) | 一种基于多注意力机制融合网络问答***的实现方法 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN107133213B (zh) | 一种基于算法的文本摘要自动提取方法与*** | |
CN109992648A (zh) | 基于词迁徙学习的深度文本匹配方法及装置 | |
CN109885670A (zh) | 一种面向话题文本的交互注意力编码情感分析方法 | |
CN109977416A (zh) | 一种多层次自然语言反垃圾文本方法及*** | |
CN110427461A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN107330049A (zh) | 一种新闻热度预估方法及*** | |
CN111061861B (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN111814454B (zh) | 一种社交网络上的多模态网络欺凌检测模型 | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
CN111241816A (zh) | 一种新闻标题自动生成方法 | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
CN110990564A (zh) | 一种基于情感计算与多头注意力机制的负面新闻识别方法 | |
CN109766544A (zh) | 基于lda和词向量的文档关键词抽取方法和装置 | |
CN108256968A (zh) | 一种电商平台商品专家评论生成方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN111914553B (zh) | 一种基于机器学习的金融信息负面主体判定的方法 | |
CN109325125B (zh) | 一种基于cnn优化的社交网络谣言检测方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN114595306A (zh) | 基于距离感知自注意力机制和多角度建模的文本相似度计算***及方法 | |
CN116578705A (zh) | 基于预训练语言模型与集成神经网络的微博情感分类方法 | |
CN113163234B (zh) | 一种基于第三方服务的盗版视频网站检测方法及*** | |
CN114298021A (zh) | 基于情感值选择评论的谣言检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180828 |