CN111581967B - 一种联合LW2V与Triplet网络的新闻主题事件检测方法 - Google Patents
一种联合LW2V与Triplet网络的新闻主题事件检测方法 Download PDFInfo
- Publication number
- CN111581967B CN111581967B CN202010374303.5A CN202010374303A CN111581967B CN 111581967 B CN111581967 B CN 111581967B CN 202010374303 A CN202010374303 A CN 202010374303A CN 111581967 B CN111581967 B CN 111581967B
- Authority
- CN
- China
- Prior art keywords
- news
- words
- word
- topic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种联合LW2V与Triplet网络的新闻主题事件检测方法,本发明利用Triplet网络在样本有限的条件下无监督的实现新闻聚类,在网络中提取新闻标题添加主题信息,通过新闻标题和新闻正文的信息交互联合学习对主题信息进一步强化,克服了传统聚类技术在实现新闻主题聚类的缺点与不足。本发明使用Triplet网络作为新闻主题聚类的基础架构,可以在样本数量有限的条件下直接对样本进行比较实现模型的训练。该网络打破深度学习无法实现无监督过程的瓶颈。同时克服了深度学习在大量样本条件下对模型进行训练的先决条件。
Description
【技术领域】
本发明属于电子信息技术领域,涉及一种联合LW2V与Triplet网络的新闻主题事件检测方法。
【背景技术】
随着网络技术日益发展、宽带运用逐渐推广以及国际网络化信息浪潮的推动,网络媒体如雨后春笋,在线新闻***式的增长,每天都有很多人对网上发布的新闻感兴趣,例如:案件办理者比较关注其所负责案件的新闻报道,某股票持有者密切关注于该股票的相关新闻。但人们从互联网得到的新闻往往是海量的、无序且碎片化的,想要从中快速获取到某一个热点事件的完整新闻线索与演化过程则存在一定的困难。因此,一个有效的新闻主题事件检测以及演化挖掘方法具有巨大的商业价值和应用价值。具体而言,对于普通民众来说,快速获取感兴趣的主题事件可以节省时间成本,满足民众需求。对于企业经营者来说,掌握本企业相关的新闻并对其中的信息流进行分析,有利于企业把握企业定位,合理规划企业未来发展动向。对于政府公职人员来说,对新闻进行主题事件检测可以帮助政府了解舆论动向,为政策的制定提供科学依据。
目前,主题事件检测方法主要有基于传统的聚类,基于主题模型和基于深度学习。基于传统聚类算法进行事件检测就是以文本的相似性为基础,将有相似特征的文本聚集在一起。其目的是使得同一聚簇的文本相似度极可能大,而不同聚簇的文本差异尽可能大。但该方法只能学习数据的线性映射,无法充分表达复杂的文本信息。基于主题模型的事件检测也就是基于隐含狄利克雷分布进行事件检测。LDA它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题以及主题分布后,便可以根据主题以及主题分布进行主题聚类或文本分类。LDA为统计概率模型,无法体现词语的位置信息以及词语与上下文之间的关系。基于深度学习进行主题事件检测可以反映词语在文本的位置以及语义信息,并且将输入数据映射到更容易分离的特征空间,也可以学习数据的非线性映射,相较于传统的聚类算法或者主题模型可以将数据转换成更适合集群的表示形式。基于深度学习进行聚类主要有结合特征提取与聚类过程的算法和基于标签比较的深度聚类算法,这些算法往往需要大量的数据或者预训练好的模型,而Triplet网络可以在样本量较少的条件下通过直接比较样本进行模型的学习,很好的克服了上述问题。Triplet网络进行主题事件检测存在两个问题:Triplet网络输入的是一个<候选样本X,同一主题的正样本x+,不同主题的负样本x->的三元组,三元组中的样本之间存在主题相关性,如何对主题信息未知的新闻数据构建三元组是需要考虑的首要问题。第二是利用Triplet网络进行文本特征提取时,一般的方法往往忽略了新闻标题可以反映新闻信息这一重要性;在对新闻正文进行特征抽取时,HAN利用注意力机制构建句子之间的相互影响来强调文本中的关键信息,新闻中的一些句子可能与新闻主题无关,只关注句子本身可能会给新闻的特征引入噪声。若对新闻进行主题信息标注则代价过大,使用LDA抽取主题信息来影响句子进行特征抽取则会引入无关词语从而弱化特征表示。这些问题在很大程度上会影响新闻主题聚类的准确性。
【发明内容】
本发明的目的在于解决现有技术中的问题,提供一种联合LW2V与Triplet网络的新闻主题事件检测方法。
为达到上述目的,本发明采用以下技术方案予以实现:
一种联合LW2V与Triplet网络的新闻主题事件检测方法,包括以下步骤:
阶段0:数据预处理
步骤0:对新闻正文中的每个句子利用分词工具将句子分解为单词序列,并去除停用词;将正文对应的标题利用分词工具将句子分解为单词序列,并去除停用词;
步骤1:对新闻数据的定义如下:对于新闻集News={report1,report2,…,reportZ}中每篇新闻报道包括正文以及对应的标题两部分,即Report={Body,Title};新闻正文由L个句子组成Body={s1,s2,…,sL},sl表示新闻正文中第l个句子,l∈[1,L];新闻正文中的每个句子由T个词语组成sl={wl1,wl2,…,wlT},wlt表示新闻正文中第l个句子中第t个词语,l∈[1,L],t∈[1,T],L*T=C;新闻的标题由D个词语组成Title={w1,w2,…,wD},其中,wd表示新闻标题中第d个词语,d∈[1,D];
阶段1:基于LW2V生成新闻三元组
步骤2:通过LDA挖掘出新闻集隐含的K个主题信息T={t1,t2,…,tK};对于每个主题,LDA能够得到主题-特征词的分布,对于每个主题,选取主题-特征词的前P个作为该主题信息的描述;前P个主题-特征词及分布表示为:
其中,表示为第k个主题下的第p个特征词,/>表示第k个主题下的第p个特征词的分布,w表示特征词,K表示主题的个数,P表示某个主题下特征词的个数;
步骤3:采用预训练的语言模型Word2Vec作为单词嵌入工具获取每个主题特征词情境化的嵌入语义表示
步骤4:将前P个主题词以及主题词的特征分布与主题特征词的嵌入表示进行加权求和得到主题特征向量:
其中,tk表示第k个主题,表示第k个主题下第p个特征词的分布,v()表示某个特征词的词向量;
步骤5:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻报道正文中每个词语的嵌入语义表示
步骤6:新闻报道的向量为新闻中单词向量的和平均,具体计算公式下:
其中,reportz为新闻集合中的第z篇新闻报道,表示为的形式;/>表示第z篇报道下的第c个词语;
步骤7:将新闻报道的向量分别与K个主题向量进行相似度计算,选取相似度最大的值所对应的主题作为该新闻报道的主题:
步骤8:对Triplet的输入三元组<x+,x,x->进行构建;对于候选新闻报道x,在与其同主题的新闻报道集合中随机选择一篇作为x+,在与其不同主题的新闻报道集合中随机选取一篇作为x-;
阶段2:新闻标题特征表示学习
步骤9:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻标题中单词情境化的嵌入语义表示:
xd=Word2Vec(wd),d∈[1,D] (5)
其中,xd表示该单词的词嵌入表示,wd表示新闻标题中第d个单词;
步骤10:将词语的嵌入表示输入双向GRU,通过从前向隐层状态到/>的前向传播和从/>到/>的后向传播对词语的信息进行汇总,最终得到含有上下文信息的词语向量;通过词嵌入以及前向传播和后向传播得到的结果如下:
给定新闻标题中任意一个词语wd,通过双向GRU获取该词语的前向隐层状态和后向隐层状态/>最终将两个隐层状态信息进行拼接得到新闻标题以词语wd为中心时的标题信息hd;
步骤11:使用注意力机制对词语赋予权重,最终将词语信息的表征聚合起来得到新闻标题的特征表示;
阶段3:新闻正文与标题交互依赖特征表示学习
步骤12:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻正文中每个句子下的单词情境化的嵌入语义表示:
xlt=Word2Vec(wlt),t∈[1,T] (12)
步骤13:利用双向GRU对词语进行编码得到隐层表示:
步骤14:使用注意力机制聚合词语的信息对新闻正文中的句子进行特征表示:
ult=tanh(wwhlt+bw) (16)
sl=∑tαlthlt (18)
步骤15:对于输入的句子特征表示si,通过双向GRU对句子进行编码:
步骤16:使用交互注意力机制来计算在标题特征影响下正文句子的特征表示,输入新闻隐层信息与句子的隐层信息/>进行计算;
阶段4:新闻特征表示学习
步骤17:通过以上两个阶段得到新闻标题的特征表示vtitle和新闻正文的特征表示vbody,新闻报道的特征由这两部分的特征表示拼接得到;
vreport=[vtitle,vbody] (25)
步骤18:新闻三元组<x+,x,x->通过Triplet网络的中的特征表示,分别得到Net(x+)、Net(x)和Net(x-);其中,x+与x属于同一主题,因此Net(x+)与Net(x)在空间距离中应该更加接近;而x-与x属于不同主题,因此Net(x-)与Net(x)空间距离中应该更加远离;应用L1对两个距离进行编码,并使用softmax函数进行距离的归一化,得到:
d+=dist(Net(x+),Net(x)) (26)
d-=dist(Net(x-),Net(x)) (27)
p(d+)=softmax(d+) (28)
p(d-)=softmax(d-) (29)
步骤19:基于同主题的新闻在空间上更加接近而不同主题的新闻更加远离的思想,构造的损失函数:
loss=|p(d+)|+|1-p(d-)| (30)。
本发明进一步的改进在于:
所述步骤11中,将词语信息的表征聚合起来得到新闻标题的特征表示的具方法如下:
ud=tanh(wtitlehd+btitle) (9)
vtitle=∑dαdhd (11)
将新闻标题中词语编码中的隐层状态信息hd作为注意力机制的输入,hd首先通过一个全连接层得到ud作为它的表示;其次,通过计算ud与词语水平的上下文向量utitle的相似度来判断新闻标题中不同词语的重要程度,并将该重要程度得分通过softmax函数进行归一化得到αd;其中,utitle在网络初始状态被随机初始化,并且在网络的训练过程中被联合的学习;最后,将新闻标题中词语的重要程度αd与词语的表征hd的加权和作为新闻标题的向量vtitle。
所述步骤16中,输入新闻隐层信息与句子的隐层信息/>进行计算的具体方法如下:
与现有技术相比,本发明具有以下有益效果:
本发明利用Triplet网络在样本有限的条件下无监督的实现新闻聚类,在网络中提取新闻标题添加主题信息,通过新闻标题和新闻正文的信息交互联合学习对主题信息进一步强化,克服了传统聚类技术在实现新闻主题聚类的缺点与不足,与现有技术相比,本发明具有以下有益的创新:
进一步的,本发明使用Triplet网络作为新闻主题聚类的基础架构,可以在样本数量有限的条件下直接对样本进行比较实现模型的训练。该网络打破深度学习无法实现无监督过程的瓶颈。同时克服了深度学习在大量样本条件下对模型进行训练的先决条件。
进一步的,本发明提出了LW2V算法初始化新闻的主题标签生成Triplet网络输入三元组。在通过LDA得到主题信息的同时,利用Word2Vec获取词语的位置信息,并得到基于上下文语境的词嵌入,克服了LDA基于统计的缺陷,同时也解决了Triplet网络输入主题相关三元组困难的问题。
进一步的,本发明创新性地提出了利用新闻标题的特征来表征新闻主题信息。新闻标题是新闻内容的高度概括,这一创新性的提出在新闻特征中很好的融入了主题信息。
进一步的,本发明使用了层次化的特征联合学习方法。利用HAN分别对词语以及句子进行特征编码,体现新闻层次化特性;在句子级注意力阶段充分的使新闻正文信息和新闻标题信息相结合,从而最大化的强调了正文中的主题信息。
【附图说明】
图1为本发明的架构图;
图2为本发明中提出的LW2V算法生成Triplet网络输入三元组图。
【具体实施方式】
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,不是全部的实施例,而并非要限制本发明公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要的混淆本发明公开的概念。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
在附图中示出了根据本发明公开实施例的各种结构示意图。这些图并非是按比例绘制的,其中为了清楚表达的目的,放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
本发明公开的上下文中,当将一层/元件称作位于另一层/元件“上”时,该层/元件可以直接位于该另一层/元件上,或者它们之间可以存在居中层/元件。另外,如果在一种朝向中一层/元件位于另一层/元件“上”,那么当调转朝向时,该层/元件可以位于该另一层/元件“下”。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合附图对本发明做进一步详细描述:
参见图1,本发明联合LW2V与Triplet网络的新闻主题事件检测方法,利用LW2V算法初始化新闻主题标签生成输入Triplet网络的三元组,在Triplet网络中通过T-HAN网络结构引入新闻正文的层次化关系、正文和新闻标题的信息交互以及特征联合学习,实现了对散乱新闻数据的按主题划分。本发明检测***包括四个模块:
基于LW2V初始化新闻主题标签。Triplet网络的输入为<与候选样本同主题的样本,候选样本,与候选样本不同主题的样本>主题相关的三元组,而原始新闻数据无主题标签,因此利用LW2V算法对新闻进行主题聚类,初始化新闻主题标签。
构造输入Triplet网络的三元组。利用新闻以及对应的新闻主题标签构造输入Triplet网络的三元组。
新闻标题表征学习。对输入的新闻数据,利用预训练的Word2Vec对标题中词语进行嵌入表示。输入嵌入表示通过双向GRU和注意力机制对新闻标题特征进行编码,添加新闻主题信息。
新闻正文表征学习。对输入的新闻数据,利用预训练的Word2Vec对正文中每个句子的词语进行嵌入表示。输入嵌入表示通过改进的HAN首先对正文进行词语级特征编码和自注意力,接下来进行句子级特征编码,并在句子级注意力机制使用特征联合学习以融合标题特征表示和正文特征表示,强调新闻主题信息;最后将标题特征与正文的拼接作为新闻特征,从而实现新闻主题特征提取的最优化。
本发明联合LW2V与Triplet网络的新闻主题事件检测方法,包括以下步骤:
阶段0:数据预处理
步骤0:将新闻正文以“。”为分隔符划分为句子,对每个句子利用分词工具将句子分解为单词序列,并去除停用词;将正文对应的标题利用分词工具将句子分解为单词序列,并去除停用词。
步骤1:对新闻数据的定义如下:对于新闻集News={report1,report2,...,reportZ}中每篇新闻报道包括正文以及对应的标题两部分,即Report={Body,Title};新闻正文由L个句子组成Body={s1,s2,...,sL},sl表示新闻正文中第l个句子,l∈[1,L];新闻正文中的每个句子由T个词语组成sl={wl1,wl2,...,wlT},wlt表示新闻正文中第l个句子中第t个词语,l∈[1,L],t∈[1,T],L*T=C;新闻的标题由D个词语组成Title={w1,w2,...,wD},其中wD表示新闻标题中第d个词语,d∈[1,D]。
阶段1:基于LW2V生成新闻三元组
步骤2:通过LDA挖掘出新闻集隐含的K个主题信息T={t1,t2,...,tK}。对于每个主题,LDA可以得到主题-特征词的分布,对于每个主题,选取主题-特征词的前P个作为该主题信息的描述。前P个主题-特征词及分布可以表示为:
其中,表示为第k个主题下的第p个特征词;/>表示第k个主题下的第p个特征词的分布。
步骤3:采用预训练的语言模型Word2Vec作为单词嵌入工具获取每个主题特征词情境化的嵌入语义表示
步骤4:将前P个主题词以及主题词的特征分布与主题特征词的嵌入表示进行加权求和得到主题特征向量:
步骤5:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻报道正文中每个词语的嵌入语义表示
步骤6:新闻报道的向量为新闻中单词向量的和平均,具体计算公式下:
其中,reportz为新闻集合中的第z篇新闻报道,可以表示为的形式;/>表示第z篇报道下的第c个词语。
步骤7:新闻报道的主题唯一,将新闻报道的向量分别与K个主题向量进行相似度计算,选取相似度最大的值所对应的主题作为该新闻报道的主题:
步骤8:对Triplet的输入三元组<x+,x,x->进行构建。对于候选新闻报道x,在与其同主题的新闻报道集合中随机选择一篇作为x+,在与其不同主题的新闻报道集合中随机选取一篇作为x-。该阶段具体的流程如图2所示。
阶段2:新闻标题特征表示学习
步骤9:嵌入层是模型的基础层,目的是将每个单词通过嵌入层映射到向量空间中,采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻标题中单词情境化的嵌入语义表示:
xd=Word2Vec(wd),d∈[1,D] (5)
步骤10:新闻标题中词语的编码。将词语的嵌入表示输入双向GRU,通过从到/>的前向传播和从/>到/>的后向传播对词语的信息进行汇总,最终得到含有上下文信息的词语向量。通过词嵌入以及前向传播和后向传播得到的结果如下:
给定新闻标题中任意一个词语wd,通过双向GRU可以获取到该词语的前向隐层状态和后向隐层状态/>最终将两个隐层状态信息进行拼接得到hd即为新闻标题以词语wd为中心时的标题信息。
步骤11:新闻标题中词语的注意力。无论是长文本还是短文本,文本中的词语对文本语义的贡献度都是不一样的。为了提取出标题中更加反映主题、对标题有重要意义的词语,使用注意力机制对不同的词语赋予不同的权重,最终将词语信息的表征聚合起来得到新闻标题的特征表示。具体计算过程如下:
ud=tanh(wtitlehd+btitle) (9)
vtitle=∑dαdhd (11)
将新闻标题中词语编码中的隐层状态信息hd作为注意力机制的输入,hd首先通过一个全连接层得到ud作为它的表示;其次,通过计算ud与词语水平的上下文向量utitle的相似度来判断新闻标题中不同词语的重要程度,并将该重要程度得分通过softmax函数进行归一化得到αd,其中,utitle在网络初始状态被随机初始化,并且在网络的训练过程中被联合的学习;最后,将新闻标题中词语的重要程度αd与词语的表征hd的加权和作为新闻标题的向量vtitle。
阶段3:新闻正文与标题交互依赖特征表示学习
步骤12:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻正文中每个句子下的单词情境化的嵌入语义表示:
xlt=Word2Vec(wlt),t∈[1,T] (12)
步骤13:新闻正文句子中词语的编码。利用双向GRU对词语进行编码得到隐层表示:
步骤14:新闻正文句子中词语的注意力。使用注意力机制聚合词语的信息对新闻正文中的句子进行特征表示。
ult=tanh(wwhlt+bw) (16)
sl=∑tαlthlt (18)
步骤15:新闻正文句子的编码。通过相同的方法获得新闻正文的特征表示。对于输入的句子特征表示si,通过双向GRU对句子进行编码。
步骤16:新闻正文句子的注意力。为了筛选出新闻正文中与主题高度相关的句子,在句子中突出主题的信息,使用交互注意力机制来计算在标题特征影响下正文句子的特征表示。输入新闻隐层信息与句子的隐层信息/>进行计算,具体公式如下:
阶段4:新闻特征表示学习
步骤17:通过以上两个阶段得到新闻标题的特征表示vtitle和新闻正文的特征表示vbody,新闻报道的特征由这两部分的特征表示拼接得到。
vreport=[vtitle,vbody] (25)
步骤18:新闻的距离编码。新闻三元组<x+,x,x->通过Triplet网络的中的特征表示,可以分别得到Net(x+)、Net(x)和Net(x-)。其中,x+与x属于同一主题,因此Net(x+)与Net(x)在空间距离中应该更加接近;而x-与x属于不同主题,因此Net(x-)与Net(x)空间距离中应该更加远离。应用L1对两个距离进行编码,并使用softmax函数进行距离的归一化,可以得到:
d+=dist(Net(x+),Net(x)) (26)
d=dist(Net(x-),Net(x)) (27)
p(d+)=softmax(d+) (28)
p(d-)=softmax(d-) (29)
步骤19:基于同主题的新闻在空间上更加接近而不同主题的新闻更加远离的思想,构造的损失函数如下:
loss=|p(d+)|+|1-p(d-)| (30)
本发明在10个主题事件与一些新的类似方法实验对比。观察实验结果可以看出,LW2V算法较其他类似算法对10个主题事件的聚类精度均最高,而在LW2V的基础上应用Triplet网络对新闻进行更充分的特征抽取,其结果均有提高。
联合LW2V与Triplet网络的新闻主题事件检测方法适应于网上环境,特别是基于新闻数据进行舆情分析的场景下。本发明实现了完全无监督的充分提取新闻特征,在新闻特征中很好的强调了新闻的主题信息,能够准确、高效的对网络新闻数据进行主题聚类。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。
Claims (3)
1.一种联合LW2V与Triplet网络的新闻主题事件检测方法,其特征在于,包括以下步骤:
阶段0:数据预处理
步骤0:对新闻正文中的每个句子利用分词工具将句子分解为单词序列,并去除停用词;将正文对应的标题利用分词工具将标题分解为单词序列,并去除停用词;
步骤1:对新闻数据的定义如下:对于新闻集中每篇新闻报道包括正文以及对应的标题两部分,即/>,/>;新闻正文由L个句子组成,即,/>表示新闻正文中第l个句子,/>;新闻正文中的每个句子由M个词语组成,即/>,/>表示新闻正文中第l个句子中第m个词语,/>,/>;新闻标题由D个词语组成,即,其中,/>表示新闻标题中第d个词语,/>;
阶段1:基于LW2V生成新闻三元组
步骤2:通过LDA挖掘出新闻集隐含的K个主题,即主题集;对于每个主题,LDA能够得到主题-特征词的分布,对于每个主题,选取主题-特征词的前P个作为该主题的描述;前P个主题-特征词及分布表示为:
其中,表示为第k个主题下的第p个特征词,/>表示第k个主题下的第p个特征词的分布,w表示特征词,K表示主题的个数;
步骤3:采用预训练的语言模型Word2Vec作为单词嵌入工具获取每个主题-特征词情境化的嵌入语义表示;
步骤4:将前P个主题-特征词以及主题-特征词的特征分布与主题-特征词的嵌入语义表示进行加权求和得到主题特征向量:
其中,表示第k个主题,/>表示第k个主题下第p个特征词的分布,/>表示某个特征词的词向量;
步骤5:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻报道正文中每个词语的嵌入语义表示;
步骤6:新闻报道的向量为新闻中单词向量的和平均,具体计算公式如下:
其中,为新闻集合中的第z篇新闻报道,表示为的形式;/>表示第z篇报道下的第c个词语,/>;
步骤7:将新闻报道的向量分别与K个主题向量进行相似度计算,选取相似度最大的值所对应的主题作为该新闻报道的主题:
步骤8:对Triplet的输入三元组进行构建;对于候选新闻报道x,在与其同主题的新闻报道集合中随机选择一篇作为/>,在与其不同主题的新闻报道集合中随机选取一篇作为/>;
阶段2:新闻标题特征表示学习
步骤9:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻标题中单词情境化的嵌入语义表示:
其中,表示新闻标题中第d个单词的词嵌入表示,/>表示新闻标题中第d个单词;
步骤10:将词语的嵌入表示输入双向GRU,通过从前向隐层状态到/>的前向传播和从后向隐层状态/>到/>的后向传播对词语的信息进行汇总,最终得到含有上下文信息的词语向量;通过词嵌入以及前向传播和后向传播得到的结果如下:
给定新闻标题中任意一个词语,通过双向GRU获取该词语的前向隐层状态/>和后向隐层状态/>,最终将两个隐层状态信息进行拼接操作/>,得到新闻标题以词语/>为中心时的标题隐层状态信息/>;
步骤11:使用注意力机制对词语赋予权重,最终将词语信息的表征聚合起来得到新闻标题的特征表示;
阶段3:新闻正文与标题交互依赖特征表示学习
步骤12:采用预训练的语言模型Word2Vec作为单词嵌入工具获取新闻正文中每个句子下的单词情境化的嵌入语义表示:
步骤13:利用双向GRU对词语进行编码得到隐层表示:
步骤14:使用注意力机制聚合词语的信息对新闻正文中的句子进行特征表示:
步骤15:对于输入的句子特征表示,通过双向GRU对句子进行编码:
步骤16:使用交互注意力机制来计算在标题特征影响下正文句子的特征表示,输入新闻标题隐层信息与句子的隐层信息/>进行计算;
阶段4:新闻特征表示学习
步骤17:通过阶段2和阶段3得到新闻标题的特征表示和新闻正文的特征表示,新闻报道的特征由这两部分的特征表示拼接得到;
步骤18:新闻三元组通过Triplet网络中的特征表示,分别得到、/>和/>;其中,/>与/>属于同一主题,因此/>与/>在空间距离中更加接近;而/>与/>属于不同主题,因此/>与/>在空间距离中更加远离;对两个距离进行编码,并使用softmax函数进行距离的归一化,得到:
步骤19:构造的损失函数:
2.根据权利要求1所述的联合LW2V与Triplet网络的新闻主题事件检测方法,其特征在于,所述步骤11中,将词语信息的表征聚合起来得到新闻标题的特征表示的具体方法如下:
将新闻标题中词语编码中的标题隐层状态信息作为注意力机制的输入,/>首先通过一个全连接层得到/>作为它的表示;其次,通过计算/>与新闻标题中词语的上下文向量的相似度来判断新闻标题中不同词语的重要程度,并将重要程度得分通过softmax函数进行归一化得到/>;其中,/>在网络初始状态被随机初始化,并且在网络的训练过程中被联合的学习;最后,将新闻标题中词语的重要程度/>与标题隐层状态信息/>的加权和作为新闻标题的向量/>。
3.根据权利要求1所述的联合LW2V与Triplet网络的新闻主题事件检测方法,其特征在于,所述步骤16中,输入新闻标题隐层信息与句子的隐层信息/>进行计算的具体方法如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010374303.5A CN111581967B (zh) | 2020-05-06 | 2020-05-06 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010374303.5A CN111581967B (zh) | 2020-05-06 | 2020-05-06 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581967A CN111581967A (zh) | 2020-08-25 |
CN111581967B true CN111581967B (zh) | 2023-08-11 |
Family
ID=72111977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010374303.5A Active CN111581967B (zh) | 2020-05-06 | 2020-05-06 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581967B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287105B (zh) * | 2020-09-30 | 2023-09-12 | 昆明理工大学 | 融合标题和正文双向互注意力的涉法新闻相关性分析方法 |
CN112347255B (zh) * | 2020-11-06 | 2021-11-23 | 天津大学 | 基于图网络的标题和正文结合的文本分类方法 |
CN112950414B (zh) * | 2021-02-25 | 2023-04-18 | 华东师范大学 | 一种基于解耦法律要素的法律文本表示方法 |
CN112967144B (zh) * | 2021-03-09 | 2024-01-23 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
CN113255344B (zh) * | 2021-05-13 | 2024-05-17 | 淮阴工学院 | 一种融合主题信息的关键词生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN101819573A (zh) * | 2009-09-15 | 2010-09-01 | 电子科技大学 | 一种自适应的网络舆情识别方法 |
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
KR20150040658A (ko) * | 2013-10-07 | 2015-04-15 | 주식회사 솔트룩스 | 주제 기반 기사 그룹화 시스템 |
-
2020
- 2020-05-06 CN CN202010374303.5A patent/CN111581967B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN101819573A (zh) * | 2009-09-15 | 2010-09-01 | 电子科技大学 | 一种自适应的网络舆情识别方法 |
CN102346766A (zh) * | 2011-09-20 | 2012-02-08 | 北京邮电大学 | 基于极大团发现的网络热点话题检测方法及装置 |
CN102646114A (zh) * | 2012-02-17 | 2012-08-22 | 清华大学 | 一种基于突破点的新闻话题时间线摘要生成方法 |
KR20150040658A (ko) * | 2013-10-07 | 2015-04-15 | 주식회사 솔트룩스 | 주제 기반 기사 그룹화 시스템 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络和K-means的中文新闻事件检测与主题提取;张秀华 等;《科学技术与工程》;20200131;第20卷(第3期);第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111581967A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581967B (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及*** | |
CN108984526A (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN112732916B (zh) | 一种基于bert的多特征融合模糊文本分类*** | |
CN111061843A (zh) | 一种知识图谱引导的假新闻检测方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN110807084A (zh) | 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法 | |
Probierz et al. | Rapid detection of fake news based on machine learning methods | |
CN112905739B (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
López et al. | Profiling Fake News Spreaders on Twitter. | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111753058A (zh) | 一种文本观点挖掘方法及*** | |
Moon et al. | Natural language processing based advanced method of unnecessary video detection | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN111159405B (zh) | 基于背景知识的讽刺检测方法 | |
CN115952292A (zh) | 多标签分类方法、装置及计算机可读介质 | |
Vahdat-Nejad et al. | Russia-ukraine war: Modeling and clustering the sentiments trends of various countries | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
Wu et al. | Inferring users' emotions for human-mobile voice dialogue applications | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification | |
CN113535928A (zh) | 基于注意力机制下长短期记忆网络的服务发现方法及*** | |
CN117668292A (zh) | 一种跨模态敏感信息识别方法 | |
Theophilo et al. | Explainable artificial intelligence for authorship attribution on social media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |