CN114722896A - 融合近邻标题图的新闻话题发现方法 - Google Patents

融合近邻标题图的新闻话题发现方法 Download PDF

Info

Publication number
CN114722896A
CN114722896A CN202210211576.7A CN202210211576A CN114722896A CN 114722896 A CN114722896 A CN 114722896A CN 202210211576 A CN202210211576 A CN 202210211576A CN 114722896 A CN114722896 A CN 114722896A
Authority
CN
China
Prior art keywords
news
topic
title
data
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210211576.7A
Other languages
English (en)
Inventor
余正涛
卢天旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210211576.7A priority Critical patent/CN114722896A/zh
Publication of CN114722896A publication Critical patent/CN114722896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及融合近邻标题图的新闻话题发现方法,属于自然语言处理领域。本发明包括:构建新闻话题数据集;使用Bert模型编码新闻标题,增强标题的表征,之后构建新闻近邻标题图优化相似标题的关联关系,通过多个图卷积层学习近邻标题图的表征,融入标题的关联结构信息,之后使用一种融合因子融合图卷积网络学习的标题全局特征和深度网络学习的新闻文档局部特征,最后使用指导模块统一指导两个模块优化参数。本发明通过融合标题的近邻关系并融入新闻文档的表征实现了质量较高的新闻表征,从获取的表征中聚类出话题簇,为后续任务提供了支撑。

Description

融合近邻标题图的新闻话题发现方法
技术领域
本发明涉及融合近邻标题图的新闻话题发现方法,属于自然语言处理技术领域。
背景技术
新闻具有特殊性,每一篇新闻文档和标题都包含了案件要素,在描述同一案件的不同话题下有很多要素相近的新闻文档和标题,如果让人来通过肉眼识别这些不同话题下的新闻比较容易区分,但是如果表征质量不高,计算机很难做到人的识别准确率。Sun等人通过改进的Single-Pass增量文本聚类算法,在相似度的计算中添加了时间因素,以话题为粒度对新闻信息进行组织,实现网络新闻话题的发现;Hu等人在基于LDA主题模型的狄利克雷过程混合模型(DPM-M)的基础上融入先验知识改进话题发现的性能;Li等人提出了一种基于LDA的分层分类模型作为特征提取技术来提取潜在主题以减少数据稀疏的影响,并构建与语料库相关的主题特征向量,为稀有类别训练更健壮的分类模型。然而已有的话题发现方法中,对于同一案件下的新闻文档建模,捕获的主题信息和主题词由于相似度过高而被归为同一个主题下,同样不能够很好地区分同一案件不同话题下的新闻文档。如何既考虑到同一案件话题下新闻文档的联系,又考虑到具有相似案件要素的新闻文档的区别是领域新闻的话题发现任务有待解决的难题之一。
发明内容
本发明提供了融合近邻标题图的新闻话题发现方法,构造出相似标题的关联关系,同时为避免仅有标题的偏置和噪声数据影响,把文档的特征加入到标题的编码过程中去,引入指导模块使模型的两部分向同一方向更新迭代参数,提升新闻话题发现任务的性能。
本发明的技术方案是:融合近邻标题图的新闻话题发现方法,所述方法的具体步骤如下:
Step1、通过爬虫技术爬取近年来如“百度新闻”、“新浪新闻”等各大新闻网站的热点案件舆情新闻,选取了“某维权案”等十余个网民关注度较高的案件的共计17889 条相关新闻进行新闻话题数据集的构建。通过对爬取的新闻进行分析使每条新闻只属于一个案件话题,人工标注新闻与哪个案件话题相关,经过数据筛选和预处理,保存为json格式的文件。
Step2、通过在话题发现的过程中引入标题的关联关系,构建近邻标题图,通过图卷积网络提取标题的全局特征;为避免噪声数据的影响,同时使用深度网络提取新闻文档的局部特征,加入到标题的编码过程中去,从而更好地实现话题新闻聚类。
所述步骤Step1的具体步骤为:
Step1.1、通过爬虫技术爬取各大新闻网站和公众号平台近年来的重点新闻,选取了“奔维权案”、等十余个网民关注度较高的案件话题新闻共计17889条;
Step1.2、数据的筛选和预处理过程包括对新闻数据和案件话题相关性的人工校准,去除非案件话题相关的数据和重复的数据,去除特殊符号和链接等;
Step1.3、采用人工标注,获得新闻话题数据集;通过对爬取的新闻进行分析使每条新闻只属于一个案件话题,人工标注新闻与哪个案件话题相关。
作为本发明的优选方案,所述Step2的具体步骤如下:
Step2.1、编码新闻话题数据集中标题部分,通过Bert预训练模型训练完成后能够获得标题的表示,以便接下来构建近邻标题图;
Step2.2、采用K近邻算法构建新闻近邻标题图来提取新闻标题的全局特征;
Step2.3、提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;
Step2.4、构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中;通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中;
Step2.5、将Step2.3和Step2.4进行聚类优化训练,经过训练达到稳定后,将图卷积网络最终输出的聚类分布作为新闻话题发现的最终结果。
作为本发明的优先方案,所述Step2.1具体包括:
Bert模型是由多个transformer模型组合而成的,其训练方式分为两个任务:其一是随机选择15%的词用于预测,其中80%采用MASK符号遮盖,10%用随机词替换,其余保持不变,这使得模型倾向于依赖上下文来预测词汇,具备一定的纠错能力;其二是预测两句话是否为连贯文本,因此Bert模型在结束训练后能够获得新闻标题的单词表示和句子表示;
具体如下,设新闻话题集中标题Title样本数为N,Title={title1,title2,…,titleN},每条新闻标题长度为S,E={e1,e2,…,es}为每条标题中词的集合,将标题的词向量输入到Bert模型中进行编码,得到每条标题的向量表示,将所有的标题词向量输入到Bert模型中编码,最终得到融合语义信息后的标题向量表示T,T={T1,T2,…,TN}。
作为本发明的优先方案,所述Step2.2具体包括:
设标题数据T∈RN×a,其中每行Ti代表第i个标题样本,N是样本数,a代表维度;对于每个标题样本,首先找到它的前K个相似度最高的邻居作为邻居节点,并通过边来连接,以构成近邻标题图;利用向量的点积运算来计算任意两个新闻标题之间的相似度矩阵Sij,它是一个N×N维矩阵;
Figure RE-GDA0003685366130000031
对于任意两个标题节点ti和tj,令wij为节点之间的权重;如果节点之间有边相连,则wij>0,若没有边相连,则wij=0;由于构建的近邻标题图是无向权重图,因此wij=wji;图中任意节点的度为和它连接的所有边的权重之和;
Figure RE-GDA0003685366130000032
通过计算每个节点的度,得到一个只有主对角线有值的节点度矩阵D∈RN×N
Figure RE-GDA0003685366130000033
主对角线的值表示第i行第i个点的度数,计算所有节点之间的权重,得到N×N 维的邻接矩阵M,其第i行第j个元素就是权重wij,wij=sij
作为本发明的优先方案,所述Step2.3具体包括:
采用文档特征提取模块提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;
自编码器是一种表示模型,利用输入数据作为参考,不利用标签监督,以用来提取特征和降维;自编码器将输入映射到特征空间,再映射回输入空间进行数据重构;设自编码器有L层,编码器学到的第L层的表示为H(L)
H(l)=σ(Wenc (l)H(l-1)+benc (l)) (4)
其中σ为relu函数,Wenc (l)为编码器中第l层的变换矩阵,benc (l)为偏置,H(0)表示为原始文档数据X;
解码器部分将特征映射回输入空间,得到原始数据的重构
Figure RE-GDA0003685366130000034
H(l)=σ(Wdec (l)H(l-1)+bdec (l)) (5)
Wdec (l)为解码器中第l层的变换矩阵,bdec (l)为偏置,重构数据
Figure RE-GDA0003685366130000041
文档特征提取模块的损失函数为
Figure RE-GDA0003685366130000042
Figure RE-GDA0003685366130000043
通过最小化重构误差和梯度下降算法不断优化网络参数进行训练。
作为本发明的优先方案,所述Step2.4具体包括:
进行标题全局特征的提取:
构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中,图卷积网络第l层提取的表示通过卷积运算得到;
Figure RE-GDA0003685366130000044
其中
Figure RE-GDA0003685366130000045
为归一化的拉普拉斯矩阵,
Figure RE-GDA0003685366130000046
I 为邻接矩阵M的单位对角阵,D为节点度矩阵,
Figure RE-GDA0003685366130000047
将图卷积网络学到的前一层表示U(l-1)向下一层传播得到新的表示U(l)
为了使图卷积网络学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征,将两种表示U(l-1)和H(l-1)通过融合因子结合在一起,得到一种更全面的数据表示;
Figure RE-GDA0003685366130000048
α是平衡两种表示的权重系数,通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中,融合两种表示后,将
Figure RE-GDA0003685366130000049
输入到图卷积网络中得到表示U(l)
Figure RE-GDA00036853661300000410
以此类推得到图卷积网络最后一层输出的表示U(L);网络的输出端连接了一个softmax多分类器,最终输出的结果为分布U;
Figure RE-GDA00036853661300000411
得到的结果U是一个概率分布,其元素uij表示新闻样本i属于簇中心j的概率;
作为本发明的优先方案,所述Step2.5具体包括:
通过指导模块将文档特征提取模块和标题全局特征提取模块统一到一个框架中同时进行端到端的聚类优化训练;其中,文档特征提取模块用于提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;标题全局特征提取模块用于:构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中;通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中;
对于第i个样本和第j个簇,引用自由度为1的student-t分布作为核函数衡量自编码器的表示hi和簇心μi之间的距离;
Figure RE-GDA0003685366130000051
其中hi是表示H(L)的第i行,μi是经过K-means算法初始化后的簇心,将qij视为文档样本i被分配到簇j的概率,Q即为所有文档样本分配到簇的分布;
为了得到高置信度的分配来迭代聚类结果,提高聚类准确度,构造一个目标分布P来辅助模型训练;
Figure RE-GDA0003685366130000052
在目标分布P中,每一个在文档样本分配分布Q中的聚类分配都被先平方再归一化处理,这样获得更高置信度的聚类分配,迫使簇内的样本更加接近簇心,簇与簇间的距离最大化,分配更加清晰。指导模块的损失函数之一为分布Q和目标分布 P之间的KL散度损失;
Figure RE-GDA0003685366130000053
通过最小化损失函数更新参数,目标分布
Figure RE-GDA0003685366130000054
使自编码器学习到更接近簇心的样本文档聚类表示;
为了使标题全局特征提取模块和文档局部特征提取模块在训练迭代过程中趋于一致,需要将两个模块统一在同一目标分布中,因此使用目标分布P指导图卷积网络输出的蕴含标题全局特征的样本分布U,指导模块的损失函数之二为分布U和目标分布P之间的KL散度损失;
Figure RE-GDA0003685366130000061
通过指导模块的不同权重参数将两种不同表示的聚类分配统一在同一个损失函数中,模型的整体损失函数为
Figure RE-GDA0003685366130000062
Figure RE-GDA0003685366130000063
Figure RE-GDA0003685366130000064
为平衡损失函数一和损失函数二的权重参数;整个模型经过训练达到稳定后,将图卷积网络最终输出的聚类分布U作为新闻话题发现的最终结果。
进一步地,通过预先训练的Bert中文语料库来表征新闻话题数据集中的标题,词表为Bert模型自带词表,Bert模型包含12层transformer网络,每层网络包含12 个注意力头,模型参数为110M,隐藏层维数为768;文档特征提取模块中自编码器的维数为“输入-768-768-2000-10”,标题全局特征提取模块中图卷积层尺寸与自编码器相同,近邻标题图中K的个数取值为10,话题簇初始簇心由K-means算法经过20 次初始化获得,融合因子中平衡参数α设置为0.5;模型训练轮次为200,学习率为 1e-3,优化器采用Adam。
本发明的有益效果是:
(1)针对新闻话题发现,如何既考虑到同一案件话题下新闻文档的联系,又考虑到具有相似案件要素的新闻文档的区别,同时如何得到高质量的新闻文档和标题的表征,提出一种联合新闻标题和新闻文档的表征进行话题建模的方法,设计了一个融合近邻标题关联关系图的话题模型来改进话题发现任务的准确性;
(2)提出的融合因子可以使学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征,从而提升模型的表征效果;
(3)使用指导模块将标题全局特征提取模块和文档特征提取模块统一到同一个框架中同时进行端到端的聚类优化训练,以提升话题簇的内聚性。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,融合近邻标题图的新闻话题发现方法,所述方法的具体步骤如下:
Step1、通过爬虫技术爬取近年来如“百度新闻”、“新浪新闻”等各大新闻网站的热点案件舆情新闻,选取了“某维权案”等十余个网民关注度较高的案件的共计17889 条相关新闻进行新闻话题数据集的构建。通过对爬取的新闻进行分析使每条新闻只属于一个案件话题,人工标注新闻与哪个案件话题相关,经过数据筛选和预处理,保存为json格式的文件。
Step1.1、通过爬虫技术爬取各大新闻网站和公众号平台近年来的重点新闻,选取了“奔维权案”等十余个网民关注度较高的案件话题新闻共计17889条;
Step1.2、数据的筛选和预处理过程包括对新闻数据和案件话题相关性的人工校准,去除非案件话题相关的数据和重复的数据,去除特殊符号和链接等;
Step1.3、采用人工标注,获得新闻话题数据集;通过对爬取的新闻进行分析使每条新闻只属于一个案件话题,人工标注新闻与哪个案件话题相关。实验数据集规模如表1所示:
表1实验数据集统计信息
Figure RE-GDA0003685366130000071
Step2、通过在话题发现的过程中引入标题的关联关系,构建近邻标题图,通过图卷积网络提取标题的全局特征;为避免噪声数据的影响,同时使用深度网络提取新闻文档的局部特征,加入到标题的编码过程中去,从而更好地实现话题新闻聚类。
Step2.1、标题编码模块用于编码新闻话题数据集中标题部分,通过Bert预训练模型训练完成后能够获得标题的表示,以便接下来构建近邻标题图。Bert模型是由多个transformer模型组合而成的,其训练方式分为两个任务:其一是随机选择15%的词用于预测,其中80%采用MASK符号遮盖,10%用随机词替换,其余保持不变,这使得模型倾向于依赖上下文来预测词汇,具备一定的纠错能力;其二是预测两句话是否为连贯文本。因此Bert模型在结束训练后能够获得新闻标题的单词表示和句子表示。
具体如下,设新闻话题集中标题Title数量为N,Title={title1,title2,…,titleN},每条新闻标题长度为S,E={e1,e2,…,eS}为每条标题中词的集合,将标题的词向量输入到Bert模型中进行编码,可以得到每条标题的向量表示,将所有的标题词向量输入到Bert模型中编码,最终得到融合语义信息后的标题向量表示T,T={T1,T2,…,TN}。
Step2.2、近邻标题图构建模块采用K近邻算法构建新闻近邻标题图来提取新闻标题的全局特征。设标题数据T∈RN×a,其中每行Ti代表第i个标题样本,N是样本数,a代表维度。对于每个标题样本,首先找到它的前K个相似度最高的邻居作为邻居节点,并通过边来连接,以构成近邻标题图。利用向量的点积运算来计算任意两个新闻标题之间的相似度矩阵Sij,它是一个N×N维矩阵。
Figure RE-GDA0003685366130000081
对于任意两个标题节点ti和tj,令wij为节点之间的权重。如果节点之间有边相连,则wij>0,若没有边相连,则wij=0。由于我们构建的近邻标题图是无向权重图,因此wij=wji。图中任意节点的度为和它连接的所有边的权重之和。
Figure RE-GDA0003685366130000082
通过计算每个节点的度,得到一个只有主对角线有值的节点度矩阵D∈RN×N
Figure RE-GDA0003685366130000083
主对角线的值表示第i行第i个点的度数。计算所有节点之间的权重,得到N×N 维的邻接矩阵M,其第i行第j个元素就是权重wij,wij=sij
Step2.3、文档特征提取模块的作用是提取新闻话题数据集中文档的局部特征,本发明使用深度神经网络自编码器来学习有效的数据表示。自编码器是一种表示模型,利用输入数据作为参考,不利用标签监督,以用来提取特征和降维。自编码器将输入映射到特征空间,再映射回输入空间进行数据重构。设自编码器有L层,编码器学到的第L层的表示为H(l)
H(l)=σ(Wenc (l)H(l-1)+benc (l)) (4)
其中σ为relu函数,Wenc (l)为编码器中第l层的变换矩阵,benc (l)为偏置。H(0)表示为原始文档数据X。
解码器部分将特征映射回输入空间,得到原始数据的重构
Figure RE-GDA0003685366130000084
H(l)=σ(Wdec (l)H(l-1)+bdec (l)) (5)
Wdec (l)为解码器中第l层的变换矩阵,bdec (l)为偏置,重构数据
Figure RE-GDA0003685366130000085
文档特征提取模块的损失函数为
Figure RE-GDA0003685366130000091
Figure RE-GDA0003685366130000092
通过最小化重构误差和梯度下降算法不断优化网络参数进行训练。
Step2.4、构建的近邻标题图蕴含了大量的标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中,这样模型就可以同时提取到数据的两种不同特征。图卷积网络第l层提取的表示通过卷积运算得到。
Figure RE-GDA0003685366130000093
其中
Figure RE-GDA0003685366130000094
为归一化的拉普拉斯矩阵,
Figure RE-GDA0003685366130000095
I 为邻接矩阵M的单位对角阵,D为节点度矩阵。
Figure RE-GDA0003685366130000096
将图卷积网络学到的前一层表示U(l-1)向下一层传播得到新的表示U(l)
为了使图卷积网络学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征,将两种表示U(l-1)和H(l-1)通过融合因子结合在一起,得到一种更全面的数据表示。
Figure RE-GDA0003685366130000097
α是平衡两种表示的权重系数,通过融合因子逐层连接自编码器和图卷积网络可以将文档的局部特征有效融合到标题的全局特征中。融合两种表示后,将
Figure RE-GDA0003685366130000098
输入到图卷积网络中得到表示U(l)
Figure RE-GDA0003685366130000099
以此类推得到图卷积网络最后一层输出的表示U(L)。网络的输出端连接了一个softmax多分类器,最终输出的结果为分布U。
Figure RE-GDA00036853661300000910
模型得到的结果U是一个概率分布,其元素uij表示新闻样本i属于簇中心j的概率。
Step2.5、指导模块将文档特征提取模块和标题全局特征提取模块统一到一个框架中同时进行端到端的聚类优化训练。
对于第i个样本和第j个簇,引用自由度为1的student-t分布作为核函数衡量自编码器的表示hi和簇心μi之间的距离。
Figure RE-GDA0003685366130000101
其中hi是表示H(L)的第i行,μi是经过K-means算法初始化后的簇心。我们将qij视为文档样本i被分配到簇j的概率,Q即为所有文档样本分配到簇的分布。
为了得到高置信度的分配来迭代聚类结果,提高聚类准确度,构造一个目标分布P来辅助模型训练。
Figure RE-GDA0003685366130000102
在目标分布P中,每一个在文档样本分配分布Q中的聚类分配都被先平方再归一化处理,这样可以获得更高置信度的聚类分配,迫使簇内的样本更加接近簇心,簇与簇间的距离最大化,分配更加清晰。指导模块的损失函数之一为分布Q和目标分布P之间的KL散度损失。
Figure RE-GDA0003685366130000103
通过最小化损失函数更新参数,目标分布P使自编码器学习到更接近簇心的样本文档聚类表示。
为了使标题全局特征提取模块和文档局部特征提取模块在训练迭代过程中趋于一致,需要将两个模块统一在同一目标分布中,因此也可以使用目标分布P指导图卷积网络输出的蕴含标题全局特征的样本分布U。指导模块的损失函数之二为分布U 和目标分布P之间的KL散度损失。
Figure RE-GDA0003685366130000104
通过指导模块的不同权重参数可以将两种不同表示的聚类分配统一在同一个损失函数中,模型的整体损失函数为
Figure RE-GDA0003685366130000105
Figure RE-GDA0003685366130000106
为平衡损失函数一和损失函数二的权重参数。整个模型经过训练达到稳定后,可以将图卷积网络最终输出的聚类分布U作为新闻话题发现的最终结果。
Step2.6、通过预先训练的Bert中文语料库来表征新闻话题数据集中的标题,词表为Bert模型自带词表,Bert模型包含12层transformer网络,每层网络包含12个注意力头,模型参数为110M,隐藏层维数为768;文档特征提取模块中自编码器的维数为“输入-768-768-2000-10”,标题全局特征提取模块中图卷积层尺寸与自编码器相同,近邻标题图中K的个数取值为10,话题簇初始簇心由K-means算法经过20 次初始化获得,融合因子中平衡参数设置为0.5;模型训练轮次为200,学习率为 1e-3,优化器采用Adam。
为了说明本发明的效果,设置了3组对比实验。第一组实验验证话题发现性能的提升,第二组实验验证本发明模型的有效性,第三组实验验证不同融合因子权重系数对模型有效性的影响。
(1)话题发现性能提升验证
在基线模型中分别使用step1构建的新闻话题数据集作为模型输入进行对比实验,选取5个模型作为基准模型,分别为:经典K-means算法,AE+Kmeans,DEC,DCN, IDEC,实验结果如表2所示。
表2基线模型的性能比较
Figure RE-GDA0003685366130000111
分析表2可知,本发明方法与其他基准模型相比取得了更优的性能,与IDEC基线模型相比准确率(ACC)提升了7.06%,标准化互信息(NMI)提升了6.15%,调整兰德系数(ARI)提升了8.26%。这是因为基线方法在做新闻话题发现任务时,通常只着重提取文档自身的局部特征,而同一新闻不同话题下的新闻文档包含了许多相似案件要素信息,基线方法不能很好地区分。本发明的模型利用图卷积网络提取了近邻标题间的关联关系,并将其与文档的局部特征融合起来以增强标题的表示,从而实现话题建模更好的效果。这也证明了通过融入近邻标题图,联合标题与文档进行话题建模是有效的。本发明模型在三个性能指标都达到最优结果,表明本发明的有效性。
(2)模型有效性验证
为了验证本发明模型各个模块的有效性,将模型拆解为标题全局特征模块-指导模块和文档特征模块-指导模块两个子模型,三个评价指标保持不变,最优结果用加粗表示。测试结果如表3所示:
表3简化模型性能分析
Figure RE-GDA0003685366130000121
分析表3可知,本发明的主模型,即使用标题特征与文档特征结合起来建模,效果提升明显。去除模型中的标题特征部分,只利用文档局部特征和指导模块进行建模效果最差,虽然文档中包含了大量的案件要素信息,但是同一案件下不同话题的新闻文档要素有很多相似之处,噪声数据多,容易出现同一案件下划分为同一话题簇的数据却本该属于不同话题,或属于同一类型的案件却不是同一案件的情况。只利用标题全局特征和指导模块建模,效果比仅用文档特征要好一些,因为模型提取到了近邻标题间的结构关系,但是由于标题篇幅的限制,所涵盖案件话题信息的内容有限,容易出现标题的信息偏置。可见,在获取新闻之间的关联关系的基础上,同时引入文档表征增强标题的表示避免偏置可以更好地实现新闻话题发现,这也从侧面验证了本发明的有效性。
(3)不同融合因子权重系数对模型有效性的影响验证
为了验证调整融合因子的权重系数α是否对模型性能有提升,本发明做了如下实验。取步长为0.2的多个α值分别做对比实验,最优的一组实验结果加粗表示。测试结果如表4所示:
表4不同融合因子权重系数对模型有效性的影响分析
Figure RE-GDA0003685366130000122
分析表4可知,当α取0.5时,本发明模型达到了最好的效果,而当α取值比 0.5大或者比0.5小时,模型的性能都有所下降。因为α是融合因子的平衡权重系数,起到平衡标题全局特征和文档局部特征的作用。当α过大时,文档的局部特征权重就被削弱,模型只能学***滑,同时模型失去了自编码器的重构损失,新闻话题发现的准确性会降低;当α过小时,标题的全局特征权重被削弱,模型学习到的表征几乎全部来自文档自身,相似要素不能得到很好的区分,新闻话题发现的准确性同样会降低。因此,将融合因子的权重系数α设置为0.5可以很好地融合两种特征,也印证了本发明的有效性。
通过以上实验数据证明了本发明融合近邻标题图,联合新闻标题和文档的表征进行话题建模,构造出相似标题的关联关系,同时为避免仅有标题的偏置和噪声数据影响,把文档的特征加入到标题的编码过程中去,引入指导模块使模型的两部分向同一方向更新迭代参数能够有效的进行新闻表征,提高新闻话题发现任务的聚类准确性。实验表明本发明的方法相比多个基线模型取得了最优的效果。针对新闻话题发现任务,本发明提出的一种融合近邻标题图的新闻话题发现方法对领域新闻话题发现性能提升是有效的。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.融合近邻标题图的新闻话题发现方法,其特征在于:所述方法的具体步骤包括:
Step1、通过爬虫技术爬取热点案件舆情新闻,选取相关新闻进行新闻话题数据集的构建;通过对爬取的新闻进行分析使每条新闻只属于一个案件话题,人工标注新闻与哪个案件话题相关,经过数据筛选和预处理;
Step2、通过在话题发现的过程中引入标题的关联关系,构建近邻标题图,通过图卷积网络提取标题的全局特征;为避免噪声数据的影响,同时使用深度网络提取新闻文档的局部特征,加入到标题的编码过程中去,从而更好地实现话题新闻聚类。
2.根据权利要求1所述的融合近邻标题图的新闻话题发现方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、通过爬虫技术爬取各大新闻网站和公众号平台近年来的重点新闻;
Step1.2、对爬取的数据进行筛选和预处理;数据的筛选和预处理过程包括对新闻数据和案件话题相关性的人工校准,去除非案件话题相关的数据和重复的数据,去除特殊符号和链接;
Step1.3、采用人工标注,获得新闻话题数据集;通过对爬取的新闻进行分析使每条新闻只属于一个案件话题,人工标注新闻与哪个案件话题相关。
3.根据权利要求1所述的融合近邻标题图的新闻话题发现方法,其特征在于:所述Step2的具体步骤如下:
Step2.1、编码新闻话题数据集中标题部分,通过Bert预训练模型训练完成后能够获得标题的表示,以便接下来构建近邻标题图;
Step2.2、采用K近邻算法构建新闻近邻标题图来提取新闻标题的全局特征;
Step2.3、提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;
Step2.4、构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中;通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中;
Step2.5、将Step2.3和Step2.4进行聚类优化训练,经过训练达到稳定后,将图卷积网络最终输出的聚类分布作为新闻话题发现的最终结果。
4.根据权利要求3所述的融合近邻标题图的新闻话题发现方法,其特征在于:所述Step2.1具体包括:
Bert模型是由多个transformer模型组合而成的,其训练方式分为两个任务:其一是随机选择15%的词用于预测,其中80%采用MASK符号遮盖,10%用随机词替换,其余保持不变,这使得模型倾向于依赖上下文来预测词汇,具备一定的纠错能力;其二是预测两句话是否为连贯文本,因此Bert模型在结束训练后能够获得新闻标题的单词表示和句子表示;
具体如下,设新闻话题集中标题Title数量为N,Title={title1,title2,…,titleN},每条新闻标题长度为S,E={e1,e2,…,es}为每条标题中词的集合,将标题的词向量输入到Bert模型中进行编码,得到每条标题的向量表示,将所有的标题词向量输入到Bert模型中编码,最终得到融合语义信息后的标题向量表示T,T={T1,T2,…,TN}。
5.根据权利要求3所述的融合近邻标题图的新闻话题发现方法,其特征在于:所述Step2.2具体包括:
设标题数据T∈RN×a,其中每行Ti代表第i个标题样本,N是样本数,a代表维度;对于每个标题样本,首先找到它的前K个相似度最高的邻居作为邻居节点,并通过边来连接,以构成近邻标题图;利用向量的点积运算来计算任意两个新闻标题之间的相似度矩阵Sij,它是一个N×N维矩阵;
Figure RE-FDA0003685366120000021
对于任意两个标题节点ti和tj,令为wij为节点之间的权重;如果节点之间有边相连,则wij>0,若没有边相连,则wij=0;由于构建的近邻标题图是无向权重图,
因此wij=wji;图中任意节点的度为和它连接的所有边的权重之和;
Figure RE-FDA0003685366120000022
通过计算每个节点的度,得到一个只有主对角线有值的节点度矩阵D∈RN×N
Figure RE-FDA0003685366120000023
主对角线的值表示第i行第i个点的度数,计算所有节点之间的权重,得到N×N维的邻接矩阵M,其第i行第j个元素就是权重wij,wij=sij
6.根据权利要求3所述的融合近邻标题图的新闻话题发现方法,其特征在于:所述Step2.3具体包括:
采用文档特征提取模块提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;
自编码器是一种表示模型,利用输入数据作为参考,不利用标签监督,以用来提取特征和降维;自编码器将输入映射到特征空间,再映射回输入空间进行数据重构;设自编码器有L层,编码器学到的第L层的表示为H(L)
H(l)=σ(Wenc (l)H(l-1)+benc (l)) (4)
其中σ为relu函数,Wenc (l)为编码器中第l层的变换矩阵,benc (l)为偏置,H(0)表示为原始文档数据X;
解码器部分将特征映射回输入空间,得到原始数据的重构
Figure RE-FDA0003685366120000031
H(l)=σ(Wdec (l)H(l-1)+bdec (l)) (5)
Wdec (l)为解码器中第l层的变换矩阵,benc (l)为偏置,重构数据
Figure RE-FDA0003685366120000032
文档特征提取模块的损失函数为
Figure RE-FDA0003685366120000033
Figure RE-FDA0003685366120000034
通过最小化重构误差和梯度下降算法不断优化网络参数进行训练。
7.根据权利要求3所述的融合近邻标题图的新闻话题发现方法,其特征在于:所述Step2.4具体包括:
进行标题全局特征的提取:
构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中,图卷积网络第l层提取的表示通过卷积运算得到;
Figure RE-FDA0003685366120000035
其中
Figure RE-FDA0003685366120000036
为归一化的拉普拉斯矩阵,
Figure RE-FDA0003685366120000037
I为邻接矩阵M的单位对角阵,D为节点度矩阵,
Figure RE-FDA0003685366120000038
将图卷积网络学到的前一层表示U(l-1)向下一层传播得到新的表示U(l)
为了使图卷积网络学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征,将两种表示U(l-1)和H(l-1)通过融合因子结合在一起,得到一种更全面的数据表示
Figure RE-FDA0003685366120000041
Figure RE-FDA0003685366120000042
α是平衡两种表示的权重系数,通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中,融合两种表示后,将
Figure RE-FDA0003685366120000043
输入到图卷积网络中得到表示U(l)
Figure RE-FDA0003685366120000044
以此类推得到图卷积网络最后一层输出的表示U(L);网络的输出端连接了一个softmax多分类器,最终输出的结果为分布U;
Figure RE-FDA0003685366120000045
得到的结果U是一个概率分布,其元素uij表示新闻样本i属于簇中心j的概率;
8.根据权利要求3所述的融合近邻标题图的新闻话题发现方法,其特征在于:所述Step2.5具体包括:
通过指导模块将文档特征提取模块和标题全局特征提取模块统一到一个框架中同时进行端到端的聚类优化训练;其中,文档特征提取模块用于提取新闻话题数据集中文档的局部特征,使用深度神经网络自编码器来学习有效的数据表示;标题全局特征提取模块用于:构建的近邻标题图蕴含了标题全局结构信息,使用图卷积网络提取近邻标题图中的结构特征,并将自编码器提取到的文档局部特征集成到图卷积网络中;通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中;
对于第i个样本和第j个簇,引用自由度为1的student-t分布作为核函数衡量自编码器的表示hi和簇心μi之间的距离;
Figure RE-FDA0003685366120000046
其中hi是表示H(L)的第i行,μi是经过K-means算法初始化后的簇心,将qij视为文档样本i被分配到簇j的概率,Q即为所有文档样本分配到簇的分布;
为了得到高置信度的分配来迭代聚类结果,提高聚类准确度,构造一个目标分布P来辅助模型训练;
Figure RE-FDA0003685366120000051
在目标分布P中,每一个在文档样本分配分布Q中的聚类分配都被先平方再归一化处理,这样获得更高置信度的聚类分配,迫使簇内的样本更加接近簇心,簇与簇间的距离最大化,分配更加清晰。指导模块的损失函数之一为分布Q和目标分布P之间的KL散度损失;
Figure RE-FDA0003685366120000052
通过最小化损失函数更新参数,目标分布P使自编码器学习到更接近簇心的样本文档聚类表示;
为了使标题全局特征提取模块和文档局部特征提取模块在训练迭代过程中趋于一致,需要将两个模块统一在同一目标分布中,因此使用目标分布P指导图卷积网络输出的蕴含标题全局特征的样本分布U,指导模块的损失函数之二为分布U和目标分布P之间的KL散度损失;
Figure RE-FDA0003685366120000053
通过指导模块的不同权重参数将两种不同表示的聚类分配统一在同一个损失函数中,模型的整体损失函数为
Figure RE-FDA0003685366120000054
Figure RE-FDA0003685366120000055
β为平衡损失函数一和损失函数二的权重参数;整个模型经过训练达到稳定后,将图卷积网络最终输出的聚类分布H(l)作为新闻话题发现的最终结果。
CN202210211576.7A 2022-03-05 2022-03-05 融合近邻标题图的新闻话题发现方法 Pending CN114722896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210211576.7A CN114722896A (zh) 2022-03-05 2022-03-05 融合近邻标题图的新闻话题发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210211576.7A CN114722896A (zh) 2022-03-05 2022-03-05 融合近邻标题图的新闻话题发现方法

Publications (1)

Publication Number Publication Date
CN114722896A true CN114722896A (zh) 2022-07-08

Family

ID=82236036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210211576.7A Pending CN114722896A (zh) 2022-03-05 2022-03-05 融合近邻标题图的新闻话题发现方法

Country Status (1)

Country Link
CN (1) CN114722896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422063A (zh) * 2023-12-18 2024-01-19 四川省大数据技术服务中心 应用智能辅助决策的大数据处理方法及智能辅助决策***

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
CN111639180A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 文本分类方法、装置、计算机设备及存储介质
CN113032557A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于频繁词集与bert语义的微博热点话题发现方法
US20210334606A1 (en) * 2020-04-28 2021-10-28 Microsoft Technology Licensing, Llc Neural Network Categorization Accuracy With Categorical Graph Neural Networks
CN113742494A (zh) * 2021-09-06 2021-12-03 湘潭大学 一种基于标签图转化的领域文本相似度计算方法及***
US20210383205A1 (en) * 2020-06-03 2021-12-09 International Business Machines Corporation Taxonomy Construction via Graph-Based Cross-domain Knowledge Transfer
CN113806547A (zh) * 2021-10-15 2021-12-17 南京大学 一种基于图模型的深度学习多标签文本分类方法
US11216620B1 (en) * 2020-07-17 2022-01-04 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for training service model and determining text classification category
US11232156B1 (en) * 2020-07-28 2022-01-25 Fujitsu Limited Seed expansion in social network using graph neural network
CN114064968A (zh) * 2021-11-23 2022-02-18 新华智云科技有限公司 一种新闻字幕摘要生成方法和***
KR102508131B1 (ko) * 2021-12-20 2023-03-09 (주)씨어스테크놀로지 지식그래프에 대한 그래프 연결강화 시스템 및 방법
US20230206076A1 (en) * 2020-08-17 2023-06-29 Huawei Technologies Co., Ltd. Graph structure aware incremental learning for recommender system
WO2023126914A2 (en) * 2021-12-27 2023-07-06 Yeda Research And Development Co. Ltd. METHOD AND SYSTEM FOR SEMANTIC APPEARANCE TRANSFER USING SPLICING ViT FEATURES

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765265A (zh) * 2019-09-06 2020-02-07 平安科技(深圳)有限公司 信息分类抽取方法、装置、计算机设备和存储介质
US20210334606A1 (en) * 2020-04-28 2021-10-28 Microsoft Technology Licensing, Llc Neural Network Categorization Accuracy With Categorical Graph Neural Networks
CN111639180A (zh) * 2020-04-30 2020-09-08 深圳壹账通智能科技有限公司 文本分类方法、装置、计算机设备及存储介质
US20210383205A1 (en) * 2020-06-03 2021-12-09 International Business Machines Corporation Taxonomy Construction via Graph-Based Cross-domain Knowledge Transfer
US11216620B1 (en) * 2020-07-17 2022-01-04 Alipay (Hangzhou) Information Technology Co., Ltd. Methods and apparatuses for training service model and determining text classification category
US11232156B1 (en) * 2020-07-28 2022-01-25 Fujitsu Limited Seed expansion in social network using graph neural network
US20230206076A1 (en) * 2020-08-17 2023-06-29 Huawei Technologies Co., Ltd. Graph structure aware incremental learning for recommender system
CN113032557A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于频繁词集与bert语义的微博热点话题发现方法
CN113742494A (zh) * 2021-09-06 2021-12-03 湘潭大学 一种基于标签图转化的领域文本相似度计算方法及***
CN113806547A (zh) * 2021-10-15 2021-12-17 南京大学 一种基于图模型的深度学习多标签文本分类方法
CN114064968A (zh) * 2021-11-23 2022-02-18 新华智云科技有限公司 一种新闻字幕摘要生成方法和***
KR102508131B1 (ko) * 2021-12-20 2023-03-09 (주)씨어스테크놀로지 지식그래프에 대한 그래프 연결강화 시스템 및 방법
WO2023126914A2 (en) * 2021-12-27 2023-07-06 Yeda Research And Development Co. Ltd. METHOD AND SYSTEM FOR SEMANTIC APPEARANCE TRANSFER USING SPLICING ViT FEATURES

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BAOSHENG YIN等: "Sentence-BERT and k-means Based Clustering Technology for Scientific and Technical Literature", 《2023 15TH INTERNATIONAL CONFERENCE ON COMPUTER RESEARCH AND DEVELOPMENT (ICCRD)》, 21 June 2023 (2023-06-21), pages 1 - 3 *
LI X等: "An enterprise adaptive tag extraction method based multi-feature dynamic portrait", 《COMPLEX & INTELLIGENT SYSTEMS》, 31 October 2023 (2023-10-31), pages 5333 - 5344 *
XIONG, A等: "News Keyword Extraction Algorithm Based on Semantic Clustering and Word Graph Model", 《TSINGHUA SCIENCE AND TECHNOLOGY》, vol. 26, no. 6, 31 October 2021 (2021-10-31), pages 886 - 893 *
卢天旭等: "融合邻近标题图的涉案新闻话题发现", 《计算机工程与设计》, vol. 43, no. 05, 16 May 2022 (2022-05-16), pages 1249 - 1257 *
魏媛媛等: "结合主题信息聚类编码的文本摘要模型", 《计算机技术与发展》, vol. 31, no. 01, 10 January 2021 (2021-01-10), pages 30 - 34 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117422063A (zh) * 2023-12-18 2024-01-19 四川省大数据技术服务中心 应用智能辅助决策的大数据处理方法及智能辅助决策***
CN117422063B (zh) * 2023-12-18 2024-02-23 四川省大数据技术服务中心 应用智能辅助决策的大数据处理方法及智能辅助决策***

Similar Documents

Publication Publication Date Title
Cao et al. Deep neural networks for learning graph representations
CN111125358B (zh) 一种基于超图的文本分类方法
WO2018218708A1 (zh) 一种基于深度学习的舆情热点类别划分方法
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN109858015B (zh) 一种基于ctw和km算法的语义相似度计算方法及装置
CN111127146B (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及***
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆***
CN110825850B (zh) 一种自然语言主题分类方法及装置
JP6738769B2 (ja) 文ペア分類装置、文ペア分類学習装置、方法、及びプログラム
CN112364638A (zh) 一种基于社交文本的人格识别方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113901211A (zh) 基于图注意力网络的多粒度汉越平行句对抽取方法
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN112464674A (zh) 一种字级别的文本意图识别方法
CN113127737A (zh) 融合注意力机制的个性化搜索方法和搜索***
CN114579741B (zh) 融合句法信息的gcn-rn方面级情感分析方法和***
CN116756303A (zh) 一种多主题文本摘要自动生成方法及***
CN115496072A (zh) 一种基于对比学习的关系抽取方法
CN111985680A (zh) 基于胶囊网络与时序的刑事多罪名预测方法
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination