CN112241481A - 基于图神经网络的跨模态新闻事件分类方法及*** - Google Patents
基于图神经网络的跨模态新闻事件分类方法及*** Download PDFInfo
- Publication number
- CN112241481A CN112241481A CN202011075078.1A CN202011075078A CN112241481A CN 112241481 A CN112241481 A CN 112241481A CN 202011075078 A CN202011075078 A CN 202011075078A CN 112241481 A CN112241481 A CN 112241481A
- Authority
- CN
- China
- Prior art keywords
- news
- neural network
- list
- training
- graph neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 64
- 239000013598 vector Substances 0.000 claims abstract description 51
- 238000013145 classification model Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012935 Averaging Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 7
- 238000002372 labelling Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- QBPFLULOKWLNNW-UHFFFAOYSA-N chrysazin Chemical compound O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=CC=C2O QBPFLULOKWLNNW-UHFFFAOYSA-N 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于图神经网络的跨模态新闻事件分类方法及***,包括数据预处理阶段,将每个新闻作为一个节点,进行命名实体识别抽取出时间、地点、人物,由字段匹配提取新闻的发布者,相应建立四个实体列表并生成边文件,对每个新闻基于图片提取语义特征向量,确定事件类型作为标注信息,计算相似度;图神经网络训练及分类阶段,根据相似度将新闻平均分组,每组作为一个训练批次batch;根据边文件在不同实体类别的邻接矩阵上以batch为单位分别输入图神经网络进行训练,将训练损失加和平均做为总损失,训练后得到图神经网络半监督新闻事件分类模型,输入新闻图片和文本,经过模型预测得到该新闻分至每个事件的概率,取最大值作为该新闻的分类结果。
Description
技术领域
本发明属于新闻数据自动分类技术领域,尤其涉及图神经网络及多模态信息融合的新闻事件分类技术。
背景技术
每天会产生大量网络新闻,不仅多家媒体会对同一事件发布新闻,同一家媒体也会对该事件发布后续的追踪报道新闻,于是,每一个事件会有大量相关新闻。通常,新闻事件由自然语言处理技术对新闻文本进行要素抽取并聚类生成,该技术的重点是提取事件六要素:时间、地点、人物、起因、经过、结果。但是,这种聚类方法忽略了大量新闻中所包含的图像语义信息,同时事件六要素仅代表了新闻文本自身的特征而忽略了其他拥有相同特征的新闻与其之间的联系。在传统的新闻分类方法中,如彭力扬等发明的新闻事件聚类方法及装置(CN 106021418 B)和钱烽的一种新闻分类的方法和装置(CN 105760526 B),都采用抽取标题中关键信息的方式来提取特征,而这些特征不足以描述事件六要素。在分类方法方面,麦涛的新闻分类方法及装置(CN 106021526 B)采用人工特征预设匹配度的方法,房平会等的一种新闻分类方法及装置采用特征值权重匹配的方法。以上方法均采用的新闻单模态特征,新闻内容中的关系信息及其图像中的深层语义特征还待完善。
图神经网络(GNN)除了能提取分类对象自身的语义特征,还能提取对象之间的联系规律。在目前的研究中,图神经网络在分类问题上表现良好。Tkipf的GCN半监督分类(SEMI-SUPERVISED CLASSIFICATION WITHGRAPH CONVOLUTIONAL NETWORKS)证明了GNN在分类问题上的有效性;基于多粒度的图卷积神经网络的假新闻检测方法及***将新闻看作节点,引入了GNN完成二分类任务,新闻间的关系由相同发布者决定;论文GraphConvolutional Networks with Markov Random Field Reasoning for SocialSpammerDetection中提到将不同类型的节点的邻接矩阵分开求损失以区别他们。谷歌实验室提出的算法Cluster-GCN在大图进入GNN之前进行聚类,以小图的GNN结果之和作为最终训练结果,解决了GNN在大图上的效率问题。
面向假新闻的二分类方法(Graph Convolutional Networks with MarkovRandom Field Reasoning for Social Spammer Detection)将GNN引入新闻分类的,新闻间的关系由相同的发布者确定。但是,面向事件分类的新闻图神经网络仅提取发布者的联系特征是不够的。那么,如何将新闻事件构成网络,同时提取新闻之间的事件六要素关系,并且表示成有意义的、容易计算的邻接矩阵是一个问题。具体而言,每个新闻所呈现的实体基本上是异构信息,异构GNN建模成本更高,且异构网络往往针对某个具体领域,无法适应每天都在更新的内容、且可能包含各个领域实体的新闻文本。除此之外,图神经网络由于每次训练都需要计算整个邻接矩阵而在大图上缺失效率,想要应用在包含海量数据且每日都会增量的新闻数据上,还需要对运行效率做出改善。
发明内容
为了解决现有技术的缺陷,本发明提出一种基于图神经网络的跨模态新闻事件分类方案。
本发明所采用的技术方案提供一种基于图神经网络的跨模态新闻事件分类方法,包括以下两个阶段,
数据预处理阶段,包括以下步骤,
步骤1.1、将预先爬取的每个新闻作为新闻关系网的拓扑图中的一个节点,设置新闻唯一标识id作为节点id;遍历新闻文本数据集,进行命名实体识别,抽取出每个新闻的时间、地点、人物,由字段匹配提取新闻的发布者;建立四个实体列表list-time、list-location、list-person、list-publisher,分别用于存放所有能够识别出时间实体、地点实体、人物实体、发布者实体的新闻唯一标识id-实体词语键值对;
步骤1.2、分别遍历四个实体列表list-time、list-location、list-person、list-publisher,每个列表生成一个边文件;
步骤1.3、对每个新闻基于相应图片提取语义特征向量,并与节点id相对应;
步骤1.4、将节点id与该节点代表的新闻事件类型对应,确定新闻的相关事件类型标签作为训练数据的标注信息;
步骤1.5、计算每个新闻的语义特征向量之间的相似度;
图神经网络训练及分类阶段,包括以下步骤,
步骤2.1、根据步骤1.5所得相似度将爬取的新闻平均分为n组,n为预设的训练参数,每组作为一个训练批次batch,使每组中的新闻两两之间的距离一定比与任意组外新闻向量之间的距离要大;
步骤2.2、根据步骤1.2所得四个边文件,在不同实体类别的邻接矩阵上以batch为单位分别输入图神经网络进行训练,将训练损失加和平均作为总损失,训练后得到图神经网络半监督新闻事件分类模型,输入新闻图片和文本,经过模型预测,得到该新闻分至每个事件的概率,取最大值作为该新闻的分类结果。
而且,步骤2.1中分组实现采用贪心算法实现。
而且,步骤2.2中训练得到图神经网络半监督新闻事件分类模型,包括以下处理,
设通过新闻节点和四种不同实体作为边分别组成四个完整的图,这四个完整的图内部分别根据步骤2.1的分组又被分为n个子图:
根据四个完整的图分别划分的n个子图,生成在不同实体类别的邻接矩阵;
而且,步骤1.3中对每个新闻基于相应图片提取语义特征向量,包括将图片输入Image2Sentence神经网络,根据输出的语义向量得到新闻的语义特征向量。
而且,当某新闻中包含多张图片时,取输入Image2Sentence神经网络所得语义向量最稠密的图片,将该图片的语义向量作为新闻的语义特征向量。
而且,步骤1.3中,计算相似度的实现方式为,计算两张新闻图片的语义向量之间的欧氏距离。
本发明还提供一种基于图神经网络的跨模态新闻事件分类***,用于实现如上所述的一种基于图神经网络的跨模态新闻事件分类方法。
而且,包括以下模块,
数据预处理模块,包括以下单元,
第一单元,用于将预先爬取的每个新闻作为新闻关系网的拓扑图中的一个节点,设置新闻唯一标识id作为节点id;遍历新闻文本数据集,进行命名实体识别,抽取出每个新闻的时间、地点、人物,由字段匹配提取新闻的发布者;建立四个实体列表list-time、list-location、list-person、list-publisher,分别用于存放所有能够识别出时间实体、地点实体、人物实体、发布者实体的新闻唯一标识id-实体词语键值对;
第二单元,用于分别遍历四个实体列表list-time、list-location、list-person、list-publisher,每个列表生成一个边文件;
第三单元,用于对每个新闻基于相应图片提取语义特征向量,并与节点id相对应;
第四单元,用于将节点id与该节点代表的新闻事件类型对应;
第五单元,用于计算每个新闻的语义特征向量之间的相似度;
图神经网络训练及分类阶段,包括以下单元,
第一单元,用于根据相似度将爬取的新闻平均分为n组,n为预设的训练参数,每组作为一个训练批次batch,使每组中的新闻两两之间的距离一定比与任意组外新闻向量之间的距离要大;
第二单元,用于根据四个边文件,在不同实体类别的邻接矩阵上以batch为单位分别输入图神经网络进行训练,将训练损失加和平均作为总损失,训练后得到图神经网络半监督新闻事件分类模型,输入新闻图片和文本,经过模型预测,得到该新闻分至每个事件的概率,取最大值作为该新闻的分类结果。
而且,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用处理器中的存储指令执行如上所述的一种基于图神经网络的跨模态新闻事件分类方法。
而且,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于图神经网络的跨模态新闻事件分类方法。
和现有技术相比,本发明的优点是:
(1)有相同要素的新闻之间的关系都将被GNN提取。
(2)在同构网络中提取到异构信息,且不需要另外的异构网络建模。
(3)在GNN中同时训练了文字特征与图像语义特征,形成了跨模态神经网络特征。
(4)分块训练加快了神经网络的训练效率,同时增加了网络的判别性。
综上,本发明采用GNN方法,同时获取新闻自身的语义特征、图像特征及新闻与新闻之间的多种关系特征,并且可以有效快速地进行新闻分类。本发明能够实现海量数据自动化处理,效率高,精度高,满足新闻分类的实时性需求。
附图说明
图1为本发明实施例的总体结构图。
图2为本发明实施例整体流程图。
图3为本发明实施例图文数据-拓扑数据建模过程示意图。
具体实施方式
以下结合附图和实施例详细说明本发明技术方案。
如图1所示,本发明实施例提供一种基于图神经网络的面向事件新闻分类方法,主要分为两个阶段:数据预处理阶段、图神经网络训练及分类阶段。
预处理阶段的目的是将爬虫等手段从互联网上收集到的新闻数据处理成格式化数据,并提取其特征。主要处理对象是新闻文本和新闻图片,新闻文本利用自然语言处理中的命名实体识别提取出新闻中的事件要素,这些要素将成为节点之间联系的关键;新闻图片利用机器视觉中强大的Image2Sentence算法直接输出图片语义内容向量作为特征向量,这些特征向量将成为节点自身特征。
接着将得到的文本、图像特征属性进行格式转换成图神经网络的可读格式,也就是在数据输入到神经网络之前进行跨模态融合。具体做法为将由文本信息实体识别所得到的节点之间的新闻要素的联系关系处理成邻接矩阵,以及将由Image2Sentence算法输出的图片语义向量处理成GNN节点自身语义特征。最后将节点按照其图像的语义距离进行分组,每个组作为一个batch(训练批次)分别训练以提高图神经网络的运行效率和判别性。
图神经网络训练及分类阶段的目的是输出每个节点的预测分类,并且同时在四类实体的邻接矩阵上进行。每类邻接矩阵都由新闻节点的全集组成,只是连接关系不同所以表示成四个矩阵。
如图2所示,与原始GCN不同的是,本发明的GCN训练分别在4类实体上分别训练,分别将图GT、GP、GL、GW同时训练,间接提取了新闻间的异构信息。同时,每一类实体的训练又分为n组,避免了节点太多导致的邻接矩阵太大带来的计算效率降低的问题,其中n为训练参数中的batch个数。同时,由于每组节点之间的语义距离足够大,对分类误差的容忍性也相对较大,可以提高神经网络的判别性。
下面分别对实施例中各阶段的具体实现步骤作详细说明:
数据预处理阶段:
1.1、命名实体识别,文本数据分类:
实施例中数据源是对新闻门户网站预先爬取所得的爬虫结果,每一条新闻都能爬取到新闻标题、新闻发布者、新闻文本内容以及若干图像。每条新闻的这四种数据加上唯一标识id可以抽象为新闻关系网的拓扑图中的一个新闻节点。即将每个新闻作为新闻关系网的拓扑图中的一个节点,设置新闻唯一标识id作为节点id。
遍历新闻文本数据集,该数据集来自对新闻门户网站的爬虫结果,仅包含新闻的正文文字。接着使用Hanlp或jieba进行命名实体识别,抽取出新闻的时间、地点、人物(输出结果分别为\t\ns\nr的词语);由字段匹配提取新闻的发布者。由以上结果对四种不同实体时间、地点、人物、发布者建立四个新闻-实体键值对列表list-time、list-location、list-person、list-publisher。每个列表中存放所有能够识别出该实体的新闻唯一标识id-实体词语键值对,即得到四类新闻对。比如,新闻1中分别识别出来时间2020年2月、武汉、x教授、***,则在list-time中存入{1:’2020年2月’}、在list-location中存入{1:’武汉’}、在list-person中存入{1:’x教授’}、在list-publisher中存入{1:’***’}。
1.2、构建边文件:
如大部分GNN算法的输入数据一样,本发明的边文件需要准备成每行一个节点对的utf-8编码txt或csv文件。参见图3,假设每个新闻是拓扑图中的一个节点,并且每个新闻节点相应有一个唯一标识id,节点对指两个节点之间有链接关系,文件中以在同一行的节点id表示,并用英文逗号隔开。
分别遍历四个实体列表list-time、list-location、list-person、list-publisher,每个列表生成一个边文件。具体过程为:
将键值对i的value值(实体词语)存入临时内存,遍历list中除i之外每个键值对的value值,若键值对j有和i的value相同的值,则将i和j的key值(新闻唯一标识id)写入边文件,并以英文逗号隔开,最后换行。其中i指该list中所有键值对。最后将生成4个边文件。1.3、构建节点文件-节点特征数据,包括对新闻图片提取语义特征(语义特征向量),并与新闻唯一标识id相对应:
首先将所有新闻图片处理成相同分辨率。每张图片进入Image2Sentence神经网络,输出一个1024维语义向量。该神经网络具体实现为现有技术,是由***基于CNN+RNN开发的一个Image Caption Generator,它通过一个模型,先利用CNN将图片转换到一个向量表示,再利用RNN将其转换到自然语言(sentence)。本发明优选利用Image2Sentence神经网络提取新闻图片的特征向量,仅需要该模型输出的向量表示,不需要后续的sentence,将此向量看为该图像语义向量,并将节点id(即新闻唯一标识id)与该语义向量一一对应。若有某新闻中包含多张图片的情况,优选取语义向量最稠密的那一张,即0元素最少的那一张图;也即取输入Image2Sentence神经网络所得语义向量最稠密的图片,将该图片的语义向量作为新闻的语义特征向量。
1.4、构建节点文件-对新闻打上相关事件标签:
将节点id与该节点代表的新闻事件类型一一对应,事件类型以整型表示。如,类型“新冠疫苗开发”对应类型标签0,类型“天问一号发射”对应类型标签1等。本步骤确定新闻的相关事件类型标签作为训练数据的标注信息。
1.5、计算每个新闻特征向量之间的相似度:
创建一个相似度矩阵,行和列均为新闻id,第i行第j列的元素值代表这两个新闻配图的相似度,即这两张新闻图片的语义特征向量之间的欧氏距离。该矩阵大小为m×m,m为新闻节点总个数。
图神经网络训练及分类阶段:
2.1、将爬取的新闻平均分为n组,每组作为一个训练批次(batch)(n为预设的训练参数,具体实施中设置n时尽量保证每个batch内节点数小于1000)使每组中的新闻两两之间的距离一定比与任意组外新闻向量之间的距离要大:
实施例优选利用贪心算法对新闻分组:
1)初始化batch:取出相似度矩阵每一列j中前m/n个最大值,看作以新闻j为中心的新闻组(batch),其中m为新闻总个数,/指向下求整数商运算。
2)计算每一个batch初始的距离平均值E(MAXi)=∑Sij/(m/n),Sij指相似度矩阵第i行第j列元素的值,即节点i与节点j的语义距离。
3)再取出前n-1个最大的E(MAXi)n,记录这些列的id并储存为整型列表list-max-colum,该列表长度为n-1。
4)在该整型列表中两两选择列a、b,并对比两列所包含的batch中包括了哪些行数,若有重复,则以这些重复的行数为范围开始遍历。
每次遍历都选出a、b两列中除了入选batch的元素之外的最大值,比较ab两列在本次迭代中可能的变化差值Δa=E(MAXa)-E(MAXa)'与Δb=E(MAXb)-E(MAXb)',其中E(MAXa)指第a列当前的被选入batch的元素的距离平均值,E(MAXa)'指本次变化之后的平均值,变化过程是E(MAXa)'=E(MAXa)-Ssam+SnextMax,其中Ssam表示该次遍历中列a、b中重复元素的那一行的语义距离值,SnextMax表示除了入选batch的元素之外的最大值;E(MAXb)'同理。为了保证本次变化对ab两列的总影响最小,若Δa>Δb,则a列保持不变,将b列中此次迭代的重复元素删除,并且将b列入选batch元素之外的最大值元素加入b列的batch;若Δa<Δb,则b列保持不变,将a列中此次迭代的重复元素删除,并且将a列入选batch元素之外的最大值元素加入a列的batch。
遍历所有的列直到每一个batch中两两互相没有重复的元素为止。所有列取完之后,没有被取到任何一个batch的节点单独作为一个batch,并给所有batch标上唯一标识id。进入5)。
5)输出所有batch作为新闻分组,每组在后续单独输入GCN训练:
将每个新闻看成图中的一个节点,节点全集表示为v=[v1,…,vm],m为新闻全集中节点个数,也就是节点总数,vi是单个节点,一个节点包括新闻本身的标识id、图片语义向量。分好batch后,节点全集表示为其中指第i个batch中的所有节点,n指一共有n个batch。
此步骤之后,能保证每一组节点的组内距离足够大,在分类算法训练时的判别性得到提高;此外,由于图神经网络训练复杂度和邻接矩阵维度相关,此步骤将节点全集的邻接矩阵分为n×n个分块矩阵,并且每一个分块矩阵作为一个训练batch,降低了后续神经网络训练复杂度和运行时间。
2.2、在不同实体类别的邻接矩阵上以batch为单位分别训练,训练损失加和平均即为总损失:
1)设:ε指拓扑图中的一条边,由新闻时间实体形成的边全集表示为εT=[εT1,…,εTlenthT],εTi指由时间实体关系生成的新闻拓扑图中的一条边,lenthT指该边文件中键值对的总数,T1指由list-time生成的边文件中的第一行键值对,TlenthT指由list-time生成的边文件中的最后一行键值对。由人物实体形成的边全集表示为εP=[εP1,…,εPlenthP],εPi指由人物实体关系生成的新闻拓扑图中的一条边,lenthP指该边文件中键值对的总数,P1指由list-person生成的边文件中的第一行键值对,PlenthP指由list-person生成的边文件中的最后一行键值对。由地点实体形成的边全集表示为εL=[εL1,…,εLlenthL],εLi指由地点实体关系生成的新闻拓扑图中的一条边,lenthL指该边文件中键值对的总数,L1指由list-location生成的边文件中的第一行键值对,LlenthL指由list-location生成的边文件中的最后一行键值对。由发布者实体形成的边全集表示为εW=[εW1,…,εWlenthW],εWi指由发布者实体关系生成的新闻拓扑图中的一条边,lenthW指该边文件中键值对的总数,W1指由list-publisher生成的边文件中的第一行键值对,WlenthW指由list-publisher生成的边文件中的最后一行键值对。
2)G表示拓扑图,由节点全集和四种不同边分别组成四个完整的图:由时间关系组成图GT={v,εT}、由人物关系组成图GP={v,εP}、由地点关系组成图GL={v,εL}、由作者关系组成图GW={v,εW}。经过第2.1-5)步的分组后,这四个完整的图分别内部又被分为n个子图:
3)全图G的邻接矩阵按边类型的不同分为四种不同的表达形式,每种表达形式表达的都是所有新闻节点组成的图G,即得到在不同实体类别的邻接矩阵如下:
其中,AT表示时间实体类别的邻接矩阵,表示时间关系图中每一个子图的邻接矩阵块所组成的对角矩阵块,每一个ATii(i∈[1,n])都是子图GTbi的邻接矩阵;对角线之外的分块矩阵组成了组间连接矩阵表示组(batch)与组之间的节点连接关系,该关系是εT在组成图时没有被取到的所有边。同理,GP、GL、GW也被分成这样的两组分块矩阵组,一组代表步骤2.1中分组结果的结果batch,分布在对角线上;剩余的边关系分布在另一组分块矩阵组上。
综上,每一种链接关系的图G被划分成n×n个分块矩阵,且对角线上的分块矩阵是步骤2.1中获得分组结果组成的。
每个分组的损失函数loss()表示二阶交叉熵损失函数,其中是一个布尔值,它指的是Tkipf发表的GCN(图卷积神经网络)层间推导公式最后一层(第L层)输出中,第j行的预测值是否为yj的真实标签(ground-truth)。可用随机梯度下降法优化此损失。
5)训练后,得到基于GCN的图神经网络半监督新闻事件分类模型。此后,输入新闻图片和文本,经过模型预测,即可得到该新闻分至每个事件的概率,取最大值即该新闻的分类结果。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的***装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
在一些可能的实施例中,提供一种基于图神经网络的跨模态新闻事件分类***,包括以下模块,
数据预处理模块,包括以下单元,
第一单元,用于将预先爬取的每个新闻作为新闻关系网的拓扑图中的一个节点,设置新闻唯一标识id作为节点id;遍历新闻文本数据集,进行命名实体识别,抽取出每个新闻的时间、地点、人物,由字段匹配提取新闻的发布者;建立四个实体列表list-time、list-location、list-person、list-publisher,分别用于存放所有能够识别出时间实体、地点实体、人物实体、发布者实体的新闻唯一标识id-实体词语键值对;
第二单元,用于分别遍历四个实体列表list-time、list-location、list-person、list-publisher,每个列表生成一个边文件;
第三单元,用于对每个新闻基于相应图片提取语义特征向量,并与节点id相对应;
第四单元,用于将节点id与该节点代表的新闻事件类型对应;
第五单元,用于计算每个新闻的语义特征向量之间的相似度;
图神经网络训练及分类阶段,包括以下单元,
第一单元,用于根据相似度将爬取的新闻平均分为n组,n为预设的训练参数,每组作为一个训练批次batch,使每组中的新闻两两之间的距离一定比与任意组外新闻向量之间的距离要大;
第二单元,用于根据四个边文件,在不同实体类别的邻接矩阵上以batch为单位分别输入图神经网络进行训练,将训练损失加和平均作为总损失,训练后得到图神经网络半监督新闻事件分类模型,输入新闻图片和文本,经过模型预测,得到该新闻分至每个事件的概率,取最大值作为该新闻的分类结果。
在一些可能的实施例中,提供一种基于图神经网络的跨模态新闻事件分类***,包括处理器和存储器,存储器用于存储程序指令,处理器用于调用处理器中的存储指令执行如上所述的一种基于图神经网络的跨模态新闻事件分类方法。
在一些可能的实施例中,提供一种基于图神经网络的跨模态新闻事件分类***,包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如上所述的一种基于图神经网络的跨模态新闻事件分类方法。
以上所述仅为本发明的优选实施例而已,并不用以限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于图神经网络的跨模态新闻事件分类方法,其特征在于:包括以下两个阶段,
数据预处理阶段,包括以下步骤,
步骤1.1、将预先爬取的每个新闻作为新闻关系网的拓扑图中的一个节点,设置新闻唯一标识id作为节点id;遍历新闻文本数据集,进行命名实体识别,抽取出每个新闻的时间、地点、人物,由字段匹配提取新闻的发布者;建立四个实体列表list-time、list-location、list-person、list-publisher,分别用于存放所有能够识别出时间实体、地点实体、人物实体、发布者实体的新闻唯一标识id-实体词语键值对;
步骤1.2、分别遍历四个实体列表list-time、list-location、list-person、list-publisher,每个列表生成一个边文件;
步骤1.3、对每个新闻基于相应图片提取语义特征向量,并与节点id相对应;
步骤1.4、将节点id与该节点代表的新闻事件类型对应,确定新闻的相关事件类型标签作为训练数据的标注信息;
步骤1.5、计算每个新闻的语义特征向量之间的相似度;
图神经网络训练及分类阶段,包括以下步骤,
步骤2.1、根据步骤1.5所得相似度将爬取的新闻平均分为n组,n为预设的训练参数,每组作为一个训练批次batch,使每组中的新闻两两之间的距离一定比与任意组外新闻向量之间的距离要大;
步骤2.2、根据步骤1.2所得四个边文件,在不同实体类别的邻接矩阵上以batch为单位分别输入图神经网络进行训练,将训练损失加和平均作为总损失,训练后得到图神经网络半监督新闻事件分类模型,输入新闻图片和文本,经过模型预测,得到该新闻分至每个事件的概率,取最大值作为该新闻的分类结果。
2.根据权利要求1所述一种基于图神经网络的跨模态新闻事件分类方法,其特征在于:步骤2.1中分组实现采用贪心算法实现。
4.根据权利要求1或2或3所述一种基于图神经网络的跨模态新闻事件分类方法,其特征在于:步骤1.3中对每个新闻基于相应图片提取语义特征向量,包括将图片输入Image2Sentence神经网络,根据输出的语义向量得到新闻的语义特征向量。
5.根据权利要求4所述一种基于图神经网络的跨模态新闻事件分类方法,其特征在于:当某新闻中包含多张图片时,取输入Image2Sentence神经网络所得语义向量最稠密的图片,将该图片的语义向量作为新闻的语义特征向量。
6.根据权利要求1或2或3所述一种基于图神经网络的跨模态新闻事件分类方法,其特征在于:步骤1.3中,计算相似度的实现方式为,计算两张新闻图片的语义向量之间的欧氏距离。
7.一种基于图神经网络的跨模态新闻事件分类***,其特征在于:用于实现如权利要求1-6任一项所述的一种基于图神经网络的跨模态新闻事件分类方法。
8.根据权利要求7所述基于图神经网络的跨模态新闻事件分类***,其特征在于:包括以下模块,
数据预处理模块,包括以下单元,
第一单元,用于将预先爬取的每个新闻作为新闻关系网的拓扑图中的一个节点,设置新闻唯一标识id作为节点id;遍历新闻文本数据集,进行命名实体识别,抽取出每个新闻的时间、地点、人物,由字段匹配提取新闻的发布者;建立四个实体列表list-time、list-location、list-person、list-publisher,分别用于存放所有能够识别出时间实体、地点实体、人物实体、发布者实体的新闻唯一标识id-实体词语键值对;
第二单元,用于分别遍历四个实体列表list-time、list-location、list-person、list-publisher,每个列表生成一个边文件;
第三单元,用于对每个新闻基于相应图片提取语义特征向量,并与节点id相对应;
第四单元,用于将节点id与该节点代表的新闻事件类型对应;
第五单元,用于计算每个新闻的语义特征向量之间的相似度;
图神经网络训练及分类阶段,包括以下单元,
第一单元,用于根据相似度将爬取的新闻平均分为n组,n为预设的训练参数,每组作为一个训练批次batch,使每组中的新闻两两之间的距离一定比与任意组外新闻向量之间的距离要大;
第二单元,用于根据四个边文件,在不同实体类别的邻接矩阵上以batch为单位分别输入图神经网络进行训练,将训练损失加和平均作为总损失,训练后得到图神经网络半监督新闻事件分类模型,输入新闻图片和文本,经过模型预测,得到该新闻分至每个事件的概率,取最大值作为该新闻的分类结果。
9.根据权利要求7所述基于图神经网络的跨模态新闻事件分类***,其特征在于:包括处理器和存储器,存储器用于存储程序指令,处理器用于调用处理器中的存储指令执行如权利要求1-6任一项所述的一种基于图神经网络的跨模态新闻事件分类方法。
10.根据权利要求7所述基于图神经网络的跨模态新闻事件分类***,其特征在于:包括可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序执行时,实现如权利要求1-6任一项所述的一种基于图神经网络的跨模态新闻事件分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011075078.1A CN112241481B (zh) | 2020-10-09 | 2020-10-09 | 基于图神经网络的跨模态新闻事件分类方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011075078.1A CN112241481B (zh) | 2020-10-09 | 2020-10-09 | 基于图神经网络的跨模态新闻事件分类方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241481A true CN112241481A (zh) | 2021-01-19 |
CN112241481B CN112241481B (zh) | 2024-01-19 |
Family
ID=74168469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011075078.1A Active CN112241481B (zh) | 2020-10-09 | 2020-10-09 | 基于图神经网络的跨模态新闻事件分类方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241481B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN112949476A (zh) * | 2021-03-01 | 2021-06-11 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN113204659A (zh) * | 2021-03-26 | 2021-08-03 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签分类方法、装置、电子设备及存储介质 |
CN113221872A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | 生成对抗网络与多模态融合的假新闻检测方法 |
CN113220834A (zh) * | 2021-05-07 | 2021-08-06 | 上海财联社金融科技有限公司 | 基于新闻内容语义分析的多媒体智能配图方法 |
CN113239223A (zh) * | 2021-04-14 | 2021-08-10 | 浙江大学 | 一种基于输入梯度正则化的图像检索方法 |
CN113282726A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 数据处理方法及***及装置及介质及数据分析方法 |
CN113297387A (zh) * | 2021-04-20 | 2021-08-24 | 内蒙古工业大学 | 一种基于nkd-gnn的图文不匹配新闻检测方法 |
CN113434668A (zh) * | 2021-05-18 | 2021-09-24 | 湘潭大学 | 一种基于模型融合的深度学习文本分类方法及*** |
CN113569870A (zh) * | 2021-07-31 | 2021-10-29 | 西北工业大学 | 基于异构图神经网络的跨模态问题q矩阵自动构建方法 |
CN114021550A (zh) * | 2021-11-04 | 2022-02-08 | 成都中科信息技术有限公司 | 一种基于图卷积神经网络的新闻趋势预测***及方法 |
CN114970446A (zh) * | 2022-07-14 | 2022-08-30 | 深圳前海环融联易信息科技服务有限公司 | 文本转换显示方法及其装置、设备、介质、产品 |
CN117034905A (zh) * | 2023-08-07 | 2023-11-10 | 重庆邮电大学 | 一种基于大数据的互联网假新闻识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
US20200104729A1 (en) * | 2018-09-27 | 2020-04-02 | Babylon Partners Limited | Method and system for extracting information from graphs |
CN111339754A (zh) * | 2020-03-04 | 2020-06-26 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111428726A (zh) * | 2020-06-10 | 2020-07-17 | 中山大学 | 基于图神经网络的全景分割方法、***、设备及存储介质 |
-
2020
- 2020-10-09 CN CN202011075078.1A patent/CN112241481B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104729A1 (en) * | 2018-09-27 | 2020-04-02 | Babylon Partners Limited | Method and system for extracting information from graphs |
CN110851570A (zh) * | 2019-11-14 | 2020-02-28 | 中山大学 | 基于Embedding技术的无监督关键词提取方法 |
CN111339754A (zh) * | 2020-03-04 | 2020-06-26 | 昆明理工大学 | 基于案件要素句子关联图卷积的案件舆情摘要生成方法 |
CN111428726A (zh) * | 2020-06-10 | 2020-07-17 | 中山大学 | 基于图神经网络的全景分割方法、***、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
姚娟: "基于深度学习的实体关系抽取和知识图谱补全方法的研究", 中国优秀硕士学位论文全文数据库 信息科技辑 * |
张胜: "基于深度神经网络的中文医疗社区自动问答技术研究", 中国优秀硕士学位论文全文数据库 信息科技辑 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949476A (zh) * | 2021-03-01 | 2021-06-11 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN112949476B (zh) * | 2021-03-01 | 2023-09-29 | 苏州美能华智能科技有限公司 | 基于图卷积神经网络的文本关系检测方法、装置及存储介质 |
CN112926569A (zh) * | 2021-03-16 | 2021-06-08 | 重庆邮电大学 | 一种社交网络中的自然场景图像文本检测方法 |
CN113204659A (zh) * | 2021-03-26 | 2021-08-03 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签分类方法、装置、电子设备及存储介质 |
CN113204659B (zh) * | 2021-03-26 | 2024-01-19 | 北京达佳互联信息技术有限公司 | 多媒体资源的标签分类方法、装置、电子设备及存储介质 |
CN113239223A (zh) * | 2021-04-14 | 2021-08-10 | 浙江大学 | 一种基于输入梯度正则化的图像检索方法 |
CN113297387A (zh) * | 2021-04-20 | 2021-08-24 | 内蒙古工业大学 | 一种基于nkd-gnn的图文不匹配新闻检测方法 |
CN113220834A (zh) * | 2021-05-07 | 2021-08-06 | 上海财联社金融科技有限公司 | 基于新闻内容语义分析的多媒体智能配图方法 |
CN113220834B (zh) * | 2021-05-07 | 2023-08-29 | 上海财联社金融科技有限公司 | 基于新闻内容语义分析的多媒体智能配图方法 |
CN113434668A (zh) * | 2021-05-18 | 2021-09-24 | 湘潭大学 | 一种基于模型融合的深度学习文本分类方法及*** |
CN113434668B (zh) * | 2021-05-18 | 2022-05-20 | 湘潭大学 | 一种基于模型融合的深度学习文本分类方法及*** |
CN113282726A (zh) * | 2021-05-27 | 2021-08-20 | 成都数之联科技有限公司 | 数据处理方法及***及装置及介质及数据分析方法 |
CN113221872B (zh) * | 2021-05-28 | 2022-09-20 | 北京理工大学 | 生成对抗网络与多模态融合的假新闻检测方法 |
CN113221872A (zh) * | 2021-05-28 | 2021-08-06 | 北京理工大学 | 生成对抗网络与多模态融合的假新闻检测方法 |
CN113569870A (zh) * | 2021-07-31 | 2021-10-29 | 西北工业大学 | 基于异构图神经网络的跨模态问题q矩阵自动构建方法 |
CN113569870B (zh) * | 2021-07-31 | 2022-06-07 | 西北工业大学 | 基于异构图神经网络的跨模态问题q矩阵自动构建方法 |
CN114021550A (zh) * | 2021-11-04 | 2022-02-08 | 成都中科信息技术有限公司 | 一种基于图卷积神经网络的新闻趋势预测***及方法 |
CN114970446B (zh) * | 2022-07-14 | 2022-11-01 | 深圳前海环融联易信息科技服务有限公司 | 文本转换显示方法及其装置、设备、介质、产品 |
CN114970446A (zh) * | 2022-07-14 | 2022-08-30 | 深圳前海环融联易信息科技服务有限公司 | 文本转换显示方法及其装置、设备、介质、产品 |
CN117034905A (zh) * | 2023-08-07 | 2023-11-10 | 重庆邮电大学 | 一种基于大数据的互联网假新闻识别方法 |
CN117034905B (zh) * | 2023-08-07 | 2024-05-14 | 重庆邮电大学 | 一种基于大数据的互联网假新闻识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112241481B (zh) | 2024-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112241481A (zh) | 基于图神经网络的跨模态新闻事件分类方法及*** | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
Tang et al. | Tri-clustered tensor completion for social-aware image tag refinement | |
CN111767725B (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及*** | |
CN111899089A (zh) | 基于知识图谱的企业风险预警方法及*** | |
Ghasemi-Gol et al. | Tabvec: Table vectors for classification of web tables | |
CN110196945B (zh) | 一种基于LSTM与LeNet融合的微博用户年龄预测方法 | |
CN110555208A (zh) | 一种信息查询中的歧义消除方法、装置及电子设备 | |
CN111666350A (zh) | 一种基于bert模型的医疗文本关系抽取的方法 | |
CN116150509B (zh) | 社交媒体网络的威胁情报识别方法、***、设备及介质 | |
CN107908757B (zh) | 网站分类方法及*** | |
US20230056760A1 (en) | Method and apparatus for processing graph data, device, storage medium, and program product | |
CN112100372A (zh) | 头版新闻预测分类方法 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN114398557A (zh) | 基于双画像的信息推荐方法、装置、电子设备及存储介质 | |
CN116684200A (zh) | 网络安全漏洞的攻击模式的知识补全方法及*** | |
Suri et al. | Leveraging organizational resources to adapt models to new data modalities | |
Shang et al. | A framework to construct knowledge base for cyber security | |
CN114527991A (zh) | 代码的扫描方法、装置、设备、存储介质及程序产品 | |
CN113537206B (zh) | 推送数据检测方法、装置、计算机设备和存储介质 | |
Li et al. | Inferring user profiles in online social networks based on convolutional neural network | |
CN113657443B (zh) | 一种基于soinn网络的在线物联网设备识别方法 | |
CN114398980A (zh) | 跨模态哈希模型的训练方法、编码方法、装置及电子设备 | |
CN113392294A (zh) | 样本标注方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |