CN107862037A - 一种基于实体连通图的事件模版构造方法 - Google Patents
一种基于实体连通图的事件模版构造方法 Download PDFInfo
- Publication number
- CN107862037A CN107862037A CN201711071987.6A CN201711071987A CN107862037A CN 107862037 A CN107862037 A CN 107862037A CN 201711071987 A CN201711071987 A CN 201711071987A CN 107862037 A CN107862037 A CN 107862037A
- Authority
- CN
- China
- Prior art keywords
- event
- mrow
- word
- text
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种基于实体连通图的事件模版构造方法,本发明涉及事件模板的构造方法。本发明的目的是为了解决现有技术在针对特定事件的“检索”、“问答”等人工智能应用中识别结果及提取特定信息不准确;基于事件的篇章相似度难以定量计算以及篇章关键信息难以提取的问题。过程为:一、对每一句抽取三元组;二、视三元组中的三个元素为三个结点;三、将从文本中抽取到的结点均放入到集合S1中;四、利用词向量计算S1中任两个结点的相似度并依此生成连通图;五、计算各结点的PageRank值;六、确定两篇文本陈述的事件间的关系度量值;七、形成多个文本簇;八、构建粗粒度事件模板和细粒度事件模版。本发明用于篇章关键信息提取及相关度计算领域。
Description
技术领域
本发明涉及事件模板的构造方法,涉及信息处理技术领域。
背景技术
随着互联网技术的飞速发展,网络上充斥着大量的事件,这些事件大多以无结构化的文本形式存在,比如“XX发现了XX”、“XX并购了XX”等,这种无结构化的文本信息很难被应用于类似于“检索”、“问答”、“对话”等人工智能技术中。因此,如何能够从网络文本中自动获取文本中陈述的事件的关联性以将文本划分为多个事件簇进而构造出事件模板是非常有意义的工作。
虽然很多的评测组织(例如ACE)已经定义了事件的类型和事件的结构化表示,比如ACE定义了8大类事件、33个小类事件,但是这种封闭的类型定义本身过于狭隘,已经不适用于当前多种多样的事件类型。并且由于当前多数的事件识别***均是着眼于从一条语句中识别事件元素,因此每个事件的事件元素的定义也过于简单。比如,在ACE中的“Life/Marry”事件中仅有“人”、“地点”、“时间”这三个事件元素。但是,在很多情况中,这三个元素不足以完整的描述“Life/Marry”事件,比如“出席婚礼的人数”、“主宾”等等也是应该引入的必要的事件元素,但是由于当前的事件识别***以触发词(针对“Life/Marry”事件,像“结婚”、“举办婚礼”等词或短语均可视为该事件的触发词)识别事件,并仅从触发词所在的句子中抽取事件元素,因此上述这些类似于“出席婚礼的人数”、“主宾”等事件元素是不会被识别出来的,并且“Life/Marry”事件中“人”这个元素应该细分为“丈夫”和“妻子”两个角色,而在ACE中也没有去做。
事实上,以句子级为基准的事件对于信息的覆盖程度非常少的。随着网络上信息的丰富,从篇章一级分析事件将会更有意义。比如,对于“汶川地震”事件,关于地震的等级、造成的影响、救援的程度、后续的援助等等,这些信息是不可能用一句话表述完的。再者,文本陈述的事件之间是存在关联性的。同样以“汶川地震”为例,会有多篇新闻追踪介绍“汶川地震的震况”,另外,也会有新闻或博客分析“汶川地震带来的影响”。这些文本都是围绕着“汶川地震”展开,因此必然存在多种多样的关联性。当对文本中涉及的事件进行分析时,能够发现这种事件间的关联性是非常有意义的。
综上所述现有技术存在针对特定事件的“检索”、“问答”、“对话”等人工智能的应用中识别结果及提取特定信息不准确,事件的篇章相似度难以定量计算以及篇章关键信息难以提取。
发明内容
本发明的目的是为了解决现有技术在针对特定事件的“检索”、“问答”、“对话”等人工智能的应用中识别结果及提取特定信息不准确;基于事件的篇章相似度难以定量计算以及篇章关键信息难以提取的问题,而提出一种基于实体连通图的事件模版构造方法。
一种基于实体连通图的事件模版构造方法具体过程为:
步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中(定语、定语、中心词)三元组(z1,z2,z3);
所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台;
步骤二、视三元组(z1,z2,z3)中的三个元素为三个结点,并构建三条边用于连接(z1,z2)、(z1,z3)和(z2,z3);
所述z1,z2,z3为主谓宾、主动补或定定中;
步骤三、将从文本d中抽取到的所有三元组中包含的结点均放入到集合S1中;
利用LTP平台上的分词功能对文本d进行分词,利用word2vec模型将每一个分词转换成词向量;
步骤四、利用词向量计算S1中任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;
步骤五、计算由S1中所有结点组成的图中各结点的PageRank值;
步骤六、通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;
当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度;
用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;
步骤七、使用聚类算法K-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;
步骤八、构建粗粒度事件模板和细粒度事件模版;
一)、构建粗粒度事件模板:
从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;
二)、构建细粒度事件模版:
识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值。
本发明的有益效果为:
本发明通过完成新闻语料的三元组提取,从新闻中提取主谓宾、定定中、主动补三元组。完成新闻连通图的构建,在提取出三元组的基础上,根据三元组相似性超过阀值就将两个三元组节点相连的原则,将新闻抽象为一个连通图;完成连通图各节点PR值的计算。在完成PR值计算的基础上计算得到任意两篇新闻的新闻相似度。使用聚类算法K-means对文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;构建粗粒度事件模板和细粒度事件模版;解决了现有技术在针对特定事件的“检索”、“问答”、“对话”等人工智能的应用中识别结果及提取特定信息不准确的问题;通过定义篇章相似度计算公式,解决了基于事件的篇章相似度难于定量计算的问题;通过构建事件模板解决了篇章关键信息难于提取的问题。从实施例可以看到,排名在前4的新闻都是与A国战争相关的新闻。与A国战争相关的新闻排名最低的是第23名,第3750篇文章,本发明方案满足了按照新闻事件提取新闻内容的要求。
附图说明
图1为本发明流程图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式的一种基于实体连通图的事件模版构造方法具体过程为:
目标有两点:1)确定输入文本之间陈述的事件的关联性,并依此将输入文本集划分为多个簇,簇内的文本均陈述了同一事件;2)根据簇内文本描述的信息,获取事件模板,事件模板分为粗粒度和细粒度两种类型,粗粒度事件模板只需识别出事件的触发词,事件涉及的人物、时间即可(即识别出事件要素),细粒度的事件模板则根据簇内文本描述的信息自动抽取事件元素,并获取事件元素对应的值。
现分别叙述每个目标的解决方案:
1、事件关系分析及事件聚类
本项目的目的在于能够根据输入文本中陈述的事件的不同将输入文本划分为多个簇,每个簇内的文本陈述了同一事件。例如,可按事件将输入文本划分为“XX球队比赛”、“XX基金上涨”、“XX电影上映”等一系列的陈述不同事件的文本簇。由于我们没法预先知道输入文本中究竟会有什么样的文本簇,因此只能采用无监督的聚类方法去划分输入文本。以下即为具体实现方案:
(1)事件关联分析
为实现按事件聚类文本,需要首先获取输入文本陈述的事件之间的关联性的度量,即需要一种方法来表示文本中陈述的事件以及该事件涉及到的各个元素。传统的聚类算法以词语作为特征描述文本,并通过文本特征向量的余弦相似度确定文本之间的关联进而进行聚类。此种方法对于“将主题相似性的文档聚为一类”这种目标是有效的,因为主题是可以通过主题词来描述的。但是对于本项目涉及的“事件聚类”来说,事件是很难通过一个或多个特征词来描述的。按照ACE中对事件的定义,事件是由触发词引起,并包含了参与者、时间、地点等多个因素,因此应该使用更复杂的形式作为特征来表示文本陈述的事件。
按照ACE中对事件的定义,事件是句子级别的,即文本中的一个句子可视为一个事件。本项目扩展了事件的定义,从篇章的角度宏观的定义事件,即认为一篇文本应该是围绕一个核心事件展开的。虽然本项目是从篇章角度分析事件及事件的关联关系,但是对单篇文本分析时,还是应该从句子一级入手去挖掘事件及事件涉及的各个元素。由于此部分的目的仅在于挖掘作为事件的代表的特征以确定事件之间的关系,需要从细粒度的角度分析事件。基于此,本项目并不打算按照ACE给定的步骤(先识别触发词确定事件类型,再根据事件类型识别事件元素)去做,因为ACE给定的事件类型和事件模板太过粗粒度,显然会影响到事件关联计算的准确度。本项目拟三元组作为句子级的事件表示(或称之为事件特征),然后通过边将各个句子级的三元组串联起来作为整个篇章的表示。
步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中(定语、定语、中心词)三元组(z 1,z2,z 3)(抽取三元组目的在于涵盖事件中涉及到的具体元素,以及获得元素之间的关系。因此,所采用的句法关系类型以定中关系三元组、主谓动补关系三元组为主);
所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台,语言技术平台(Language Technology Platform,LTP);
步骤二、视三元组(z 1,z2,z 3)中的三个元素为三个结点,并构建三条边用于连接(z 1,z 2)、(z 1,z 3)和(z 2,z 3);
所述z 1,z2,z 3为主谓宾、主动补或定中;
步骤三、将从文本d中抽取到的所有三元组中包含的结点(每个三元组包含三个结点)均放入到集合S1中;
利用LTP平台上的分词功能对文本d进行分词,利用word2vec模型将每一个分词转换成词向量;
步骤四、利用词向量计算S1中任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;
步骤五、计算由S1中所有结点组成的图中各结点的PageRank值作为文本陈述的事件中侧重的要点;PageRank值越高越重要;
经过步骤一~步骤五,将每篇文本均表示为一个连通图,图中的结点是从句子中抽取得到的三元组,代表句子级的事件元素,结点间的边从整个篇章的角度考虑了全文中各元素之间的联系,而通过计算图中结点的PageRank值可以从篇章级别上揭示出文本陈述的事件的侧重点在于哪。
步骤六、当获得文本对应的三元组关系图和图中结点的PageRank值后,即可通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;
当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度,矩阵的值由关联度的计算公式计算得到;
用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;
步骤七、(2)事件聚类
在获取了事件之间的关联度后,即可使用聚类算法K-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;
以形成陈述同一事件的文本簇。本项目拟采用k-means聚类算法作为基准的事件聚类算法。对于聚类算法的选择有两点需要说明:1)选择K-means的原因是K-means是当前聚类算法中从时间和准确性的角度来说较为有效的一种算法,虽然K-means对于文本聚类的效果不佳,其原因主要是由于文本特征向量的稀疏性使得大部分文本的相似度为0。而本文则使用三元组作为文本中陈述的事件的代表特征,通过将三元组组成网络并依赖网络之间的重合度计算不同文本陈述的事件间的关联度这种方法会很好的解决大部分相似度为0的问题。基于此,选择K-means作为聚类算法。2)本项目目前假设每篇文本只陈述一个核心事件,但是某些情况下,一篇文本可能会陈述多个核心事件,这时在进行聚类时,要考虑将该文本映射到多个簇中。此时,可以使用模糊K-means算法完成对文本的模糊聚类,即将文本按照相关度划分到多个簇中。
步骤八、事件模板提取
在方案1中按照事件将输入文本划分为多个簇。理想状态下,一个簇内的文本都陈述的是同一个事件。当然,这种划分是最理想的,通常很难获得准确的簇划分结果,因此在构建事件模板时,
本发明构建两种类型的事件模型;
一)、构建粗粒度事件模板:
表1粗粒度的事件模板
触发词 | 参与者 | 时间 |
XX | XX | XXXX.XX |
从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;
二)、构建细粒度事件模版:
表2细粒度的事件模板
事件词 | 出资方 | 购买方 | 时间 | 地点 | 金额 | 第三方 | 等等 |
并购 | XX | XX | XXXX.XX | XXX | XX元 | XX | XX |
需要首先识别出模板事件元素,即表中的第一行,然后再从文本簇中针对模板事件元素识别出事件元素对应的值。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤四中利用词向量计算S1中任两个结点的相似度,相似度计算公式为:
式中,θ为向量Ai与Bj的夹角,Ai为词向量(A1,A2,...,An)的第i个数(一篇文章的任一个节点),Bj为词向量(B1,B2,...,Bn)的第j个数(一篇文章的任一个节点),n取值为正整数;(A1,A2,...,An)为一个节点。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤四中阈值取值范围为0.4‐0.8。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是:所述步骤六中关联度的计算公式如下:
式中,k代表由文本di和dj分别创建的图中结点交集中的一个结点,代表该结点在文本di中的PageRank值,代表该结点在文本dj中的PageRank值,和的差代表了两个结点在各自图中的重要性的差距;S(di)为文本di的节点集合,S(dj)为文本dj的节点集合。
显然,如果两个图中重合的结点数越多,并且结点的权值越相近,代表这两篇文本陈述的事件越相近。基于此,即形成了公式(1)。
其它步骤及参数与具体实施方式一至三之一相同。
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是:所述步骤八中的构建粗粒度事件模板:确定过程为:
表1粗粒度的事件模板
触发词 | 参与者 | 时间 |
XX | XX | XXXX.XX |
需从代表某一事件的文本簇内将事件的核心要素,即触发词(或事件的代表词)、参与者和时间识别出来,并填入表内;
其中触发词、参与者和时间的确定过程为:
此部分涉及的事件模板填充是在已知事件元素的前提下进行的,即已知事件模板中仅包含三种类型的事件元素:事件触发词、参与者和时间。此时,需要做的就是根据这三个事件元素从文本簇中抽取相应的值填入到表格内;
首先针对事件触发词的识别,其在表格1和表格2中均出现,因此仅在此部分中介绍;
a)对于触发词的选取,将步骤三得到的每一个向量化的三元组标记为(Arg1,relation,Arg2),其中relation代表Arg1和Arg2之间的关系;通常来说,relation是动词,视为事件的触发词,而Arg1和Arg2为名词,代表了参与事件的元素;
假设输入的某一文本簇为C,则由C内的所有文本构成的三元组集合为S2,计算S2中的三元组任意两个relation对应的词语的相似度;相似度计算过程为:
将relation用词向量表示,通过余弦相似度计算S2中的三元组任意两个relation对应的词语的相似度;
计算完毕后,形成一个relation-relation的矩阵,矩阵的行列均为relation对应的词语(可能的事件触发词),矩阵的值为relation间的相似度;将矩阵的行取和,将和的最大值对应的词语作为事件触发词(得到每个relation对应的词语在文本簇中的重要性,选择重要性最大(矩阵的行取和的最大值)的relation对应的词语作为事件触发词填入到表1中);
b)对于参与者的选取,由于事件的参与者作为事件触发词的主语和宾语出现,在选定事件触发词的前提下,判断与事件触发词处于同一个三元组内的词语是否为名实体(可以采用已训练好的LSTM-CRF算法判定),如果词语为名实体则为参与者,将其加入到表1中参与者对应的表格内,如果词语不为名实体则不为参与者;
c)对于时间的选取,由于时间通常在句子中以多种形式出现(状语、定语等等),因此很难通过语法规则将时间包含在三元组内。然而,由于时间是有固定的表达形式,例如文字形式或数字形式(XX年XX月XX时,XX为文字或数字),因此用正则式来表示文本中时间的书写规则,根据正则式将时间提取出来,然后通过判断时间与事件触发词和参与者(这两者通过前述方法已经识别出)在文本中的距离来判断此时间是否可***到粗粒度事件模板(表格1)中时间对应的单元格内;判断过程为:
判断的方式目前拟采用最简单的方法,即看时间是否和触发词以及参与者在同一句内同时出现,如果同时出现,则确定该时间能***到粗粒度事件模板(表格1)中,否则过滤掉。
其它步骤及参数与具体实施方式一至四之一相同。
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是:所述步骤八中的构建细粒度事件模版;具体过程为:
表2细粒度的事件模板
事件词 | 出资方 | 购买方 | 时间 | 地点 | 金额 | 第三方 | 等等 |
并购 | XX | XX | XXXX.XX | XXX | XX元 | XX | XX |
需要首先识别出模板事件元素,即表中的第一行,然后再从文本簇中针对模板事件元素识别出事件元素对应的值填入表内;
此部分“事件模板提取”的输入即为步骤七形成的某一个文本簇,输出为表格2,表格2中无论是事件元素还是事件元素对应的值都是需要从文本簇中自动抽取得到的。
(2)细粒度的事件模板自动构建
由于表格2中的事件元素是自动识别的,因此表格2中的事件元素要比表格1中的更加具体(细粒度)。
针对事件元素的识别,认为事件元素应该满足以下三个条件:
1、细粒度的事件模板中的元素应该是概括性的词语(即概念词),因为只有概括性或抽象性的词语才能够作为模板元素用于指导从文本中抽取与模板元素相对应的具体的值。例如,当构建“结婚”事件的模板时,只有类似于“丈夫”、“妻子”、“证婚人”等概括性的词语可以作为模板元素。
2、在描述同类型事件的文本中,模板元素或与模板元素相关的词应该不仅在单篇文本中占据较大的比重(多次出现),在全部文本中的分布也应该相对均匀,即在全部文本中出现的频次也不应有太大的差距。
3、作为一个事件模板中的元素,其在文本中应该有对应该元素的具体值出现,例如在有关“结婚”事件的文本中,事件元素“丈夫”和其具体的值会在上下文中同现。
本发明拟基于以上三个条件去抽取文本中的概念词以构建某类型事件的事件模板。具体来说:
条件1)、
根据《大词林》判断步骤七形成的某一个文本簇中某词语是否为概括性或抽象性的词语,如果词语是概括性词语且抽象程度未达到抽象阈值,则该概括性词语保留,进行2);否则将词语过滤掉;
抽象阈值为《大词林》中的1-3层;
针对第一个条件,需要有一个词典能够确定某词语是否为概括性或抽象性的词语。这可以应用本中心所研发的《大词林》来完成该项工作。《大词林》是以上下位关系构建的知识图谱。《大词林》将其中的数据分为两部分,一部分为底层具体实体,例如“人名”、“地名”、“机构名”等等,而上层是抽象的概念词,例如“员工”、“公司”、“地点”等等。由于《大词林》是自动构建的,并且自动从网络中爬取数据进行扩充,因此其包含的数据非常丰富。目前《大词林》中上层的概念词超过14万个。基于此,可以通过《大词林》来判断某个词是否为概念词,即当某个词出现在《大词林》的概念词集合中,我们才去考虑其可能作为事件元素被包含在事件模板中的可能性。当然,事件模板中的元素的含义也不能过于宽泛,比如不能是“人物”、“地点”等宽泛的概念词,否则也无从谈起开放域的模板构建了。基于此,也可以考虑到概念词在《大词林》中的位置,如果词位置特别靠《大词林》上层(抽象程度较高),也不会考虑将此词语作为事件模板中的元素;
条件2)、
针对第二个条件,本发明拟使用下式计算满足条件1的每个概括性词语的权值:
式中,d代表输入的与某类型事件相关的文本簇中的某一篇文本;g代表文本簇(步骤七得到的)中文本的数量;wde和wdf均代表文本d中的某个概括性词语(即该词是《大词林》的上位词);h代表整个词表的长度;g、h取值为正整数;
所述词表为本簇中所有文章所包含词语组成的集合,若一个词语在文章中出现多次只取一次放入集合中;
词表的长度为集合中词语的个数;
sim(wde,wdf)代表两个概括性词语之间的相似度;过程为:
采用将wde和wdf先用词向量表示,然后计算余弦相似度;
f(wdf)代表某个概括性词语,例如wi,在某篇文本,例如d,中出现的频度;f(wde)代表某个概括性词语,例如wi,在某篇文本,例如d,中出现的频度;
公式(2)考虑了两种情况:1)该公式不仅考虑了某个概念词,例如wi在文本中的分布,也考虑了与wi具有语义相似性的词语在文中的分布,即2)该公式不仅考虑了概念词在单篇文本中的分布(公式中的分子),同时也考虑了概念词在全部文本集中的分布差异(公式中的分母)。
通过计算公式(2),得到根据条件1)过滤得到的每个概括性词语的权值;设定阈值,将概括性词语的权值小于阈值的概括性词语过滤掉,将概括性词语的权值大于等于阈值的概括性词语保留,进行3);
通过设定阈值(人为设定)过滤掉权值较低的概念词,然后将超过阈值的概念词保留以待条件3的检测。
条件3)、
将文本中满足条件2)的第一个概括性词语所在句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定中三元组,从S3中抽取包含第一个概括性词语在内的三元组,三元组按照Arg1,relation,Arg2形式构建,计算包含第一个概括性词语的三元组集合中两两relation的相似度,若两两relation相似度的均方差大于等于阈值((人为设定)),则第一个概括性词语过滤掉;若两两relation相似度的均方差小于阈值,则第一个概括性词语为细粒度事件模板的元素;
将文本中满足2)的第二个概括性词语所在句子提出,判断第二个概括性词语是否为细粒度事件模板的元素;直至将文本中满足2)的所有概括性词语判断完;
将细粒度事件模板的元素所在的三元组中的名实体或时间提出,作为细粒度事件模板的元素值填充到细粒度事件模板中(作为同三元组细粒度事件模板的元素值)。
针对第三个条件,对于事件模板中的事件元素应该和该元素对应的值是同现的,并且在文本中相距的位置不会太远。由于事件元素是概念词,而事件元素对应的值应该是该概念词的一个具体值,因此对于一对事件元素和其值在文本中应该符合一定的语法规则。例如“XX是证婚人”、“XX作为证婚人”等,“XX”和“证婚人”在文本中同现时会有类似的语法结构。基于此想法,可以针对满足条件2的每个概念词,以wi作为例子,将文本中包含wi的所有句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定中三元组(三元组的抽取模板可以根据输入语料的不同而分别构建,比较典型的有定中关系三元组、主谓动补关系三元组等)。从S3中抽取包含wi在内的三元组。由于三元组是按照Arg1,relation,Arg2的形式构建的,所以对于由同一个概念词,例如wi,构建的三元组集合,其之中的relation应该是一致的或者有很大的相关性。基于此想法,可以计算包含wi的三元组集合中两两relation的相似度(计算方式可以采用公式(1)中的方法,对relation用词向量表示,然后计算词向量之间的余弦相似度得到两个relation之间的相似度),如果两两relation相似度的均方差小于一定值,则说明由wi构建的三元组基本满足同种类型的语法规则,因此将wi作为事件元素的可信度是很大的。
将满足上述三个条件的概念词抽取出来作为事件模板中的元素,将所有元素组合在一起即形成了事件模板;
当获取了事件元素后,即表格2中的第一行后,由于事件元素和其对应的值通常共现于同一个句子内(这也是第三个条件成立的依据),将与事件元素同现于三元组中的另一个词抽取出来作为该事件元素对应的值。即对于三元组(Arg1,relation,Arg2),如果Arg1为事件元素,那么则认定Arg2为事件元素Arg1对应的可能的值;之后按照如下两条规则对Arg2进行过滤:
1)由于Arg2为事件元素对应的值,因此其不应是含义宽泛的概念词。这里可以使用《大词林》作为过滤器,如果Arg2被大词林的上层概念词所包含,则去除Arg2;
2)由于事件元素的值多为名实体(人名、地名、机构名)、时间或数字(金额等),因此如果当Arg1(事件元素)在大词林中位于人物、机构、空间类别下时,则使用名实体识别工具识别Arg2,如果Arg2不为名实体,则过滤掉Arg2;如果Arg1位于时间、数字类别下时,Arg2如果不为数字也过滤掉。
其它步骤及参数与具体实施方式一至五之一相同。
采用以下实施例验证本发明的有益效果:
实施例一:
本实施例一种基于实体连通图的事件模版构造方法具体是按照以下步骤制备的:
完成新闻语料的三元组提取,从新闻中提取主谓宾、定中、主动补三元组。
完成新闻连通图的构建,在提取出三元组的基础上,根据三元组相似性超过阀值就将两个三元组节点相连的原则,将新闻抽象为一个连通图
完成连通图各节点PR值的计算。
在完成PR值计算的基础上计算得到任意两篇新闻的新闻相似度。
首次参与计算的新闻语料有4000条,以第一篇新闻为基准,计算其他新闻与这篇新闻的相似度。
新闻语料来自百度;
第一篇新闻主要介绍了A国战争对B的影响,可以将新闻事件归类为A国战争。
计算后相似度得到的结果如下表所示,其中篇章编号为4000条新闻语料中与A国战争相关的新闻的编号,1号文章就是上述的第一篇文章;相关度为程序计算得到的对应新闻与第一篇新闻的相关度结果;排位为将4000条新闻按照相关度从大到小的方式排列,对应新闻在排序后所处的位置:
可以看到,排名在前4的新闻都是与A国战争相关的新闻。与A国战争相关的新闻排名最低的是第23名,第3750篇文章,本发明方案满足了按照新闻事件提取新闻内容的要求。
本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (6)
1.一种基于实体连通图的事件模版构造方法,其特征在于:所述方法具体过程为:
步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组(z1,z2,z3);
所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台;
步骤二、视三元组(z1,z2,z3)中的三个元素为三个结点,并构建三条边用于连接(z1,z2)、(z1,z3)和(z2,z3);
所述z1,z2,z3为主谓宾、主动补或定定中;
步骤三、将从文本d中抽取到的所有三元组中包含的结点均放入到集合S1中;
利用LTP平台上的分词功能对文本d进行分词,利用word2vec模型将每一个分词转换成词向量;
步骤四、利用词向量计算S1中任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;
步骤五、计算由S1中所有结点组成的图中各结点的PageRank值;
步骤六、通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;
当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度;
用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;
步骤七、使用聚类算法K-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;
步骤八、构建粗粒度事件模板和细粒度事件模版;
一)、构建粗粒度事件模板:
从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;
二)、构建细粒度事件模版:
识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值。
2.根据权利要求1所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤四中利用词向量计算S1中任两个结点的相似度,相似度计算公式为:
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>s</mi>
<mi>&theta;</mi>
<mo>=</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<mrow>
<mo>(</mo>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
<msub>
<mi>B</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
<mn>2</mn>
</msup>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>n</mi>
</munderover>
<msup>
<msub>
<mi>B</mi>
<mi>j</mi>
</msub>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
</mfrac>
</mrow>
式中,θ为向量Ai与Bj的夹角,Ai为词向量(A1,A2,...,An)的第i个数,Bj为词向量(B1,B2,...,Bn)的第j个数,n取值为正整数。
3.根据权利要求2所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤四中阈值取值范围为0.4‐0.8。
4.根据权利要求3所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤六中关联度的计算公式如下:
<mrow>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<msqrt>
<mrow>
<munder>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>&Element;</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>&cap;</mo>
<mi>S</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</munder>
<mo>|</mo>
<msubsup>
<mi>PR</mi>
<mi>k</mi>
<msub>
<mi>d</mi>
<mi>i</mi>
</msub>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>PR</mi>
<mi>k</mi>
<msub>
<mi>d</mi>
<mi>j</mi>
</msub>
</msubsup>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,k代表由文本di和dj分别创建的图中结点交集中的一个结点,代表该结点在文本di中的PageRank值,代表该结点在文本dj中的PageRank值,和的差代表了两个结点在各自图中的重要性的差距;S(di)为文本di的节点集合,S(dj)为文本dj的节点集合。
5.根据权利要求4所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤八中构建粗粒度事件模板中触发词、参与者和时间的确定过程为:
a)对于触发词的选取:
将步骤三得到的每一个向量化的三元组标记为(Arg1,relation,Arg2),
其中relation代表Arg1和Arg2之间的关系;relation是动词,视为事件的触发词,而Arg1和Arg2为名词,代表了参与事件的元素;
假设输入的某一文本簇为C,则由C内的所有文本构成的三元组集合为S2,计算S2中的三元组任意两个relation对应的词语的相似度;
相似度计算过程为:
将relation用词向量表示,通过余弦相似度计算S2中的三元组任意两个relation对应的词语的相似度;
计算完毕相似度后,形成一个relation-relation的矩阵,矩阵的行列均为relation对应的词语,矩阵的值为relation间的相似度;将矩阵的行取和,将和的最大值对应的词语作为事件触发词;
b)对于参与者的选取:
判断与事件触发词处于同一个三元组内的词语是否为名实体,如果词语为名实体则为参与者,如果词语不为名实体则不为参与者;
c)对于时间的选取:
用正则式来表示文本中时间的书写规则,根据正则式将时间提取出来,然后通过判断时间与事件触发词和参与者在文本中的距离来判断此时间是否可***到粗粒度事件模板中时间对应的单元格内;判断过程为:
时间是否和触发词以及参与者在同一句内同时出现,如果同时出现,则确定该时间能***到粗粒度事件模板中,否则过滤掉。
6.根据权利要求5所述一种基于实体连通图的事件模版构造方法,其特征在于:所述步骤八中构建细粒度事件模版中识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值;具体过程为:
条件1)、
根据《大词林》判断步骤七形成的某一个文本簇中某词语是否为概括性或抽象性的词语,如果词语是概括性词语且抽象程度未达到抽象阈值,则该概括性词语保留,进行2);否则将词语过滤掉;
条件2)、
计算满足条件1的每个概括性词语的权值:
<mrow>
<msub>
<mi>w</mi>
<mi>e</mi>
</msub>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>d</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>g</mi>
</munderover>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>f</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>h</mi>
</munderover>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>d</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>&CenterDot;</mo>
<mi>s</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>d</mi>
<mi>e</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>d</mi>
<mi>f</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>/</mo>
<msqrt>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>d</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>g</mi>
</munderover>
<mo>|</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>d</mi>
<mi>e</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mfrac>
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>d</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>g</mi>
</munderover>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>d</mi>
<mi>e</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mi>g</mi>
</mfrac>
<msup>
<mo>|</mo>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
式中,d代表输入的与某类型事件相关的文本簇中的某一篇文本;g代表文本簇中文本的数量;wde和wdf均代表文本d中的某个概括性词语;h代表整个词表的长度;g、h取值为正整数;
所述词表为文本簇中所有文章所包含词语组成的集合,若一个词语在文章中出现多次只取一次放入集合中;
词表的长度为集合中词语的个数;
sim(wde,wdf)代表两个概括性词语之间的相似度;过程为:
采用将wde和wdf先用词向量表示,然后计算余弦相似度;
f(wdf)代表某个概括性词语在某篇文本中出现的频度;f(wde)代表某个概括性词语在某篇文本中出现的频度;
通过计算公式(2),得到根据条件1)过滤得到的每个概括性词语的权值;设定阈值,将概括性词语的权值小于阈值的概括性词语过滤掉,将概括性词语的权值大于等于阈值的概括性词语保留,进行3);
条件3)、
将文本中满足条件2)的第一个概括性词语所在句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组,从S3中抽取包含第一个概括性词语在内的三元组,三元组按照Arg1,relation,Arg2形式构建,计算包含第一个概括性词语的三元组集合中两两relation的相似度,若两两relation相似度的均方差大于等于阈值,则第一个概括性词语过滤掉;若两两relation相似度的均方差小于阈值,则第一个概括性词语为细粒度事件模板的元素;
将文本中满足2)的第二个概括性词语所在句子提出,判断第二个概括性词语是否为细粒度事件模板的元素;直至将文本中满足2)的所有概括性词语判断完;
将细粒度事件模板的元素所在的三元组中的名实体或时间提出,作为细粒度事件模板的元素值填充到细粒度事件模板中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711071987.6A CN107862037B (zh) | 2017-11-03 | 2017-11-03 | 一种基于实体连通图的事件模版构造方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711071987.6A CN107862037B (zh) | 2017-11-03 | 2017-11-03 | 一种基于实体连通图的事件模版构造方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107862037A true CN107862037A (zh) | 2018-03-30 |
CN107862037B CN107862037B (zh) | 2021-07-16 |
Family
ID=61700739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711071987.6A Active CN107862037B (zh) | 2017-11-03 | 2017-11-03 | 一种基于实体连通图的事件模版构造方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107862037B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754224A (zh) * | 2018-12-29 | 2019-05-14 | 贵州小爱机器人科技有限公司 | 人事关系图谱构建方法、装置以及计算机存储介质 |
CN110134762A (zh) * | 2019-04-23 | 2019-08-16 | 南京邮电大学 | 基于事件主题分析的虚假信息识别***及识别方法 |
CN111539197A (zh) * | 2020-04-15 | 2020-08-14 | 北京百度网讯科技有限公司 | 文本匹配方法和装置以及计算机***和可读存储介质 |
CN111651559A (zh) * | 2020-05-29 | 2020-09-11 | 辽宁工程技术大学 | 一种基于事件抽取的社交网络用户关系抽取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102508828A (zh) * | 2011-09-16 | 2012-06-20 | 浙江大学 | 一种基于多代理路由的图路径关系发现方法 |
CN104021115A (zh) * | 2014-06-13 | 2014-09-03 | 北京理工大学 | 基于神经网络的中文比较句识别方法及装置 |
US20160048511A1 (en) * | 2014-08-15 | 2016-02-18 | International Business Machines Corporation | Extraction of concept-based summaries from documents |
-
2017
- 2017-11-03 CN CN201711071987.6A patent/CN107862037B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102508828A (zh) * | 2011-09-16 | 2012-06-20 | 浙江大学 | 一种基于多代理路由的图路径关系发现方法 |
CN104021115A (zh) * | 2014-06-13 | 2014-09-03 | 北京理工大学 | 基于神经网络的中文比较句识别方法及装置 |
US20160048511A1 (en) * | 2014-08-15 | 2016-02-18 | International Business Machines Corporation | Extraction of concept-based summaries from documents |
Non-Patent Citations (1)
Title |
---|
盛振华等: "InfoSigs:一种面向Web对象的细粒度聚类算法", 《计算机研究与发展》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754224A (zh) * | 2018-12-29 | 2019-05-14 | 贵州小爱机器人科技有限公司 | 人事关系图谱构建方法、装置以及计算机存储介质 |
CN110134762A (zh) * | 2019-04-23 | 2019-08-16 | 南京邮电大学 | 基于事件主题分析的虚假信息识别***及识别方法 |
CN110134762B (zh) * | 2019-04-23 | 2023-07-11 | 南京邮电大学 | 基于事件主题分析的虚假信息识别***及识别方法 |
CN111539197A (zh) * | 2020-04-15 | 2020-08-14 | 北京百度网讯科技有限公司 | 文本匹配方法和装置以及计算机***和可读存储介质 |
CN111539197B (zh) * | 2020-04-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 文本匹配方法和装置以及计算机***和可读存储介质 |
CN111651559A (zh) * | 2020-05-29 | 2020-09-11 | 辽宁工程技术大学 | 一种基于事件抽取的社交网络用户关系抽取方法 |
CN111651559B (zh) * | 2020-05-29 | 2023-05-26 | 辽宁工程技术大学 | 一种基于事件抽取的社交网络用户关系抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107862037B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106484664B (zh) | 一种短文本间相似度计算方法 | |
US10437867B2 (en) | Scenario generating apparatus and computer program therefor | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
CN101777042B (zh) | 信息检索领域中基于神经网络和标签库的语句相似度算法 | |
CN106294322A (zh) | 一种基于lstm的汉语零指代消解方法 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
CN113704451B (zh) | 一种电力用户诉求筛选方法、***、电子设备和存储介质 | |
CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN106776562A (zh) | 一种关键词提取方法和提取*** | |
CN107862037A (zh) | 一种基于实体连通图的事件模版构造方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答*** | |
US10430717B2 (en) | Complex predicate template collecting apparatus and computer program therefor | |
CN109558492A (zh) | 一种适于事件归因的上市公司知识图谱构建方法及装置 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN108038205A (zh) | 针对中文微博的观点分析原型*** | |
CN104137097A (zh) | 谓语模板收集装置、特定短语对收集装置、以及用于它们的计算机程序 | |
CN104346379A (zh) | 一种基于逻辑和统计技术的数据元识别方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN109101551A (zh) | 一种问答知识库的构建方法及装置 | |
Popping | Online tools for content analysis | |
CN106503256A (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN104881400A (zh) | 基于联想网络的语义相关性计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |