CN106951530B - 一种事件类型抽取方法和装置 - Google Patents
一种事件类型抽取方法和装置 Download PDFInfo
- Publication number
- CN106951530B CN106951530B CN201710169761.3A CN201710169761A CN106951530B CN 106951530 B CN106951530 B CN 106951530B CN 201710169761 A CN201710169761 A CN 201710169761A CN 106951530 B CN106951530 B CN 106951530B
- Authority
- CN
- China
- Prior art keywords
- corpus
- word
- words
- candidate
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种事件类型抽取方法和装置,该方法包括:从预置的语料库中提取出候选语料词语;基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到至少一个所述目标触发词;确定所述触发词集合中的所述目标触发词的特征;基于目标触发词的特征,对目标触发词进行聚类,得到聚类出的属于不同事件类别的聚类集合。该方法和装置为提高事件抽取的准确性以及增大事件抽取的应用范围提供了可能。
Description
技术领域
本申请涉及信息处理技术领域,更具体的说是涉及一种事件类型抽取方法和装置。
背景技术
事件抽取作为信息抽取的重要组成部分,具有广泛的应用前景和巨大的现实意义。事件抽取的目的是准确有效的从大量无序杂乱、无结构的信息中提取感兴趣的时间信息,根据事件抽取的任务定义,事件是指特定的人、物在特定时间和特定地点相互作用的一种客观事实,事件由触发词以及描述事件结构的元素构成。事件抽取要求从含有事件信息的非结构化源文本中,自动识别和抽出含有事件类型、事件元素和事件角色信息的结构化信息。
目前,现有的事件提取均直接使用自动内容抽取(Automatic ContentExtraction,ACE)的标注结果,使得事件抽取的研究也仅仅局限于ACE中定义的事件类型,即,仅仅局限于限定域事件抽取。然而由于开放域中事件类型更多丰富多样,事件类型的差异相对较小,从而导致差异判别难度大,如果仍直接采用ACE,则无法准确有效的进行事件提取。
发明内容
有鉴于此,本申请提供了一种事件类型抽取方法和装置,以为提高事件抽取的准确性以及增大事件抽取的应用范围提供了可能。
为实现上述目的,本申请提供如下技术方案:
一种事件类型抽取方法,包括:
从预置的语料库中提取出多个候选语料词语;
基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;
对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个所述基准触发词对应的至少一个所述目标触发词;
分别确定每个所述目标触发词的特征;
基于所述目标触发词的特征,对所有的所述目标触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合,其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词。
优选的,所述从预置的语料库中提取出候选语料词语,包括:
确定所述预置的语料库中的多个语料文本内所包含的待定语料词语;
滤除所述待定语料词语中所包含的预设无用词语,得到所述候选语料词语,其中,所述预设无用词语包括停用词和虚词。
优选的,所述基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,包括:
针对每个所述候选语料词语,依次计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性;
对于任意一对所述基准触发词和候选语料词语,将所述基准触发词与候选语料词语在每篇语料文本中的初始关联性进行加和,得到所述基准触发词与候选语料词语在所述语料库中的关联性。
优选的,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:
对于一篇语料文本,将所述基准触发词和所述候选语料词语在所述语料文本中同一句子内出现的第一次数,与最小出现次数的比值确定为该基准触发词语与该候选语料词语在所述语料文本中的初始关联性,其中,所述最小出现次数为所述基准触发词在所述语料文本中出现的次数,以及所述候选语料词语在所述语料文本中出现的次数中的最小值。
优选的,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:
确定多个预置的连接词;
对于一篇语料文本,从所述语料文本中确定出同时具有所述基准触发词和候选语料词语,且通过预置的连接词连接所述基准触发词和候选语料词语的第一目标句子;
针对每一个预置的连接词ji,将所述语料文本中,具有所述预置的连接词ji的第一目标句子中的数量,与最小出现次数的比值确定为所述基准触发词和所述候选语料词语在所述语料文本中关于所述连接词ji的相关性Con(conji);
利用如下公式,计算所述基准触发词seed和候选语料词语c在所述语料文本di中的初始关联性为Rdi(seed,c):
其中,i为从1到k的自然数,k表示所述语料文本di中,所有所述第一目标句子中具有的所述预置的连接词的总数量。
优选的,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:
确定预置的多种关系类型;
在任一篇语料文本di中,针对任意一种所述关系类型ji,将所述基准触发词和候选语料词语同时出现第二目标句子中的第三次数,与最小出现次数的比值确定为所述基准触发词和候选语料词语在所述语料文本di中关于所述关系类型ji的相关性Rel(relji),其中,所述第二目标句子为具有所述关系类型ji对应的指定连接词,且所述基准触发词和候选语料词语通过所述指定连接词相连的句子,所述最小出现次数为所述基准触发词在所述语料文本di中出现的次数,以及所述候选语料词语在所述语料文本di中出现的次数中的最小值;
利用如下公式,计算所述基准触发词seed和候选语料词语c在所述语料文本di中的初始关联性为Rdi(seed,c):
其中,i为从1到k的自然数,k表示所述语料文本di中,具有所述预置的关系类型的最大数量。
优选的,所述确定每个所述目标触发词的特征,包括以下任意一种或几种:
获取所述目标触发词的属性特征;
获取所述目标触发词的关联词,所述关联词包括所述目标触发词的同义词、反义词和相关词;
通过在所述语料库包含的语料文本中进行搜索,搜索出包含所述目标触发词的目标语料文本,并在所述目标语料文本中定位出与所述目标触发词满足预设位置关系的特征词,将得到的特征词作为所述目标触发词的上下文特征;
基于框架网络FrameNet工具从语料库的语料文本中的句子内,识别出所述目标触发词及该目标触发词的框架类型。
优选的,在所述得到聚类出的多个属于不同事件类别的聚类集合之后,还包括:
对于任意一个聚类集合依据词频与逆向文件频率TF-IDF算法,确定所述聚类集合中适合作为所述聚类集合的标签的至少一个目标触发词;
将所述至少一个目标触发词作为所述聚类集合的标签,对所述聚类集合进行标注。
另一方面,本申请还提供了一种事件类型抽取装置,包括:
词筛选单元,用于从预置的语料库中提取出多个候选语料词语;
关联确定单元,用于基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;
词扩展单元,用于对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个所述基准触发词对应的至少一个所述目标触发词;
特征确定单元,用于分别确定每个所述目标触发词的特征;
类型确定单元,用于基于所述目标触发词的特征,对所有的所述触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合,其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词。
优选的,所述关联确定单元,包括:
第一关联计算单元,用于针对每个所述候选语料词语,依次计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性;
第二关联计算单元,用于对于任意一对所述基准触发词和候选语料词语,将所述基准触发词与候选语料词语在每篇语料文本中的初始关联性进行加和,得到所述基准触发词与候选语料词语在所述语料库中的关联性。
经由上述的技术方案可知,在本申请中触发词集合中的目标触发词以现有的自动内容抽取技术得到的触发词为基准,对自动抽取技术得到的触发词进行扩展得到,从而使得得到的触发词所涵盖的范围更为广泛,有利于事件提取中确定引发事件的核心词,因此,在基于扩展后的触发词进行聚类,最终可以得到更多种类的事件类型,有利于提高事件提取的准确度,增大事件提取的应用范围。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请一种事件类型抽取方法一个实施例的流程示意图;
图2示出了本申请一种事件类型抽取方法又一个实施例的流程示意图;
图3示出了本申请一种事件类型抽取装置一个实施例的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解事件抽取过程,下面对一些事件抽取中所涉及到的名词进行简单介绍:
实体(Entity):属于某个语义类别的对象或对象集合。
实体描述(Entity mention):包含实体的短语(通常情况下是名词短语)。
事件触发词(Event trigger):引发事件发生的核心词(ACE中触发词主要为动词或者名词)。
事件元素(Event arguments):事件的参与者,是组成事件的核心部分。
事件角色/元素角色(Argument roles):事件参与者与事件的关系。
事件描述(Event mention):包含事件触发词和事件参与者的短语或者句子。
下面介绍本申请的一种事件类型抽取方法进行介绍。
参见图1,其示出了本申请一种事件类型抽取方法一个实施例的流程示意图,本实施例的方法可以包括:
101,从预置的语料库中提取出候选语料词语。
其中,该语料库就是待处理的语言资源,如,该语料库可以为基于TDT(话题检测与跟踪,Topic Detection and Tracking)技术获取到语料,该语料库包括多篇语料文本,这些语料文本可以是面向多语言文本和语音形式的新闻报道,TDT主要对事件报道边界自动识别、锁定和收集突发性新闻话题、跟踪话题发展以及跨语言检测与跟踪等相关任务。基于TDT技术的新闻文本中描述了大量事件。
从预置的语料库中提取出的候选语料词语可以认为是候选触发词,以便后续从这些候选触发词中选取可以作为扩展出的触发词的词语。具体的,可以通过对预置的语料库中的语料文本进行词语提取,以得到候选触发词。
102,基于该语料库,确定预置的触发词集合中的基准触发词与该候选语料词语的关联性。
其中,该基准触发词为通过自动内容抽取ACE技术确定的。该基准触发词可以理解为用于扩展触发词的种子触发词,以在该基准触发词的基础上,结合该候选语料词语进行触发词的扩展。
103,对于任意一个基准触发词,将与该基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个基准触发词对应的至少一个所述目标触发词。
与现有的不同,本申请中用于事件抽取的触发词并不是直接采用该自动内容抽取技术得到的触发词,而是以自动内容抽取技术得到的触发词为基准,对触发词进行了扩展。
104,分别确定每个目标触发词的特征。
其中,目标触发词的特征用于表征该目标触发词的自身属性,该目标触发词在语料文本中与上下文的关联性等,该目标触发词的特征是确定该事件类别的依据。
105,基于目标触发词的特征,对所有的目标触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合。
其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词。
在本申请中触发词集合中的目标触发词以现有的自动内容抽取技术得到的触发词为基准,对自动抽取技术得到的触发词进行扩展得到,从而使得得到的触发词所涵盖的范围更为广泛,有利于事件提取中确定引发事件的核心词,因此,在基于扩展后的触发词进行聚类,最终可以得到更多种类的事件类型,有利于提高事件提取的准确度,增大事件提取的应用范围。
参见图2,其示出了本申请一种事件类型抽取方法又一个实施例的流程示意图,本实施例的方法可以包括:
201,从预置的语料库中的多个语料文本中,确定出待定语料词语。
该步骤201相当于中语料文本中进行词语提取,以确定出该多个语料文本中所包含的语料词语,为了与后续用于扩展触发词的候选语料词语进行区分,将该语料文本中提取出的初始的语料词语称为待定语料词语。
202,滤除该待定语料词语中所包含的预设无用词语,得到包含多个候选语料词语的候选语料词语集合。
其中,该预设无用词语可以根据需要设定,如,该预设无用词语可以包括一些停用词和虚词的词语。其中,虚词不能充当句子成分的词,是实词之外的词。而实词能单独充当句子成分,即有词汇意义和语法意义的词。
当然,除了从待定语料词语中滤除预先设定的无用词语之外,还可以对待定语料词库中剩余的实词进行词形还原等预处理,并将预处理之后剩余的待定语料词语作为候选语料词语,从而得到候选语料词语集合。
203,获取预置的触发词集合。
其中,该触发词集合包括多个通过自动内容抽取技术确定出的基准触发词。
基准触发词可以理解为按照现有技术确定出的触发词,而本申请需要在现有的触发词基准上进行触发词的扩展。
204,针对每个候选语料词语,依次计算该候选语料词语与触发词集合中每个基准触发词在每篇语料文本中的初始关联性。
关联性可以反映两个词语之间的相关性以及相关程度,关联性可以包括两个词在同一篇语料文本内的相关性,在该种情况下,相关性仅仅可以反映出这两个词在该篇文本内的相关程度,为了便于区分,将基准触发词语候选语料词语在一篇语料文本内的相关性称为初始关联性。可以理解的是,由于语料文本有多篇时,基准触发词和候选语料词语会具有针对多个不同的语料文本的初始关联性。
关联性还可以包括在语料库中所有文档的综合相关性,该综合相关性可以反映出两个词在所有文本文档中的相关性程度,在本申请实施例中,将基准触发词与候选语料词在语料库中所有文档的综合相关性称为语料库中的关联性。
其中,计算候选语料词语与基准触发词在一篇语料文本中的初始关联性的方式可以有多种。如:
在一种计算初始关联性的实现方式中:
可以将基准触发词和候选语料词语在语料文本中同一句子内出现的第一次数,与最小出现次数的比值确定为该基准触发词语同样该候选语料词语在该语料文本中的初始关联性。其中,最小出现次数为基准触发词在该语料文本中出现的次数,以及候选语料词语在该语料文本中出现的次数中的最小值。即,初始关联性Rdi(seed,c)可以表示为:
其中,分子为基准触发词seed和候选语料词语c共现在一个句子中的频次,分母为基准触发词seed和候选语料词语c分别在语料文本di中出现的频次中的最小值。
在该种实现方式中,将同一个句子中出现的词语认为是相关词语,两个词语出现在同一个句子的频率与这两个词出现的总次数的比值也高,说明这两个词的相关性越高。
在又一种计算初始关联性的实现方式中:
可以先确定从该语料文本中确定出同时存在基准触发词和候选语料词语,且基准触发词和候选预料词语通过预置的连接词相连的所有第一目标句子;针对连接所述基准触发词和候选语料词语的每个连接词ji,分别计算该基准触发词和候选语料词语在该语料文本中关于该连接词ji的相关性。在该语料文本中,基准触发词和候选语料词语关于该连接词ji的相关性为:将基准触发词和候选语料词语出现在该语料文本中的第一目标句子中的第二次数,与最小出现次数的比值。其中,最小出现次数为基准触发词在该语料文本中出现的次数,以及候选语料词语在该语料文本中出现的次数中的最小值。
即,在该语料文本di中,该基准触发词和候选语料词语关于预置的连接词的相关性con(conji)可以表示如下:
其中,公式二中,该分式的分子为在该语料文本di中,具有该基准触发词seed和候选语料词语c,且该基准触发词seed和候选语料词语c通过该连接词i相连的第一目标句子的数量,其中,该数量也可以认为是基准触发词和候选语料词语通过连接词相连并共同出现在一个第一目标句子中的次数。该分式的分母为基准触发词seed在语料文本di中出现的次数和候选语料词语c在语料文本di中出现的次数中的最小值。
相应的,该基准触发词seed和候选语料词语c在该语料文本di中的初始关联性为Rdi(seed,c):
其中,i为从1到k的自然数,k表示所述语料文本di中,所有所述第一目标句子中具有的所述预置的连接词的总数量。
其中,预置的连接词可以根据需要设定,可选的,可以使用PDTB(宾州篇章关系树,Penn Discourse Treebank)来定义出182个连接词。
在该种实现方式中,连接两个词语的连接词的种类对两个词的相关度有一定的影响:若连接两个词的连接词种类较多,则认为两个词的相关性较为混乱,从而降低两个词的相关性;若连接两个词的连接词种类较少,则认为两个词的相关性较为稳定,从而两个词的相关性较大。
在又一种计算初始关联性的实现方式中:
需要针对预置的每种关系类型ji,确定基准触发词和候选语料词语同时出现第二目标句子中的第三次数,并计算该基准触发词和候选语料词语在该语料文本中关于该种关系类型ji的相关性。其中,该第二目标句子为具有该关系类型对应的指定连接词,且基准触发词和候选语料词语通过该指定连接词相连的句子。该基准触发词和候选语料词语在该语料文本中关于该种关系类型ji的相关性为该种关系类型对应的第三次数,与最小出现次数的比值,其中,最小出现次数为基准触发词在该语料文本中出现的次数,以及候选语料词语在该语料文本中出现的次数中的最小值。
即,在该语料文本di中,该基准触发词seed和候选语料词语c关于预置的关系类型ji的相关性Rel(relji)可以表示如下:
其中,分子为语料文本di中,具有基准触发词seed和候选语料词语c且通过该关系类型对应的指定连接词连接该基准触发词和候选语料词语的第二目标句子的第三次数,当然,也可以认为是基准触发词和候选语料词语通过该关系类型对应的连接词相连并共同出现在一个目标句子中的次数。该分式的分母为基准触发词seed在语料文本di中出现的次数和候选语料词语c在语料文本di中出现的次数中的最小值。
在得到该基准触发词seed和候选语料词语c关于预置的关系类型ji的相关性Rel(relji)之后,可以统计该基准触发词和候选语料词语c在该语料文本di中的初始关联性Rdi(seed,c)为:
其中,i为从1到k的自然数,k表示所述语料文本di中,具有所述预置的关系类型的最大数量。如,预置的关系类型有四种,则该k的取值为4。
由于PDTB中定义了182种连接词,容易导致各个连接词的实例数量稀少,在该种实现方式中使用基于篇章的关系类型计算关联性。可选的,在本申请实施例中,篇章的关系类型可以包括预置的四大类关系类型:对比关系(Comparison)、因果关系(Contingency)、扩展关系(Expansion)以及时序关系(Temporal)。
PDTB中部分连接词指向特定的关系类型,例如,具有连接词“because(因为)”连接句子中的“前置论元”和“后置论元”可以指向“Causal(因果)”关系;部分连接词可以指向多种关系类型,例如,连接词“and(和)”。因此,本发明仅仅选取PDTB中特定连接词。特定连接词指该连接词在篇章中指向某一关系类型的概率较高。本发明针对PDTB中连接词的分布,并统计了各连接词指向某一关系类型的概率。例如连接词“alternatively(选择地)”指向“Expansion(扩展)”关系类型的概率为100%。在本申请中仅选取指向某一关系类型概率大于80%的连接词作为该关系类型所包含的指定连接词。
相应的,在该种实现方式中,在设定两个词语具有相关性的“界定范围”为这两个词语处于同一个句子,同时要求这两个词语通过指定连接词连接。同时,可以分别针对四种关系类型分别计算词语seed和c的相关性。
当然,在实际应用中还可以有其他方式来计算基准触发词与候选语料词语在该语料文本中的初始关联性,在此不加以限制。
205,针对任意一对基准触发词和候选语料词语,依据该触发词集合中的基准触发词与候选语料词语在每篇语料文本中的初始关联性,统计该基准触发词与候选语料词语在所述语料库中的关联性。
对于任意一对基准触发词和候选语料词语,将该基准触发词和候选语料词语在语料库中的每篇语料文本的初始关联性进行加和,便可以得到该基准触发词和候选语料词语在该语料库中的关联性,即该基准触发词和候选语料词语最终的关联性。
即,基准触发词seed和候选语料词语c在语料库中的关联性R(seed,c)为:
其中,n表示语料库中,具有同时存在基准触发词seed和候选语料词语c的句子的语料文本的总数量,i为从1到n的自然数,di表示存在基准触发词seed和候选语料词语c共同出现在一个句子中的语料文本。
206,对于任意一个基准触发词,将与该基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到由该基准触发词扩展出的至少一个目标触发词。
针对每一个基准触发词可以扩展出一个或多个目标触发词。
目标触发词与该基准触发词所满足的预设要求可以根据需要设定。如。该预设要求可以为关联性的取值大于预设阈值。可选的,可以针对每一个基准触发词,按照与该基准触发词的关联性从高到底的顺序,对各个候选语料词语进行排序,将排序靠前的指定数量个候选语料词语确定目标触发词。
207,分别获取每个目标触发词的特征。
其中,该目标触发词的特征用于描述该目标触发词的基本特性。
如,目标触发词的特征可以包括以下任意一种或几种:
目标触发词的属性特征;
目标触发词的关联词,如,目标触发词的同义词、反义词和相关词;
目标触发词的上下文特征;
目标触发词所属的框架类型。
其中,属性特征为该目标触发词本身所具有的特征,具体可以通过识别该目标触发词的词性,命名实体来得到。
其中,该目标触发词的关联词可以通过预置的接口调用指定的词库来获取。
其中,该目标触发词的上下文特征可以通过在语料库的语料文本中进行搜索,搜索出包含该目标触发词的目标语料文本中,并在该目标语料文本中,定位出与该目标触发词满足预设位置关系的特征词,并将得到的特征词作为该目标触发词的上下文特征。如,上下文特征可以包括如下几种:
目标触发词的前三个单词和后三个单词(不包括停用词);
按照N-Gram模型,在语料文本中搜索与目标触发词的距离不超过三个单词的序列中,提取两个或三个单词;
从语料文本中提取出的,紧邻该目标触发词且位于该目标触发词之前的一个单词以及位于该目标触发词之后的一个单词。
其中,目标触发词所属的框架类型为基于框架网络FrameNet工具识别出语料文本中每个句子的目标触发词及该目标触发词的框架(Frame),以在目标触发词具有框架的情况下,获取该目标触发词的框架类型。还可以进一步提取该目标触发词的前一个单词的框架类型和目标触发词的后一个单词的框架类型。该框架网络是一个基于语料库的、运用框架语义学的理论,以框架为基础并使其词汇意义在其中彼此连接的语义网络。
208,基于目标触发词的特征,对得到的所有目标触发词进行聚类,得到聚类出的属于多个不同事件类别的聚类集合。
每个聚类集合中包括多个目标触发词
其中,不同的聚类集合对应不同的事件类别,一个事件类别的聚类集合中包括属于该事件类别的多个目标触发词。
在本申请实施例中,对目标触发词进行聚类可以按照预设的聚类算法进行,如,可以根据紧邻传播聚类算法,即Affinity Propagation Cluster算法进行聚类,其中,该近邻传播聚类算法也可以简称为AP聚类算法。该聚类算法将所有的数据点都作为潜在的聚类中心,且无需指定聚类的数目。在聚类的过程中,将前面得到的目标触发词的特征所构成的向量作为输入数据,已构建的事件触发词特征向量作为输入数据,便可以将相同类型的触发词归为一类,聚类结果中相同类中的目标触发词的类型或者说特征相同。其中,一个类就可以认为是一个触发词集合。
由于本申请中确定出的目标触发词的特征与现有技术中确定出的特征明显不同,因此,在通过聚类算法对所有目标触发词进行聚类,得到的事件类别不局限且不同于ACE语料中定义的事件类型。
209,对于每个聚类集合,从该聚类集合中选取出至少一个目标触发词作为该聚类集合的标签,以利用得到的标签标注该聚类集合。
可选的,依据TF-IDF算法,来确定聚类集合中适合作为该聚类集合的标签的目标触发词,具体的,可以针对聚类算法生成的每种事件类型,从该事件类别的聚类集合中选取TF-IDF值最大的前指定数量个目标触发词作为该事件类型类别的标签。
其中,TF-IDF是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。其中,TF为词频(Term Frequency),表示某个词或短语在文档中出现的频率;IDF为逆向文件频率(Inverse Document Frequency),由总文档数目除以包含该词或短语的文档数目,再对所得的商取对数即可,用来度量一个词或短语的普遍重要性。所以如果某个词或短语在一篇文档中出现的频率TF高,并且在其他文档中很少出现,则认为该词或者短语具有较好的类别区分能力,适合用来作为某一类别的标签。
假设通过聚类算法获得K个事件类别的聚类集合,针对每个事件类别统计该类别下最能代表该事件类别的若干个目标触发词集合,则每个事件类别下TF-IDF的计算只在该事件类别内部统计。在本发明中,每个事件类别下包含若干篇语料文本,那么对于一个事件类别中的每个目标触发词而言,每篇语料文本中该目标触发词的TF-IDF(TF为某个目标触发词在该篇语料文本di中出现的频率,IDF为包含该目标触发词的语料文本文的数量的倒数)的定义为:
其中,i代表目标触发词,nij表示该事件类别中该目标触发词i出现在语料文本文j中的次数;表示在该语料文本j中该事件类别下的所有目标触发词出现的次数之和;m表示该事件类别具有的所有目标触发词的个数;N表示具有该事件类别对应的语料文本的总数量(即包含有该事件类别下任意一个目标触发词的所有语料文本的总数);nj表示具有该事件类别中的该目标触发词的语料文本的数量,加1表示平滑。
可见,本发明将AP聚类算法聚类生成的K个事件类别,分别标记为:C1,C2,…Ck;针对每个类别Ci(i=1,2,…k)中所有文档d,计算每个文档中每个目标触发词的TF-IDF值;针对每个事件类别取出该事件类别中TF-IDF值最大的前指定数量(如,100)个目标触发词作为该事件类型类别的标记。
本发明使用若干个TF-IDF值较高的目标触发词表示某个事件类别对应的标签(标签区分各个事件类别的类型),该方法脱离了ACE语料中定义的33种事件类型的限制,而考虑了所有的语言现象,形成开放域的事件类型体系。
另一方面,本申请实施例还提供了一种事件类型抽取装置。如图3,其示出了本申请一种事件类型抽取装置一个实施例的组成结构示意图,本实施例的装置可以包括:
词筛选单元301,用于从预置的语料库中提取出多个候选语料词语;
关联确定单元302,用于基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;
词扩展单元303,用于对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个所述基准触发词对应的至少一个所述目标触发词;
特征确定单元304,用于分别确定每个所述目标触发词的特征;
类型确定单元305,用于基于所述目标触发词的特征,对所有的所述触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合,其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词。
可选的,所述词筛选单元包括:
待定词确定单元,用于确定所述预置的语料库中的多个语料文本内所包含的待定语料词语;
词滤除单元,用于滤除所述待定语料词语中所包含的预设无用词语,得到所述候选语料词语,其中,所述预设无用词语包括停用词和虚词。
可选的,所述关联确定单元,包括:
第一关联计算单元,用于针对每个所述候选语料词语,依次计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性;
第二关联计算单元,用于对于任意一对所述基准触发词和候选语料词语,将所述基准触发词与候选语料词语在每篇语料文本中的初始关联性进行加和,得到所述基准触发词与候选语料词语在所述语料库中的关联性。
可选的,所述第一关联计算单元在计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性时,具体为:
对于一篇语料文本,将所述基准触发词和所述候选语料词语在所述语料文本中同一句子内出现的第一次数,与最小出现次数的比值确定为该基准触发词语与该候选语料词语在所述语料文本中的初始关联性,其中,所述最小出现次数为所述基准触发词在所述语料文本中出现的次数,以及所述候选语料词语在所述语料文本中出现的次数中的最小值。
可选的,所述第一关联计算单元在计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性时,具体为:
确定多个预置的连接词;
对于一篇语料文本,从所述语料文本中确定出同时具有所述基准触发词和候选语料词语,且通过预置的连接词连接所述基准触发词和候选语料词语的第一目标句子;
针对每一个预置的连接词ji,将所述语料文本中,具有所述预置的连接词ji的第一目标句子中的数量,与最小出现次数的比值确定为所述基准触发词和所述候选语料词语在所述语料文本中关于所述连接词ji的相关性Con(conji);
利用如下公式,计算所述基准触发词seed和候选语料词语c在所述语料文本di中的初始关联性为Rdi(seed,c):
其中,i为从1到k的自然数,k表示所述语料文本di中,所有所述第一目标句子中具有的所述预置的连接词的总数量。
可选的,所述第一关联计算单元在计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性时,具体为:
确定预置的多种关系类型;
在任一篇语料文本di中,针对任意一种所述关系类型ji,将所述基准触发词和候选语料词语同时出现第二目标句子中的第三次数,与最小出现次数的比值确定为所述基准触发词和候选语料词语在所述语料文本di中关于所述关系类型ji的相关性Rel(relji),其中,所述第二目标句子为具有所述关系类型ji对应的指定连接词,且所述基准触发词和候选语料词语通过所述指定连接词相连的句子,所述最小出现次数为所述基准触发词在所述语料文本di中出现的次数,以及所述候选语料词语在所述语料文本di中出现的次数中的最小值;
利用如下公式,计算所述基准触发词seed和候选语料词语c在所述语料文本di中的初始关联性为Rdi(seed,c):
其中,i为从1到k的自然数,k表示所述语料文本di中,具有所述预置的关系类型的最大数量。
可选的,所述特征确定单元确定每个所述目标触发词的特征的方式可以包括以下任意一种或几种:
获取所述目标触发词的属性特征;
获取所述目标触发词的关联词,所述关联词包括所述目标触发词的同义词、反义词和相关词;
通过在所述语料库包含的语料文本中进行搜索,搜索出包含所述目标触发词的目标语料文本,并在所述目标语料文本中定位出与所述目标触发词满足预设位置关系的特征词,将得到的特征词作为所述目标触发词的上下文特征;
基于框架网络FrameNet工具从语料库的语料文本中的句子内,识别出所述目标触发词及该目标触发词的框架类型。
可选的,所述装置还包括:
标注词确定单元,用于在所述类型确定单元得到聚类出的多个属于不同事件类别的聚类集合之后,对于任意一个聚类集合依据词频与逆向文件频率TF-IDF算法,确定所述聚类集合中适合作为所述聚类集合的标签的至少一个目标触发词;
事件标注单元,用于将所述至少一个目标触发词作为所述聚类集合的标签,对所述聚类集合进行标注。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种事件类型抽取方法,其特征在于,包括:
从预置的语料库中提取出多个候选语料词语;
基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;
对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个所述基准触发词对应的至少一个所述目标触发词;
分别确定每个所述目标触发词的特征;
基于所述目标触发词的特征,对所有的所述目标触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合,其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词;
其中,所述确定每个所述目标触发词的特征,包括以下任意一种或几种:
获取所述目标触发词的属性特征;
获取所述目标触发词的关联词,所述关联词包括所述目标触发词的同义词、反义词和相关词;
通过在所述语料库包含的语料文本中进行搜索,搜索出包含所述目标触发词的目标语料文本,并在所述目标语料文本中定位出与所述目标触发词满足预设位置关系的特征词,将得到的特征词作为所述目标触发词的上下文特征;
基于框架网络FrameNet工具从语料库的语料文本中的句子内,识别出所述目标触发词及该目标触发词的框架类型。
2.根据权利要求1所述的方法,其特征在于,所述从预置的语料库中提取出候选语料词语,包括:
确定所述预置的语料库中的多个语料文本内所包含的待定语料词语;
滤除所述待定语料词语中所包含的预设无用词语,得到所述候选语料词语,其中,所述预设无用词语包括停用词和虚词。
3.根据权利要求1所述的方法,其特征在于,所述基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,包括:
针对每个所述候选语料词语,依次计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性;
对于任意一对所述基准触发词和候选语料词语,将所述基准触发词与候选语料词语在每篇语料文本中的初始关联性进行加和,得到所述基准触发词与候选语料词语在所述语料库中的关联性。
4.根据权利要求3所述的方法,其特征在于,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:
对于一篇语料文本,将所述基准触发词和所述候选语料词语在所述语料文本中同一句子内出现的第一次数,与最小出现次数的比值确定为该基准触发词语与该候选语料词语在所述语料文本中的初始关联性,其中,所述最小出现次数为所述基准触发词在所述语料文本中出现的次数,以及所述候选语料词语在所述语料文本中出现的次数中的最小值。
5.根据权利要求3所述的方法,其特征在于,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:
确定多个预置的连接词;
对于一篇语料文本,从所述语料文本中确定出同时具有所述基准触发词和候选语料词语,且通过预置的连接词连接所述基准触发词和候选语料词语的第一目标句子;
针对每一个预置的连接词ji,将所述语料文本中,具有所述预置的连接词ji的第一目标句子中的数量,与最小出现次数的比值确定为所述基准触发词和所述候选语料词语在所述语料文本中关于所述连接词ji的相关性Con(conji);
利用如下公式,计算所述基准触发词seed和候选语料词语c在所述语料文本di中的初始关联性为Rdi(seed,c):
其中,i为从1到k的自然数,k表示所述语料文本di中,所有所述第一目标句子中具有的所述预置的连接词的总数量。
6.根据权利要求3所述的方法,其特征在于,所述计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性,包括:
确定预置的多种关系类型;
在任一篇语料文本di中,针对任意一种所述关系类型ji,将所述基准触发词和候选语料词语同时出现第二目标句子中的第三次数,与最小出现次数的比值确定为所述基准触发词和候选语料词语在所述语料文本di中关于所述关系类型ji的相关性Rel(relji),其中,所述第二目标句子为具有所述关系类型ji对应的指定连接词,且所述基准触发词和候选语料词语通过所述指定连接词相连的句子,所述最小出现次数为所述基准触发词在所述语料文本di中出现的次数,以及所述候选语料词语在所述语料文本di中出现的次数中的最小值;
利用如下公式,计算所述基准触发词seed和候选语料词语c在所述语料文本di中的初始关联性为Rdi(seed,c):
其中,i为从1到k的自然数,k表示所述语料文本di中,具有所述预置的关系类型的最大数量。
7.根据权利要求1至3任一项所述的方法,其特征在于,在所述得到聚类出的多个属于不同事件类别的聚类集合之后,还包括:
对于任意一个聚类集合依据词频与逆向文件频率TF-IDF算法,确定所述聚类集合中适合作为所述聚类集合的标签的至少一个目标触发词;
将所述至少一个目标触发词作为所述聚类集合的标签,对所述聚类集合进行标注。
8.一种事件类型抽取装置,其特征在于,包括:
词筛选单元,用于从预置的语料库中提取出多个候选语料词语;
关联确定单元,用于基于所述语料库,确定预置的触发词集合中的基准触发词与所述候选语料词语的关联性,其中,所述基准触发词为通过自动内容抽取技术确定的;
词扩展单元,用于对于任意一个基准触发词,将与所述基准触发词关联性满足预设要求的候选语料词语确定为目标触发词,得到每个所述基准触发词对应的至少一个所述目标触发词;
特征确定单元,用于分别确定每个所述目标触发词的特征;
类型确定单元,用于基于所述目标触发词的特征,对所有的所述触发词进行聚类,得到聚类出的多个属于不同事件类别的聚类集合,其中,每个聚类集合对应着一种事件类别,且每个聚类集合包括至少一个目标触发词;
其中,所述特征确定单元确定每个所述目标触发词的特征,包括以下任意一种或几种:
获取所述目标触发词的属性特征;
获取所述目标触发词的关联词,所述关联词包括所述目标触发词的同义词、反义词和相关词;
通过在所述语料库包含的语料文本中进行搜索,搜索出包含所述目标触发词的目标语料文本,并在所述目标语料文本中定位出与所述目标触发词满足预设位置关系的特征词,将得到的特征词作为所述目标触发词的上下文特征;
基于框架网络FrameNet工具从语料库的语料文本中的句子内,识别出所述目标触发词及该目标触发词的框架类型。
9.根据权利要求8所述的装置,其特征在于,所述关联确定单元,包括:
第一关联计算单元,用于针对每个所述候选语料词语,依次计算所述候选语料词语与触发词集合中每个基准触发词在所述语料库中每篇语料文本内的初始关联性;
第二关联计算单元,用于对于任意一对所述基准触发词和候选语料词语,将所述基准触发词与候选语料词语在每篇语料文本中的初始关联性进行加和,得到所述基准触发词与候选语料词语在所述语料库中的关联性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710169761.3A CN106951530B (zh) | 2017-03-21 | 2017-03-21 | 一种事件类型抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710169761.3A CN106951530B (zh) | 2017-03-21 | 2017-03-21 | 一种事件类型抽取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106951530A CN106951530A (zh) | 2017-07-14 |
CN106951530B true CN106951530B (zh) | 2020-01-17 |
Family
ID=59472782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710169761.3A Active CN106951530B (zh) | 2017-03-21 | 2017-03-21 | 一种事件类型抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106951530B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108319692B (zh) * | 2018-02-01 | 2021-03-19 | 云知声智能科技股份有限公司 | 异常标点清洗方法、存储介质及服务器 |
CN110209807A (zh) | 2018-07-03 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种事件识别的方法、模型训练的方法、设备及存储介质 |
CN110032641B (zh) * | 2019-02-14 | 2024-02-13 | 创新先进技术有限公司 | 计算机执行的、利用神经网络进行事件抽取的方法及装置 |
CN111310461B (zh) * | 2020-01-15 | 2023-03-21 | 腾讯云计算(北京)有限责任公司 | 事件元素提取方法、装置、设备及存储介质 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111522915A (zh) * | 2020-04-20 | 2020-08-11 | 北大方正集团有限公司 | 中文事件的抽取方法、装置、设备及存储介质 |
CN111985152B (zh) * | 2020-07-28 | 2022-09-13 | 浙江大学 | 一种基于二分超球面原型网络的事件分类方法 |
CN112487171A (zh) * | 2020-12-15 | 2021-03-12 | 中国人民解放军国防科技大学 | 一种开放域下的事件抽取***和方法 |
CN116611514B (zh) * | 2023-07-19 | 2023-10-10 | 中国科学技术大学 | 一种基于数据驱动的价值取向评估体系构建方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462229A (zh) * | 2014-11-13 | 2015-03-25 | 苏州大学 | 一种事件分类方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2807534B1 (fr) * | 2000-04-05 | 2002-07-12 | Inup | Ferme d'ordinateurs avec systeme d'insertion/extraction a chaud de cartes processeurs |
-
2017
- 2017-03-21 CN CN201710169761.3A patent/CN106951530B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462229A (zh) * | 2014-11-13 | 2015-03-25 | 苏州大学 | 一种事件分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
中文事件抽取中事件类别的自动识别;赵妍妍;《第三届学生计算语言学研讨会论文集》;20060801;第240-244页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106951530A (zh) | 2017-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106951530B (zh) | 一种事件类型抽取方法和装置 | |
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN106445998B (zh) | 一种基于敏感词的文本内容审核方法及*** | |
Cucerzan | Large-scale named entity disambiguation based on Wikipedia data | |
Chinsha et al. | A syntactic approach for aspect based opinion mining | |
Wu et al. | Domain-specific keyphrase extraction | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
CN108509490B (zh) | 一种网络热点话题发现方法及*** | |
Awajan | Keyword extraction from Arabic documents using term equivalence classes | |
Chinsha et al. | Aspect based opinion mining from restaurant reviews | |
Gopan et al. | Comparative study on different approaches in keyword extraction | |
ShafieiBavani et al. | An efficient approach for multi-sentence compression | |
Tamilselvi et al. | Sentiment analysis of micro blogs using opinion mining classification algorithm | |
Jha et al. | Hsas: Hindi subjectivity analysis system | |
Zhou et al. | Exploiting multi-features to detect hedges and their scope in biomedical texts | |
Farooq et al. | Product reputation evaluation: the impact of conjunction on sentiment analysis | |
Li-Juan et al. | A classification method of Vietnamese news events based on maximum entropy model | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
Yang et al. | Exploring word similarity to improve chinese personal name disambiguation | |
Jiang et al. | An improved association rule mining approach to identification of implicit product aspects | |
Heu et al. | Multi-document summarization exploiting semantic analysis based on tag cluster | |
El-Shayeb et al. | Comparative analysis of different text segmentation algorithms on Arabic news stories | |
CN111814025A (zh) | 一种观点提取方法及装置 | |
Tan et al. | A unified framework for emotional elements extraction based on finite state matching machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Hong Yu Inventor after: Yang Xuerong Inventor after: Yao Jianmin Inventor after: Zhu Qiaoming Inventor before: Yang Xuerong Inventor before: Hong Yu Inventor before: Yao Jianmin Inventor before: Zhu Qiaoming |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |