CN102693219A - 一种中文事件的抽取方法及*** - Google Patents

一种中文事件的抽取方法及*** Download PDF

Info

Publication number
CN102693219A
CN102693219A CN2012101826518A CN201210182651A CN102693219A CN 102693219 A CN102693219 A CN 102693219A CN 2012101826518 A CN2012101826518 A CN 2012101826518A CN 201210182651 A CN201210182651 A CN 201210182651A CN 102693219 A CN102693219 A CN 102693219A
Authority
CN
China
Prior art keywords
speech
triggering
candidate
sentence
triggers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101826518A
Other languages
English (en)
Other versions
CN102693219B (zh
Inventor
李培峰
朱巧明
周国栋
朱晓旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinsheng Mdt Infotech Ltd Pingjiang County
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201210182651.8A priority Critical patent/CN102693219B/zh
Publication of CN102693219A publication Critical patent/CN102693219A/zh
Application granted granted Critical
Publication of CN102693219B publication Critical patent/CN102693219B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种中文事件抽取方法和***,该方法包括:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析;根据词的内部结构,将符合抽取条件的词标记为候选触发词;根据概率、词性和词内部结构将符合过滤条件的触发词过滤掉;利用最大熵识别模型抽取触发词,并获取每个触发词的可信度;依据每个触发词的可信度,将触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词;利用最大熵分类模型对触发词进行分类,得到事件集合。本发明提供的方法和***从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和中文词在篇章中语义的一致性,提高了中文事件抽取的性能。

Description

一种中文事件的抽取方法及***
技术领域
本发明涉及自然语言处理领域,尤其涉及一种中文事件的抽取方法及***。
背景技术
事件抽取是信息抽取的主要形式之一,它是从大量的自然文本中抽取人们感兴趣的结构化事件信息,如什么人,什么地方,什么时间,做了什么事。
目前,中文事件的抽取方法主要是通过对一些英文事件抽取方法和技术的借鉴来实现,希望通过移植这些方法和技术,达到中文事件抽取的目的,虽然这种方法取得了不错的成果,但中文本身的特点决定了完全照搬英文事件抽取方法不足以很好地解决中文事件的抽取。
发明内容
有鉴于此,本发明提供了一种中文事件抽取方法及***,用以解决针对英文的事件抽取方法并不能很好地解决中文事件抽取的问题。其技术方案如下:
一种中文事件抽取方法,包括:
A:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
B:依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
C:根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
D:利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
E:依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
F:利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
所述步骤A中具体为:
A1:将待抽取事件的本文划分为一个个的句子,得到初始句子集合;
A2:将所述初始句子集合中的每个句子进行分词处理,得到分词句子集合;
A3:识别所述分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合;
A4:对所述第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
步骤B具体为:
B1:从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合;
B2:对于所述第二句子集合中的每个句子的每个词,如果该词在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B3:对于所述第二句子集合中的每个句子的每个词,如果该词的片段在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B4:对于所述第二句子集合中的每个句子的每个词,如果该词是所述训练集触发词集合中的词的片段,则将该词标记为候选触发词;
步骤B2、B3和B4的执行顺序没有明确限定。
步骤C具体为:
C1:将所述训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合;
C2:对于所述候选触发词集合出现的每个词,如果该词在所述训练集合中出现,则根据所述训练集句法和依存标记集合中的分词标记,统计该词在所述训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除;
C3:根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除;
C4:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除;
步骤C2、C3和C4的执行顺序没有明确限定。
步骤D具体为:
D1:根据预先选择的触发词特征,从所述训练集句法和依存标记集合中抽取所述训练集触发词集合中每个触发词的特征,构成训练特征集合;
D2:根据预先选择的触发词特征,从所述第二句子集合中抽取所述候选触发词集合中每个触发词的特征,构成测试特征集合;
D3:将所述训练特征集合和所述测试特征集合输入最大熵分类器,所述最大熵分类器计算所述测试特征集合中每个触发词的可信度,得到带有可信度的触发词第一集合。
步骤E中依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词组成一致性处理训练集合和一致性处理测试集合具体为:
将所述触发词第一集合中可信度大于等于第四设定阈值的触发词组成一致性处理训练集合,将所述触发词第一集合中可信度小于所述第四设定阈值的触发词组成一致性处理测试集合。
步骤E中,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合具体为:
E1:对测试特征集合和训练特征集合中的每个候选触发词的特征中的类别进行修改,将该触发词的特征修改为该触发词的具体类别,分别得到多类分类测试特征集合和多类分类训练特征集合;
E2:将所述多类分类训练特征集合和多类分类测试特征集合输入最大熵分类器,最大熵分类器对多类分类测试特征集合中的每个候选触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,形成带有可信度的触发词分类集合;
E3:对所述一致性处理测试集合中的每个触发词抽取特征,构成一致性处理第二测试集合;对所述一致性处理训练集合中的每个触发词抽取特征,构成一致性处理第二训练集合;
E4:把所述一致性处理第二测试集合和一致性处理第二训练集合输入最大熵分类器,最大熵分类器对一致性处理第二测试集合中的每个候选触发词进行分类计算,得到每个候选触发词的可信度,将可信度大于等于第五设定阈值的候选触发词组成触发词第二集合。
步骤F中利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合具体为:
F1:将所述多类分类测试特征集合中不属于所述触发词第二集合的触发词删除,得到多类分类测试特征第二集合;
F2:把所述多类分类训练特征集合中的每个触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,将可信度大于等于第六设定阈值的候选触发词组成触发词第三集合。
一种中文事件的抽取***,包括:
预处理模块,用于将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
候选触发词选择模块,用于依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
候选触发词过滤模块,用于根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
事件识别模块,用于利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
一致性处理模块,用于依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
事件分类模块,用于利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
本发明提供一种中文事件抽取方法和***,该方法和***通过分析中文词的结构,根据词内结构进行事件的触发词的识别,根据触发词的概率、词性和词内部结构等多方面入手判别识别出的触发词是否正确,利用中文词在语义篇章中的一致性,实现对触发词的分类。本发明提供的方法和***从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和词汇在篇章中语义的一致性,提高了中文事件抽取的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的中文事件抽取方法的流程图;
图2为本发明实施例提供的中文事件抽取***的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在英文中,一个单词或词组通常是由多个字母组合而成,而单词中的一个字母并不能表义。与英文不同的是,构成中文词组的单字很多时候就有自己的语义,而且大多数情况下该词组的语义也可以从组成它的单字的语义中组合得到,这就是组合语义。基于中文的这一特点,利用中文词的内部结构及其组合语义,根据训练语料库中的已知事件触发词可以推导出测试语料库中的未知事件触发词。例如:
Sen1:4名学生被玻璃划伤。
Sen2:1名乘客被刺伤。
其中,Sen1中的“划伤”是一个在训练语料库中出现的已知触发词,而“刺伤”是一个在训练语料库中未出现的触发词。
“划伤”的语义是对两个单字词“划”和“伤”的组合,是由于被划了才受伤;与此类似,“刺伤”的语义是对两个单字词“刺”和“伤”的组合,是由于被刺了才受伤。这两个触发词具有相似的内部结构,可以根据词的内部结构和词在内部结构基础上的组合语义,从“划伤”推导出“刺伤”也是一个受伤事件的触发词。同理,可以进一步推导其它由于某种行为而受伤的词,如“灼伤”、“撞伤”和“压伤”等。
此外,和英文相比,中文的句法结构不像英文那么严谨,因此,由于信息的缺失,使用通常的分类方法很难在句子层面识别中文事件。然而,与英文相比,中文的触发词在篇章层次上的一致性更加明显。例如,有一个篇章中的两个事件:
Sen3:美国与北韩3号在吉隆坡结束飞弹会谈。
Sen4:会谈的气氛严肃。
其中,Sen3有足够的信息(包括:参与者、日期和地点)来表明它是一个会谈事件,而Sen4明显缺少有效的信息,但是,很容易推断出Sen4是一个会谈事件,因为Sen3是一个会谈事件,并且Sen3和Sen4触发词一致。
因此,利用中文词在篇章中的语义一致性可以推导缺乏有效信息的事件。
基于中文词的内部结构及其组合语义、中文词在篇章层次上的一致性,本发明实施例提供了一种中文事件的抽取方法,图1为该方法的流程图,本发明实施例提供的方法包括:
S11:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合。
在本实施例中,步骤S11具体为:
S111:将待抽取事件的本文划分为一个个的句子,得到初始句子集合。
在本实施例中,在待抽取事件的文本中查找句子结束标记,根据句子结束标记将待抽取事件的文本划分为一个个的句子,其中,句子结束标记为:句号、感叹号、问号、分号和回车符。
S112:对初始句子集合中的每个句子进行分词,得到分词句子集合。
下面是一个对句子进行分词例子:
分词前的句子:塞德杀死一名以色列陆军中士,打伤两名士兵。
分词后的句子:塞 德 杀死 一 名 以色列 陆军 中士,打伤 两名 士兵。
其中,分词后的句子是用空格作为分隔符来表示分词后的句子。
S113:识别分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合。
下面是一个对句子进行实体识别并对识别出的实体进行标记的例子:
标记出实体的句子:塞德\PER杀 死一名 以色列\GPE 陆军\ORG中士\PER,打伤 两名 士兵\PER。
其中,PER/ORG/GPE是实体的类别标记,分别表示人物、组织和地理位置。
S114:对第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
下面是一个对句子句法分析的例子:
句法分析后的句子:((IP(NP(NR塞德))(VP(VP(VV杀死)(NP(QP(CD一)(CLP(M名)))(NP(NR以色列)(NN陆军))(NP(NN中士))))(PU,)(VP(VV打伤)(NP(NP(NR两名))(NP(NN士兵)))))(PU。)))
其中,IP、NP等标记是句法分析工具产生的标准标记信息。标记IP、VP、NP、PU、VV、NN、QP、CD、CLP、M、NR分别标识子句、动词性短语、名词性短语、标点符号、一般动词、名词、数量词短语、数词、类别短语、量词、专用名词。
下面是一个对句子的依存关系进行分析的例子:
依存关系分析后的句子:nsubj(杀死-2,塞德-1)conj(打伤-9,杀 死-2)nummod(名-4,一-3)nn(中士-7,以色列-5)nn(中士-7,陆军-6)dobj(杀死-2,中士-7) conj(杀死-2,打伤-9)nummod(士兵-11,两名-10)dobj(打伤-9,士兵-11)
其中,nsubj、conj、nummod、nn、dobj是依存关系的标记,分别表示形式主语、连接关系、数量关系、名词关系、直接宾语。
在本实施例中,利用分词工具对句子进行分词,利用实体识别工具识别分词后句子中的实体,利用句法和依存关系分析工具对第一句子集合中的句子进行句法和依存关系分析,本实施例中的分词工具、实体识别工具、句法和依存关系分析工具等均为自然语言处理技术中的通用工具,如句法分析工具为Berkeley Parser,依存关系分析工具为Stanford Parser。此外,本实施例中的实体指的是一个语义类别中的对象或对象的结合,如人名、交通工具和地名等。
S12:依据训练集触发词集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合。
其中,依据训练集触发词集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,具体为:
S121:从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合。
S122:对于第二句子集合中的每个句子的每个词,如果该词在训练集触发词集合中出现,则将该词标记为候选触发词。
S123:对于第二句子集合中的每个句子的每个词,如果该词的片段(如词组“打电话”可分为“打”、“电”、“话”、“打电”和“电话”五个片段)在训练集触发词集合中出现,则将该词标记为候选触发词。
S124:对于第二句子集合中的每个句子的每个词,如果该词是训练集触发词集合中的词的片段,则将该词标记为候选触发词。
步骤S122、S123和S124的执行顺序没有明确限定。
在本实施例中,候选触发词集合中每一项的结构为:<项>=<触发词><触发词所在句子>,每个触发词的结构为:<候选触发词><分割符><抽取该触发词的句子>。
本实施例中的中文标记语料库为ACE2005中文标注语料库,ACE2005语料库是信息抽取常用的训练语料库,包括633个文档,标记的事件为8个大类和33个小类。下面是一个根据触发词标记“<anchor>”从ACE2005中文标注语料库的训练集合中抽取所有触发词的例子:
Figure BDA00001728444500091
S13:根据概率、词性和词内部结构将候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合。
在本实施例中,步骤S13具体为:
S131:将训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合。
S132:对于候选触发词集合中出现的每个词,如果该词在训练集合中出现,则根据训练集句法和依存标记集合中的分词标记,统计该词在训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除。
在本实施例中,每个词作为非触发词的概率依据下式进行计算:
pro ( w i ) = 1 - freq _ trainning ( w i ) freq ( w i )
其中,wi为候选触发词集合中的一个候选触发词,freq(wi)为该候选触发词wi在训练集合中出现的频度,freq_trainning(wi)为该候选触发词wi在训练集触发词集合中出现的频度,pro(wi)即候选触发词wi作为非触发词的概率。
对于在候选触发词集合出现的每个词wi,且该词在训练集合中出现,如果该词作为非触发词的概率pro(wi)大于第一设定阈值且该词在训练集合中出现的频度freq(wi)大于第二设定阈值,则把该词从候选触发词集合中删除。
S133:根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除。
其中,每个触发词的格式如下:
<触发词><词性>[,<词性>]
S134:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除。
由于绝大多数的事件触发词是动词或动名词,而且绝大多数的触发词的长度都是小于等于2,对于每个二字词动词,都有1-2个表示主要语义的单字词,是构成动词的基本要素,简称为BV。本发明定义了6种不同类别的内部结构,分别用interstru1~interstru6表示:
(1)interstru1:BV(“看”、“杀”)
(2)interstru2:BV+动词(“会见”)
(3)interstru3:动词+BV(“解雇”)
(4)interstru4:BV+附加成分(“杀了”)
(5)interstru5:BV+名词/形容词(“回家”)
(6)interstru6:名词/形容词+BV(“枪击”)
本发明把内部结构相同并且具有相同的BV的词称为同结构词,如“枪击”、“炮击”、“棒击”和“棍击”结构都是“名词/形容词+BV(击)”,它们是同结构词。
在本实施例中,候选触发词及同结构词在训练集合中作为触发词的概率依据下式计算:
simpro ( tr i ) = &Sigma; w j &Element; S i freq _ trainning ( w j ) &Sigma; w j &Element; S i freq ( w j )
其中,tri为候选触发词集合中的一个候选触发词,wj为训练集触发词集合中与候选触发词tri同结构的词,即wj的interstru等于tri的interstru,wj的BV等于tri的BV,候选触发词tri的同结构词组成同结构词集合Si,freq(wj)为该触发词wj在训练集合中出现的频度,freq_trainning(wj)为触发词wj在训练集触发词集合中出现的频度,simpro(tri)即为候选触发词tri及其在同结构词集合Si中的所有词作为触发词的概率。
如果候选触发词tri及其在同结构词集合Si中的所有词作为触发词的概率simpro(tri)小于第四设定阈值,则把该触发词从候选触发词集合删除;如果simpro(tri)大于等于第四设定阈值,则保留。
需要说明的是,步骤S132、S133和S134的执行顺序没有明确限定。
S14:利用最大熵识别模型从过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合。
在本实施例中,步骤S14具体为:
S141:根据预先选择的触发词的特征,从训练集句法和依存标记集合中抽取训练集触发词集合中每个触发词的特征,构成训练特征集合。
其中,每个触发词tri的特征的结构如下:
<类别:1-触发词;0-非触发词><1=tri><2=tri的词性><3=tri前面的词+tri><4=tri前面词的词性+tri的词性><5=tri+tri后面的词><6=tri的词性+tri后面词的词性><7=在句法树中tri到第一个IP标记的路径长度><8=在句法树中tri到顶层IP标记的路径><9=包含tri的短语结构><10=包含tri的短语结构的词性><11=tri在同义词词林中的语义类别><12=tri是否在PropBank中作为谓词><13=距离tri最近的实体>
下面是一个具体的例子:
11=死亡 2=VV 3=人+死亡 4=NN+VV 5=死亡+,6=VV+PU 7=38=死亡->VV->VP->IP->VP->VP->IP->IP  9=(VP(VV死亡))10=VP 11=Ak0212=1 13=人
S142:根据预先选择的触发词特征,从第二句子集合中抽取候选触发词集合中每个触发词的特征,构成测试特征集合。
S143:将训练特征集合和测试特征集合输入最大熵分类器,最大熵分类器计算测试特征集合中每个触发词tri的可信度conf1i(tri),得到带有可信度的触发词第一集合。
S15:依据触发词第一集合中每个触发词的可信度,将触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词并将从一致性处理测试集合中抽取的触发词加入一致性处理训练集合中,得到触发词第二集合。
在本实施例中,依据触发词第一集合中每个触发词的可信度,将触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合具体为:将触发词第一集合中可信度大于等于第四设定阈值的触发词组成一致性处理训练集合,将触发词第一集合中可信度小于第四设定阈值的触发词组成一致性处理测试集合。
利用最大熵分类器从一致性处理测试集合中抽取触发词并将从一致性处理测试集合中抽取的触发词加入一致性处理训练集合中,得到触发词第二集合具体为:
S151:对测试特征集合和训练特征集合中的每个候选触发词的特征中的类别进行修改,从0/1(是或不是触发词)的2个类别改为多个类别(触发词的具体类别),即候选触发词所对应的事件类别的编号,分别得到多类分类测试特征集合和多类分类训练特征集合。如果候选触发词属于任何一类事件,用0表示其类别。在下面的例子中,把测试特征集合中的一个候选触发词的特征项前面的类别“1”(是触发词)修改成“5”(会面事件编号),放入多类分类测试特征集合。
测试特征集合:1 1=召见 2=VV 3=。+召见 4=PU+VV 5=召见+”6=VV+PU 7=2 10=VP 13=PER校长 15=PER校长 16=PER林立凡
多类分类测试特征集合:5 1=召见 2=VV 3=。+召见 4=PU+VV 5=召见+”6=VV+PU 7=2 10=VP 13=PER校长15=PER校长16=PER林立凡
S152:把多类分类训练特征集合和多类分类测试特征集合输入最大熵分类器,最大熵分类器对多类分类测试特征集合中的每个候选触发词进行分类计算,得到每个候选触发词tri属于某个类别的最高可信度conf2i(tri),形成带有可信度的触发词分类集合;
S153:对一致性处理测试集合中的每个触发词抽取特征,构成一致性处理第二测试集合;对一致性处理训练集合中的每个触发词抽取特征,构成一致性处理第二训练集合。其中,候选触发词tri的特征如下:
simpro(tri);
相同文档内词tri实例是事件触发词的个数;
相同文档内词tri实例不是事件触发词的个数;
tri的类别;(来自所触发词分类集合)
tri属于某个类别的最高可信度conf 2i(tri)。(来自所述触发词分类集合)
S154:把一致性处理第二测试集合和一致性处理第二训练集合输入最大熵分类器,最大熵分类器对一致性处理第二测试集合中的每个候选触发词进行分类计算(是或不是触发词),得到每个候选触发词tri的可信度conf3i(tri);如果conf3i(tri)大于等于第五设定阈值,则把该候选触发词tri加入触发词第二集合。
S16:利用最大熵分类模型对触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据触发词第三集合中的触发词标记第一句子集合中包含利用最大熵分类模型所识别类别的事件,得到事件集合。
利用最大熵分类模型对触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合的具体过程如下:
S161:把多类分类测试特征集合中不属于触发词第二集合的候选触发词删除,得到多类分类测试特征第二集合。
S162:把多类分类训练特征集合和多类分类测试特征第二集合输入最大熵分类器,最大熵分类器对多类分类测试特征第二集合中的每个候选触发词进行分类计算,得到每个候选触发词tri属于某个类别的最高可信度conf 4i(tri),如果conf 4i(tri)大于等于第六设定阈值,则把该候选触发词tri加入触发词第三集合。
本发明实施例根据中文词的内部结构扩展候选触发词集合,根据概率、词性和词内部结构将候选触发词集合中符合过滤条件的候选触发词过滤掉,去掉了大量的非触发词,再利用识别和分类模型从候选触发词中抽取事件。本发明实施例提供的中文事件抽取方法充分考虑了中文词本身的特点,从词的内部结构挖掘出更多的事件触发词,从而提高了事件抽取的性能。
下表是本发明在中文ACE2005语料库上的测试结果。测试数据表明,本发明与现有技术相比,准确率、召回率和F值分别提高了4.1%、11.5%和9%,即本发明具有更高的准确率、召回率和F值。其中,准确率、召回率和F值是业内公认的评测标准,准确率表示事件识别和分类中准确的比率,召回率衡量时间识别和分类是否全面,F值是准确率和召回率的综合。
表1
Figure BDA00001728444500141
本发明实施例还提供了一种中文事件的抽取***,图2为该***的结构示意图,该***包括:预处理模块11、候选触发词选择模块12、候选触发词过滤模块13、事件识别模块14、一致性处理模块15和事件分类模块16。
预处理模块11,用于将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合。
候选触发词选择模块12,用于依据中文标记语料库的训练集合和词的内部结构,将第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合。
候选触发词过滤模块13,用于根据概率、词性和词内部结构将候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合。
事件识别模块14,用于利用最大熵识别模型从过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合。
一致性处理模块15,用于依据触发词第一集合中每个触发词的可信度,将触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从一致性处理测试集合中抽取触发词并将从一致性处理测试集合中抽取的触发词加入一致性处理训练集合中,得到触发词第二集合。
事件分类模块16,用于利用最大熵分类模型对触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据触发词第三集合中的触发词标记第一句子集合中包含利用最大熵分类模型所识别类别的事件,得到事件集合。
本发明提供的中文事件抽取方法和***,通过分析中文词的结构,根据词内结构进行事件的触发词的识别,根据触发词的概率、词性和词内部结构等多方面入手判别识别出的触发词是否正确,把词本身、同结构词等多方面信息进行融合,实现对触发词的分类。本发明提供的方法和***从中文本身的特点出发,通过综合考虑和分析中文词的内部结构和词汇在篇章中语义的一致性,提高了中文事件抽取的性能。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种中文事件抽取方法,其特征在于,包括:
A:将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
B:根据中文标记语料库的训练集合以及词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
C:根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
D:利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
E:依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
F:利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含利用所述最大熵分类模型所识别类别的事件,得到事件集合。
2.根据权利要求1所述的方法,其特征在于,步骤A中具体为:
A1:将待抽取事件的本文划分为一个个的句子,得到初始句子集合;
A2:将所述初始句子集合中的每个句子进行分词处理,得到分词句子集合;
A3:识别所述分词句子集合中的每个句子中的实体并对识别出的实体进行标记,得到第一句子集合;
A4:对所述第一句子集合中的每个句子进行句法和依存关系分析,生成句法树和依存关系列表,得到第二句子集合。
3.根据权利要求1或2所述的方法,其特征在于,步骤B具体为:
B1:从中文标记语料库的训练集合中抽取所有的触发词,组成训练集触发词集合;
B2:对于所述第二句子集合中的每个句子的每个词,如果该词在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B3:对于所述第二句子集合中的每个句子的每个词,如果该词的片段在所述训练集触发词集合中出现,则将该词标记为候选触发词;
B4:对于所述第二句子集合中的每个句子的每个词,如果该词是所述训练集触发词集合中的词的片段,则将该词标记为候选触发词;
步骤B2、B3和B4的执行顺序没有明确限定。
4.根据权利要求3所述的方法,其特征在于,步骤C具体为:
C1:将所述训练集合中的句子进行分词、分句和依存关系分析,得到训练集句法和依存标记集合;
C2:对于所述候选触发词集合出现的每个词,如果该词在所述训练集合中出现,则根据所述训练集句法和依存标记集合中的分词标记,统计该词在所述训练集合中出现的频度并计算该词作为非触发词的概率,如果该词作为非触发词的概率大于第一设定阈值,且词频度大于第二设定阈值,则把该词从候选触发词集合中删除;
C3:根据训练集句法和依存标记集合中的词性标注信息,统计训练集触发词集合中所有触发词在训练集合中作为触发词时的词性集合,形成训练集触发词词性标注集合,将候选触发词集合中词性不属于所述训练集触发词词性标注集合中相同触发词的词性集合的候选触发词从候选触发词集合删除;
C4:计算候选触发词集合中每个候选触发词及同结构词在训练集合中作为触发词的概率,将概率小于第三设定阈值的候选触发词从候选触发词集合中删除;
步骤C2、C3和C4的执行顺序没有明确限定。
5.根据权利要求4所述的方法,其特征在于,步骤D具体为:
D1:根据预先选择的触发词特征,从所述训练集句法和依存标记集合中抽取所述训练集触发词集合中每个触发词的特征,构成训练特征集合;
D2:根据预先选择的触发词特征,从所述第二句子集合中抽取所述候选触发词集合中每个触发词的特征,构成测试特征集合;
D3:将所述训练特征集合和所述测试特征集合输入最大熵分类器,所述最大熵分类器计算所述测试特征集合中每个触发词的可信度,得到带有可信度的触发词第一集合。
6.根据权利要求5所述的方法,其特征在于,步骤E中依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词组成一致性处理训练集合和一致性处理测试集合具体为:
将所述触发词第一集合中可信度大于等于第四设定阈值的触发词组成一致性处理训练集合,将所述触发词第一集合中可信度小于所述第四设定阈值的触发词组成一致性处理测试集合。
7.根据权利要求6所述的方法,其特征在于,步骤E中,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合具体为:
E1:对测试特征集合和训练特征集合中的每个候选触发词的特征中的类别进行修改,将该触发词的特征修改为该触发词的具体类别,分别得到多类分类测试特征集合和多类分类训练特征集合;
E2:将所述多类分类训练特征集合和多类分类测试特征集合输入最大熵分类器,最大熵分类器对所述多类分类测试特征集合中的每个候选触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,得到带有可信度的触发词分类集合;
E3:对所述一致性处理测试集合中的每个触发词抽取特征,构成一致性处理第二测试集合;对所述一致性处理训练集合中的每个触发词抽取特征,构成一致性处理第二训练集合;
E4:把所述一致性处理第二测试集合和一致性处理第二训练集合输入最大熵分类器,所述最大熵分类器对一致性处理第二测试集合中的每个候选触发词进行分类计算,得到每个候选触发词的可信度,将可信度大于等于第五设定阈值的候选触发词组成触发词第二集合。
8.根据权利要求7所述的方法,其特征在于,步骤F中利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合具体为:
F1:将所述多类分类测试特征集合中不属于所述触发词第二集合的触发词删除,得到多类分类测试特征第二集合;
F2:对所述多类分类训练特征集合中的每个触发词进行分类计算,得到每个候选触发词属于某个类别的最高可信度,将可信度大于等于第六设定阈值的候选触发词组成触发词第三集合。
9.一种中文事件的抽取***,其特征在于,包括:
预处理模块,用于将待抽取事件的本文依次进行分句、分词、实体识别、句法和依存关系分析,得到第二句子集合;
候选触发词选择模块,用于依据中文标记语料库的训练集合和词的内部结构,将所述第二句子集合中的每个句子中符合抽取条件的词标记为候选触发词,将每个候选触发词以及该候选触发词所在的句子组成一个候选项,所有的候选项组成候选触发词集合;
候选触发词过滤模块,用于根据概率、词性和词内部结构将所述候选触发词集合中符合过滤条件的候选触发词过滤掉,得到过滤后的候选触发词集合;
事件识别模块,用于利用最大熵识别模型从所述过滤后的候选触发词集合中抽取触发词,并获取每个触发词的可信度,得到带有可信度的触发词第一集合;
一致性处理模块,用于依据所述触发词第一集合中每个触发词的可信度,将所述触发词第一集合中的触发词分成一致性处理训练集合和一致性处理测试集合,利用最大熵分类器从所述一致性处理测试集合中抽取触发词并将从所述一致性处理测试集合中抽取的触发词加入所述一致性处理训练集合中,得到触发词第二集合;
事件分类模块,用于利用最大熵分类模型对所述触发词第二集合中的触发词进行分类,得到包含事件类别的触发词第三集合,根据所述触发词第三集合中的触发词标记所述第一句子集合中包含所述利用最大熵分类模型所识别类别的事件,得到事件集合。
CN201210182651.8A 2012-06-05 2012-06-05 一种中文事件的抽取方法及*** Expired - Fee Related CN102693219B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210182651.8A CN102693219B (zh) 2012-06-05 2012-06-05 一种中文事件的抽取方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210182651.8A CN102693219B (zh) 2012-06-05 2012-06-05 一种中文事件的抽取方法及***

Publications (2)

Publication Number Publication Date
CN102693219A true CN102693219A (zh) 2012-09-26
CN102693219B CN102693219B (zh) 2014-11-05

Family

ID=46858676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210182651.8A Expired - Fee Related CN102693219B (zh) 2012-06-05 2012-06-05 一种中文事件的抽取方法及***

Country Status (1)

Country Link
CN (1) CN102693219B (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和***
CN103530283A (zh) * 2013-10-25 2014-01-22 苏州大学 情绪触发事件的抽取方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及***
CN104156351A (zh) * 2014-08-08 2014-11-19 西安交通大学 一种基于纳税人年报的纳税人税务交易行为识别方法
CN104216934A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识抽取方法及***
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取***及方法
CN104462229A (zh) * 2014-11-13 2015-03-25 苏州大学 一种事件分类方法及装置
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
CN104598510A (zh) * 2014-10-16 2015-05-06 苏州大学 一种事件触发词识别方法及装置
CN104778163A (zh) * 2015-05-11 2015-07-15 苏州大学 一种事件触发词识别方法及***
CN104809105A (zh) * 2015-05-11 2015-07-29 苏州大学 基于最大熵的事件论元及论元角色的识别方法及***
CN104834718A (zh) * 2015-05-11 2015-08-12 苏州大学 基于最大熵模型的事件论元识别方法及***
CN104881404A (zh) * 2015-06-19 2015-09-02 苏州大学张家港工业技术研究院 一种事件关系检测方法及***
CN105138520A (zh) * 2015-08-26 2015-12-09 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及***
CN105389304A (zh) * 2015-10-27 2016-03-09 小米科技有限责任公司 事件提取方法及装置
CN106095748A (zh) * 2016-06-06 2016-11-09 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106776535A (zh) * 2016-11-16 2017-05-31 金陵科技学院 基于二阶段句法剖析的科技文献细粒度关系挖掘方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和***
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109815481A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询***
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN110941692A (zh) * 2019-09-28 2020-03-31 西南电子技术研究所(中国电子科技集团公司第十研究所) 互联网政治外交类新闻事件抽取方法
CN111353306A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN112036169A (zh) * 2020-09-02 2020-12-04 深圳前海微众银行股份有限公司 事件识别模型优化方法、装置、设备及可读存储介质
CN112559747A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质
CN114707483A (zh) * 2022-03-07 2022-07-05 华泰证券股份有限公司 基于对比学习和数据增强的零样本事件抽取***及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006050579A (ja) * 2004-06-30 2006-02-16 Matsushita Electric Ind Co Ltd イベント重要度調整方法とその方法を実施する装置
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006050579A (ja) * 2004-06-30 2006-02-16 Matsushita Electric Ind Co Ltd イベント重要度調整方法とその方法を実施する装置
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙中友等: "《事件信息抽取中的数据预处理方法研究》", 《计算机应用与软件》 *

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216934A (zh) * 2013-09-29 2014-12-17 北大方正集团有限公司 一种知识抽取方法及***
JP2016538616A (ja) * 2013-09-29 2016-12-08 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド 知識抽出方法及びシステム
CN104216934B (zh) * 2013-09-29 2018-02-13 北大方正集团有限公司 一种知识抽取方法及***
WO2015043076A1 (zh) * 2013-09-29 2015-04-02 北大方正集团有限公司 一种知识抽取方法及***
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和***
CN103530281B (zh) * 2013-10-15 2016-06-22 苏州大学 一种论元抽取方法和***
CN103530283A (zh) * 2013-10-25 2014-01-22 苏州大学 情绪触发事件的抽取方法
CN103617280B (zh) * 2013-12-09 2017-01-25 苏州大学 一种中文事件信息挖掘方法和***
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和***
CN104156351B (zh) * 2014-08-08 2017-04-26 西安交通大学 一种基于纳税人年报的纳税人税务交易行为识别方法
CN104156351A (zh) * 2014-08-08 2014-11-19 西安交通大学 一种基于纳税人年报的纳税人税务交易行为识别方法
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及***
CN104156352B (zh) * 2014-08-15 2017-04-19 苏州大学 一种中文事件的处理方法及***
CN104598510A (zh) * 2014-10-16 2015-05-06 苏州大学 一种事件触发词识别方法及装置
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取***及方法
CN104331480B (zh) * 2014-11-07 2017-09-29 苏州大学 一种中文事件触发词的抽取***及方法
CN104462229A (zh) * 2014-11-13 2015-03-25 苏州大学 一种事件分类方法及装置
CN104572958A (zh) * 2014-12-29 2015-04-29 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN104598535B (zh) * 2014-12-29 2018-03-16 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
CN104572958B (zh) * 2014-12-29 2018-10-02 中国科学院计算机网络信息中心 一种基于事件抽取的敏感信息监控方法
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
CN104809105B (zh) * 2015-05-11 2017-12-26 苏州大学 基于最大熵的事件论元及论元角色的识别方法及***
CN104778163A (zh) * 2015-05-11 2015-07-15 苏州大学 一种事件触发词识别方法及***
CN104809105A (zh) * 2015-05-11 2015-07-29 苏州大学 基于最大熵的事件论元及论元角色的识别方法及***
CN104834718A (zh) * 2015-05-11 2015-08-12 苏州大学 基于最大熵模型的事件论元识别方法及***
CN104881404A (zh) * 2015-06-19 2015-09-02 苏州大学张家港工业技术研究院 一种事件关系检测方法及***
CN105138520B (zh) * 2015-08-26 2018-08-17 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN105138520A (zh) * 2015-08-26 2015-12-09 苏州大学张家港工业技术研究院 一种事件触发词识别方法及装置
CN105389304B (zh) * 2015-10-27 2018-11-02 小米科技有限责任公司 事件提取方法及装置
CN105389304A (zh) * 2015-10-27 2016-03-09 小米科技有限责任公司 事件提取方法及装置
CN105302794B (zh) * 2015-10-30 2018-08-07 苏州大学 一种中文同指事件识别方法及***
CN105302794A (zh) * 2015-10-30 2016-02-03 苏州大学 一种中文同指事件识别方法及***
US10691890B2 (en) 2016-04-12 2020-06-23 Huawei Technologies Co., Ltd. Word segmentation method and system for language text
CN107291684A (zh) * 2016-04-12 2017-10-24 华为技术有限公司 语言文本的分词方法和***
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和***
CN106095748A (zh) * 2016-06-06 2016-11-09 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106095748B (zh) * 2016-06-06 2019-08-27 东软集团股份有限公司 一种生成事件关系图谱的方法及装置
CN106776535A (zh) * 2016-11-16 2017-05-31 金陵科技学院 基于二阶段句法剖析的科技文献细粒度关系挖掘方法
CN107122416B (zh) * 2017-03-31 2021-07-06 北京大学 一种中文事件抽取方法
CN107122416A (zh) * 2017-03-31 2017-09-01 北京大学 一种中文事件抽取方法
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108280064B (zh) * 2018-02-28 2020-09-11 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN110502738A (zh) * 2018-05-18 2019-11-26 阿里巴巴集团控股有限公司 中文命名实体识别方法、装置、设备和查询***
CN108829801A (zh) * 2018-06-06 2018-11-16 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN108829801B (zh) * 2018-06-06 2020-11-20 大连理工大学 一种基于文档级别注意力机制的事件触发词抽取方法
CN109815481A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN110609896A (zh) * 2019-07-19 2019-12-24 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN110609896B (zh) * 2019-07-19 2022-03-22 中国人民解放军国防科技大学 基于二次解码的军事想定文本事件信息抽取方法及装置
CN110941692A (zh) * 2019-09-28 2020-03-31 西南电子技术研究所(中国电子科技集团公司第十研究所) 互联网政治外交类新闻事件抽取方法
CN110941692B (zh) * 2019-09-28 2022-07-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 互联网政治外交类新闻事件抽取方法
CN111353306B (zh) * 2020-02-22 2020-10-16 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN111353306A (zh) * 2020-02-22 2020-06-30 杭州电子科技大学 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN112036169A (zh) * 2020-09-02 2020-12-04 深圳前海微众银行股份有限公司 事件识别模型优化方法、装置、设备及可读存储介质
CN112036169B (zh) * 2020-09-02 2023-06-20 深圳前海微众银行股份有限公司 事件识别模型优化方法、装置、设备及可读存储介质
CN112559747A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质
CN112559747B (zh) * 2020-12-15 2024-05-28 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质
CN114707483A (zh) * 2022-03-07 2022-07-05 华泰证券股份有限公司 基于对比学习和数据增强的零样本事件抽取***及方法

Also Published As

Publication number Publication date
CN102693219B (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
CN102693219B (zh) 一种中文事件的抽取方法及***
CN108197163B (zh) 一种基于裁判文书的结构化处理方法
Leetaru et al. Gdelt: Global data on events, location, and tone, 1979–2012
Au Yeung et al. Studying how the past is remembered: towards computational history through large scale text mining
CN104331480B (zh) 一种中文事件触发词的抽取***及方法
CN103530281B (zh) 一种论元抽取方法和***
CN103942190B (zh) 语音合成中文本分词方法及***
CN106815207B (zh) 用于法律裁判文书的信息处理方法及装置
CN108346474B (zh) 基于单词的类内分布与类间分布的电子病历特征选择方法
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN106294396A (zh) 关键词扩展方法和关键词扩展***
Vossen et al. Don’t annotate, but validate: A data-to-text method for capturing event data
Herbelot et al. Measuring semantic content in distributional vectors
Kaati et al. Identifying warning behaviors of violent lone offenders in written communication
Ashcroft et al. A Step Towards Detecting Online Grooming--Identifying Adults Pretending to be Children
Jochim et al. SLIDE-a sentiment lexicon of common idioms
US20150286628A1 (en) Information extraction system, information extraction method, and information extraction program
CN108228587A (zh) 群体识别方法及群体识别装置
Laboreiro et al. Determining language variant in microblog messages
Zuccon et al. The impact of OCR accuracy on automated cancer classification of pathology reports
CN104933097B (zh) 一种用于检索的数据处理方法和装置
CN102521220A (zh) 一种网络***遗书的识别方法
Ladd Imaginative networks: Tracing connections among early modern book dedications
CN115129808A (zh) 一种食药环热线类事件犯罪线索筛查方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Ou Yangqing

Inventor before: Li Peifeng

Inventor before: Zhu Qiaoming

Inventor before: Zhou Guodong

Inventor before: Zhu Xiaoxu

CB03 Change of inventor or designer information
TR01 Transfer of patent right

Effective date of registration: 20180117

Address after: 414500 Jiashan Avenue in Pingjiang County Development Zone, Yueyang, Hunan

Patentee after: Xinsheng Mdt InfoTech Ltd, Pingjiang County

Address before: 215123 Suzhou Industrial Park, Jiangsu Road, No. 199

Patentee before: Soochow University

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141105

Termination date: 20180605

CF01 Termination of patent right due to non-payment of annual fee