CN103838870B

CN103838870B - 基于信息单元融合的新闻原子事件抽取方法

Info

Publication number: CN103838870B
Application number: CN201410108447.0A
Authority: CN
Inventors: 刘茂福; 张贺
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2014-03-21
Filing date: 2014-03-21
Publication date: 2016-09-28
Anticipated expiration: 2034-03-21
Also published as: CN103838870A

Abstract

本发明涉及一种基于信息单元融合的新闻原子事件抽取方法。其技术方案是：先对新闻正文进行除杂处理，利用自然语言处理软件对新闻标题和除杂处理后的新闻正文进行中文分词、词性标注和命名实体识别处理；再过滤掉词性标注结果中的意向动词、致使动词、言说动词和趋向动词；利用初步融合规则库和信息单元融合规则库对动词过滤后的词性标注结果和命名实体识别结果进行融合；然后利用核心词表和事件抽取规则库对新闻正文的信息单元融合结果进行原子事件抽取。本发明利用信息单元融合的方法能快速地处理新闻语料，对文本长度没有严格限制，能够将新闻正文中的全部原子事件抽取出来，不受事件类型的约束，具有执行效率高和普遍适用性的特点。

Description

基于信息单元融合的新闻原子事件抽取方法

技术领域

本发明属于新闻原子事件抽取技术领域。具体涉及到一种基于信息单元融合的新闻原子事件抽取方法。

背景技术

随着计算机在各领域的广泛应用以及互联网的日益普及，海量文本信息的处理技术在各领域的作用日趋重要。如何从海量文本信息中提取出用户感兴趣的内容成为信息抽取领域研究热点。事件抽取隶属于信息抽取领域，主要研究如何把含有事件信息的非结构化文本以结构化的形式呈现出来。它涉及自然语言处理、数据挖掘、机器学习等多个学科的技术和方法，目前主要应用于自动问答、自动摘要、信息检索等领域。

事件抽取包括原子事件抽取和主题事件抽取。原子事件表示一个动作的发生或状态变化，一般由谓词驱动，包括参与该动作或状态的时间、地点、人物、工具和方法等其他论元。主题事件表示某一类核心事件或活动以及所有与之相关的其他事件或活动，可由多个原子事件组成。原子事件抽取的主要研究方法有模式匹配和机器学习两类。模式匹配方法在某一领域能够取得较好的抽取结果，但是可移植性较差。机器学习方法与领域无关，具有较好的可移植性，但是需要大规模的标准语料，现阶段的语料规模尚不能满足应用需求，且人工标注语料耗时耗力。

当前绝大多数研究方法都是基于短语信息或句子层级信息的方法，这依赖于对语料的深层句法分析。现有深层句法分析技术不仅执行效率过慢，而且对语料文本长度限制严格。此外，由于目前的研究大多是基于MUC评测会议展开或ACE评测会议展开，只针对某个特定领域或特定类型的事件进行研究，***的应用领域具有一定的局限性。

发明内容

本发明旨在克服现有技术不足，目的是提供一种执行效率高和适用性强的基于信息单元融合的新闻原子事件抽取方法。

为实现上述目的，本发明所采用的技术方案包括以下步骤：

步骤一、对新闻语料的新闻正文进行除杂处理：

①、去掉小括号和方括号中的内容；

②、将英文双引号替换为中文双引号；

③、去掉“@”符号；

④、根据新闻正文结尾的记者信息模式和媒体信息模式过滤掉新闻正文结尾与事件抽取无关的信息。

得到除杂处理后的新闻正文。

本发明所述新闻语料是指新闻标题和新闻正文。

步骤二、利用Stanford Word Segmenter软件对新闻标题和除杂处理后的新闻正文进行中文分词，得到新闻标题的中文分词结果和新闻正文的中文分词结果。

步骤三、利用Stanford Named Entity Recognizer软件对新闻正文的中文分词结果和新闻标题的中文分词结果进行命名实体识别，得到新闻正文的命名实体识别结果和新闻标题的命名实体识别结果。

步骤四、利用Stanford POS Tagger软件对新闻正文的中文分词结果和新闻标题的中文分词结果进行词性标注，得到新闻正文的词性标注结果和新闻标题的词性标注结果。

步骤五、根据待过滤动词词表对新闻正文的词性标注结果和新闻标题的词性标注结果进行动词过滤，得到动词过滤后的新闻正文的词性标注结果和动词过滤后的新闻标题的词性标注结果。

步骤六、根据初步融合规则库对所述动词过滤后的新闻正文的词性标注结果和所述新闻正文的命名实体识别结果进行初步融合，得到新闻正文的初步融合结果；根据初步融合规则库对所述动词过滤后的新闻标题的词性标注结果和所述新闻标题的命名实体识别结果进行初步融合，得到新闻标题的初步融合结果。

步骤七、根据信息单元融合规则库对新闻正文的初步融合结果和新闻标题的初步融合结果进行信息单元融合，得到新闻正文的信息单元融合结果和新闻标题的信息单元融合结果。

步骤八、根据核心词表和事件抽取规则库对新闻正文的信息单元融合结果进行原子事件抽取，得到新闻正文的原子事件抽取结果。

所述新闻正文结尾的记者信息模式和媒体信息模式是通过对所收集的新闻正文结尾的记者信息和媒体信息进行模式聚类得出的信息模式。

所述待过滤动词词表是由对选取事件谓词影响较大和在新闻正文中出现频率较高的趋向动词、意向动词、言说动词和致使动词构成的动词词表。

所述初步融合规则库是由命名实体标签的选择规则、书名号所标志成分的识别规则、时间信息单元的识别规则、连续相同标签的合并规则和“PU”标签的省略规则所构成的规则库。

所述信息单元融合规则库是由介词单元融合规则、名词单元融合规则、状语单元融合规则、命名实体单元融合规则和修饰语单元融合规则所构成的规则库。

所述核心词表是通过统计新闻标题的信息单元融合结果所得词表和通过统计新闻正文的信息单元融合结果所得词表的集合。其中：通过统计新闻标题的信息单元融合结果所得词表是通过统计新闻标题的信息单元融合结果中的动词和名词所得词表；通过统计新闻正文的信息单元融合结果所得词表是通过统计新闻正文的信息单元融合结果中的命名实体、被标记为“DEG”标签的“的”字后边的名词、词频大于1次的动词和词频大于1次的名词所得词表。

所述事件抽取规则库是由权值分配规则、新闻正文的信息单元融合结果的句子切分规则、新闻正文的信息单元融合结果的原子句切分规则、“把”字句抽取规则、“被”字句抽取规则、一般句抽取规则和时间空间抽取规则构成的规则库。

由于采用上述技术方案，本发明与现有技术相比具有如下积极效果：

1、原子事件抽取是一种由事件谓词驱动的信息抽取方法，本发明对选取事件谓词影响较大和在新闻正文中出现频率较高的趋向动词、意向动词、言说动词和致使动词进行过滤，能够更加准确的抽取事件谓词，进而提高事件抽取的准确率。

2、现有深层句法分析技术处理新闻语料，不仅执行效率过慢，且对文本长度限制严格；本发明利用信息单元融合的方法处理新闻语料，达到了浅层句法分析的效果，这样就能够不依赖于深层句法分析技术；故本发明不仅执行效率高，而且对文本长度没有严格限制。

3、核心词表中的动词比新闻正文中的其他动词作为原子事件谓词的可能性更大，核心词表中的名词和命名实体比新闻正文中的其他名词作为原子事件论元的可能性更大，本发明采用核心词表能够更加准确的抽取原子事件谓词和原子事件论元，进而提高事件抽取的准确率，

4、在原子事件抽取时，本发明先将新闻正文的信息单元融合结果根据标点符号和关联词切分为原子句，然后把原子句的句子结构分为“把”字句结构、“被”字句结构和一般句结构三种，此时再利用原子事件抽取规则库进行原子事件抽取，这种方法能够将新闻正文中全部事件类型的原子事件抽取出来，不受事件类型和领域的限定。

因此，本发明具有执行效率高和普遍适用性的特点。

附图说明

图1为本发明的一种流程框图。

具体实施方式

下面通过具体实施方式和实施示例对本发明做进一步的描述，并非对其保护范围的限制。

实施例1

一种基于信息单元融合的新闻原子事件抽取方法。本实施例的新闻语料(新闻语料是指新闻标题和新闻正文)为：

本实施例的新闻标题是：男子翻入女生寝室被发现后坠楼身亡；

本实施例的新闻正文是：

据@荆州开发区警方[微博]介绍，昨晨2时，某校5号女生宿舍楼5楼一位女生小莹(化名)发现，一男子借助停在一楼的一辆木板拖车，顺着一楼的铁质防盗网，翻入该宿舍二楼，她把此事通知宿管员。宿管员的丈夫便向楼上巡查，当行到3楼时，只听见"咚"的一声，大家查看时，发现一男子坠楼，遂报警。民警赶到时，坠楼男子已身亡。校方负责人称，死者并非校内人员。事发后，校内也未发现财物损失。记者卢成汉。

本实施例的新闻正文的新闻原子事件抽取步骤如图1所示：

步骤一、对新闻语料的新闻正文进行除杂处理：

①、去掉小括号和方括号中的内容。如将本实施例的新闻正文中的“某校5号女生宿舍楼5楼一位女生小莹(化名)发现”替换为“某校5号女生宿舍楼5楼一位女生小莹发现”；又如将本实施例的新闻正文中的“据@荆州开发区警方[微博]介绍”替换为“据@荆州开发区警方介绍”。

②、将英文双引号替换为中文双引号。如将本实施例的新闻正文中的“只听见"咚"的一声”替换为“只听见“咚”的一声”。

③、去掉“@”符号。如将本实施例的新闻正文中的“据@荆州开发区警方[微博]介绍”替换为“据荆州开发区警方介绍”。

④、根据新闻正文结尾的记者信息模式和媒体信息模式过滤掉新闻正文结尾与事件抽取无关的信息。本实施例所述的新闻正文结尾的记者信息模式和媒体信息模式是通过对所收集的新闻正文结尾的记者信息和媒体信息进行模式聚类得出的信息模式。其中新闻正文结尾的记者信息模式是：新闻正文最后一个句子长度不超过10个汉字且含有“记者”二字，则为新闻正文结尾与事件抽取无关的信息；其中新闻正文结尾的媒体信息模式是：新闻正文最后一个句子中含有“媒体名+报社|报|社|网+报道|讯”结构，则为新闻正文结尾与事件抽取无关的信息。如本实施例的新闻正文最后一个句子“记者卢成汉。”长度不超过10个汉字且含有“记者”二字，符合所述记者信息模式，故将该句去掉。

得到除杂处理后的新闻正文：

据荆州开发区警方介绍，昨晨2时，某校5号女生宿舍楼5楼一位女生小莹发现，一男子借助停在一楼的一辆木板拖车，顺着一楼的铁质防盗网，翻入该宿舍二楼，她把此事通知宿管员。宿管员的丈夫便向楼上巡查，当行到3楼时，只听见“咚”的一声，大家查看时，发现一男子坠楼，遂报警。民警赶到时，坠楼男子已身亡。校方负责人称，死者并非校内人员。事发后，校内也未发现财物损失。

本实施例的新闻标题的中文分词结果是：

男子翻入女生寝室被发现后坠楼身亡

本实施例的新闻正文的中文分词结果是：

本实施例的新闻标题的命名实体识别结果是：

男子/O翻入/O女生/O寝室/O被/O发现/O后/O坠楼/O身亡/O

本实施例的新闻正文的命名实体识别结果是：

据/O荆州/GPE开发区/LOC警方/O介绍/O，/O昨晨/O2/O时/O，/O某/O校/O5/O号/O女生/O宿舍楼/O5/O楼/O一/O位/O女生/O小莹/PERSON发现/O，/O一/O男子/O借助/O停/O在/O一/MISC楼/O的/O一/O辆/O木板/O拖车/O，/O顺/O着/O一/MISC楼/O的/O铁质/O防盗网/O，/O翻入/O该/O宿舍/O二/MISC楼/O，/O她/O把/O此/O事/O通知/O宿管员/O。/O宿管员/O的/O丈夫/O便/O向/O楼上/O巡查/O，/O当行/O到/O3/O楼/O时/O，/O只/O听见/O“/O咚/O”/O的/O一/O声/O，/O大家/O查看/O时/O，/O发现/O一/O男子/O坠楼/O，/O遂/O报警/O。/O民警/O赶到/O时/O，/O坠楼/O男子/O已/O身亡/O。/O校方/O负责人/O称/O，/O死者/O并/O非/O校内/O人员/O。/O事/O发/O后/O，/O校内/O也/O未/O发现/O财物/O损失/O。/O

本实施例的新闻标题的词性标注结果是：

男子/NN,翻入/VV,女生/NN,寝室/NN,被/SB,发现/VV,后/LC,坠楼/VV,身亡/VV,

本实施例的新闻正文的词性标注结果是：

据/P,荆州/NR,开发区/NN,警方/NN,介绍/VV,，/PU,昨晨/NN,2/CD,时/NN,，/PU,某/DT,校/NN,5/CD,号/M,女生/NN,宿舍楼/NN,5/OD,楼/NN,一/CD,位/M,女生/NN,小莹/NR,发现/VV,，/PU,一/CD,男子/NN,借助/VV,停/VV,在/P,一/CD,楼/M,的/DEG,一/CD,辆/M,木板/NN,拖车/NN,，/PU,顺/VV,着/AS,一/CD,楼/M,的/DEG,铁质/NN,防盗网/NN,，/PU,翻入/VV,该/DT,宿舍/NN,二/OD,楼/NN,，/PU,她/PN,把/BA,此/DT,事/NN,通知/VV,宿管员/NN,。/PU,宿管员/NN,的/DEG,丈夫/NN,便/AD,向/P,楼上/NN,巡查/VV,，/PU,当行/VV,到/VV,3/OD,楼/M,时/NN,，/PU,只/AD,听见/VV,“/CD,咚/M,”/NN,的/DEG,一/CD,声/M,，/PU,大家/PN,查看/VV,时/LC,，/PU,发现/VV,一/CD,男子/NN,坠楼/VV,，/PU,遂/AD,报警/VV,。/PU,民警/NN,赶到/VV,时/LC,，/PU,坠楼/VV,男子/NN,已/AD,身亡/VV,。/PU,校方/NN,负责人/NN,称/VV,，/PU,死者/NN,并/AD,非/VC,校内/NN,人员/NN,。/PU,事/NN,发/VV,后/LC,，/PU,校内/NN,也/AD,未/AD,发现/VV,财物/NN,损失/NN,。/PU,

本实施例的所述待过滤动词词表是由对选取事件谓词影响较大和在新闻正文中出现频率较高的趋向动词、意向动词、言说动词和致使动词构成的动词词表。待过滤动词词表的具体使用方法是：

趋向动词词表使用方法：（1）如果相邻的两个词符合“动词+介词”结构，则将这个动词确定为趋向动词，将其标签替换为“FilterVV”；如本实施例的新闻正文的词性标注结果中相邻的两个词“停/VV,在/P,”符合“动词+介词”结构，则将“停”确定为趋向动词，将其标签替换为“FilterVV”。（2）如果一句话中含有“动词+内容+动词”结构且第一个动词能够和趋向动词词表中的一项匹配，则将第一个动词确定为趋向动词，将其标签替换为“FilterVV”。如本实施例的新闻正文的词性标注结果中“到/VV,3/OD,楼/M,时/NN,，/PU,只/AD,听见/VV,”符合“动词+内容+动词”结构且第一个动词“到”能够和趋向动词词表中的一项匹配，则将“到”确定为趋向动词，将其标签替换为“FilterVV”。

意向动词词表使用方法：如果一句话中含有“动词+内容+动词”结构且第一个动词能够和意向动词词表词表中的一项进行匹配，则将第一个动词确定为意向动词，将其标签替换为“FilterVV”。如本实施例的新闻标题的词性标注结果中“发现/VV,后/LC,坠楼/VV,”符合“动词+内容+动词”结构且第一个动词“发现”能够和意向动词词表中的一项进行匹配，则将“发现”确定为意向动词，将其标签替换为“FilterVV”。

言说动词词表使用方法：如果一句话中含有“动词+内容+动词”结构且第一个动词能够和言说动词词表中的一项进行匹配，则将第一个动词确定为言说动词，将其标签替换为“FilterVV”。如本实施例的新闻正文的词性标注结果中“称/VV,，/PU,死者/NN,并/AD,非/VC,”符合“动词+内容+动词”结构且第一个动词“称”能够和言说动词词表中的一项进行匹配，则“称”属于言说动词，将其标签替换为“FilterVV”。

致使动词词表使用方法：如果一句话中含有“动词+内容+名词+动词”结构且第一个动词能够和致使动词词表中的一项进行匹配、或一句话中含有“动词+内容+名词+动词+名词”结构且第一个动词能够和致使动词词表中的一项进行匹配，则将第一个动词确定为致使动词，将其标签替换为“FilterVV”。

本实施例的动词过滤后的新闻标题的词性标注结果是：

男子/NN,翻入/VV,女生/NN,寝室/NN,被/SB,发现/FilterVV,后/LC,坠楼/VV,身亡/VV,

本实施例的动词过滤后的新闻正文的词性标注结果是：

据/P,荆州/NR,开发区/NN,警方/NN,介绍/FilterVV,，/PU,昨晨/NN,2/CD,时/NN,，/PU,某/DT,校/NN,5/CD,号/M,女生/NN,宿舍楼/NN,5/OD楼/NN一/CD,位/M,女生/NN,小莹/NR,发现/FilterVV,，/PU,一/CD,男子/NN,借助/VV,停/FilterVV,在/P,一/CD,楼/M,的/DEG,一/CD,辆/M,木板/NN,拖车/NN,，/PU,顺/VV,着/AS,一/CD,楼/M,的/DEG,铁质/NN,防盗网/NN,，/PU,翻入/VV,该/DT,宿舍/NN,二/OD,楼/NN,，/PU,她/PN,把/BA,此/DT,事/NN,通知/VV,宿管员/NN,。/PU,宿管员/NN,的/DEG,丈夫/NN,便/AD,向/P,楼上/NN,巡查/VV,，/PU,当行/VV,到/FilterVV,3/OD,楼/M,时/NN,，/PU,只/AD,听见/FilterVV,“/CD,咚/M,”/NN,的/DEG,一/CD,声/M,，/PU,大家/PN,查看/VV,时/LC,，/PU,发现/FilterVV,一/CD,男子/NN,坠楼/VV,，/PU,遂/AD,报警/VV,。/PU,民警/NN,赶到/VV,时/LC,，/PU,坠楼/VV,男子/NN,已/AD,身亡/VV,。/PU,校方/NN,负责人/NN,称/FilterVV,，/PU,死者/NN,并/AD,非/VC,校内/NN,人员/NN,。/PU,事/NN,发/VV,后/LC,，/PU,校内/NN,也/AD,未/AD,发现/VV,财物/NN,损失/NN,。/PU,

本实施例所述的初步融合规则库是由命名实体标签的选择规则、书名号所标志成分的识别规则、时间信息单元的识别规则、连续相同标签的合并规则和“PU”标签的省略规则所构成的规则库。具体规则是：

命名实体标签的选择规则：如果一个词在命名实体识别结果中的标签为“PERSON”、“LOC”、“ORG”或“GPE”，则将该词在动词过滤后的词性标注结果中的标签替换为该词在命名实体识别结果中的标签。如本实施例的新闻正文的命名实体识别结果中的“荆州”标签为“GPE”，则将“荆州”在本实施例的动词过滤后的新闻正文的词性标注结果中的标签“NR”替换为“荆州”在本实施例的新闻正文的命名实体识别结果中的标签“GPE”。

书名号所标志成分的识别规则：根据书名号把书名号和被拆分的书名号之间的成分进行合并，赋予“NN”标签。

时间信息单元的识别规则：1)如果相邻的两个词符合“数字+年|月|日|时|分|秒”结构，将相邻的两个词合并，赋予标签“T”；如本实施例的动词过滤后的新闻正文的词性标注结果中相邻的两个词“2时”符合“数字+时”结构，将相邻的两个词“2时”合并为“2时”，赋予标签“T”。2)如果一个词被标记为“NT”，则将其标签替换为“T”。

连续相同标签的合并规则：将动词过滤后的词性标注结果中连续具有相同标签的词进行合并，合并后词语的标签类型与合并前词语的标签类型相同。如本实施例动词过滤后的新闻正文的词性标注结果中的“校内人员”连续具有相同标签“NN”，将其合并为“校内人员”，合并后词语“校内人员”的标签类型与合并前词语“人员”的标签类型“NN”相同。

“PU”标签的省略规则：省略掉动词过滤后的新闻正文的词性标注结果中所有标点符号的“PU”标签。如本实施例的动词过滤后的新闻正文的词性标注结果中标点符号“。/PU,”替换为“。”。

本实施例的新闻标题的初步融合结果是：

男子/NN,翻入/VV,女生寝室/NN,被/SB,发现/FilterVV,后/LC,坠楼身亡/VV,

本实施例的新闻正文的初步融合结果是：

据/P荆州/GPE开发区/LOC警方/NN介绍/FilterVV，昨晨/NN2时/T，某/DT校/NN5/CD号/M女生宿舍楼/NN5/OD楼/NN一/CD位/M女生/NN小莹/PERSON发现/FilterVV，一/CD男子/NN借助/VV停/FilterVV在/P一/CD楼/M的/DEG一/CD辆/M木板拖车/NN，顺/VV着/AS一/CD楼/M的/DEG铁质防盗网/NN，翻入/VV该/DT宿舍/NN二/OD楼/NN，她/PN把/BA此/DT事/NN通知/VV宿管员/NN。宿管员/NN的/DEG丈夫/NN便/AD向/P楼上/NN巡查/VV，当行/VV到/FilterVV3/OD楼/M时/NN，只/AD听见/FilterVV“/CD咚/M”/NN的/DEG一/CD声/M，大家/PN查看/VV时/LC，发现/FilterVV一/CD男子/NN坠楼/VV，遂/AD报警/VV。民警/NN赶到/VV时/LC，坠楼/VV男子/NN已/AD身亡/VV。校方负责人/NN称/FilterVV，死者/NN并/AD非/VC校内人员/NN。事/NN发/VV后/LC，校内/NN也未/AD发现/VV财物损失/NN。

本实施例的所述信息单元融合规则库是由介词单元融合规则、名词单元融合规则、状语单元融合规则、命名实体单元融合规则和修饰语单元融合规则所构成的规则库。信息单元融合规则库如表1所示。

表1 信息单元融合规则库

从表1所示的信息单元融合规则库可以看出，本实施例的新闻正文的初步融合结果中的“向/P楼上/NN”，其第一标签、第二标签依次为“P”、“NN”，则本实施例的新闻正文的初步融合结果中的“向/P楼上/NN”在本实施例的新闻正文的信息单元融合结果中为“向楼上/PIU”。

本实施例的新闻标题的信息单元融合结果是：

男子/NN翻入/VV女生寝室/NN被/SB发现/FilterVV后/LC坠楼身亡/VV

本实施例的新闻正文的信息单元融合结果是：

据/P荆州开发区警方/NN介绍/FilterVV，昨晨/NN2时/T，某校5号女生宿舍楼5楼一位女生小莹/PERSON发现/FilterVV，一男子/NN借助/VV停/FilterVV在/P一楼/CDM的/DEG一辆木板拖车/NN，顺/VV着/AS一楼的铁质防盗网/NN，翻入/VV该宿舍二楼/NN，她/PN把/BA此事/NN通知/VV宿管员/NN。宿管员的丈夫/NN便/AD向楼上/PIU巡查/VV，当行/VV到/FilterVV3楼/ODM时/NN，只/AD听见/FilterVV“咚”的/JJ一声/CDM，大家/PN查看时/Sta，发现/FilterVV一男子/NN坠楼/VV，遂/AD报警/VV。民警/NN赶到时/Sta，坠楼/VV男子/NN已/AD身亡/VV。校方负责人/NN称/FilterVV，死者/NN并/AD非/VC校内人员/NN。事/NN发后/Sta，校内/NN也未/AD发现/VV财物损失/NN。

本实施例所述核心词表是通过统计新闻标题的信息单元融合结果所得词表和通过统计新闻正文的信息单元融合结果所得词表的集合。其中：通过统计新闻标题的信息单元融合结果所得词表是通过统计新闻标题的信息单元融合结果中的动词和名词所得词表。如通过统计本实施例的新闻标题的信息单元融合结果中的动词“翻入/VV”、动词“坠楼身亡/VV”、名词“男子/NN”和名词“女生寝室/NN”所得词表；通过统计新闻正文的信息单元融合结果所得词表是通过统计新闻正文的信息单元融合结果中的命名实体、被标记为“DEG”标签的“的”字后边的名词、词频大于1次的动词和词频大于1次的名词所得词表。如通过统计本实施例的新闻正文的信息单元融合结果中的命名实体“某校5号女生宿舍楼5楼一位女生小莹/PERSON”、命名实体“2时/T”、被标记为“DEG”标签的“的”字后边的名词“一辆木板拖车/NN”、词频大于1次的动词“坠楼/VV”和词频大于1次的名词“一男子/NN”所得词表。

本实施例所述的事件抽取规则库是由权值分配规则、新闻正文的信息单元融合结果的句子切分规则、新闻正文的信息单元融合结果的原子句切分规则、“把”字句抽取规则、“被”字句抽取规则、一般句抽取规则和时间空间抽取规则构成的规则库。具体规则是：

新闻正文的信息单元融合结果的句子切分规则：根据点号将新闻正文的信息单元融合结果切分为多个句子。

如本实施例的新闻正文的信息单元融合结果根据点号切分为：

“据/P荆州开发区警方/NN介绍/FilterVV，昨晨/NN2时/T，某校5号女生宿舍楼5楼一位女生小莹/PERSON发现/FilterVV，一男子/NN借助/VV停/FilterVV在/P一楼/CDM的/DEG一辆木板拖车/NN，顺/VV着/AS一楼的铁质防盗网/NN，翻入/VV该宿舍二楼/NN，她/PN把/BA此事/NN通知/VV宿管员/NN。”；

“宿管员的丈夫/NN便/AD向楼上/PIU巡查/VV，当行/VV到/FilterVV3楼/ODM时/NN，只/AD听见/FilterVV“咚”的/JJ一声/CDM，大家/PN查看时/Sta，发现/FilterVV一男子/NN坠楼/VV，遂/AD报警/VV。”；

“民警/NN赶到时/Sta，坠楼/VV男子/NN已/AD身亡/VV。”；

“校方负责人/NN称/FilterVV，死者/NN并/AD非/VC校内人员/NN。”；

“事/NN发后/Sta，校内/NN也未/AD发现/VV财物损失/NN。”。

权值分配规则：新闻正文的信息单元融合结果中的每个词的权值默认为0，如果某个词能够和核心词表中的一项匹配，则该词权值加1。如本实施例中新闻正文的信息单元融合结果中的“一男子/NN”能够和核心词表中的“一男子/NN”匹配，则“一男子/NN”的权值加1。

新闻正文的信息单元融合结果的原子句切分规则：将新闻正文的信息单元融合结果中的句子根据逗号和关联词切分为原子句。如本实施例的新闻正文的信息单元融合结果中的句子“民警/NN赶到时/Sta，坠楼/VV男子/NN已/AD身亡/VV。”,根据逗号切分为原子句“民警/NN赶到时/Sta”和“坠楼/VV男子/NN已/AD身亡/VV”。

“把”字句抽取规则：如果原子句的结构符合特殊句式“把”字句结构，按照“主体+把+客体+事件谓词”的结构抽取原子事件，将抽取的原子事件表示为“事件谓词(主体,客体)”，如果该原子句中含有多个动词或名词，优先选取权值较高的动词或名词。如本实施例的新闻正文的信息单元融合结果中的原子句“她/PN把/BA此事/NN通知/VV宿管员/NN。”符合特殊句式中的“把”字句结构，按照“主体+把+客体+事件谓词”的结构抽取原子事件，将抽取的原子事件表示为“通知/VV(她/PN,此事/NN)”。

“被”字句抽取规则：如果原子句的结构符合特殊句式“被”字句结构，按照“客体+被+主体+事件谓词”的结构抽取原子事件，将抽取的原子事件表示为“事件谓词(主体,客体)”，如果该原子句中含有多个动词或名词，优先选取权值较高的动词或名词。

一般句抽取规则：如果原子句的结构不符合特殊句式“把”字句结构和“被”字句结构，则原子句的结构属于一般句式，按照“主体+事件谓词+客体”的结构抽取原子事件，将抽取的原子事件表示为“事件谓词(主体,客体)”，如果该原子句中含有多个动词或名词，优先选取权值较高的动词或名词。如本实施例的新闻正文的信息单元融合结果中的原子句“一男子/NN借助/VV停/FilterVV在/P一楼/CDM的/DEG一辆木板拖车/NN”不符合特殊句式“把”字句结构和“被”字句结构，则该句的结构属于一般句式，按照“主体+事件谓词+客体”的结构抽取原子事件，将抽取的原子事件表示为“借助/VV(一男子/NN，一辆木板拖车/NN)”。

时间空间抽取规则：对每个句子从前向后进行遍历，遇到标签为“T”的词，则将该词作为这个句子中所抽取的原子事件的时间成分；对每个句子从前向后进行遍历，遇到标签为“LOC”的词，则将该词作为这个句子中所抽取的原子事件的空间成分；原子事件添加时间成分和空间成分后表示为“事件谓词(主体,客体,时间成分,空间成分)”，原子事件仅添加时间成分后表示为“事件谓词(主体,客体,时间成分)”，原子事件仅添加空间成分后表示为“事件谓词(主体,客体,空间成分)”。如本实施例的新闻正文的信息单元融合结果中的句子“据/P荆州开发区警方/NN介绍/FilterVV，昨晨/NN2时/T，某校5号女生宿舍楼5楼一位女生小莹/PERSON发现/FilterVV，一男子/NN借助/VV停/FilterVV在/P一楼/CDM的/DEG一辆木板拖车/NN，顺/VV着/AS一楼的铁质防盗网/NN，翻入/VV该宿舍二楼/NN，她/PN把/BA此事/NN通知/VV宿管员/NN。”，从前向后进行遍历，遇到标签为“T”的词“2时”，则将该词作为这个句子中所抽取的原子事件的时间成分，这个句子中所抽取原子事件添加时间成分后表示为“借助/VV(一男子/NN，一辆木板拖车/NN,2时/T)”、“顺/VV(，一楼的铁质防盗网/NN,2时/T)”、“翻入/VV(,该宿舍二楼/NN,2时/T)”和“通知/VV(她/PN,此事/NN,2时/T)”。

本实施例的新闻正文的原子事件抽取结果是：

借助/VV(一男子/NN,一辆木板拖车/NN,2时/T)

顺/VV(,一楼的铁质防盗网/NN,2时/T)

翻入/VV(,该宿舍二楼/NN,2时/T)

通报/VV(她/NN,此事/NN,2时/T)

巡查/VV(宿管员的丈夫/NN,)

坠楼/VV(一男子/NN,)

身亡/VV(男子/NN,)

非/VC(死者/NN,校内人员/NN)

发现/VV(校内/NN,财产损失/NN)

实施例2

本实施例的新闻标题是：独臂男子无证驾驶，撞死5岁男童；

本实施例的新闻正文是：

6月13日，经山东省@沂南县检察院[微博]提起公诉，法院根据《中华人民共和国刑法》，以交通肇事罪判处李法俊***一年。李法俊前些年在一家工厂打工时受伤，导致右臂被医生截肢。虽然无法取得驾驶证但他仍在2008年购买了一辆"别克"牌小轿车。2012年6月18日，李法俊驾车不慎将路边一名5岁的男孩乐乐(化名)撞倒。男孩终因抢救无效当日死亡。事故发生后，李法俊赔偿被害人亲属18万元。李法俊对自己的行为感到非常后悔，因无证驾车而致他人痛失生命，给被害人的亲人造成了终生痛苦。凤凰网报道。

本实施例的新闻正文的新闻原子事件抽取步骤如图1所示：

步骤一、对新闻语料的新闻正文进行除杂处理：

①、去掉小括号和方括号中的内容。如将本实施例的新闻正文中的“经山东省@沂南县检察院[微博]提起公诉”替换为“经山东省@沂南县检察院提起公诉”；又如将本实施例的新闻正文中的“李法俊驾车不慎将路边一名5岁的男孩乐乐(化名)撞倒”替换为“李法俊驾车不慎将路边一名5岁的男孩乐乐撞倒”。

②、将英文双引号替换为中文双引号。如将本实施例的新闻正文中的“但他仍在2008年购买了一辆"别克"牌小轿车”替换为“但他仍在2008年购买了一辆“别克”牌小轿车”。

③、去掉“@”符号。如将本实施例的新闻正文中的“经山东省@沂南县检察院[微博]提起公诉”替换为“经山东省沂南县检察院提起公诉”。

④、根据新闻正文结尾的记者信息模式和媒体信息模式过滤掉新闻正文结尾与事件抽取无关的信息。本实施例所述的新闻正文结尾的记者信息模式和媒体信息模式是通过对所收集的新闻正文结尾的记者信息和媒体信息进行模式聚类得出的信息模式。其中新闻正文结尾的记者信息模式是：新闻正文最后一个句子长度不超过10个汉字且含有“记者”二字，则为新闻正文结尾与事件抽取无关的信息；其中新闻正文结尾的媒体信息模式是：新闻正文最后一个句子中含有“媒体名+报社|报|社|网+报道|讯”结构，则为新闻正文结尾与事件抽取无关的信息。如本实施例的新闻正文最后一个句子“凤凰网报道。”含有“凤凰+网+报道”结构，符合所述媒体信息模式，故将该句去掉。

得到除杂处理后的新闻正文：

6月13日，经山东省沂南县检察院提起公诉，法院根据《中华人民共和国刑法》，以交通肇事罪判处李法俊***一年。李法俊前些年在一家工厂打工时受伤，导致右臂被医生截肢。虽然无法取得驾驶证但他仍在2008年购买了一辆“别克”牌小轿车。2012年6月18日，李法俊驾车不慎将路边一名5岁的男孩乐乐撞倒。男孩终因抢救无效当日死亡。事故发生后，李法俊赔偿被害人亲属18万元。李法俊对自己的行为感到非常后悔，因无证驾车而致他人痛失生命，给被害人的亲人造成了终生痛苦。

本实施例的新闻标题的中文分词结果是：

独臂男子无证驾驶，撞死5岁男童

本实施例的新闻正文的中文分词结果是：

本实施例的新闻标题的命名实体识别结果是：

独/O臂/O男子/O无证/O驾驶/O，/O撞死/O5/O岁/O男/O童/O

本实施例的新闻正文的命名实体识别结果是：

6/MISC月/MISC13/MISC日/MISC，/O经/O山东省/GPE沂南县/GPE检察院/ORG提起/O公诉/O，/O法院/O根据/O《中华/MISC人民/MISC共和国/MISC刑法/MISC》，/O以/O交通/O肇事罪/O判处/O李法俊/PERSON有期/O徒刑/O一/MISC年/MISC。/O李/O法俊/MISC前/MISC些/MISC年/MISC在/O一/MISC家/O工厂/O打工/O时/O受伤/O，/O导致/O右臂/O被/O医生/O截肢/O。/O虽然/O无法/O取得/O驾驶证/O但/O他/O仍/O在/O2008/O年/O购买/O了/O一/O辆/O“/O别克/O”/O牌/O小轿车/O。/O2012/MISC年/MISC6/MISC月/MISC18/MISC日/MISC，/O李法俊/PERSON驾车/O不慎/O将/O路边/O一/O名/O5/MISC岁/MISC的/O男孩/O乐乐/PERSON撞倒/O。/O男孩/O终因/O抢救无效/O当日/O死亡/O。/O事故/O发生/O后/O，/O李法俊/PERSON赔偿/O被害人/O亲属/O18/O万/MISC元/MISC。/O李法俊/PERSON对/O自己/O的/O行为/O感到/O非常/O后悔/O，/O因/O无证/O驾车/O而/O致/O他人/O痛失/O生命/O，/O给/O被害人/O的/O亲人/O造成/O了/O终生/O痛苦/O。/O

本实施例的新闻标题的词性标注结果是：

独/JJ,臂/NN,男子/NN,无证/AD,驾驶/VV,，撞死/VV,5/CD,岁/M,男/JJ,童/NN,

本实施例的新闻正文的词性标注结果是：

6/CD,月/NN,13/CD,日/M,，/PU,经/P,山东省/NR,沂南县/NR,检察院/NN,提起/VV,公诉/NN,，/PU,法院/NN,根据/VV,《/NN,中华/NR,人民/NN,共和国/NN,刑法/NN,》/NN,，/PU,以/P,交通/NN,肇事罪/NN,判处/VV,李法俊/NR,有期/JJ,徒刑/NN,一/CD,年/M,。/PU,李/NR,法俊/NN,前/LC,些/CD,年/M,在/P,一/CD,家/M,工厂/NN,打工/VV,时/LC,受伤/VV,，/PU,导致/VV,右臂/NN,被/SB,医生/NR,截肢/VV,。/PU,虽然/CS,无法/AD,取得/VV,驾驶证/NN,但/AD,他/PN,仍/AD,在/P,2008/CD,年/M,购买/VV,了/AS,一/CD,辆/M,“/NR,别克/NR,”/NN,牌/NN,小轿车/NN,。/PU,2012/CD,年/M,6/CD,月/NN,18/CD,日/M,，/PU,李法俊/NR,驾车/VV,不慎/AD,将/BA,路边/NN,一/CD,名/M,5/CD,岁/M,的/DEG,男孩/NN,乐乐/PN撞倒/VV,。/PU,男孩/NN,终因/AD,抢救无效/VV,当日/NT,死亡/VV,。/PU,事故/NN,发生/VV,后/LC,，/PU,李法俊/NR,赔偿/VV,被害人/NN,亲属/NN,18/CD,万/CD,元/M,。/PU,李法俊/NR,对/P,自己/PN,的/DEG,行为/NN,感到/VV,非常/AD,后悔/VV,，/PU,因/P,无证/AD,驾车/VV,而/MSP,致/VV,他人/PN,痛失/VV,生命/NN,，/PU,给/P,被害人/NN,的/DEG,亲人/NN,造成/VV,了/AS,终生/JJ,痛苦/NN,。/PU,

趋向动词词表使用方法：（1）如果相邻的两个词符合“动词+介词”结构，则将这个动词确定为趋向动词，将其标签替换为“FilterVV”；（2）如果一句话中含有“动词+内容+动词”结构且第一个动词能够和趋向动词词表中的一项匹配，则将第一个动词确定为趋向动词，将其标签替换为“FilterVV”。

意向动词词表使用方法:如果一句话中含有“动词+内容+动词”结构且第一个动词能够和意向动词词表词表中的一项进行匹配，则将第一个动词确定为意向动词，将其标签替换为“FilterVV”。如本实施例的新闻正文的词性标注结果中的“感到/VV,非常/AD,后悔/VV”符合“动词+内容+动词”结构且第一个动词“感到”能够和意向动词词表中的一项进行匹配，则将“感到”确定为意向动词，将其标签替换为“FilterVV”。

言说动词词表使用方法：如果一句话中含有“动词+内容+动词”结构且第一个动词能够和言说动词词表中的一项进行匹配，则将第一个动词确定为言说动词，将其标签替换为“FilterVV”。

致使动词词表使用方法：如果一句话中含有“动词+内容+名词+动词”结构且第一个动词能够和致使动词词表中的一项进行匹配、或一句话中含有“动词+内容+名词+动词+名词”结构且第一个动词能够和致使动词词表中的一项进行匹配，则将第一个动词确定为致使动词，将其标签替换为“FilterVV”。如本实施例的新闻正文的词性标注结果中的“导致/VV,右臂/NN,被/SB,医生/NR,截肢/VV,”符合“动词+内容+名词+动词”结构且第一个动词“导致”能够和致使动词词表中的一项进行匹配，则将“导致”确定为致使动词，将其标签替换为“FilterVV”。

本实施例的动词过滤后的新闻标题的词性标注结果是：

本实施例的动词过滤后的新闻正文的词性标注结果是：

6/CD,月/NN,13/CD,日/M,，/PU,经/P,山东省/NR,沂南县/NR,检察院/NN,提起/VV,公诉/NN,，/PU,法院/NN,根据/VV,《/NN,中华/NR,人民/NN,共和国/NN,刑法/NN,》/NN,，/PU,以/P,交通/NN,肇事罪/NN,判处/VV,李法俊/NR,有期/JJ,徒刑/NN,一/CD,年/M,。/PU,李/NR,法俊/NN,前/LC,些/CD,年/M,在/P,一/CD,家/M,工厂/NN,打工/VV,时/LC,受伤/VV,，/PU,导致/FilterVV,右臂/NN,被/SB,医生/NR,截肢/VV,。/PU,虽然/CS,无法/AD,取得/VV,驾驶证/NN,但/AD,他/PN,仍/AD,在/P,2008/CD,年/M,购买/VV,了/AS,一/CD,辆/M,“/NR,别克/NR,”/NN,牌/NN,小轿车/NN,。/PU,2012/CD,年/M,6/CD,月/NN,18/CD,日/M,，/PU,李法俊/NR,驾车/VV,不慎/AD,将/BA,路边/NN,一/CD,名/M,5/CD,岁/M,的/DEG,男孩/NN,乐乐/PN撞倒/VV,。/PU,男孩/NN,终因/AD,抢救无效/VV,当日/NT,死亡/VV,。/PU,事故/NN,发生/VV,后/LC,，/PU,李法俊/NR,赔偿/VV,被害人/NN,亲属/NN,18/CD,万/CD,元/M,。/PU,李法俊/NR,对/P,自己/PN,的/DEG,行为/NN,感到/FilterVV,非常/AD,后悔/VV,，/PU,因/P,无证/AD,驾车/VV,而/MSP,致/FilterVV,他人/PN,痛失/VV,生命/NN,，/PU,给/P,被害人/NN,的/DEG,亲人/NN,造成/VV,了/AS,终生/JJ,痛苦/NN,。/PU,

命名实体标签的选择规则：如果一个词在命名实体识别结果中的标签为“PERSON”、“LOC”、“ORG”或“GPE”，则将该词在动词过滤后的词性标注结果中的标签替换为该词在命名实体识别结果中的标签。如本实施例的新闻正文的命名实体识别结果中的“李法俊”标签为“PERSON”，则将“李法俊”在本实施例的动词过滤后的新闻正文的词性标注结果中的标签“NR”替换为“李法俊”在本实施例的新闻正文的命名实体识别结果中的标签“PERSON”。

书名号所标志成分的识别规则：根据书名号把书名号和被拆分的书名号之间的成分进行合并，赋予“NN”标签。如本实施例的动词过滤后的新闻正文的词性标注结果中，根据书名号把书名号和被拆分的书名号之间的成分“《中华人民共和国刑法》,”合并为“《中华人民共和国刑法》”，赋予“NN”标签。

时间信息单元的识别规则：1)如果相邻的两个词符合“数字+年|月|日|时|分|秒”结构，将相邻的两个词合并，赋予标签“T”；如本实施例的动词过滤后的新闻正文的词性标注结果中相邻的两个词“6月”符合“数字+月”结构，将相邻的两个词“6月”合并为“6月”，赋予标签“T”。2)如果一个词被标记为“NT”，则将其标签替换为“T”。如本实施例的动词过滤后的新闻正文的词性标注结果中的词“当日”被标记为“NT”，则将其标签替换为“T”。

连续相同标签的合并规则：将动词过滤后的词性标注结果中连续具有相同标签的词进行合并，合并后词语的标签类型与合并前词语的标签类型相同。如本实施例动词过滤后的新闻正文的词性标注结果中的“交通肇事罪”连续具有相同标签“NN”，将其合并为“交通肇事罪”，合并后词语“交通肇事罪”的标签类型与合并前词语“肇事罪”的标签类型“NN”相同。

本实施例的新闻标题的初步融合结果是：

独/JJ,臂男子/NN,无证/AD,驾驶/VV,，撞死/VV,5/CD,岁/M,男/JJ,童/NN,

本实施例的新闻正文的初步融合结果是：

6月13日/T，经/P山东省沂南县/GPE检察院/ORG提起/VV公诉/NN，法院/NN,根据/VV《中华人民共和国刑法》/NN，以/P交通肇事罪/NN判处/VV李法俊/PERSON有期/JJ徒刑/NN一年/T。李/NR法俊/NN前/LC些年/T在/P一/CD家/M工厂/NN打工/VV时/LC受伤/VV，导致/FilterVV右臂/NN被/SB医生/NR截肢/VV。虽然/CS无法/AD取得/VV驾驶证/NN但/AD他/PN仍/AD在/P2008年/T购买/VV了/AS一/CD辆/M“/NR别克/NR”/NN牌小轿车/NN。2012年6月18日/T，李法俊/PERSON驾车/VV不慎/AD将/BA路边/NN一/CD名/M5/CD岁/M的/DEG男孩/NN乐乐/PERSON撞倒/VV。男孩/NN终因/AD抢救无效/VV当日/T死亡/VV。事故/NN发生/VV后/LC，李法俊/PERSON赔偿/VV被害人亲属/NN18万/CD元/M。李法俊/PERSON对/P自己/PN的/DEG行为/NN感到/FilterVV非常/AD后悔/VV，因/P无证/AD驾车/VV而/MSP致/VV他人/PN痛失/VV生命/NN，给/P被害人/NN的/DEG亲人/NN造成/VV了/AS终生/JJ痛苦/NN。

本实施例的所述信息单元融合规则库是由介词单元融合规则、名词单元融合规则、状语单元融合规则、命名实体单元融合规则和修饰语单元融合规则所构成的规则库。信息单元融合规则库如实施例1表1所示。

从实施例1的表1所示的信息单元融合规则库可以看出，本实施例的新闻正文的初步融合结果中的“打工/VV时/LC”，其第一标签、第二标签依次为“VV”、“LC”，则本实施例的新闻正文的初步融合结果中的“打工/VV时/LC”在本实施例的新闻正文的信息单元融合结果中为“打工时/Sta”。

本实施例的新闻标题的信息单元融合结果是：

独臂男子/NN无证/AD驾驶/VV，撞死/VV5岁男童/NN

本实施例的新闻正文的信息单元融合结果是：

6月13日/T，经/P山东省沂南县检察院/ORG提起/VV公诉/NN，法院/NN根据/VV,《中华人民共和国刑法》/NN，以交通肇事罪/PNN判处/VV李法俊***一年/NN。李法俊/NR前些年/T在一家工厂/PNN打工时/Sta受伤/VV，导致/FilterVV右臂/NN被/SB医生/NR截肢/VV。虽然/CS无法/AD取得/VV驾驶证/NN但/AD他/PN仍/AD在/P2008年/T购买/VV了/AS一辆“别克”牌小轿车/NN。2012年6月18日/T，李法俊/PERSON驾车/VV不慎/AD将/BA路边一名5岁的男孩乐乐/PERSON撞倒/VV。男孩/NN终因/AD抢救无效/VV当日/T死亡/VV。事故/NN发生后/Sta，李法俊/PERSON赔偿/VV被害人亲属/NN18万元/CDM。李法俊/PERSON对自己的行为/PNN感到/FilterVV非常/AD后悔/VV，因/P无证/AD驾车/VV而/MSP致/VV他人/PN痛失/VV生命/NN，给/P被害人的亲人/NN造成/VV了/AS终生痛苦/NN。

本实施例所述核心词表是通过统计新闻标题的信息单元融合结果所得词表和通过统计新闻正文的信息单元融合结果所得词表的集合。其中：通过统计新闻标题的信息单元融合结果所得词表是通过统计新闻标题的信息单元融合结果中的动词和名词所得词表。如通过统计本实施例的新闻标题的信息单元融合结果中的动词“驾驶/VV”、动词“撞死/VV”、名词“独臂男子/NN”和名词“男童/NN”所得词表；通过统计新闻正文的信息单元融合结果所得词表是通过统计新闻正文的信息单元融合结果中的命名实体、被标记为“DEG”标签的“的”字后边的名词、词频大于1次的动词和词频大于1次的名词所得词表。如通过统计本实施例的新闻正文的信息单元融合结果中的命名实体“6月13日/T”、命名实体“山东省沂南县检察院/ORG”、命名实体“2008年/T”、命名实体“2012年6月18日/T”和命名实体“李法俊/PERSON”所得词表。

“6月13日/T，经/P山东省沂南县检察院/ORG提起/VV公诉/NN，法院/NN根据/VV,《中华人民共和国刑法》/NN，以交通肇事罪/PNN判处/VV李法俊***一年/NN。”；

“李法俊/NR前些年/T在一家工厂/PNN打工时/Sta受伤/VV，导致/FilterVV右臂/NN被/SB医生/NR截肢/VV。”；

“虽然/CS无法/AD取得/VV驾驶证/NN但/AD他/PN仍/AD在/P2008年/T购买/VV了/AS一辆“别克”牌小轿车/NN。”；

“2012年6月18日/T，李法俊/PERSON驾车/VV不慎/AD将/BA路边一名5岁的男孩/NN撞倒/VV。”；

“男孩/NN终因/AD抢救无效/VV当日/T死亡/VV。”；

“事故/NN发生后/Sta，李法俊/PERSON赔偿/VV被害人亲属/NN18万元/CDM。”；

“李法俊/PERSON对自己的行为/PNN感到/FilterVV非常/AD后悔/VV，因/P无证/AD驾车/VV而/MSP致/VV他人/PN痛失/VV生命/NN，给/P被害人的亲人/NN造成/VV了/AS终生痛苦/NN。”。

权值分配规则：新闻正文的信息单元融合结果中的每个词的权值默认为0，如果某个词能够和核心词表中的一项匹配，则该词权值加1。如本实施例中新闻正文的信息单元融合结果中的“山东省沂南县检察院/ORG”能够和核心词表中的“山东省沂南县检察院/ORG”匹配，则“山东省沂南县检察院/ORG”的权值加1。

新闻正文的信息单元融合结果的原子句切分规则：将新闻正文的信息单元融合结果中的句子根据逗号和关联词切分为原子句。如本实施例的新闻正文的信息单元融合结果中的句子“李法俊/NR前些年/T在一家工厂/PNN打工时/Sta受伤/VV，导致/FilterVV右臂/NN被/SB医生/NR截肢/VV。”，根据逗号切分为原子句“李法俊/NR前些年/T在一家工厂/PNN打工时/Sta受伤/VV”和“导致/FilterVV右臂/NN被/SB医生/NR截肢/VV”；又如本实施例的新闻正文的信息单元融合结果中的句子“虽然/CS无法/AD取得/VV驾驶证/NN但/AD他/PN仍/AD在/P2008年/T购买/VV了/AS一辆“别克”牌小轿车/NN。”，根据关联词切分为原子句“虽然/CS无法/AD取得/VV驾驶证/NN”和“但/AD他/PN仍/AD在/P2008年/T购买/VV了/AS一辆“别克”牌小轿车/NN。”。

“把”字句抽取规则：如果原子句的结构符合特殊句式“把”字句结构，按照“主体+把+客体+事件谓词”的结构抽取原子事件，将抽取的原子事件表示为“事件谓词(主体,客体)”，如果该原子句中含有多个动词或名词，优先选取权值较高的动词或名词。如本实施例的新闻正文的信息单元融合结果中的原子句“李法俊/PERSON驾车/VV不慎/AD将/BA路边一名5岁的男孩/NN撞倒/VV”符合特殊句式中的“把”字句结构，按照“主体+把+客体+事件谓词”的结构抽取原子事件，将抽取的原子事件表示为“撞倒/VV(李法俊/PERSON,路边一名5岁的男孩/NN)”。

“被”字句抽取规则：如果原子句的结构符合特殊句式“被”字句结构，按照“客体+被+主体+事件谓词”的结构抽取原子事件，将抽取的原子事件表示为“事件谓词(主体,客体)”，如果该原子句中含有多个动词或名词，优先选取权值较高的动词或名词。如本实施例的新闻正文的信息单元融合结果中的原子句“导致/FilterVV右臂/NN被/SB医生/NR截肢/VV”符合特殊句式中的“被”字句结构，按照“客体+被+主体+事件谓词”的结构抽取原子事件，将抽取的原子事件表示为“截肢/VV(医生/NR,右臂/NN)”。

一般句抽取规则：如果原子句的结构不符合特殊句式“把”字句结构和“被”字句结构，则原子句的结构属于一般句式，按照“主体+事件谓词+客体”的结构抽取原子事件，原子事件表示为“事件谓词(主体,客体)”，如果该原子句中含有多个动词或名词，优先选取权值较高的动词或名词。如本实施例的新闻正文的信息单元融合结果中的原子句“经/P山东省沂南县检察院/ORG提起/VV公诉/NN”不符合特殊句式“把”字句结构和“被”字句结构，则该句的结构属于一般句式，按照“主体+事件谓词+客体”的结构抽取原子事件，将抽取的原子事件表示为“提起/VV(山东省沂南县检察院/ORG，公诉/NN)”。

时间空间抽取规则：对每个句子从前向后进行遍历，遇到标签为“T”的词，则将该词作为这个句子中所抽取的原子事件的时间成分；对每个句子从前向后进行遍历，遇到标签为“LOC”的词，则将该词作为这个句子中所抽取的原子事件的空间成分；原子事件添加时间成分和空间成分后表示为“事件谓词(主体,客体,时间成分,空间成分)”，原子事件仅添加时间成分后表示为“事件谓词(主体,客体,时间成分)”，原子事件仅添加空间成分后表示为“事件谓词(主体,客体,空间成分)”。如本实施例的新闻正文的信息单元融合结果中的句子“2012年6月18日/T，李法俊/PERSON驾车/VV不慎/AD将/BA路边一名5岁的男孩/NN撞倒/VV。”，从前向后进行遍历，遇到标签为“T”的词“2012年6月18日”，则将该词作为这个句子中所抽取的原子事件的时间成分，这个句子中所抽取原子事件添加时间成分后表示为“撞倒/VV(李法俊/PERSON，路边一名5岁的男孩/NN,2012年6月18日/T)”。

本实施例的新闻正文的原子事件抽取结果是：

提起/VV(山东省沂南县检察院/ORG,公诉/NN,6月13日/T)

根据/VV(法院/NN,《中华人民共和国刑法》/NN,6月13日/T)

判处/VV(,李法俊***一年/NN,6月13日/T)

受伤/VV(李法俊/NR,,前些年/T)

截肢/VV(医生/NR,右臂/NN)

取得/VV(,驾驶证/NN,2008年/T)

购买/VV(他/PN,一辆“别克”牌小轿车/NN,2008年/T)

撞倒/VV(李法俊/PERSON,路边一名5岁的男孩/NN,2012年6月18日/T)

抢救无效/VV(男孩/NN,,当日/T)

赔偿/VV(李法俊/PERSON,被害人亲属/NN)

后悔/VV(李法俊/PERSON,)

痛失/VV(他人/PN,生命/NN)

造成/VV(被害人的亲人/NN,终生痛苦/NN)

本具体实施方式与现有技术相比具有如下积极效果：

1、原子事件抽取是一种由事件谓词驱动的信息抽取方法，本具体实施方式对选取事件谓词影响较大和在新闻正文中出现频率较高的趋向动词、意向动词、言说动词和致使动词进行过滤，能够更加准确的抽取事件谓词，进而提高事件抽取的准确率。

2、现有深层句法分析技术处理新闻语料，不仅执行效率过慢，且对文本长度限制严格；本具体实施方式利用信息单元融合的方法处理新闻语料，达到了浅层句法分析的效果，这样就能够不依赖于深层句法分析技术；故本具体实施方式不仅执行效率高，而且对文本长度没有严格限制。

3、核心词表中的动词比新闻正文中的其他动词作为原子事件谓词的可能性更大，核心词表中的名词和命名实体比新闻正文中的其他名词作为原子事件论元的可能性更大，本具体实施方式采用核心词表能够更加准确的抽取原子事件谓词和原子事件论元，进而提高事件抽取的准确率，

4、在原子事件抽取时，本具体实施方式先将新闻正文的信息单元融合结果根据标点符号和关联词切分为原子句，然后把原子句的句子结构分为“把”字句结构、“被”字句结构和一般句结构三种，此时再利用原子事件抽取规则库进行原子事件抽取，这种方法能够将新闻正文中全部事件类型的原子事件抽取出来，不受事件类型和领域的限定。

因此，本具体实施方式具有执行效率高和普遍适用性的特点。

Claims

1.一种基于信息单元融合的新闻原子事件抽取方法，其特征在于所述方法的具体步骤是：

步骤一、对新闻语料的新闻正文进行除杂处理：

①、去掉小括号和方括号中的内容，

②、将英文双引号替换为中文双引号，

③、去掉“@”符号，

④、根据新闻正文结尾的记者信息模式和媒体信息模式过滤掉新闻正文结尾与事件抽取无关的信息，

得到除杂处理后的新闻正文；

步骤二、利用Stanford Word Segmenter软件对新闻标题和除杂处理后的新闻正文进行中文分词，得到新闻标题的中文分词结果和新闻正文的中文分词结果；

步骤三、利用Stanford Named Entity Recognizer软件对新闻正文的中文分词结果和新闻标题的中文分词结果进行命名实体识别，得到新闻正文的命名实体识别结果和新闻标题的命名实体识别结果；

步骤四、利用Stanford POS Tagger软件对新闻正文的中文分词结果和新闻标题的中文分词结果进行词性标注，得到新闻正文的词性标注结果和新闻标题的词性标注结果；

步骤五、根据待过滤动词词表对新闻正文的词性标注结果和新闻标题的词性标注结果进行动词过滤，得到动词过滤后的新闻正文的词性标注结果和动词过滤后的新闻标题的词性标注结果；

步骤六、根据初步融合规则库对所述动词过滤后的新闻正文的词性标注结果和所述新闻正文的命名实体识别结果进行初步融合，得到新闻正文的初步融合结果；根据初步融合规则库对所述动词过滤后的新闻标题的词性标注结果和所述新闻标题的命名实体识别结果进行初步融合，得到新闻标题的初步融合结果；

步骤七、根据信息单元融合规则库对新闻正文的初步融合结果和新闻标题的初步融合结果进行信息单元融合，得到新闻正文的信息单元融合结果和新闻标题的信息单元融合结果；

步骤八、根据核心词表和事件抽取规则库对新闻正文的信息单元融合结果进行原子事件抽取，得到新闻正文的原子事件抽取结果；

所述待过滤动词词表是由对选取事件谓词影响较大和在新闻正文中出现频率较高的趋向动词、意向动词、言说动词和致使动词构成的动词词表；

所述初步融合规则库是由命名实体标签的选择规则、书名号所标志成分的识别规则、时间信息单元的识别规则、连续相同标签的合并规则和“PU”标签的省略规则所构成的规则库；

所述信息单元融合规则库是由介词单元融合规则、名词单元融合规则、状语单元融合规则、命名实体单元融合规则和修饰语单元融合规则所构成的规则库；

所述核心词表是通过统计新闻标题的信息单元融合结果所得词表和通过统计新闻正文的信息单元融合结果所得词表的集合；其中：通过统计新闻标题的信息单元融合结果所得词表是通过统计新闻标题的信息单元融合结果中的动词和名词所得词表；通过统计新闻正文的信息单元融合结果所得词表是通过统计新闻正文的信息单元融合结果中的命名实体、被标记为“DEG”标签的“的”字后边的名词、词频大于1次的动词和词频大于1次的名词所得词表；

2.根据权利要求1所述的基于信息单元融合的新闻原子事件抽取方法，其特征在于所述新闻正文结尾的记者信息模式和媒体信息模式是通过对所收集的新闻正文结尾的记者信息和媒体信息进行模式聚类得出的信息模式。